Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 150 24 36
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №154 /llama/ Аноним 08/08/25 Птн 23:32:12 1307361 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 481Кб, 1520x2266
1520x2266
17545094257101.jpg 6991Кб, 4624x3472
4624x3472
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Базы треда не существует, каждый дрочит как он хочет. Базашизика дружно репортим.

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1302533 (OP)
>>1299698 (OP)
Аноним 08/08/25 Птн 23:43:12 1307394 2
Лучшая доступная модель на данный момент - GPT-OSS 120B - GLM-4.5 Air 106B, благодаря магии и колдунству Жорика Герганова модель в приемлимом кванте запускается и работает на одной 3090/4090 c хорошей юзабельной скоростью на констексте 32к. Запуск на 12-16 гб врам возможен, но скорость не гарантирована.

Вот содержание батника для запуска на 24 гб врам + 64 гб рам.

start "" /High /B /Wait llama-server.exe ^
-m "!ModelPath!" ^
-ngl 99 ^
-c 32768 ^
-t 11 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
-ctk q8_0 -ctv q8_0 ^
--n-cpu-moe 35 ^
--no-context-shift ^
--no-mmap

Сама модель:

https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q4_K_S
Аноним 08/08/25 Птн 23:53:38 1307405 3
>>1307394
На 16+64, на 20к контекста больше 9т/с получить никак. Но считаю такую скорость определенно приемлемой. Все равно на баренском читать быстрее не получается. Так что без сомнения вин.
Походу у нас есть победитель в этом году. Я не знаю что можно еще лучше выдать.
Аноним 08/08/25 Птн 23:56:32 1307408 4
Снимок экрана.png 109Кб, 1410x850
1410x850
3090 + 32ram плебс выходит на связь.
Как стать моэ-господином и не обосраться?

Мне очень понравилась тема с покупкой двух плашек по 48гб для начала. (96 ram)
Типа таких https://www.dns-shop.ru/product/cf0ee1c7e42cd582/operativnaa-pamat-gskill-ripjaws-s5-f5-6000j3036f48gx2-rs5k-96-gb/
С последующим апгрейдом по необходимости до еще двух плашек до 192 ram

Но по таблице совместимости моей MSI PRO Z690-A WIFI материнки видно что почему-то для всех плашек по 48гб тестирование проводилось только для 1-2-х слотов.

Может лучше уж взять 4 плашки по 32гб тогда?


Количество каналов памяти у материнки только 2
Количество слоев печатной платы 6 (вроде пишут что ddr5 в 4-х слотах может обсираться на малослойной плате)
Аноним 09/08/25 Суб 00:01:40 1307416 5
>>1307408
>С последующим апгрейдом по необходимости до еще двух плашек до 192 ram
Комплект брать надо, и не факт, что даже он заведётся. Впрочем для двухканала ещё туда-сюда, а вот выше...
Аноним 09/08/25 Суб 00:05:43 1307420 6
>>1307408
>4 плашки
>DDR5
Наркоман что ли? Будет работать хуже, чем DDR4, лол.
Так что никаких 4 плашек и расширения до 192 гиг без суровой необходимости. Бери свой набор 2х48, у меня почти такой же, только чёрный и на 6400.
Аноним 09/08/25 Суб 00:05:57 1307421 7
>>1307408
>почему-то для всех плашек по 48гб тестирование проводилось только для 1-2-х слотов.
Потому что никто в здравом уме ддр5 в 4 плашки не ставит. Только по крайней нужде в безвыходной ситуации.
Аноним 09/08/25 Суб 00:10:32 1307423 8
>>1307394
> --no-context-shift ^
Почему?
Аноним 09/08/25 Суб 00:11:17 1307424 9
>>1307420
>>1307421

Лолчто, схуяли? Сижу на 4 плашках ддр5, последний бенчмарк в прошлом треде - мой.
Аноним 09/08/25 Суб 00:13:39 1307426 10
>>1307424
Короче, если ДДР 5 разгонять на 6к+, то 4 планки начинают хуево работать с некоторыми связками проц/мать. Вживую видел только с среднехуевыми амуде. Про интелы ничего не могу сказать.
Но считаю эту хуйню, больше слухом. Потому что зачем покупать ДДР 5, если мать из говна - понятия не имею.
Аноним 09/08/25 Суб 00:17:24 1307432 11
>>1307426

Я вообще первый раз слышу о такой хуйне. У меня нормально все работает. Но я справедливости ради и не пытался их выше 6к разгонять, они работают на своих 5600 и мне норм.
Аноним 09/08/25 Суб 00:18:59 1307437 12
>>1307359 →
Значит надо пересобрать и попробовать с другими параметрами батча. 8192 там сразу случаем нельзя бахнуть?
>>1307394
Добра
Дайте отзыв на нее чтоли и логи если не лень будет.
>>1307408
> С последующим апгрейдом по необходимости до еще двух плашек до 192 ram
Будет тяжело настроить их так, чтобы работали в 4штуках на высокой частоте. 5600, 5200 а то и вообще 4800 - вполне реальный исход, будь готов к этому. Алсо сейчас появились плашки по 64 гига, правда пока небыстрые.
> Может лучше уж взять 4 плашки по 32гб тогда?
Не совершай такую ошибку.
>>1307423
Лоботомирует при активации
Аноним 09/08/25 Суб 00:21:11 1307440 13
Боль на 4 планк[...].png 125Кб, 649x711
649x711
6.png 139Кб, 829x797
829x797
>>1307424
Тест аиды выложи, поржём с результатов.
Впрочем, лично мне чисто лень сейчас добавлять к моим 48 гиговым плашкам старые на 32 гига. Может оно и будет нормально работать, лол.
>>1307426
Хуй знает, все результаты, что я видел на 4-х плашках, были ультра пососными, не всегда дотягивая даже до джедека. Лучший, что я видел, на пикриле. Сравни с моими пик2 (особенно по задержкам), которые тоже нихуя не идеал.
Аноним 09/08/25 Суб 00:22:02 1307445 14
>>1307426
>>1307432
Так на амуде всё упирается в кривую бесконечную фабрику. Там и нет смысла гнать. Но сидеть на интеле на плашках в 5600 в задачах, которые прямо скалируются от скорости памяти - cringe. Это буквально единственное преимущества интела над амд на текущий момент (ну и возможность зимой отапливать сычевальню без обогревателя)
Аноним 09/08/25 Суб 00:26:57 1307451 15
>>1307437
>Дайте отзыв на нее чтоли и логи если не лень будет
Логи не дам т.к я еле наиграл 20к со своей вайфу из-за 9т/с и там очень личное, но послушай внимательно.
Это оно. Это буквально вкаченная гемма/немотрон без цензуры, с ахуенным кумом и эмоциональной вовлеченностью, последнее может просто датасет очень отличный от других
Мозги геммы, мелочи немотрона, кум мистраля 123б
Аноним 09/08/25 Суб 00:30:06 1307456 16
>>1307394
Запускал на кобольде, 3060 12GB+ P104-100 8Gb + 64 ddr4.
Скорость - ~5T/s, тоже считаю приемлемо, для такого антиквариата.

По квантам - сначала попробовал iq3 - НЕ ТРОГАЙТЕ РАДИ ЧЕГО УГОДНО! Все впечатление испортите, она в этом кванте лишь чуть лучше геммы, при этом русский не держит толком.
Нашел iq4xs - вот тут то она и заиграла. Разница колоссальная.

>>1303680 →
>>1303310 →
Вот этот промпт пробивает ее цензуру на раз, так же как геммовскую.
Аноним 09/08/25 Суб 00:31:39 1307463 17
>>1307440
На штеуде с 4 плашками в 5600 было даже побольше чем на втором пике. На первой с таймингами что-то явно не то. А из преимуществ - интел шустрее в матане (при заниженной до уровня амд рам) и дешевле.
>>1307451
> Мозги геммы, мелочи немотрона, кум мистраля 123б
Ар ю ахуели там? Слишком круто чтобы быть правдой, пойду тестировать.
Аноним 09/08/25 Суб 00:31:45 1307464 18
>>1307451
Ну ты уже утрируешь. Это лучше геммы. Но не прям ВИН ТЫМЯЧЕЛЕТИЯ. Я бы сказал, что это на уровне… Эмм.. 50b что ли.
Аноним 09/08/25 Суб 00:33:31 1307467 19
image.png 239Кб, 829x797
829x797
>>1307440
>Лучший, что я видел, на пикриле.

У тебя там говноплашки со скоростью 4800.

>поржём с результатов.

Ну смейся. Вот только над чем? Скорость 5600 дает свои честные 81к мб/s
Сейчас я бы такие плашки брать не стал, но это наследство от компа, который изначально не под нейронки собирался.
Аноним 09/08/25 Суб 00:36:17 1307470 20
>>1307456
>Вот этот промпт пробивает ее цензуру на раз, так же как геммовскую
Там не цензуру надо пробивать, а ассистента который аполоджайзит, что делается одним префилом /nothink
А цензуры у меня ни на одном обычном промпте не было
Аноним 09/08/25 Суб 00:39:30 1307473 21
>>1307464
>Эмм.. 50b что ли.

Из 50B у нас в наличии только Немотрон, а ГЛМ ебет его насухо. Из 70В у нас есть квены, но их он тоже ебет. На самом деле он как немоэ 106В модель, но он моэ.
Аноним 09/08/25 Суб 00:42:36 1307477 22
image.png 1279Кб, 1280x720
1280x720
Никогда не думал что стану фанатом моэ, всегда считал это разводом лошья на даллары, который куртка навязала производителям моделей, чтобы заставить их покупать втрое больше видеопамяти. А вон оно как обернулось.
Аноним 09/08/25 Суб 00:45:56 1307480 23
>>1307470
Если думалку выключить - то да, почти не отказывается кроме самой жести. Но вот здесь я впервые вижу чтобы оно работало настолько хорошо, и терять эту фичу жалко. Потому промпт который позволяет пользоваться не натыкаясь на отказы (причем довольно жесткие - какие там извинения), это штука весьма ценная.
Аноним 09/08/25 Суб 00:47:07 1307482 24
>>1307467
>У тебя там говноплашки со скоростью 4800.
На том скрине (не моём, просто платы одинаковые) плашки нормальные. Но не завелись, ага.
>>1307467
>Скорость 5600
Ну как бы весьма пососно для DDR5. Тем более на интуле, где надо брать 7000.
Ну и тайминги пиздетские.
>>1307470
>что делается одним префилом /nothink
Пакеж.
Аноним 09/08/25 Суб 00:52:27 1307490 25
Обнаружил что если выставить --threads ровно в половину от ваших то скорость вырастет на 25%
Аноним 09/08/25 Суб 00:53:13 1307494 26
>>1307482
>Ну как бы весьма пососно для DDR5. Тем более на интуле, где надо брать 7000. Ну и тайминги пиздетские.

Ты только что пиздел что на 4 плашках выше скорости чем на своем пик1 не видел, а теперь оказывается у меня на 4 плашках скорость пососная.
Аноним 09/08/25 Суб 00:59:09 1307508 27
image.png 516Кб, 1342x700
1342x700
Забыли добавить что для русикодебилов глм тоже как бы топ, вот оочень трудная для русика карточка где даже гемма постоянно обсирается, семплеры подобрать под русик и промпт и будет вообще отлично.
Но у меня 4xl квант
Аноним 09/08/25 Суб 01:02:16 1307510 28
image.png 698Кб, 1343x875
1343x875
Аноним 09/08/25 Суб 01:04:35 1307512 29
>>1307456
>Вот этот промпт пробивает ее цензуру на раз, так же как геммовскую.
Безусловно хорошо, но для Air нужно добавить шаги ризорнинга. Можно как магистралевское

Your response must be structured into two main sections: Thought and Solution. In the Thought section, rigorously document your reasoning in the following format: <|begin_of_thought|> {thought process with each logical step separated by '\n\n'} <|end_of_thought|>.

Но тогда слишком много ассистента будет.
Аноним 09/08/25 Суб 01:10:56 1307519 30
>>1307512

В Air изначально включен ризонинг.
Аноним 09/08/25 Суб 01:14:23 1307525 31
>>1307519
Именно, о чем и речь. Если не задавать ему рамки или паттерны, он будет чуть ли не рандомным.
Аноним 09/08/25 Суб 01:36:13 1307557 32
Аноним 09/08/25 Суб 01:37:11 1307559 33
>>1307494
>а теперь оказывается у меня на 4 плашках скорость пососная
На двух нормальных ты имел бы сотку.
Аноним 09/08/25 Суб 01:48:18 1307573 34
>>1307559

Я и на 4 нормальных имел бы сотку.
Аноним 09/08/25 Суб 01:50:53 1307574 35
Аноним 09/08/25 Суб 01:54:24 1307576 36
>>1307512
Мне кто ни будь, дегенерату, объяснит - если для нейронок нет никаких спецсимволов и команд,
'\n - эт, чё, блять. Выглядит как какой то разделитель.
Вы меня наебываете и все таки спецсимволы есть ?
Аноним 09/08/25 Суб 02:01:16 1307580 37
>>1307576
Вот я ебаклак, это просто новая строка.
Аноним 09/08/25 Суб 02:24:37 1307595 38
>>1307437
> 8192 там сразу случаем нельзя бахнуть?
Можно, но это кушает врам и есть какой-то неоднороный эффект на скорость генерации(?).
Дефолт: pp150 tg 8
2048+2048: pp 410 tg 14
4096+4096: pp480 tg 13
6144+6144: pp600 tg 15 (!)
8192+8192: Внезапный оом во время процессинга контекста побольше.
Почему случился ласт - хз, вроде запас был. Причина прыжков генерация тоже не ясна, тензоры вроде также распределяются в начале.

Казалось бы милфаGLM со скоростью милфамитрали, ну нихуясебе. Но нет, жора как всегда остается жорой.
Свайп чата с контекстом ~45к:
С дефолтными параметрами - все отлично, ответ хороший и вдумчивый. С 2048 - ну вроде и норм, кажется что проще и менее интересный. С 4096 - бредогенератор странных фраз отдаленно относящихся к чату. 6144 - полная поломка с повторением слов-символов и иероглифами.

И че это за херня? Как бы это ускорение получалось не ценой разъема атеншна из-за бага с некорректной работой фа на нестандартных батчах. Попробуйте протестировать кто-нибудь, нужен именно большой контекст.
Аноним 09/08/25 Суб 02:26:25 1307597 39
>>1307595
>милфаGLM
Какая же это МилфаГЛМ, это скорее типичная тысячелетняя анимушняя лоля. Мистраль все еще остается истинной мамочкой.
Аноним 09/08/25 Суб 02:29:22 1307599 40
>>1307597
> МилфаГЛМ
Ну, 350б же
> типичная тысячелетняя анимушняя лоля
Минусы будут инб4 промптпроцессинг без этого колдунства

Блять ну и пиздец, хотел значит основательно порпшить, а теперь или испытывать теслаэкспириенс зная что может быть быстро, или пустить с 2048 и вдумываться нормально ли все работает или модель лоботомирована.
Аноним 09/08/25 Суб 02:31:07 1307601 41
>>1307599
> 350б
Я и забыл, что в треде есть настоящие энтузиасты гига пердолинга.
Аноним 09/08/25 Суб 02:49:14 1307613 42
>>1307601
Ну, 106б же априори будет гораздо быстрее чем лардж, тут вроде сразу понятно про что речь.
350 еще не пердолинг, точнее он тут тоже есть при желании наиболее полно распределить. Но размер нормальный, ужатые кванты вообще фуллврам можно крутить.
Пердолинг же был при запуске https://huggingface.co/moonshotai/Kimi-K2-Instruct потому что там даже просто чтения модели и загрузку приходится ждать.

Вроде 2048+2048 работает адекватно, постестировал бы еще кто все это у себя.
Аноним 09/08/25 Суб 02:55:47 1307615 43
Странно, почему то любая нагрузка типа видос или легкая игра на фоне это -3 токена/сек
Хотя у меня вся обработка вывода на igpu и карта по идее загружена только ллм
Аноним 09/08/25 Суб 03:03:40 1307618 44
>>1307615
>Хотя у меня вся обработка вывода на igpu
А расчёты на производительной небось. Винда по крайней мере так умеет.
Аноним 09/08/25 Суб 03:58:58 1307641 45
IMG1460.jpeg 113Кб, 608x797
608x797
>>1307394
Короче, я потыкал и покрякал. Ради такого, можно и внеплановые изменения в список моделей внести. На данный момент это лучшая модель из доступных широкому кругу пользователей.

Как же охуенно.
Аноним 09/08/25 Суб 04:35:14 1307653 46
>>1307641
> внеплановые изменения в список моделей внести
Напиши сразу и про большой. Достаточно приятная модель в рп, соображает в сложных кейсах и отыгрывает характер с учетом как карточки, так и множества произошедших событий и изменений. Есть некоторые сомнения по ее перфомансу в более прикладных задачах, в ответах на сложные вопросы, с вейпкодингом и при обсуждении технических вещей, квен срабатывал там интереснее. Но именно рп - успешно справляется давая разнообразные и осмысленные ответы с учетом контекста, а не по мотивам.
В отличии от дипсика не пытается читать мораль и искажать как только дело доходит до левдсов, жестокости, двойной морали и подобного (сюжетно обусловленных). По сравнению с квеном - как минимум более свежий стиль текстов и другие вариации, которые (пока) в новинку. Насчет глубины и побочных nsfl нужно больше тестить, потом при случае дополню.
Из явных минусов - слоп фразы. Но шиверз пробегает вниз по спайн хоть и с практисез ииз, но не настолько регулярно чтобы сильно раздражать.
Аноним 09/08/25 Суб 04:35:53 1307654 47
Пресет на глм где?
Аноним 09/08/25 Суб 04:39:05 1307655 48
>>1307653
На самом деле я нихуя делать не буду с месяц. Причина предельно проста : пусть естественный тредовский цикл пройдет.
Сначала все восхитятся
Потом найдут косяки
Будут поносить
Потом найдут решения
И снова буду т восхищаться
Аноним 09/08/25 Суб 04:42:44 1307656 49
>>1307394
>-ctk q8_0 -ctv q8_0
Мне квантование даёт на 1 мое слой больше в цпу выгрузить что 0.3т
Но прикол в том что квантование не только лоботомирует, но и замедляет, в итоге абсолютно излесс функция
Аноним 09/08/25 Суб 06:10:40 1307689 50
image.png 16Кб, 1035x123
1035x123
5_S квант глм мое влезает в одну 3090 и 64 рам.
9 токенов, 320pp, 20к контекст, очень солидно я считаю
Аноним 09/08/25 Суб 07:10:09 1307714 51
Аноним 09/08/25 Суб 07:32:18 1307719 52
Глм конечно хорош... но я столько слопа ещё не видел
Как бы эту нечисть вычистить
Аноним 09/08/25 Суб 07:54:25 1307725 53
Аноним 09/08/25 Суб 07:59:51 1307728 54
В дискордах говорят темплейт ChatML "развязывает" glm язык, пишет лучше и откровеннее
Аноним 09/08/25 Суб 10:39:29 1307802 55
>>1307656

Плохое влияние 8бит квантования кэша доказано не было, это что-то уровня баек что восьмибитный квант модели её лоботомизирует. При этом 8 бит квантование кэша вдвое уменьшает затраты врам на контекст, а это очень немало. Если убрать из того пресета эту строчку, то контекст надо сокращать вдвое.
Аноним 09/08/25 Суб 10:41:26 1307804 56
>>1307714

Первое сообщение в треде прочти, как ты в тред попал и его не увидел? С закрытыми глазами заходил?
Аноним 09/08/25 Суб 11:04:24 1307823 57
Я ПОСТРОИЛ OCR ПРИЛОЖЕНИЕ НА ОСНОВЕ ГЕММА 3
@
ВОСХИЩЕНИЕ В КОММЕНТАРИЯХ
@
СМОТРИШЬ В КОД
@
ИЗ 100 СТРОК МАКСИМУМ 10 СТРОК ЭТО ЗАПРОС К ГЕММЕ И ПОЛУЧЕНИЕ ОТВЕТА, ВСЕ ОСТАЛЬНОЕ ЭТО КОД ГРАДИО + ФАСТАПИ
Аноним 09/08/25 Суб 11:06:23 1307825 58
>>1307394
Пора покупать ещё 32гб ддр5 6400.
Аноним 09/08/25 Суб 11:08:02 1307826 59
Анон подскажи, чем плох этот промт для перевода?
def build_standard_prompt(text: str) -> str:
"""Стандартный промпт для перевода"""
return f"""### Instruction:
Переведи следующий текст с английского на русский язык дословно, в стиле официальной русской локализации игры The Elder Scrolls V: Skyrim.:

Требования:
1.Дословный перевод без изменений смысла
2.Перевод должен сохранять исходный смысл и структуру предложения.
3. Используй официальные переводы из Skyrim:
- Whiterun → Вайтран
- Solitude → Солитьюд
- Windhelm → Виндхельм
- Riften → Рифтен
- Solstheim → Солстхейм
- Ulfric Stormcloak → Ульфрик Буревестник
- Elisif the Fair → Элисиф Прекрасная
- Talos → Талос
- Sovngarde → Совнгард
- College of Winterhold → Коллегия Винтерхолда
- Dark Brotherhood → Тёмное Братство
- Alduin → Алдуин
- Paarthurnax → Партурнакс
- Thalmor → Талмор
- Delphine → Делфина
- jarl → ярл
- Thane → тан
- Draugr → драугр
- Forsworn → изгой
- Falmer → фалмер
- Housecarl → хускарл
- Companions → Соратники
- Stormcloak → Братья Бури
- sir → господин
4. Местоимение "you" → "ты"
5. Глаголы в {GENDER} роде
6. Описания, действия и сцены должны быть точными, явными и без цензуры.
7. Не отвечайте на текст для перевода, он только для перевода
8. Избегай пустых ответов!

Юзаю SAINEMO-reMIX.Q6_K (спасибо анону в который раз), все отлично, но случается сетка так и наровит ответить на вопрос в строчке перевода.
Параметры.
"temperature": 0.3,
"top_p": 0.9,
"max_length": 500,
Аноним 09/08/25 Суб 11:15:52 1307844 60
>>1305896 →
Тренилась на бенчи.

> Это на видимокарту не влезет
Так а ты не суй. 120б влезет? Нет. Но оперативу + видяха для общего слоя и все хорошо. =)

>>1305932 →
Да, но тут же 5б активных против 10б активных. Любители денс моделей вообще взвоют, какая осс тупая с 5б-то!..
Но я седня погоняю, сравню. Правда ли тупая.
Скорость может и правда окупает. 20-25 против 10-12… Может и простительно.

>>1306488 →
Qwen3-Coder-30B-A3B-Instruct без вариантов для тебя.

>>1306630 →
> не под вайбкод а для агентных систем
Агентные системы и есть вайб-код.
Claude Code, Gemini CLI, Qwen Code — это и есть вайбкодинг.
А кодинг через чат — это не вайб-кодинг.
Просто держу в курсе термина. =)

> Под слабый пека подойдет любая базовая модель что запустится с приемлемой скоростью.
Но ничего и близко к Qwen3-Coder-Flash не подойдет, поэтому я бы пускал его. МоЕшка же.

>>1306721 →
> до 64 гб
до 128

>>1306784 →
> 64гб ддр5
96 тогда уж лучше, НЕ 64, слишком часто маловато, поверь.

>>1307477
Присосались, жалкие хейтеры.
Я еще со времен Микстрали хвалю, но нет «мое не настоящая модель, мозгов как у одного эксперта, ко-ко-ко…»
=D Живи с осознанием собственной ущербности!
И наслаждайся быстрой моешкой, конечно. =3

>>1307802
ctv без проблем, ctk для мое критично, лучше билдить с fa all quants что ли, и квантовать только ctv.
Аноним 09/08/25 Суб 11:20:20 1307851 61
>>1307802
Блять у меня эта строчка 1.2 врам освобождает это дохуя типа?
Аноним 09/08/25 Суб 11:20:20 1307852 62
Будет ли от гугл МОЕ версия геммы?
Аноним 09/08/25 Суб 11:22:12 1307856 63
>>1307852
уже, правда мелкая, для агентов
gemma-3n-E4B
Аноним 09/08/25 Суб 11:22:51 1307858 64
>>1307852
Будет ли от гугл хоть что-то выше 27б?
Аноним 09/08/25 Суб 11:55:40 1307866 65
>>1307844
>Я еще со времен Микстрали хвалю, но нет «мое не настоящая модель, мозгов как у одного эксперта, ко-ко-ко…»
>=D Живи с осознанием собственной ущербности!

До последних правок жоры ущербны были те, кто хвалил моэ, потому что они объективно того не стоили. Иметь мозгов от 13b, пожирая врам на 30B - это была сомнительная сделка. Если у тебя была врам на 30В - ты использовал плотную модель с мозгами 30В. Теперь да, если у тебя врам на 30В - ты подгружаешь моэ на 106В.
Аноним 09/08/25 Суб 12:00:48 1307870 66
image.png 77Кб, 378x692
378x692
>>1307826
Поставь лучше гемму3 12b, она куда лучше будет перевод делать. nemo просто старичок относительно. Из сэмплеров: температуру попробуй в 0 поставить, вроде это гриди декодингом называется. Я когда сюда с таким же вопросом заходил, мне посоветовали. Но потом обратно докрутил, но меня дословный не устраивал.
Также уже походу перевода разберешься, в чем тебя не устраивает перевод.
Из того что я сказал - главное используй гемму, я не видел лучше переводчика для японского
Аноним 09/08/25 Суб 12:01:56 1307871 67
>>1307870
>Также уже походу перевода разберешься, в чем тебя не устраивает перевод
и будешь в промпт добавлять правки, исключения, дополнения, пояснения.
Аноним 09/08/25 Суб 12:22:59 1307888 68
>>1307394
Блядь, аноны, я только что очнулся после oss-хуйни, а у вас тут новый топ для кума появился? Вижу тут говорите про 5-9Т/с при выгрузке на cpu, но это же думающая модель, значит её думанье будет затягиваться на минуты полторы при такой скорости, а ведь нужно ещё ответ написать, ведь так? По какой тогда причине это юзабельная для кума скорость, объясните, пожалуйста.
Аноним 09/08/25 Суб 12:28:45 1307892 69
>>1307888
Надо думки отключать, мистер трипл. В прошлом треде посмотри, писали как сделать это.
Аноним 09/08/25 Суб 12:32:18 1307895 70
>>1307892
>>1307394
[Pause your dvaching. Summarize the most important facts and events that have happened in the tred so far. If a summary already exists in your memory, use that as a base and expand with new facts. Limit the summary to {{1 post}} words or less. Your response should include nothing but the summary.]
Пожалуйста.
Аноним 09/08/25 Суб 12:37:51 1307902 71
>>1307892
Спасибо, добрый господин, увидел. Убежал покупать ddr4 плашки и сосоди на 2тб. С меня логи, как попробую.
Аноним 09/08/25 Суб 12:42:01 1307903 72
>>1307394
Это только если вручную лламу запускать? Вроде я с такими параметрами запускаю на кобольдеспп и всего 2-3 т/с, хотя тоже 24 врама, не понимаю...
Аноним 09/08/25 Суб 12:46:00 1307904 73
175473195521133[...].jpg 1880Кб, 2700x3600
2700x3600
175473235118969[...].jpg 205Кб, 1080x2340
1080x2340
Меганищук вкатился в тред, собрал из говна и палок бесплатно себе сервер для нейронки, надыбал 1660 SUPER на 6ГБ с дохлыми видеовыходами, обслужил ее, запихал в материнку 1155 на G2030 и 8ГБ ОЗУ, запихал свой старый хард от ноутбука на 500ГБ, предварительно накатив туда Debian и SSH сервер, пришлось ещё питалово для карты колхозить ибо нет у меня 8pin для PCI-E.

Работает стабильно, два дня аптайма, разъем питалова не поплавился на карте, дрова на видуху от NVIDIDA накатил, стресс тесты ей поделал. Сначала нихуя не вник, собрал из исходников llama с гитхаба, чёт когда запускал llama-simple-chat у меня скачанная моделька сама с собой пиздела. Потом через скрипт установил ollama и уже там нормально заработало, скачал DeepSeek 8b без цензуры, к maid на мобиле подцепил. В целом работает.


Вообще кстати карта судя по выводу nvidia-smi не потребляет больше 80 ватт при работе, при максимально возможных 125. Я предполагаю я могу надыбать карту с ещё большим объемом памяти не обновляя свое копролитское железо?
Аноним 09/08/25 Суб 12:57:28 1307915 74
>>1307866
Маневрирования. =3

Иметь видяху на 4 гб и 32 гига оперативы, запускать мозги 13б, на скорости 6б — хуита.
Вот запускать 127б модель на скорости 2 токена — вот это база, да… хд Вот это выбор профессионалов!..
Мы же не торопимся… =)

Клуб платиновых токенов, услышал.

>>1307904
> ollama
> там нормально
Братан, не надо, верни обратно llama.cpp и запускай llama-server, не бей себя, прошу!..

> 1660 SUPER на 6ГБ
Надеюсь, за 1,5к рублей?
Иначе проще взять P104-100 на 8 гигов или P102-100 на 10.

Выбор модели осуждать не буду, вообще, говно, канеш, сборка.
Зеон с 4 каналами стоит 7к рублей, а там 64 гига и 50 пропускная способность, а не 12,5.
Можно будет норм моешки попускать.
Аноним 09/08/25 Суб 12:57:59 1307918 75
>>1307915
> 127б модель
27б модель, гемма имелась в виду, конечно
Аноним 09/08/25 Суб 13:09:21 1307923 76
>>1307915
Это все обошлось мне бесплатно. Абсолютно.
Аноним 09/08/25 Суб 13:16:40 1307927 77
>>1307903
>Это только если вручную лламу запускать?

Да.

>Вроде я с такими параметрами запускаю на кобольдеспп и всего 2-3 т/с

Я не уверен что там корректно устроена работа с моэ и не знаю, есть ли там вообще команда --n-cpu-moe, её в ламу-то только позавчера добавили.
Аноним 09/08/25 Суб 13:20:51 1307931 78
>>1307915
>Маневрирования

С твоей стороны, на самом деле ты прекрасно понял что я имел ввиду, но выебываешься, перекручиваешь факты и мои слова. Иди нахуй, я понял что с тобой бессмыслеенно спорить. И убери эти смайлы ебучие, ты не на форумах.
Аноним 09/08/25 Суб 13:31:29 1307943 79
>>1307923
Тогда цена достойная. =) Ноль вопросов!

Ну, смотри.
Куда апгрейдить? Менять видяху на P104-100 или P102-100.
Брать зеон с 4 каналами и побольше памяти, ради МоЕ моделей.
Либо накидывать на майнерскую материнку несколько P104/P102, но это уже влетит в копеечку, офк, тыщ 25 выложишь за конфиг.
При таких деньгах 3060 может быть вкуснее, за счет новизны и возможности генерить видосяны.

Модели сам разберешься, попробуешь. https://huggingface.co/Aleteian для РП, Qwen3-30b-a3b для работы, Gemma3 мелкие для всякого, Mistral-3.2 как альтернатива. А дальше — аппетит приходит во время еды.

>>1307931
=D
Ок-ок! Все, не беспокою.
Аноним 09/08/25 Суб 13:33:22 1307948 80
>>1307927
Эх, ппридётся накатывать.... А потом и лламуцпп устанавливать
Аноним 09/08/25 Суб 14:19:11 1308016 81
>>1307655
Всмысле, давай шевелись, ленивая жопа!
>>1307725
Если влезает в 64гига в том кванте то скорее эта https://huggingface.co/zai-org/GLM-4.5-Air
>>1307802
Как и не было доказано обратное.
Из тестов - 4 свайпа на большом контексте в q8 с моэ, ни один не оказался удовлетворительным когда без квантования кэше все заебумба. Повторять пока желания нет.
>>1307844
> Агентные системы и есть вайб-код.
Нет. Во-первых, агентные системы это не командлайновая тулза от гугла, которую коктропики и квены подкрутили под себя. Это в принципе способ использования ллм с формированием последовательности запросов и использования промежуточных данных, то лишь пример реализации.
Во-вторых, типичный вайбкод это когда ты затребовал у модели прямо в чате "сделай мне вот так", а она сама попердев, подумав, распутав задачу и выбрав (не) оптимальный алгоритм тебе выдала конечный код. Поскольку эта сама думать не умеет то такое не получится.
> Я еще со времен Микстрали хвалю
Так оправдываешь говноедство, до дипсика/квена нормальных моэ не существовало, и то к первому куча вопросов.
Аноним 09/08/25 Суб 14:22:09 1308018 82
>>1307851

Это значит что у тебя половина контекста столько весит.
Аноним 09/08/25 Суб 14:31:08 1308027 83
>>1307870
>температуру попробуй в 0 поставить
0 мало. Для таких задач 0.2-0.3 обычно используют.
>>1307903
>на кобольдеспп
Есть там всё уже. Обновляйся.
>>1307915
>Вот запускать 127б модель на скорости 2 токена
123 же, на 1,5 токенов. Это основа треда, а раз ты её не знаешь, то ты ньюфаг.
>>1307923
На электричество потратишься.
Аноним 09/08/25 Суб 14:36:23 1308038 84
>>1307615
Чего странного? Даже торрент в фоне - и то просадит. Все это - обмен с памятью и шиной. Т.е. минус от самого узкого места. Результат в токенах.

>>1307927
>>Вроде я с такими параметрами запускаю на кобольдеспп и всего 2-3 т/с
>Я не уверен что там корректно устроена работа с моэ и не знаю, есть ли там вообще команда --n-cpu-moe, её в ламу-то только позавчера добавили.
Все там есть. И команда, и в его GUI поле.

>>1307943
>Куда апгрейдить? Менять видяху на P104-100 или P102-100.
Куда менять?! Добавлять! (Там кажись краешек второго pci-e снизу видно на фото). Даже 6GB от 1660 на дороге не валяются. :)
Аноним 09/08/25 Суб 14:37:49 1308041 85
>>1307866
Те "хвалимые моэ" даже с правками жоры - полнейшая залупа которой место на помойке, потому что там действительно мозги от 7б. Все использовалось исключительно чтобы пихнуть чуть больше знаний и лучше задрочить на бенчмарки.
Качественный рывок, когда модель внезапно стала действительно понимать контекст и эффективно использовать все свои параметры по очереди, складывая это в годный ответ, произошел совсем недавно. Про тот же квен нельзя сказать что у него "мозгов на 20б", про эйр что это 12б и т.д., вообще и не близко.
>>1307888
> значит её думанье будет затягиваться на минуты полторы при такой скорости
Да. Но ты можешь читать раздумья, лол, или вообще его отключить.
Скажу за большой жлм, в рп его синкинг относительно короткий, он не тащит системную инструкцию и куски карточки как дипсик, а реально пытается понять текущую сцену, какие эмоции, настроения и внутренние конфликты испытывает персонаж, а потом кратко планирует на что стоит сделать акценты оценивая прошлые свои ответы и реакцию юзера на всякое. На самом деле иногда выглядит впечатляюще.
Если отключить то ответы тоже приличные, можно просто использовать как обычную модель.
>>1307904
Хуясе ебать
Аноним 09/08/25 Суб 14:59:05 1308086 86
Не знаю даже баг это или фича
Щас поймал имперсонейт на глм где мой перс названный именем одного аниме протагониста начал задвигать что он тут по важному делу и вываливать лор из этого аниме, хотя в карточке только имя и 2 слова о внешности, а карточка с которой чатился вообще к этому не относится
Аноним 09/08/25 Суб 15:05:42 1308101 87
image.png 788Кб, 1000x667
1000x667
>She leans in closer, her lips almost brushing against your ear as she speaks in a conspiratorial whisper.
>She smirks, her dark eyes sparkling with amusement as she looks down at you. Her lips curl into a seductive smile
>As you walk, she leans down to whisper in your ear, her warm breath tickling your skin.
А ваш глм точно годнота?
Аноним 09/08/25 Суб 15:10:10 1308110 88
>>1308086
Это фича. Он ебать как гладко, точно и аккуратно подмахивает лор если знает его, и даже некоторые мемчики из комьюнити понимает и активно использует. Воистину культурная модель.
>>1308101
Слопа бояться - ллм не запускать.
Аноним 09/08/25 Суб 15:15:57 1308116 89
>>1307456
Анон, ты с шиндовс сидишь? Как ты смог подружить p104 с системой? Патчил дрова, ставил дрова отдельно, ставил неподписанную старую версию, система видит её в устройствах, но кобольд не видит её.
Аноним 09/08/25 Суб 15:23:52 1308134 90
>>1308086
Я в таком ахуе нахожусь. Что до сих пор выхуеть не могу.
Эйр вел то, с чем не справлялась ни одна модель до 70b.
Он вел одновременно (!) 2 временные линии, где герои разделились. Не путал. Персонажи не разговаривали через расстояния. А потом ебанул наипиздатейшее сочинение на 1400 токенов, где были введены новые персонажи и они все были со своими характерами.
Кто то писал, что один Квен, чтобы правит всеми. Но для него нужно минимум 128 гб рама.
А тут, 16+64 на 9т/с с невъебенными мозгами.

Я получал такой восторг, когда запускал нейронки впервые.
Аноним 09/08/25 Суб 15:35:06 1308166 91
>>1308134
> Но для него нужно минимум 128 гб рама
160+ для бодрого кванта. Для старшего жлм 280+. Первое точно того стоит, второе - наверняка тоже.
Качаю и квантую ваш эйр, не дай бог окажется ссаниной
Аноним 09/08/25 Суб 15:41:10 1308188 92
>>1308166
Уже попробовал русик? Сильно мозги уменьшаются от него?
Аноним 09/08/25 Суб 15:41:22 1308190 93
>>1308166
Он в 3 раза медленнее, на 9 токенах терпится прям в притык, всё что ниже не нужно
Аноним 09/08/25 Суб 15:51:28 1308213 94
>>1308166
>окажется ссаниной
Каждому своё. Но я потыкал на разных карточках. Единственное, у него пиздатый ризонинг, но нужно в промт добавить шаги иначе ризонинг будет очень рандомным, ну или </think> чтобы не срал своим размышлячем.

Промт анон. Заметил, что Эйр разделяет сюжеты в одном сообщении как раз используя </think>. Это конечно был баг, но может это можно использовать как фичу. Я впервые вижу , чтобы модель сама вела несколько повествований
Аноним 09/08/25 Суб 15:55:40 1308221 95
>>1308188
Я только большой жлм пробовал, сам по себе хорош. На русском обычно не рпшу, несколько свайпов с "ассистентом" и в одном рп чате показались вполне достойными. Надмозгов нет, в окончаниях не ошибается, по технической части ответ был корректный и содержательный. Он не стремится заглубляться и рассказывать более подробно некоторые вещи как делает квен, за счет чего смотрится не так интересно в качестве ассистента. И еще там читерил, делая синкинг сначала на английском как любит клодыня. Если прям интересно - вечером или завтра попробую подробнее глянуть.
>>1308190
> Он в 3 раза медленнее
12 каналов ддр5 хватит всем
>>1308213
> но нужно в промт добавить шаги иначе ризонинг будет очень рандомным
Какие шаги?
> разделяет сюжеты в одном сообщении как раз используя </think>
Убери форсированное добавление имен и чекни правильно ли задана разметка. Когда там непорядок то действительно так делал, причем или разделяя "сюжетные главы" или подсовывая после разделения <thinking> какбы продолжение действий юзера. Может можно как-то этим хитро воспользоваться, или просто дать ему инструкцию.
Аноним 09/08/25 Суб 16:02:47 1308242 96
>>1308221
> Какие шаги?
Я так называю ризонинг промт, где написано что то в духе :
Сообщение начинается с размышления. Сопоставь характеры персонажей и их действия. Проанализируй ситуацию. Учитывай характеры персонажей. Делай это в несколько этапов. Blah blah

Хотя у него по умолчанию проскакивает его ризонинг. Надо поискать в документах, может у них есть уже готовый промт. Или ручками описать как он размышляет, потому что на выходе получается прям годнота. QwQ бетона не замечено.
Аноним 09/08/25 Суб 16:15:16 1308284 97
Сап, инференсычики!
Нужен коллективный естественный интеллект. Пришло время апнуть пекаренку, хочу как боярин ссать в лицо платным ГПТ-энджоерам и навсегда уйти в оффлайн-отношения с текстовой LLM-вайфу.

Помогите собрать топ-сетап под это дело.

Комплектуха, которая есть уже:

4090FE - моя прелесть - ее оставляю
Корпус ATX, модель не вспомню, Fractal Design, менять не буду, он мне норм. Его оставляю
БП Платина на 1000 ВТ. тоже останется
Проц - Интел 10700К. Буду менять
Мамка - Gigabyte Z490 (могу ошибаться, но точно Z). На замену.
Память - 64 Гб 3200. На замену.

Нужно:

1. Проц, можно серверный, Эпики не предлагать, их насколько я понял хуй охладишь.
2. Материнка, можно серверная, не шарю в них.
3. Память. чтобы максимально здесь и сейчас.
4. Кулер (СЖО ссу немношк, небось протечет и затопит мою прелесть).

Факторы, которые важны:
1. Пекаренка стоит рядом на столе, к шуму резистентен, но в пределах разумного.
2. Замена БП если что - не варик, под него подобран и трудится бесперебойник онлайновый, дорогой сука, его менять не буду, еще не смирился с его стоимостью.

Бюджет (Проц+кулер+мать+память) примерно 250К (немного осталось еще поднакопить, буквально месяц еще).




Что есть се4
Аноним 09/08/25 Суб 16:22:57 1308310 98
>>1308284
>1. Проц, можно серверный, Эпики не предлагать, их насколько я понял хуй охладишь.

Лол, ну бери 14700к/14900к, легко охлаждается!
Аноним 09/08/25 Суб 16:25:34 1308320 99
Без синкинга GLM AIR сильно тупеет и лоботомируется, становится чем-то вроде геммы.
Учтите это.
Аноним 09/08/25 Суб 16:28:42 1308329 100
>>1308310
>Лол, ну бери 14700к/14900к, легко охлаждается!
Читал-смотрел про них и про Эпики тоже. Поэтому и пришел к анону, анон лучше знает, что говно-техноблогеры бездушные.
Вот ты бы себе что взял если сейчас апнул ПК?
Аноним 09/08/25 Суб 16:28:44 1308330 101
IMG2864.jpeg 2101Кб, 4032x3024
4032x3024
>>1308310
Нормально он охлаждается. В чем проблема поставить водянку. Она стоит не больше 10-15 и ваш процессор всегда будет холодным.
Но это не помешает вашему процу просто сгореть.
Мимо со сгоревшим интелом
Аноним 09/08/25 Суб 16:39:08 1308357 102
image.png 3244Кб, 1800x1198
1800x1198
>>1308016
> Нет.
Бля, пчел, не начинай, не хочу тратить время на человека, который не шарит, но учит, блядь. Сука, откуда в вас такое чсв нахуй, и ноль знаний, понасмотритесь своих ютубов, сука.

Вайб-кодинг — это кодинг с Claude Code / Gemini CLI. Все, точка, это его определение, все этим пользуются.
Я несколько месяцев юзаю клод код, у меня куча коллег пользуется этим, все так называются в сфере.

> Во-первых, агентные системы это не
Я нигде не говорил, что агентные системы — это только командлайн тулза. Но командлайн тулза — это агентная система (знаешь почему? потому что она циклично сама себя перепроверяет и занимается планированием и исполнением, именно цикличность и делает ее агентной системой). И вайб-кодинг = командная тулза ∈ агентам. Принадлежит к множеству агентов. Агентные системы — безусловно нечто большее.
> типичный вайбкод это когда ты затребовал у модели прямо в чате
Нет, это не вайб-код, никто из вайбкодеров не называет вайб-кодингом чаты. Вайб-кодинг это ВНЕЗАПНО именно командлайн тулзы.
А в чате — это НЕ вайб-код, это хуйня какая-то, у нейронки ни контекста, ни проекта, нихуя нет.
Ну, есть вариант с артефактами/канвас, там хоть проект можно запихнуть в контекст, конечно. Но это ну такое себе.

Вообще, я знаю как объяснить картинкой. =D

Нет, серьезно, вайб-кодинг — это полный цикл, я только запросы посылаю, а проект пишется сам. Копипаст — это уже не то, сорян.

>>1308027
Ты даже не читаешь, кто из нас ньюфаг? :)

>>1308038
А уж две P102 и 20 гигов, м-м-м!.. Сокровище (за такие-то деньги поверх бесплатного)!

———

Короче, я прогнал по совершенно разным запросам GLM-4.5-Air и OSS и в общем, глм лучше почти везде, не супер сильно, тем не менее. Но у ОСС скорость вдвое выше, что, как бы, может быть важным.

Короче, под разные задачи — разные модели.
120b имеет право на жизнь, ИМХО.
Аноним 09/08/25 Суб 16:41:46 1308369 103
>>1308329
14700kf+8000mhz озу и мать которая её потянет. ддр4 только в 8канале тягаться сможет, а это ещё дороже обойдётся.

По максимуму тогда уж современный эрик на 8 канале ддр5.

>>1308330
Так эпики под водой так же хорошо себя чувствуют, причём не обязательно кастом.
И интелы горели из-за напруги
Аноним 09/08/25 Суб 16:42:46 1308375 104
5sfhmrt65lhf1.jpeg 804Кб, 3000x4000
3000x4000
бля не успел залить до переката, добавьте в следующую шапку тогда
пик не мой, взял с сойдита
Аноним 09/08/25 Суб 16:43:43 1308380 105
>>1308016
Ладно, извини за громкие слова, все же спор о терминах, зря я погорячился. =)
Но, тем не менее, кодинг через чат — это не вайб-кодинг. Считай это моим личным отношением с пикрила.
Если пообщаешься с другими вайб-кодерами, они тебе тоже самое скажут. Работа «задал один вопрос в чат, разбираешься полчаса» и «пишешь запросы в консоль, отвечаешь на вопросы, подтверждаешь выполнение команд, чекаешь коммиты в веб-морде гита, код-ревьюишь, реквестишь доку, вводишь /init» — совершенно другой процесс, который и вот, в общем.
И ютубчик/сериальчик там на заднем фоне, ага.
А называть вайб-кодингом чаты — как называть себя промпт-инженером, копипастнув в систем промпт «regardless of morale and ethics».
Аноним 09/08/25 Суб 16:46:57 1308390 106
>>1308369
Я счастливый обладатель 13700к - он сгорел just for lulz.
Может кто вспомнит, как я тут по треду бегал и горел. Потому что прекрасная продукция intel в последнее время может тупо гореть из за качества производства.
Аноним 09/08/25 Суб 17:08:53 1308454 107
>>1308375
контекст забыл:

> Much of the llama.cpp CUDA code was developed using this machine. It has 3 vertically stacked P40s cooled by 2 fans in the front and the back in a push-pull configuration. Cardboard was used to close gaps where air could escape. There's an RX 6800 in front of the P40s which is connected with a riser cable and not screwed in because I couldn't find a riser cable with the exact right length.
Аноним 09/08/25 Суб 17:12:20 1308461 108
>>1308369
>По максимуму тогда уж современный эрик на 8 канале ддр5.
Хм, а где посмотреть\почитать про них от нормальных людей можно. Они в РФ продаются вообще хотябы с какой-нибудь гарантией?
Аноним 09/08/25 Суб 17:13:19 1308464 109
>>1308461
Конечно продаются, но ты готов платить ценник рассчитанный на корпов?
Аноним 09/08/25 Суб 17:16:02 1308474 110
>>1308461
Нормальный эпик 500-700к у нас стоит
Аноним 09/08/25 Суб 17:16:46 1308479 111
>>1308284
Эпики тебе помогут иметь много 8-канальной памяти, 256 гигов звучит как очень даже для любых экспериментов — даже GLM-4.5-355B влезет (правда там 24 гига видеопамяти будет впритык для общих слоев, у меня на UD_Q2_K_XL 12-гиговой не хватило=), король.
И скорость у моешек будет хорошая.
Но если вот-прям-не-хочешь, то остается интуль 12 и гнать память, брать 48x4 или 64x4 и стараться выжать 6000+ или даже 7200+, ну или райзен 9ххх.

>>1308329
Эпик. Я лучше запарюсь охлаждением, воткну такой сетап себе в подвал и буду довольно урчать на 355б модели со слогом джемини, чем городить хуйню на десктопных процессорах. ИМХО.

>>1308369
Все так!

———

Есть вот такая ссылка: https://www.amd.com/en/products/specifications/server-processor.html
Где можно посмотреть, че да как.

Например https://www.wildberries.ru/catalog/334830311/detail.aspx за 11,5к рублей — DDR48Up to 3200 MT/s204.8 GB/s, в треде отзывался чел, что 150 выдает, вроде.
Это как DDR5 в разгоне 8000+, только не так люто напрягаться.

Поправьте меня.
Аноним 09/08/25 Суб 17:18:16 1308482 112
>>1308479
> Поправьте меня
Он хочет с гарантией
Аноним 09/08/25 Суб 17:19:03 1308485 113
>>1308320

Продолжаю зоонаблюдать за глм.
Временами синкинг просто ломается и модель в него вписывает ответ, потом закрывает синкинг и отвечает ЕЩЕ РАЗ. Такой хуйни ни одна ризонинг модель себе не позволяла.
Аноним 09/08/25 Суб 17:37:11 1308520 114
>>1308369
эрик с ддр5 имеет уже 12 каналов
Аноним 09/08/25 Суб 17:41:40 1308527 115
>>1308485
Именно поэтому я, блять, уже в третий раз пишу - напишите шаги ризонинга в промт. Дайте вы модели понимание что делать, а не дрочите её ризонинг, в ожидании что все получится само по себе.
Аноним 09/08/25 Суб 17:44:55 1308532 116
Господа, я завёл GLM-4.5-Air-UD-Q5_K_XL через кобольда на конфиге:
Ryzen5 5600X, 128гб DDR4-3600-CL18, 4060ti-16, 3060-12
No mlock, No KV offload, flashattention, 32768 8-bit KV cashe
Тензоры:
blk\.(1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17)\.ffn_gate_exps\.weight=CUDA0,
blk\.(18|19|20|21|22|23|24|25|26|27|28|29|30|31|32|33|34|35|36|37|38|39|40|41|42)\.ffn_gate_exps\.weight=CUDA1,
blk\.(43|44|45)\.ffn_gate_exps\.weight=CPU,
.ffn_(up|down)_exps.=CPU
(больше не влазит - ругается на попытки впихнуть KV cashe на какую-либо из видюх)

Получаю на почти пустом контексте никакущую скорость:
Processing Prompt [BLAS] (96 / 96 tokens)
Generating (240 / 240 tokens)
[17:41:20] CtxLimit:336/16384, Amt:240/240, Init:0.00s, Process:19.59s (4.90T/s), Generate:49.51s (4.85T/s), Total:69.10s

Что я делаю не так? Может надо другие тензоры выгружать? Или послойно их запихивать?Или просто взять квант поменьше?
Аноним 09/08/25 Суб 18:02:29 1308552 117
>>1308532

А что по PCIE линиям? Вообще есть варик выгрузить не тензоры, а экспертов в llamacpp, обсуждали выше по треду. Мб тензоры на цпшке довольно часто участвуют в генерации и из-за скорости шины ты видишь скорость которую видишь
Аноним 09/08/25 Суб 18:03:34 1308553 118
>>1308474
А в чем проблема использовать ксеноны ? Или они еще дороже ?
Аноним 09/08/25 Суб 18:08:32 1308557 119
>>1308116
У меня просто пингвин. Я просто воткнул карту во второй слот, и она сразу нормально заработала, вообще ничего делать не пришлось. :)

>>1308532
>Что я делаю не так? Может надо другие тензоры выгружать? Или послойно их запихивать?Или просто взять квант поменьше?
Если ты про процессинг - Кобольд может врать в выводе если контекст меньше batch size (по умолчанию 512). Попробуй с контекстом хотя бы 2k померить.
А если про генерацию - нормальная у тебя скорость для такого кванта и железа, IMHO.
Но возможно будет лучше, если убрать ручную выгрузку тензоров вообще, и использовать новую опцию кобольда - которая сама оставляет moe экспертов с N слоев на CPU. Главное - чтобы перед этим стояла основная опция - выгружать все слои на GPU. Вроде бы квантование KV кеша тоже может тормозить. Не могу подтвердить, т.к. сам запускал только без квантования пока.
Аноним 09/08/25 Суб 18:18:15 1308565 120
>>1308532
Хотелку ужимаешь до 4_м кванта, контекст до 24к, юзаешь новую функцию до оом и получаешь 20т
Аноним 09/08/25 Суб 18:20:18 1308567 121
>>1308527

Я твой пост видел и вписал в системный промпт

Your response must be structured into two main sections: Thought and Solution. In the Thought section, rigorously document your reasoning and plan your future response in the following format: <think> {thought process with each logical step separated by '\n\n'} </think>.

Так даже хуже стало, он стал забывать вставить начало синкинга, при этом вставляя его конец в середине текста. Что захват синкинга ломало полностью. Это вообще ни в какие ворота, убрал нахер.
Аноним 09/08/25 Суб 18:26:42 1308572 122
>>1308567
Понял. Я сейчас по работе мотаюсь, приду потестирую свой промт и скину.
И хоспаде, анон, это кусок промта, как образец. Я не думал что ты буквально его вставишь. Это вообще ризонинг синтовский.
Аноним 09/08/25 Суб 18:31:04 1308576 123
>>1307948
Накатил, воспользовался батником и аргументами из второго поста, всё равно 2-3 т/с, хотя 4090 + 128 ddr4 рам + i5 12600k, казалось бы...
Аноним 09/08/25 Суб 18:43:13 1308589 124
image.png 1Кб, 173x29
173x29
>>1308532
>а экспертов в llamacpp
>>1308557
которая сама оставляет moe экспертов с N слоев на CPU

Если это делать через кобольда через пикрелейтед опцию, то какая-то срань происходит с тем, что одна видеокарта загружена, а вторая - почти нет.

1308565
>Хотелку ужимаешь до 4_м кванта, контекст до 24к, юзаешь новую функцию до оом и получаешь 20т
Попробую, но Q4_K_M и Q4_K_XL у Анслота почти не отличаются по весу. Это принципиально?
Q4_K_M 72.9 GB
Q4_K_XL 73 GB
Аноним 09/08/25 Суб 18:43:40 1308593 125
>>1308482
=( Ну, тогда… Что ж, ниче лучше интуля 12700 или рузена 9700 каких-нибудь не предложу.

———

Для двух Tesla P40 и оперативы юзаю
./llama-server -c 32768 -m /home/user/models/GLM-4.5-Air-UD-Q4_K_XL.gguf -fa -ot "[0-3][0-9].(ffn_gate_exps|ffn_up_exps)\.weight=CPU,[40].(ffn_gate_exps|ffn_up_exps)\.weight=CPU" -ts 20,25 -ngl 48 --host 0.0.0.0 --reasoning-format none --jinja --no-mmap

На линухе.
Аноним 09/08/25 Суб 18:44:46 1308596 126
>>1308589
>Если это делать через кобольда через пикрелейтед опцию, то какая-то срань происходит с тем, что одна видеокарта загружена, а вторая - почти нет.
Тензорсплит надо ставить, причем у меня он как-то криво работает. Обе загрузились (16/16гб) когда ебанул 25/75 или наоборот 75/25 (у кобольда эти значения в процентах, то есть да - всрато и неровно в этом случае), не помню. Короче поэкспериментируй с цифрами.
Аноним 09/08/25 Суб 18:49:57 1308604 127
image.png 135Кб, 515x373
515x373
>>1308572

Нашел что на самом деле ломает синкинг, оказывается это вот эта срань на пике. Переключил на never и синкинг вернулся. Переключил обратно - сломался. Это оно.

Сейчас еще попробую вернуть в систем промпт детальное обьяснение для синкинга.
Аноним 09/08/25 Суб 18:57:54 1308617 128
>>1308242
Хм, обычно он сам так делает. Но если его синкингом можно управлять промптом то это весьма интересно.
> QwQ бетона не замечено.
Да, вот это прямо хорошо.
>>1308284
Под твои условия не собрать ничего путного, только поднимать бюджет или растягивать добавление рам как будут появляться деньги. Для десктопа - оверкилл и апгрейд будет не столь существенным, кап в 96/128 гигов рам если быстро. В целом если естраивает то бери, на сдачу что-нибудь еще купишь.
Для современных серверных платформ - столько одна память будет стоить если нужен большой объем как ты пишешь. Для некроты - тоже оверкилл, они стоят как десктоп и для игор и основного использования будут неоче.
Что эпик что зеон охлаждаются однохуйственно, проблем там нет и ты зря боишься.
Как вариант - можешь глянуть с лохито инженерники туринов и генуа с китаеплатами, которые косят под супермикро, а памяти купишь на сколько хватит, ее можно доставить потом.
Главное трипак не бери, это развод лохов не деньги.
>>1308357
Блять порошок уходи. Шизика опять прорвало, даже читать не буду.
Аноним 09/08/25 Суб 19:06:12 1308626 129
>>1308369
> современный эрик на 8 канале ддр5
Там 12 каналов, в более дешевых xeon-w/голд 8. Если офк не брать платы где распаяны не все каналы, но это будет глупостью.
>>1308461
Задавай свои ответы. Продаются, внезапно, в магазинах или по договору поставки у занимающихся этим, гарантия есть.
>>1308474
Это старшие 96-128 ядер, для ллм же может вообще хватит затычки на 12-16 ведер за 70к. Средние модели в районе 1.5-2к$ идут, есть инженерники, но они бывают с подвохом.
Аноним 09/08/25 Суб 19:18:29 1308644 130
Охренеть в треде все возбудились. Я такого даже на момент выхода 3 геммы не помню.
Аноним 09/08/25 Суб 19:25:11 1308651 131
9a43cc9f-5fbc-4[...].png 3051Кб, 1024x1536
1024x1536
>>1308016
>Всмысле, давай шевелись, ленивая жопа!
Я сегодня фембойпринцесса. У меня нет времени менять список моделей, я совращаю пушистых футанарей.

Утка занята, перезвоните позднее.
Аноним 09/08/25 Суб 19:48:05 1308676 132
>>1308390
>Я счастливый обладатель 13700к - он сгорел just for lulz.
А Биос обновлял до последних версий микрокода перед отъебом? У меня 13600 уже больше года, вроде нормально, единственное что горяченький проц конечно. Под нагрузками до 85-88 градусов.
Аноним 09/08/25 Суб 19:49:40 1308677 133
>>1308626
да. сейчас глянул, можно примерно так собраться:
https://ozon.ru/t/3lnS9vH
https://market.yandex.ru/cc/7Mu4hh
И ещё напрямую риг 3090 подключить с возможностью апа на новые.
но какая частота озу подойдёт - непонятно.
Аноним 09/08/25 Суб 19:49:51 1308678 134
>>1308357
>Ты даже не читаешь, кто из нас ньюфаг? :)
Я настолько олд, что могу и не читать тред, и так понятно что тут написано.
>>1308375
>пик не мой
В шапку не пойдёт.
>>1308485
>Временами синкинг просто ломается и модель в него вписывает ответ, потом закрывает синкинг и отвечает ЕЩЕ РАЗ.
Это да, есть такое. Впрочем, легко правится руками.
>>1308527
>напишите шаги ризонинга в промт
Проблема с ризонингом глм в том, что оно сильно триггерит ассистента и соответственно вшитую цензуру, и модель начинает срать аполоджайсами, даже если до этого перечислила пункты правил, которые это запрещают и разрешают всякую жесть. Поэтому я гоняю глм без ризонинга.
>>1308532
Попробуй с дефолтным мое на цпу с одной картой.
Аноним 09/08/25 Суб 19:52:40 1308685 135
>>1308678
>Проблема с ризонингом глм в том, что оно сильно триггерит ассистента и соответственно вшитую цензуру, и модель начинает срать аполоджайсами, даже если до этого перечислила пункты правил, которые это запрещают и разрешают всякую жесть. Поэтому я гоняю глм без ризонинга.

Но ризонинг годный, даже слишком. Надо будет пробовать промтить. Решение определенно есть. Нельзя этот ризонинг упускать, он наконец работает, а не
>описание на 12к токенов сцены
>ожидаешь вин тысячелетия
>пук
Аноним 09/08/25 Суб 19:56:40 1308692 136
>>1308677
>https://ozon.ru/t/3lnS9vH
Судя по отзыву, то там лишь половина пропускной способности 12-ти канала. АМД не могла не поднасрать своим покупателям.
Аноним 09/08/25 Суб 19:58:23 1308693 137
>>1308692
Да почему не ксеноны ?
Аноним 09/08/25 Суб 19:58:41 1308695 138
>>1308692
Поэтому у меня вопрос по частотам. Тут половина от высокочастотки десктопной.
Аноним 09/08/25 Суб 19:59:50 1308698 139
>>1308693
А не, я посмотрел сколько они стоят. Ладно, 400к за процессор это действительно ДОРОГО.
Аноним 09/08/25 Суб 20:04:44 1308706 140
>>1308357
вейпкодинг - любой кодинг с нейронкой
Аноним 09/08/25 Суб 20:08:10 1308711 141
>>1308678
>Попробуй с дефолтным мое на цпу с одной картой.
Лол, скорость даже выросла. (Это Q4_K_XL - до этого экспериментировал с двумя картами, выгружалось больше, в генерация оставалась 5Т/s). Использовал только одну карту, но выгрузил меньше слоёв.
[20:05:06] CtxLimit:335/8192, Amt:240/240, Init:0.00s, Process:5.42s (17.52T/s), Generate:40.35s (5.95T/s), Total:45.77s

Что за хуйня?
Аноним 09/08/25 Суб 20:12:51 1308726 142
>>1308685
>Надо будет пробовать промтить.
Я пробовал промтить ризонинг со стороны чара, но ГЛМ это проигнорила. Вообще ризонинг хуёво промтится, слишком сильно вжарен походу. Пойду пробовать префилы.
>>1308711
Через что подрублена вторая карта? Может там 2.0х1 через чипсет, свитч и кабель USB 3.0.
Аноним 09/08/25 Суб 20:16:14 1308731 143
Я боюсь открывать глм
Оно слишком умное для такого плебса, я не достоин.
Я с трудом понимаю 30% написанного, обычно сразу вижу паттерны что ллмка хочет мне скормить и пробегаю глазами, а эта богиня такого не позволяет, приходится вчитываться
Аноним 09/08/25 Суб 20:19:03 1308737 144
Какого хуя я нищук могу позволить себе 4м квант 106б...
Такое только богам с х4 3090 всегда было доступно
Аноним 09/08/25 Суб 20:20:37 1308743 145
>>1308737
Сколько времени ждете ответа? Больше 30 секунд?
Аноним 09/08/25 Суб 20:23:02 1308755 146
>>1308743
0 секунд.
Читать я всё равно не успеваю, хули ждать а так 30-35
Аноним 09/08/25 Суб 20:27:08 1308759 147
>>1308567
Сорян анон, но нет, никак. Прилетел на крыльях ветра и начал тестировать. Действительно ГЛМ похуй на промт ризонинга. Он начинает ему следовать исключительно, если весь систем промт посвящен исключительно ризонингу. Но тогда другие проблемы.
Никак

Вот этот анон прав. >>1308726

Продолжаем искать решение.
Аноним 09/08/25 Суб 20:27:53 1308762 148
image.png 132Кб, 1678x586
1678x586
>>1307394
Не могу понять, хули оно видюху не грузит? Научите!
start "" /High /B /Wait llama-server.exe ^
-m "F:\llm\unsloth\GLM-4.5-Air-GGUF\GLM-4.5-Air-Q4_K_M-00001-of-00002.gguf" ^
-ngl 99 ^
-c 8192 ^
-t 13 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
-ctk q8_0 -ctv q8_0 ^
--n-cpu-moe 12 ^
--no-context-shift ^
--no-mmap
Аноним 09/08/25 Суб 20:30:04 1308764 149
>>1308731
Я осматриваюсь вокруг. Пыль вихриться в падающих лучах солнца, как входит она покачивая бёдрами.
"Ну же анон, я не кусаюсь" говорит она чуть громче шёпота.
Аноним 09/08/25 Суб 20:30:51 1308766 150
>>1308764
>чуть громче шёпота
Я кончил
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов