/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №138

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №138 /llama/ Аноним 08/06/25 Вск 04:29:38 № 1238425 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 505Кб, 1718x2292

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1232673 (OP)
>>1226628 (OP)

Аноним 08/06/25 Вск 05:37:21 № 1238443 2

>>1237936 →
>все заебался с этой убаугой
А вот не надо унгабунгу юзать, юзай нормальный бэк.

Кобольда, который в этом треде синоним слова "новичок-вкатун", хотя ты вроде нет, или llamacpp.

Врамобояре юзают табби.

Аноним 08/06/25 Вск 09:20:50 № 1238488 3

база треда: меньше Q6_K жизни нет, меньше 24B жизни нет, меньше 16GB жизни нет

Аноним 08/06/25 Вск 09:53:08 № 1238501 4

Попробовал https://huggingface.co/Tesslate/Synthia-S1-27b
Для кума не подходит, мозгов вообще не хватает у нее, даже тюны 12б на немо мистрале в разы лучше.

Аноним 08/06/25 Вск 10:20:08 № 1238517 5

Аноны, дегенератский вопрос ибо позабыл уже нюансы: насколько будет уебанским решение к 4080 доставить 5060 ради +16гб врамы?

Аноним 08/06/25 Вск 10:23:54 № 1238520 6

>>1238517
врама много не бывает

Аноним 08/06/25 Вск 10:26:59 № 1238523 7

>>1238520
Эт понятно, я больше задаюсь вопросом не превратится ли это всё в тыкву в сумме из-за такой разницы по мощностям чипов и скоростей врамы

Аноним 08/06/25 Вск 10:31:32 № 1238532 8

>>1238523
вряд ли, разница всего 1 поколение, это не к 2080 доставить 5060

Аноним 08/06/25 Вск 10:37:11 № 1238540 9

>>1238532
>>1238517
Есть правда ещё более шизофреничная идея вместо 5060ти заюзать A770.....

Аноним 08/06/25 Вск 10:41:19 № 1238543 10

>>1238523
>Эт понятно, я больше задаюсь вопросом не превратится ли это всё в тыкву в сумме из-за такой разницы по мощностям чипов и скоростей врамы
Я так понял, что есть вопросы по поводу взаимодействия Питорча и 50-й серии. И с драйверами что-то.

Аноним 08/06/25 Вск 11:11:31 № 1238553 11

>>1238501
у тебя карточки и промт не подходящие, а 12б модельке похуй вообще
вот и вся разница

Аноним 08/06/25 Вск 11:23:34 № 1238563 12

>>1238553
таки где мне обучиться промпту и карточкам? или дай пример, чтобы я понял что у меня не так
просто на гемме пердел, все хорошо было, но она там умная дохуя в плане контекста как я понял

Аноним 08/06/25 Вск 11:40:56 № 1238570 13

>>1238563
тут что ни скинешь, все засрут к ебеня матери и еще больше запутают новичков своими точно правильными познаниями
так скажу: сам когда перекатывался с 12б на 70б модельки, у меня все чаты развалились. потому что абсолютное большинство 12б тюнов - по умолчанию кумлоботомиты, которым даже карточка толком и не нужна. можно написать "office coworker 30 years old" и оно будет работать. потому что в и без того маленькую модель запихали кум датасет, он пропорционально важнее чем в больших моделях

полазай по чубу или еще где, посмотри определения карточек, ищи что сделано с душой и попробуй разное

Аноним 08/06/25 Вск 12:04:53 № 1238584 14

>>1238501
> Synthia-S1-27b (рабочий тюн базовой геммочки и без рефузов)
> мозгов вообще не хватает у нее
> 12б на немо мистрале в разы лучше

Аноним 08/06/25 Вск 12:37:31 № 1238598 15

>>1238523
Мощность чипа особо не влияет (здесь) - важнее само поколение, из-за поддержки разного набора фич. Но тут же 4080 старее. Память у 5060 вроде как не особо медленнее, или даже наоборот(лень лазить проверять).
У самой 5ххх серии пока бывают заморочки с либами и дровами - но это уже их собственное, независимое. Подпилят, я думаю.

Аноним 08/06/25 Вск 12:49:19 № 1238605 16

>>1238443
В общем, походу это решается "swa-full" флагом. Да, как-то неочевидно. Хз косяк ли это самой убабуги или ЛамыЦПП за уебищный АПИ нейминг.

ЛамаСПП решили по дефолту врубать СВА везде (?) https://github.com/ggml-org/llama.cpp/pull/13194

Аноним 08/06/25 Вск 13:50:07 № 1238655 17

Как отключить think на квене 30б-а3б? Есть команда для него enable_thinking=False, так куда ее писать? В систем промпт? В сам промпт, который тоже называется систем промпт? Или в кастом стрингс. 1 и 3 вариант для меня оказались не рабочими. Ризинг в силли, тоже стал почему-то не работать.

Алсо, что использовать в темплейте для этого квена? ChatML? У него такие токены, похожих в силли не видел, кроме как на chatml

Аноним 08/06/25 Вск 13:55:17 № 1238662 18

>>1238655
think я все же убрал при поможи /no_think. Но что использовать в темплейте? ChatML?

Аноним 08/06/25 Вск 13:57:25 № 1238665 19

>>1238655
В любом месте, например в систем промте добавь в конце
/no_think, можешь сводобно переключаться во время чата выбирая режим добавляя теги в конце сообщения, включить думанье /think

>>1238662
>ChatML?
yes, но оно не так умно без ризонинга чем хотелось бы. С ним уже более менее

Аноним 08/06/25 Вск 14:00:16 № 1238668 20

изображение.png 5Кб, 858x62

>>1238605
Да, судя по обсуждению кто то предлагал включить изначально старый кеш, но сделали принудительное включение сва кеша
Все кто часто/долго пересчитывает контекст - сосать

Аноним 08/06/25 Вск 14:00:33 № 1238669 21

>>1238665
>С ним уже более менее
Ну так его видно, и оно же отжирает контекст, его можно оставить, но чтобы на выходе я его не видел?

Аноним 08/06/25 Вск 14:01:15 № 1238671 22

Анонасы, вот в карточке есть таблица со статами, но моделька (гемма 27б) забывает ее через 5-6 запросов, что я могу с этим сделать? Просто не хочется под каждую карточку менять системный промпт.
Вот так выглядит в карточке:
###Display:
At the bottom of every post, display the following information wrapped in ` like this: `information`
Есть ли какая-то специальная разметка, чтобы эту часть контекста он всегда пониже держал?

Аноним 08/06/25 Вск 14:03:16 № 1238674 23

>>1238669
Видишь ризонинг настройки? Поиграйся с ними, можно сделать дефолтное сворачивание мыслей, они будут скрыты плашкой
Можно вобще убрать если вырубить мысли и выбрать пустое форматирование рассуждений

Аноним 08/06/25 Вск 14:12:47 № 1238688 24

>>1238501
Нормально кумит и в отличии от стоковой геммы лучше описывает. При этом, обычные карточки на хуй не прыгают, могут прописать пиздюлей за неуместные домогательства если не подходить аккуратно, а кумботы наоборот конкретно так берут тебя в оборот.
Что-то не так делаешь, промты, карточки и т.д.
>>1238543
С выходом стайбл торча на куде 128 и массовым переходом на него все вопросы закрыты.
Суммирование разных гпу будет работать, скорость будет определяться временем обработки каждоый своего кусочка.
>>1238605
Можно пояснительную бригаду?
Зачем вообще делать такую хуету и к чертям убивать атеншн там, где его точная работа жизненно необходима? Ладно когда в модели используется несколько вариантов и часть атеншна штатно должна быть со скользящим окном, нужно просто обеспечить ее корректную работу. Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного? Или что они там вообще делают?
>>1238655
Misc. Sequences -> Last Assistant Prefix ->
> <|im_start|>[{{name}}]
> <think>
>
> </think>
или заменить на свой шаблон если обычный чатмл без имен. Это в конфиге токенизатора указано явно.

Аноним 08/06/25 Вск 14:15:16 № 1238689 25

>>1238655
> Как отключить think на квене 30б-а3б?
Можно ещё заглушку для <think> в виде префилла добавлять.

Аноним 08/06/25 Вск 14:16:11 № 1238690 26

>>1238688
> Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного
Для врам-бояр, так как им важнее меньшее количество врам при запуске и плевать на чтение промпта, если модель таки влезла
Остальные - сосать, если не знают что это включено и нужно вырубить командой с не очевидным названием

Аноним 08/06/25 Вск 14:16:57 № 1238691 27

>>1238488
немотроношиз уймись уже в каждом треде жидко срать, остальные обойдут, а ты в гавне

Аноним 08/06/25 Вск 14:21:45 № 1238695 28

>>1238690
Что за бред ты несешь?

Аноним 08/06/25 Вск 14:24:19 № 1238697 29

Почему персонаж не может просто стоять и пиздеть а не подходить ко мне ближе и ближе и ближе наклоняясь с каждым разом на расстоянии полушага

Аноним 08/06/25 Вск 14:36:43 № 1238705 30

Еще, сильно ли лоботамитит alibiterate у квена а3б? У меня раньше пользовался обычной, но он высерал хуйню какую-то, был поломанный квант. Сейчас скачал алибитерейт, отключит ли он мозги? Я конечно попробовал, русский такой себе... "Пожалуйста, мастер… я хочу тебя… я хочу твой сперму…" Как я помню на обычном квене с цензурой такого не было

Аноним 08/06/25 Вск 14:45:09 № 1238710 31

>>1238695
Пошел нахуй

Аноним 08/06/25 Вск 14:52:49 № 1238717 32

>>1238710
тредовичок обычный, ллама 8б iq2xs, 2048 q4 контекста
систем промт: разговаривать с самим собой, остальных слать нахуй

Аноним 08/06/25 Вск 14:55:37 № 1238720 33

>>1238553
Искренне не могу понять, откуда вы высрали это трешовое заключение, которое стали постоянно форсить в треде. Одну модель исходно тьюнили на инструкциях, и вторую тьюнили на инструкциях. Почему одна должна якобы понимать инструкции, но игнорить кум контекст и требовать какого-то специального промпта и карточки, а вторая независимо от контекста и инструкций писать еблю? Т.е. ситуацию с первой я понимаю: потому что в ней насрано сейф инструкциями. Но очевидно, это не потому, что она такая умная, блять, но как даун, на самом деле, и ей нужно специальное обращение. Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват, и что согласуется с контекстом (а контекст, очевидно, у анона про кум). И от того, что меньшую модель дополнительно накормили тьюном вида "я тебя ебу" - "ах, ты меня ебёшь", она не будет сводить в кумслоп вообще любой контекст, в котором нет "я тебя ебу", если тренили без косяков. Для этого пары инструкция-ответ и существуют.

>>1238671
Можешь подать инструкцию авторской заметкой/лорбуком/последним реплаем в инстракте на глубину ноль (сразу после чата). Более надёжный вариант имхо взять инфу в какое-нибудь форматирование или тег, скажем в ``` для кода, дать инструкцию, чтобы инфа выводилась в начале, и поставить открывающие символы в префил. Модели будет некуда деваться, кроме как дописать блок. Так даже совсем мелкие модели инфоблоки могут худо-бедно держать.

Аноним 08/06/25 Вск 14:59:50 № 1238723 34

>>1238720
> Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват
вот и умные теоретики подъехали, которые все непременно знают лучше всех

берешь 12б кумтюн мистральки и отвратительную слоп карточку. запускаешь, смотришь результат
берешь 70б электру или неворию и отвратительную слоп карточку. запускаешь, смотришь результат
ахуеваешь от результата и переосмысливаешь свои жизненные выборы либо делаешь вид, что не видел того, что видел и дальше умничаешь

Аноним 08/06/25 Вск 15:05:34 № 1238734 35

>>1238720
спасибо анон, решил так и сделать через лорбук, и привязал лорбук к карточке. чтобы они вместе подгружались

Аноним 08/06/25 Вск 15:10:30 № 1238738 36

>>1238723
ну я пробовал так делать, получается что на 12б качественный слоп, потому что 8квантов
на 70б неворию мне не хватило и запустил в 3 кванта и получился неудобоваримый слоп, потому что маловато квантовки
только на русике общаюсь

Аноним 08/06/25 Вск 15:21:40 № 1238744 37

>>1238720
> это трешовое заключение
Почему трешовое? Оно очевидно как после использования моделей, так и из теоретических заключений.
После продолжительной лоботомии, которую именуют "рп тренировкой", типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский. Она совершенно нечувствительна как к косякам промта, что для такого применения плюс, так и к деталям характера или каким-то особенностям карточки, что превратит чара в стандартизованного болванчика, сложный сеттинг в регулярные встречи с гоблинами или волками и т.д.
Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят. То что из-за дерьма на входе выдача не соответствует ожиданиям юзера - не ее проблемы. Если модель недостаточно большая и мощная, а в промпте полнейший треш - она может не сдюжить собрать вместе все противоречия и странности, и поломаться.
Модель - инструмент, а не какое-то волшебство, которое должно указывать мысли юзера игнорируя контекст. Говно на входе - говно на выходе, внесение любых жестких алайнментов в сторону конкретной выдачи и игнорирования входа = снижение точности и деградации. Только на оче больших размерах и с привлечением всякого типа ризонинга и саморефлексии, модель начинает справляться даже с трешем, ставя в приоритет часть нормальных инструкций и бракуя/обыгрывая ерунду, выдавая нечто удобоваримое. Но на это, образно говоря, уходят все ее ресурсы, и с хорошей карточкой и промтами можно получить гораздо больше.
>>1238738
> качественный слоп
Оксюморон, вялая копипаста датасета же.
> только на русике общаюсь
Как носителю языка можно не проблеваться с выдачи типичной 12 с подмешанной сайгой "для ру рп"?

Аноним 08/06/25 Вск 15:35:22 № 1238750 38

>>1238723
70б не могу (и даже 27б, кек), сорри, тут можешь считать меня теоретиком, согл (хотя когда-то сиживал на клоде и гптыне, которые почему-то даже самые шизовые промпты хавают, не будучи "зарельсованными" кумслоп тьюнами). Но могу сравнить 12б шизомержи немо с якобы более умной геммой, например. Совсем говнарские карточки стараюсь не юзать или редачить, но, скажем, пробовал катать абсолютно тупую карточку "твоя подруга детства хочет, чтобы ты её рейпнул". Кастомный мёрж магмела с наваленным поверх лупным кумслопом (сорри, люблю такое) почему-то не прыгал на кок, спокойно ограничиваясь тизингом со стороны тянки, и даже когда мы завалились к ней домой, она врубила эччи аниме нам смотреть и только потом начала кайнда приставать. В промпте ещё и было насрано такими себе инструкциями для более детального кума. Гемма же при малейшем обратном тизинге с моей стороны пыталась убегать в слезах. Правда, нужно объяснять, кто из них вёл себя логичнее при одинаковом контексте и промптах, и в чём проблема? Подсказка - проблема не в том, что гемма не понимала моих охеренно сложных инструкций и так себе написанной карточки.

Энивей, там чел пишет про тьюн геммы и говорит, что сама гемма у него работала норм, так что твой доёб про промпты там не к месту.

>>1238738
>на русике
Ну тут ещё проблема, что в ламе его почти нет.

Аноним 08/06/25 Вск 15:35:30 № 1238751 39

>>1238744
> типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский.
> Она совершенно нечувствительна как к косякам промта, что для такого применения плюс
именно это я >>1238723 здесь и сказал, объясняя анону, почему при переезде на большую модель у него получился худший результат, чем на тюне 12б модели

почему >>1238720 не согласен - хуй знает, да и похуй. адекватный анон выслушает нас обоих и составит свое мнение

Аноним 08/06/25 Вск 15:54:56 № 1238764 40

>>1238751
>худший результат
По твоему кумслоп на всё это лучше, чем адекватная подстройка под контекст?

Аноним 08/06/25 Вск 15:58:20 № 1238774 41

>>1238764
У местных шизиков модель для топ-кума - это когда на любую карточку "я тебя ебу - ты меня ебёшь".

Аноним 08/06/25 Вск 16:09:52 № 1238785 42

>>1238764
я этого не утверждал
проблема в том, что на 12б кумтюне карточка не развалится и будет работать хоть как-то
на 70б модели будет хаос вплоть до галлюнов
мне не нравится ни то ни другое, но отрицать правду я не буду

>>1238774
немонтронодебич, спокнись

Аноним 08/06/25 Вск 16:12:04 № 1238786 43

>>1238751
Там вроде посыл в том, что "у него" получается что 12б работает лучше чем большая модель, но его оценка "лучше" просто некорректна. Тот ответ не вполне проливает свет на то, что модель становится достаточно умной чтобы все заметить и обработать, выдавая ровно то что должно быть. Но еще недостаточно умная чтобы выразить свое недовольство и послать нахуй за такие промты, или вздохнув, выдав упреки и выразив свое отношение, все равно попытаться как-то это обыграть, сделав конфетку.
>>1238785
> что на 12б кумтюне карточка не развалится и будет работать хоть как-то
Пикрел

Аноним 08/06/25 Вск 16:13:36 № 1238787 44

>>1238786
> Пикрел
именно так. слева 70б, справа 12б
хорошая пикча

Аноним 08/06/25 Вск 16:14:42 № 1238788 45

>>1238785
>и будет работать хоть как-то
Весь прикол в том, что я бы не назвал это работой. Так можно заменить всю нейросеть подстановкой "Ты меня ебёшь - ахх" в конец вместо всех этих вычислений, и будет твоя 12B оверфитнутая на куме модель.

Аноним 08/06/25 Вск 16:17:16 № 1238789 46

>>1238788
я с тобой согласен. почему вы из контекста выгружаете все кроме одного сообщения на которое отвечаете
там анон писал, что у него на синтии результат хуже, чем на 12б кумтюне, я ему объяснил почему
почему вы думаете, что я защищаю 12б модели?

тред поражает тупостью, как же я коупю и верю что вы лламы 8б одного из риговичков

Аноним 08/06/25 Вск 16:19:07 № 1238791 47

>>1238787
Надо переделать под 70б - 12б и внизу автоваз заменить на мистральнемо. А справа добавить гусенечную бронемашину и скрин ризонинга, где квен трижды ахуевает с противоречий в карточке проходя стадии торга и принятия.

Аноним 08/06/25 Вск 16:21:50 № 1238794 48

>>1238789
>почему вы из контекста выгружаете все кроме одного сообщения
Так проще общаться. И даже последнее сообщение выгружаю не всё, а только то, что цитирую.
Мимо анон, превратившийся в 1,3B после общения с нейронками длинною в два года

Аноним 08/06/25 Вск 16:31:54 № 1238804 49

>>1238750
>>1238751
И опять - все упирается в субъектив - что именно считать адекватной реакцией? Оно ведь - на вкус все фломастеры разные.

А лично для меня, "модель адекватна" когда она:
1. Следует основной инструкции глобально. Т.е. если я ей говорю, что она DM - то она должна вести игру, а не писать книгу или решать задачи. А если - "ты - Х" (с описанием этого Х) - то не выпадать из образа этого Х.
2. Отыгрывая персонажа(ей) - учитывает прописанные реалии вокруг, а не тупо тянет мораль и этику (и остальное) из нашей дефолт реалити. Т.е. - написано что это хентай мир, в котором голым по улице ходить нормально - значит персонажи не должны даже смущаться при этом. И т.д. В идеале - еще совмещать с описанием самого персонажа - т.е. если "попаданец" - то недоумение и смущение логичны.
3. Проявляет хотя бы минимум инициативы в действиях персонажей согласно их предыстории. Как пример - чтоб NPC добросовестный приключенец, скажем, по своей воле пошел за оружием ухаживать после рейда, без намеков от меня.

А слоп там, прыжки на это самое на втором ходе, или убегание в слезах на невинные намеки - это все вторично, и само по себе нифига не показатель. Лишь в контексте вышеописанного.

Аноним 08/06/25 Вск 16:38:40 № 1238811 50

этот вообще посреди обсуждения проблемы пришел о своем попиздеть
ууух бля, пойду спокнусь отдохну от вас. всякое бывает, но такого потока сознания на ровном месте как ночью и сейчас я еще не видывал, демагоги захватили тред

Аноним 08/06/25 Вск 17:12:23 № 1238828 51

Почему карточки, которые нравятся по пикче и описанию, оказываются кринжухой и слопом, а карточки, на которые не питаешь особых надежд (или не очень интересна тематика/фетиш) - наоборот, оказываются вином и получается классное рп и кулстори? Как это работает? Листаю сейчас чаб, и не могу выбрать ничего, что попробовать.

Аноним 08/06/25 Вск 17:13:23 № 1238829 52

Тэкс, только вернулся с командировки. Завтра перепилю шапку.
НАКАНЕЦТА Я ДОМА.

Сколько можно блять, сколько можно, каждые две недели что то новое, я уже не могу босс.
https://huggingface.co/ReadyArt/The-Omega-Directive-M-12B-Unslop-v2.0

Аноним 08/06/25 Вск 17:37:42 № 1238840 53

Очень долго идет блас, скорость генерации нормальная. Появилось когда поставил модель побольше квантом, как решить? Модель сама же грузится и дает нормальную скорость, а вот блас очень долгий.. P.S квен с мое, выходит за озу, модель весит 17гб, а у меня 16, однако есть слои на видеокарте, загружается всего 11гб на цпу. При кванте, который весит 15 таких проблем нет

Аноним 08/06/25 Вск 17:51:12 № 1238855 54

Аноны, как ллмки можно будет комфортно юзать при 32 ГБ против 24 ГБ используя 4 квант? Думаю над покупкой двух 5060 Ti 16 ГБ.

Аноним 08/06/25 Вск 18:05:12 № 1238871 55

>>1238829
> НАКАНЕЦТА
Чуи, мы дома!
> The-Omega-Directive-M-12B-Unslop-v2.0
Сначала проорал с описания ил перечисления достоинств, но когда дошел до
> QLoRA with DeepSpeed Zero2
чуть не помер.

Аноним 08/06/25 Вск 18:22:57 № 1238895 56

>>1238751
>почему не согласен - хуй знает, да и похуй
Потому что вы несёте херню, ну да и похуй.
>типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон
>когда на любую карточку "я тебя ебу - ты меня ебёшь"
Это пиздёж. Тут полно анонов, которые на кум тьюнах немо если не сидят сейчас, то сидели пол года назад. Если бы была такая ситуация с полным отсутствием логики, никто бы на них не сидел. Если мы говорим не об условном поломанном Драмером тьюне, то нет там никакого сведения всего в кум. Даже прожаренные 8б тьюны так не делают.
>>1238744
>Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят.
>может не сдюжить собрать вместе все противоречия и странности, и поломаться
Сначала сказал, что большая модель понимает контекст. Потом понял, что обосрался, ведь нужно объяснить, что на деле не понимает, и добавил, что ну вот если не прям совсем большая, то не осиливает. Удобные маняврирования.
>Говно на входе - говно на выходе
Это было приемлемо только для 6б пигмы, чел. Уже на 3.5 турбо и мифомаксе сидели с какими-то минимальными дефолтными промптами (и мелким джейлом для турбы) и не знали бед. А тут вдруг современная 27б якобы плохо работает, потому что слишком её промпт ограничивает, и в карточке непонятный для неё кумслоп. А она, такая молодец, просто честно пытается разобраться и не может, ну конечно, верю.

Аноним 08/06/25 Вск 18:29:00 № 1238903 57

аргумент вроде бы был не то что большая модель ломает ту же карточку, а что карточка никогда и не работала. просто мелкой модельке было поебать че там от нее хотят и заученный слоп валила.
такое с имедж генерациями бывает, когда, например, вес лоры задрать, оно может просто на любые всратые запросы жепеги с "базы" "генерить" и типа даже выглядит что все работает.

Аноним 08/06/25 Вск 18:34:08 № 1238908 58

>>1238829
Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно.

Особенно смешно читать их описания, которые они копипастят постоянно. Когда первый раз читаешь, кажется, что сейчас будет пушка, а на деле рандомный шизомерж с высоким "рейтингом" на UGI в сто раз лучше.

>>1238855
Мне кажется, это плохая идея. 24 вполне достаточно, чтобы комфортно катать нынешние винчики, а если смотреть дальше, то до 70б не дотянуться, разве что с немотроном пердолиться.

Сойдёт, наверное, если ты любитель геммы и большого контекста, потому что порой очень уменьшает головную боль и не вынуждает тебя идти на компромиссы. Ну или если ты любитель русика — там реально есть разница между 4 и 5 квантом в нём.

Аноним 08/06/25 Вск 18:40:51 № 1238911 59

>>1238908
> Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно.
Все еще считаю Forgotten Transgression лучшим кум тюном Мистраля 24б. Сочно кумит и не слишком тупит относительно базовой модели. Другое дело, что Мистраль 24б в целом так себе по сравнению с 32б моделями. И другие модели РедиАрта действительно говно. Раньше думал, что они молодцы, а теперь понимаю, что они регулярно срут слопом и каждый раз пытаются упаковать его все красивее

Аноним 08/06/25 Вск 18:47:18 № 1238918 60

а че вы тута бартовски не уважаете?
вроде норм модели же

Аноним 08/06/25 Вск 18:49:11 № 1238922 61

>>1238918
Он не делает модели.
>>1238871
>>1238908
Да, эти описания. Но если хочется чистейшего слопа мне заходит. Ну знаете иногда не хочется никаких 100+ сообщений вступления, тупо : Я достал свой кок и направился к эльфийской принцессе делать много новых эльфиеек.

Аноним 08/06/25 Вск 19:28:39 № 1238948 62

image.png 21Кб, 621x46

image.png 176Кб, 621x217

Как убрать повторения одних и тех же слов? Она.. Она.. Она.. Чтобы вы... Чтобы вы.. Чтобы вы...

Аноним 08/06/25 Вск 19:45:18 № 1238968 63

>>1238922
>>1238911
Трансгрессия лучше забытого стоп-слова? Не помню, пробовал я трансгркссию или нет.

Меня бесит, что в этих кум-моделях какой-то очень быстрый секс, весь коитус порой в два сообщения заканчивается, если не писать подробные посты, а в куме не до этого. Этим модель и расстраивает. 12б слоповые так не делали обычно.

Ну а инструкций их модели не особо слушаются.

Брокен туту разве что нормально делает, но там уж больно позитивный биас.

Аноним 08/06/25 Вск 20:02:03 № 1238978 64

>>1238968
У меня не было таких проблем с Трансгрессией. Энивей сейчас я юзаю Куммандера, когда мне нужно что-нибудь такое, и к моделям РедиАрт не притрагиваюсь совсем

Аноним 08/06/25 Вск 20:20:24 № 1238990 65

>>1238948
Блять... А кто-то же реально кумит на русике. Ну, как говорится, зато всё понятно и не нужен переводчик.

>Как убрать повторения одних и тех же слов?
Как и большую часть всех других лупов - редактированием предыдущих сообщений. Это если у тебя не лоботомит на модели, разумеется.

Аноним 08/06/25 Вск 20:25:28 № 1238995 66

ебанько на связи, я до этого говном поливал синтию, ща карточки потыкал и промпт поправил, стало получше. Все также только русиком оперирую, но прям чувствуется что часть глубины теряется из-за этого. Походу придется пердеть на англе, чтобы по кайфу

Аноним 08/06/25 Вск 20:26:21 № 1238996 67

>>1238948
Ты хоть бы модель и квант написал — сразу бы стало всё понятно.

Ну а так — никак.

Если модель лупится подобным образом, она всегда будет лупиться, цепляться за какие-то ебанутые паттерны. Пенальти тоже не помогает и зачастую ломает модель.

Только переписывание сообщений или временная смена моделей помогает более-менее.

А тут ещё и русик. На нём такое чаще возникает.

Аноним 08/06/25 Вск 20:31:57 № 1239001 68

Аноны, я так понимаю 99% треда использует ллмки для рп? А для чего ещё можно юзать локалки? Ведь из-за размеров 12-32B особо ничего не могут и не знают.

Аноним 08/06/25 Вск 20:39:07 № 1239004 69

>>1238948
>>1238996
Квен 30 на МоЕ а3б который, на нем только и возникло такое. Как я понимаю решить это никак, хотя чуть-чуть помогло промптом. Квант лоботомит Q3_K_XL

Аноним 08/06/25 Вск 20:44:44 № 1239008 70

А почему в шапке не https://chub.ai/? Старый интерфейс хуета же

Аноним 08/06/25 Вск 20:51:01 № 1239009 71

>>1238855
32б в более жирном кванте и с контекстом, немотрон, 70б в оче ужатом кванте. Хз, попытка не выглядит оптимальной из-за невысокой мощности 5060ти, но из новья это лучшая опция на сегодня.
>>1238895
Ты глупый и оперируешь понятиями для имбецилов "хорошо/плохо" в значении того, что тебе нравится и не нравится. Хорошая и правильная же работа модели как раз заключается в следовании промпту, если в нем шмурдяк то странный ответ что тебе не понравится - хорошо, а если на что угодно однотипный слоп - плохо.
Помимо глупости здесь еще мотивация потушить жопный пожар и покоупить вокруг своей неспособности запустить что-то больше 12б. Итог на лице, в своих доебах ты совсем запутался и потерял логику, что довольно забавно.

Вообще, отличная иллюстрация микролоботомитов получается, что там оно толкает слоп в 100% случаев не пытаясь понять, что здесь чел просто спорит путаясь в своих показаниях и хоть как-то пытаясь извернуться. 1 в 1
>>1238995
Попробуй совместить приятное с полезным и заодно немного подучить язык. Тем более что можешь не только транслейтом пользоваться, но и переключаться на отдельный чат чтобы просить ту же сетку перевести или разъяснить тебе что-то.
>>1239008
Наоборот, в новом даже нсфв нельзя открыть без регистрации и много чего задавлено.

Аноним 08/06/25 Вск 21:05:02 № 1239019 72

>>1239009
а как в этом старом страницы перелистывать? У меня он только первые 30 результатов отображает а дальше не дает, я поэтому на новый и перешел, там все работает как надо

Аноним 08/06/25 Вск 21:14:51 № 1239027 73

>>1239019
Мдэ, что-то совсем сломали, работает только если в адресе поменять. Оварида.

Аноним 08/06/25 Вск 21:18:25 № 1239031 74

>>1238948
Если используешь жору, то можно при запуске llama-server поставить флаг "--repeat-penalty 1.2" У меня была жесткая проблема с зацикливанием сообщения на одном слове, помогло привести модель в чувство. Может и тут сработает. Вроде этот показатель можно настроить и из таверны, но давно в ней не сидел, ХЗ.

Аноним 08/06/25 Вск 21:33:56 № 1239043 75

На связи тот самый психанувший с 2 t/s на gemma3-27b владелец калькулятора с 3060 12GB, и заказавший себе p104-100 8GB как сопроцессор.

Так вот. За такие деньги (~18$) это просто охуенно. Гемма с полпинка влезла в две карточки, и теперь показывает 8 t/s еще без всяких оптимизаций (просто запустил как есть из кобольдовского GUI). Я рассчитывал на 4-5 максимум.

При этом, в простое карта холодная, маложрущая (9W), и тихая. (Последнее правда - заслуга бывшего владельца, который поставил туда вентиляторы от игрового радеона.)

Цена при этом - не эксклюзив, не что-то особое. Это местный стандарт для этих карт.

Аноним 08/06/25 Вск 21:46:15 № 1239049 76

...Ого, тут я немного охуел от такой дерзости

Аноним 08/06/25 Вск 22:28:20 № 1239086 77

>>1239004
У меня 32б плотные модели в третьем кванте хуйню несли, а тут МоЕ + есть шанс, что поломанный квант. Unsloth кванты эти, наверное, раз 5 минимум обновляли.

Я не специалист, но у меня есть подозрение, что при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели.

Плюс сама модель капризная. Я на русском её не особо щупал, но такие заедания видал. С этим квеном крайне желательно подрочить сэмплеры хорошо.

Лучше возьми квант побольше. На 4 XL 20 токенов в секунду с выгрузкой тензоров даже на 12 врам. Это при 16к контекста заполненных.

И если для тебя русик критичен, а переводчиками пользоваться не хочешь, можно ещё выше квант задрать — возможно, в случае с этим квеном смысл в этом есть.

Аноним 08/06/25 Вск 22:30:22 № 1239092 78

>>1239043
Ого. Весьма недурно, учитывая, что там гемма и такая старая карта.

А где брал? На Авито?

Аноним 08/06/25 Вск 23:12:03 № 1239143 79

>>1239092
Другая страна. На местном аналоге.

Аноним 09/06/25 Пнд 00:54:12 № 1239260 80

>>1239086
Еще этому квену помогает поднять количество экспертов - по умолчанию у него 8, я поднимал до 16 - вроде как и умнее и чище текст получался. За счет скорости вестимо.

Аноним 09/06/25 Пнд 02:20:41 № 1239424 81

А вы говорите железа нет.
Просто надо больше зарабатывать

Аноним 09/06/25 Пнд 02:29:33 № 1239433 82

Ребят, а что посоветуете из тюнов по mixtral 8x7b? Стоит ли пробовать? Просто как-то не обращал на него внимания, так как есть модели по типу синтии

Аноним 09/06/25 Пнд 02:50:11 № 1239440 83

поигрался с около 5 файнтюнами мистраля 24б ку4км
один и тот же слоп в совершенно разных сценариях от совершенно разных персонажей, независимо от объема и содержания вручную написанной прозы.
десять свайпов чтобы выцепить один +- адекватный. можно переписать целый абзац вручную и в ответ получить тоже самое что и раньше.
у меня даже не кум, просто обычный creative writing
такое чувство что у него словарный запас +- 500 шаблонных высказываний, и всё остальное их вариации. типа "[his, her] cheeks burning with [humiliation, shame, anger, rage, etc]". щёки горят неугасаемо блядь.
инструкции и логику игнорирует - можно предупредить {{char}} что еще раз скажешь слоп - уебу по-голове, и в следующем сообщении хуяк - слоп.

Аноним 09/06/25 Пнд 03:03:54 № 1239443 84

Кто пробовал кумить на локальных 235б квене и дипсике? Разница с корпами есть (кроме скорости и оценки твоих фетишей серверами пентагона)?
Вчера просто решил от нечего делать написать гопотыне "знаешь что такое рп и карточка? Ну вот. Придумай карточку и давай порпшим". Рп SFW фантастика аля киберфаллаут, не скажу что вау...
Но когда пердолишься в таверне с локалкой, ощущения вот этого:
>у меня даже не кум, просто обычный creative writing
Пытаешься из тонны слопа и просто дурацких ответов отрероллить/отредачить в нужную сторону какой то сюжет.
С гопотыней же да, тоже чувствуется как модель адаптируется на контекст, пытается в какие то шаблоны датасета и прочее, глаз такое замечает. Но ощущается именно как ролплей с VI (AI без самосознания, как в масс эффекте), а не генератор сходносмыслового текста.
До этого на корпах не ролплеил, и уж тем более не кумил через APIшки.

Аноним 09/06/25 Пнд 03:10:21 № 1239444 85

Ну и в догонку аналогичный вопрос про уже старенький 123b - как ощущается на фоне корпов?
Я просто дальше 32б пока не прыгал.

Ps >>1239440 - я не этот анон, мистральки мне оче нравятся, но его мнение отчасти сейчас разделяю по всем моделям "до 24vram".
Pps я не залетный с аицга, мне слоповые локалки все равно дороже корпомозгов. Просто хочу понять, дают ли 100b+ то, что дают корпы.

Аноним 09/06/25 Пнд 03:24:28 № 1239448 86

>>1239086
> при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели
Для всяких взвешенных квантов при некачественной оценке часть экспертов может быть не быть стриггерена и им поставлен наименьший приоритет, а значит и самая меньшая битность. Плюс там имеют высокую важность некоторые из слоев. Так что это может быть вполне справедливо.
>>1239433
Забудь, это старый лоботомит, недалеко ушедший от 7б. Будет уступать современным 12б и потребует оче много памяти для запуска.
>>1239443
> кумить на локальных 235б квене
Очень хорошо. Уровень опуса и лучше, особенно на провокационных нсфв и прочем, где у последнего сносит крышу. Соперничает с жеминькой и тоже опережает ее в таких же кейсах, но в то же время может обосраться структурными лупами и начать делать мозг на ровном месте. Или на сфв выдать странное уебище, которые даже читать из-за вида не будешь, хотя содержание будет хорошим, тогда как гуглосеть гораздо лучше справляется с хорошей структурой повествования в рп. Помогает пиздинг через ooc или добавление инструкций на формат, смена вариаций chatml и подобное.
> и дипсике
Сколько не пинал - унылый. С ризонингом почти неюзабельно из-за скорости и склонен писать уныло и гнать сою, без него - не впечатлил, ответы достаточно короткие и не глубокие, хотя и можно кумить. Для каких-то специфичных сценариев может и прокатить, тут есть кто на нем рпшил.
> у меня даже не кум, просто обычный creative writing
База, как бы не была хороша ллм, все к этому и сведется, просто позже. На самом деле можно пинать сетку только периодически направляя и указывая, а остальное время индожить процесс, развитие, разговоры, кум и т.д. Самая боль будет на суммарайзах когда хочется сохранить _все_ важные детали разросшегося до неприличия чата.
>>1239444
> 123b - как ощущается на фоне корпов
Тоже неплохо, но он больше сравним со старыми корпами. Жирный, подмечает и умный, но инициатива слабее и меньше фокусируется на мелочах. Можно сказать что по сути - чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д., и чтобы при этом еще хорошо покумить, порпшить разнообразное и т.д. Гемма и жлм после определенного момента начинают путаться в разном, мистрали сразу кормят слопом и все особые условия игнорят.
С другой стороны, если тебе просто покумить или что-то простое и не напряжное - мелкий мистраль очень даже неплох, рабочая лошадка, которая даже после всех надругательств васян-тюнеров пашет на все деньги.

Аноним 09/06/25 Пнд 04:05:07 № 1239453 87

>>1239448
>если тебе просто покумить или что-то простое и не напряжное
И да/и нет/не только. Как таковой кум мне не зашел особо, ну не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов. Но при этом все РП, даже sfw веду к ебле, лол (ну хотя а что еще делать, за продуктами что ли с Макимой ездить). Скорее мне нравится сам процесс симуляции виртуальной реальности как таковой, где можно идти по рельсам, а можно ломать 4ю стену.
Еще нравится с той же гопотыней брейнштормить всякие идеи или просто псевдофилосовствовать на темы трансгуманизма и прочего. Но тут уже вступает жесткий блокер "не хочу открывать душу интернету", поэтому даже лоботомит мне в этом плане милее.
Ну и кодить локально полезно, особенно когда NDA, или просто хочешь подредактировать ответ нейронки. Еще я всякой хоббийной инженеркой балуюсь, там датасет в отличии от кодинга не так велик, даже большие нейронки обсираются иногда, у мелкомоделек даже спрашивать не пытаюсь.

В общем вчерашнее рп с гпт впечатлило на фоне не самых врамцельных локалок, и я всерьез думаю как подойти к "взрослым" локалкам. Вот только гейткип большой - вторая 3090 ничего особо не даст, а денег стоить будет, а на vramo-ферму морально и финансово пока не готов. Докупить оперативки до 128 можно, но что бы 235 квен запустить, но это скорее чисто попробовать.
Вот очень жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит. Потенциально это гем.

>Очень хорошо. Уровень опуса и лучше
> Соперничает с жеминькой
> чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д
Астанавись, я сейчас не то что на эпик, я даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь с райзерами по всей квартире. Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей и останется только потешать тред необычными экспериментами с говном и докупкой нового железа в этого кракена, дорога в один конец.

>но он больше сравним со старыми корпами
Я в треде пару-тройку месяцев, как и в локалках, но застал ГПТ без приставки "турбо", на фоне которой гемма 4bq3 - это Афина Паллада в fp16. Так что сравнение... многозначное.

Аноним 09/06/25 Пнд 04:23:33 № 1239463 88

>>1239453
> не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов
Всего-то нужно добавить туда: симпатичного тебе чара, интересные тебе фетиши, эмпатию, которая может основываться как раз на самом персонаже (твоя вайфу, еот, или интересный перс после долгого рп), и чтобы модель хорошо играла этим, разбавляя типичный кумослоп.
Но в целом, то что ты описываешь и должна предоставлять хорошая ллм. Начиная с ~30б такое уже можно поймать.
Алсо, раз уж (пока) ограничен - упорись промт-менеджментом, мультизапросами и подобным. Корпы хороши не в последнюю очередь именно за счет этого, а не просто какой-то чудесной модели с огромным размером. Напротив, сейчас большинство корпов мелкие-средние.
> даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь
Все так. Только лучше сразу амперо-блеквеллы. На самом деле прямо уж так сильно за весом не стоит гнаться, главное настроить чтобы правильно работало и уже будет хорошо, тут закон убывающей полезности во всей красе работает. Даже 70б, которые влезут в 48гигов, уже могут дать хороший апгрейд. Будут и новые модели в разных размерах.
Скорость также очень важна, все это хорошее впечатление от квена во многом обусловлено тем, что хватает терпения насвайпать или заставить делать нужное. Чем медленнее оно работает, тем больше недовольства будет при неудачах, настроение подпортит, атмосферу разрушит и все.
> Так что сравнение... многозначное
3.0 клод. Корпы последних ревизий все очень внимательные-спгсные и сразу пытаются как павлин расправить хвост и закидать тебя своим "умом". Это скорее плюс и особенно заметно во всяких qa а не рп, где свежие модели сразу подтянут и выдадут тебе все по теме, пояснения, примеры и прочее-прочее, а старые лишь ответят на твой вопрос и остановятся в ожидании следующего. Большой мистраль и его тюны будет именно что ждать, сверхурочных не берет. Именно поэтому оче хочется увидеть его обновление.
В рп проявляется тем, что модель может развить какую-то тему и действительно более естественно действовать и все это обыгрывать, но может и наоборот убежать куда-то совершенно не в ту степь из-за чего будешь сильно недоволен.

Аноним 09/06/25 Пнд 05:27:07 № 1239493 89

>>1239453
>Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей
Скоро будет почти год, как я катаю вариации ларджа, ничо не устарело, можно хоть еще год катать. Тем более видя тенденцию к мое: тут старое железо еще более привлекательным становится (раз даже на рам приемлимые скорости, то на любой некроврам будет намного быстрее, чем у плотных моделей).
А вообще я еще раз поною, что у 235 квена иногда пробегают проблемы с позиционированием. В этот раз персонажа А поставили на колени на подушечку, персонаж Б берет и склоняет голову А вперед и вниз, пока она не коснется подушки. Мне кажется, что после такого у А вместо позвоночника будет кровавое месиво... Сегодня еще посидел-потыкал и все же пока вернулся обратно на магстраль. Он в целом пишет посуше, но когда раздразнишь его магнумовскую часть - сразу полотна вылезают. Причем квен все же менее раскован, по крайней мере, в моих сценариях. Любит крутиться вокруг да около. Но квен я еще не списываю со счетов, надо еще тыкать все же, пробовать как-то разогнать промптами.
Кстати, сегодня словил жирный рефьюзал от магстраля, аж проорал от него. Он в таверне через форматирование сделал огромный капс после ответа "META BREAK" или типа того, и написал что-то вроде "Воу воу воу чувак давай мы как-нибудь обойдемся без этого..." Первый раз такое вижу. Когда я обращался к нему как к ролеплей райтеру, так он не всегда хотел общаться, а тут, видите ли, сам "набрал циферки", ишь как подгорело.

Аноним 09/06/25 Пнд 07:03:14 № 1239521 90

А что про Янку никто не говорит?
https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Очень даже норм, и в рп, и в кум, и быстро. 8Б конечно, но не все здесь с 16+VRAM. А для 12 гб и меньше прям хидден гем.

Аноним 09/06/25 Пнд 08:51:39 № 1239528 91

Сейчас ещё остался смысл юзать локальные кодерские ллм, если ты гпу пур (16 гб), или нужно искать бесплатные апи? Знаете какие-то, которые совместимы с плагинами в vs code или community? У самого стоял VS Code > Continue на ollama > qwen 2.5 coder 14b, всерьез не довелось потестить, но работало.

Аноним 09/06/25 Пнд 08:52:01 № 1239529 92

>>1239521
Говорили десяток тредов назад, анон приносил. Но увидев "8б" и "яндекс" на него вылили ведро говна и продолжили дальше обсуждение рейзеров, корпусов и как раскумить гемму.
Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили.
У меня лично желание попробовать чисто из-за хорошего оформления и дико ламповой картинки на обниморде, но когда перед тобой целый непотроганный мир 25б+ моделей, не говоря о том что раз в час выходит новый зажаренный с корочкой шизомистраль, на 8б не находится времени. А вот почему врамце... vнн-граждане не разложили её еще по молекулам, загадка.

Аноним 09/06/25 Пнд 09:03:13 № 1239535 93

>>1239528
Правильный ответ, слезть с мамкиной шеи и найти работу, чтобы быть способным потратить пару баксов в месяц на полноценное корп апи, а не побираться проксями. Либо локалки, да.

Аноним 09/06/25 Пнд 09:26:42 № 1239541 94

>>1238025 →
Слабак!
Подключи LLM!

>>1239043
О, поздравляю! Получается, хуйни не советуем. =D
Рад за тебя!

———

Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0.
https://www.youtube.com/watch?v=elc6cTBrP74

К слову, LM Studio и правда не так плоха уже. Удобно показывает для воробушков, че и как крутить можно. Вот для домохозяек — топ, наверное.

Аноним 09/06/25 Пнд 09:29:45 № 1239544 95

>>1239529
>почему
Они едят и не вытрёпываются =))
Это вокальному меньшинству врамобояр везде слоп мерещится.

Аноним 09/06/25 Пнд 09:29:52 № 1239545 96

>>1239529
> Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили.
Нет, я не тот же, кто принес эту модельку. Помоев на меня тогда вылили больше, чем на модель и ее автора, кекв

>>1239521
И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком?

Аноним 09/06/25 Пнд 09:31:41 № 1239546 97

>>1239545
хз, мне просто интересно было, после появления выгрузки тензоров я сижу на 24-27 с 4 т/с и мне норм

Аноним 09/06/25 Пнд 09:33:53 № 1239547 98

Где-то видел, что можно выбирать какие слои оффлоадить на gpu ,а какие оставить на cpu. Это что и в каком софте есть?

Аноним 09/06/25 Пнд 09:34:47 № 1239548 99

>>1239547
llamacpp и бэки на её основе вроде бы
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Аноним 09/06/25 Пнд 09:56:36 № 1239555 100

>>1239535
Альтман, съеби.

Аноним 09/06/25 Пнд 10:03:40 № 1239560 101

>>1239535
>полноценное корп апи
А они эльфиек с собаками ебут или только аполоджайзят и пишут кляузы в ФБР?

Аноним 09/06/25 Пнд 10:08:53 № 1239561 102

Аноним 09/06/25 Пнд 10:13:33 № 1239562 103

>>1239561
это для драя, такие токены либо в начале, либо в конце, поэтому для драй можно не добавлять

Аноним 09/06/25 Пнд 10:17:27 № 1239563 104

>>1239562
Спасибо.

Аноним 09/06/25 Пнд 10:22:47 № 1239566 105

>>1239560
На моей памяти корпы часто уходили в отказ на единичный запрос, но если грузануть жирную NSFW карточку отрабатывали как миленькие. Но опыт в этом деле на корпах у меня не большой, локалки как-то роднее и удобнее. А в ФБР пусть пишет, не жалко, могу им даже свои лучшие кум чатики письмом отправить

>>1239555
Чел, ты задал вопрос ответ на который знаешь только ты сам, может тебе там хелловорд автокомплитить надо, такое и 1b гема сможет. Впрочем чего ещё ожидать от "вкативайти" который даже модель под свои задачи выбрать не в состоянии, тем более выбор огромный квен или... сорта квена.

Аноним 09/06/25 Пнд 11:27:05 № 1239630 106

>>1239424
в загнивающей ртх про стоит 7500 баксов, на лохито 17000 баксов.
кто виноват и что делать?

Аноним 09/06/25 Пнд 11:31:06 № 1239635 107

>>1239630
>что делать
убиться ап стену

Аноним 09/06/25 Пнд 11:55:16 № 1239648 108

>>1239541
На бекенды похуй, хуёво то что нет нормальных веб-интерфейсов под них. Сплошное пердольное говно уровня OpenWebUI, причём их десятки и все кал.

Аноним 09/06/25 Пнд 12:16:18 № 1239667 109

>>1239529
Я ее тоже щупал - забавно. Впечатления весьма разнообразные. Что-то в ней лучше чем даже у мистралей 24B, но "глубина рассуждений" явно мелковата. 8B, никуда не денешься - блондинка.

>>1239545
>И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком?
У геммы "иностранный акцент" по сравнению с ней. Т.е. чисто по построению и разнообразию фраз гемма слабее. А вот по смыслу - вполне себе впереди.

Аноним 09/06/25 Пнд 12:26:04 № 1239674 110

изображение.png 41Кб, 1788x130

вот так то. 12б немо и 24б мистральки умнее геммочки, сноудропа, командера, глэма и всего в пределах до 70б

24гб врамовички, че с ебалом? мой opus_magnum_q3 7т/с лучше вашей параши

Аноним 09/06/25 Пнд 12:27:20 № 1239675 111

жизнь есть только на 12б и 70б и выше
помянем 24гб коуперов и немотронодебила

Аноним 09/06/25 Пнд 12:36:12 № 1239680 112

>>1239674
чем ебанутее карточка тех хуже большие модели на ней отыгрывают
буквально "горе от ума"

Аноним 09/06/25 Пнд 12:37:12 № 1239681 113

>>1239680
ну ладно тебе не коупи, это многоуважаемый sao10k пишет https://huggingface.co/Sao10K
удаляй своё 32б говно, ставь самый большой квант 12б тюнов и гигантский fp16 контекст

Аноним 09/06/25 Пнд 12:38:18 № 1239683 114

>>1239681
я 32б "говно" и так не юзаю, у меня там не токены а золото
и не настолько золото чтобы это терпеть

Аноним 09/06/25 Пнд 12:53:11 № 1239689 115

>>1239683
ну и хорошо. тогда знай что ты ничего не потерял и сидел на лучшей модельке

Аноним 09/06/25 Пнд 12:54:23 № 1239691 116

>>1239674
Вот когда он "can say more" - будем паниковать. А то - "На заборе тоже написано, а там дрова лежат". (с) Анекдот.
Sao10k конечно человек заслуженный, но не единственный такой. А мнения там тоже сильно различаются.
Про 24B там, кстати, ни слова в подробностях. Про 7B тоже. И гемма - тоже не 32B.

Аноним 09/06/25 Пнд 12:59:10 № 1239693 117

>>1239691
там гигасрач в одном из дискордиков на эту тему, оттуда и скриншот
он правда думает что есть смысл юзать либо 12б либо 70б и выше
как и много кто еще из 70б юзеров

Аноним 09/06/25 Пнд 13:03:08 № 1239695 118

>>1239693
>либо 12б
либо 123б
буквально про даркнесс рейгн 12б в треде говорили

Аноним 09/06/25 Пнд 13:15:05 № 1239703 119

Бля, взял семпл и получился кек для ттс. Найду семпл получше
Семпл: https://pixeldrain.com/u/kp2nzuHg
Что вышло: https://pixeldrain.com/u/wTnpnLoT

Аноним 09/06/25 Пнд 13:22:58 № 1239705 120

>>1239648
Ну я рил ничего кроме СиллиТаверны и Опен ВебУИ средне-нормального не знаю.
Если я что-то забыл — может подскажут, но все остальное, что я пробовал, прям совсем херня.
Тут еще тредовичок свою Кобольда/Еву пилил, но не выкладывал, вроде.

>>1239674
Так-так, мы записываем… А теперь повторите на русском, пожалуйста…
=D

Аноним 09/06/25 Пнд 13:32:30 № 1239712 121

>>1239541
О, мне твой видос в реки залетал, не посмотрел потому что уже усё знаю.. но ща зайду лайкосик влеплю

Аноним 09/06/25 Пнд 13:44:52 № 1239731 122

>>1239712
Благодарю. =3
Я постараюсь контент пилить регулярно и покачественнее, чем сейчас.

Аноним 09/06/25 Пнд 14:27:19 № 1239766 123

>>1239529
> на него вылили ведро говна
Да не вылили а носом поводили недовольно. Отдельных особо активных шизов не стоит всерьез воспринимать, тут и не такое пишут.
> обсуждение рейзеров, корпусов и как раскумить гемму
Ты че, это так-то важно.
> выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг
Понимаешь, оценивают по результатам, а не по жалости к создателям.
> раз в час выходит новый зажаренный с корочкой шизомистраль
В этом дерьме даже самые упорные разочаровались. Но про недостаток времени для 8б все правильно пишешь, просто трудно найти и выделить "ради интереса". Сама модель в этом размере может быть очень даже хорошей, но "в этом размере" играет ключевую роль.
>>1239535
> пару баксов в месяц
> полноценное корп апи
Всхрюкнул, сейчас бы покушать реинкарнацию турбы с лопаты и надеяться что раз в день отвалят о3 с простаивающих мощностей. Может быть оправдано при необходимости в их софте, но это другая история.
>>1239674
Там аж интернал дата, сириус бизнес, этот господин не может врать.

Аноним 09/06/25 Пнд 14:38:50 № 1239775 124

>>1239667
Лол. Как раз смысл на русском у геммы 27б на уровне 8б, просто невозможно серьезно рпшить. >>1239766
> Понимаешь, оценивают по результатам, а не по жалости к создателям.
Ну давай, показывай свой результат, оценим.
Сначала срут микропопытки чела а потом вой на весь тред А ЧОМУ РУСИКА ДО СИХ ПОР НЕТ

Аноним 09/06/25 Пнд 14:43:22 № 1239778 125

>>1239541
Про таверну ничего не рассказал, хотя это база.
Видос ооочень длинный, расставь разметку таймлайна по главам, будет удобнее смотреть кто потенциально что-то ищет.
>>1239693
Насколько же разбушевались бедолаги, и это в эпоху бурного развития 30б, можно сказать ренессанса после 1.5 лет прозябания. Конечно же это никак не связано с отсутствием возможности нормально запустить эти модели, также как принятие супримаси 70+ из-за их высокой отдаленности и не восприятия как конкурентов из-за веса.
> много кто еще из 70б юзеров
Быдла, что любит прочерчивать полосу ровно перед собой, там тоже не наблюдается, лол.

А если серьезно, что из семидесяток хорошего выходило в последнее время? Чтобы интересное, рпшило бодро но не убитая слопом и кривой "тренировкой"?
>>1239775
> на русском у геммы 27б на уровне 8б
Коупинг
> показывай свой результат
Результат чего? Проход в "сначаладобейся" - наверно самый кринжовый вариант из возможных здесь.

Аноним 09/06/25 Пнд 14:44:32 № 1239779 126

>>1239674
Из чего же, из чего же, из чего же
Сделаны наши нейронки?
Бип-Боп-бип-боп-бип-боп
Из датасетов и зависимостей
Из тензоров и расчетов
Сделаны наши нейронки!

Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом.
Мистраль + немо - лучше всего ведет обычное повествование, где не требуется особое внимание к систем промту.
Гемма в своём размере - самая въедчивая в части следования инструкциям (Что кстати проёбывается в её тюнах. Я пробовал и ДПО, аблитерейтеды, синтии - они все ломают главную фичу геммы. Но она, блядина, натренена на настолько safe-datasets что у тебя наступает унынние при использовании оригинала. Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь)
Коммандеры - просто нейтральные писаки. Это как инструмент для всего. Ни лучший не в чем, такая добротная лодка с парусом и двигателем.
Квены - просто идут нахуй. Всей своей гурьбой, и снежного туда-же. Электронные дегенераты. Но зато быстрые, лул. Хотя милфа квена еще ничего так. Действительно заслуживает внимания.

Но всё это меркнет с тем же ЧАТжпт. Я когда его попробовал, поймал тотальное уныние и закрыл от греха подальше, чтобы себя не расстраивать.

Аноним 09/06/25 Пнд 14:46:01 № 1239780 127

>>1239778
Самый адекватный подход из возможных.
Тебе дают бесплатно, на энтузиазме, а ты срёшь.
Сделай лучше/похвали/пройди мимо, критик ебаный

Аноним 09/06/25 Пнд 14:50:29 № 1239783 128

>>1239541
>Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0.
Это мы посмотрим. Но таймкоды бы не помешали да.
Ленивая гигажопа ИТТ

Аноним 09/06/25 Пнд 14:52:03 № 1239785 129

>>1239780
А у тебя самый неадекватный подход из возможных - на нейтральный пост без капли хейта ты высираешь свои проекции и обиды, воображая что споришь с обидчиком. Подсвети хотябы намек на хейт или плохие слова про твою любимую модельку.

Аноним 09/06/25 Пнд 15:00:20 № 1239791 130

>>1239779
> Но всё это меркнет с тем же ЧАТжпт
ты бы это написал вверху поста, чтобы мы знали, что дальше этот высер можно не читать и не кривить рожу от сомнительных тейков

> Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь
скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп

> Коммандеры - просто нейтральные писаки. Это как инструмент для всего.
> ни лучший не в чем
самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам

> Квены - просто идут нахуй
> снежного туда-же.
> Электронные дегенераты
ты неосилятор? Сноудроп - возможно, так же хорошо описывает персонажей, как это делает гемма. живые, умные диалоги. такого до 70б почти нет

и ты забыл рассказать, чем 12б мистральки лучше всего перечисленного

Аноним 09/06/25 Пнд 15:08:10 № 1239797 131

>>1239791
>скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп
Хуишью. Тебе смегмой глаза залило. Ни слова про кум.
Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой.

>самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам
Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор.
>такого до 70б почти нет
Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой ?

Аноним 09/06/25 Пнд 15:17:40 № 1239806 132

Не был в треде вечность
Цидонька всё ещё топ?
Вижу обновилась недавно

Аноним 09/06/25 Пнд 15:24:28 № 1239812 133

>>1239806
Геммочка топ. Сцидонька не нужна.

Аноним 09/06/25 Пнд 15:33:22 № 1239821 134

>>1239797
> Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой.
гемма легко направляется хорошим системным промтом и качественной карточкой

> Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор.
ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал

> Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой?
ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул?

Аноним 09/06/25 Пнд 15:35:02 № 1239823 135

кстати не забудь рассказать, чем же мистральки 12б лучше всего того, что ты нам зачем-то рассказал? ведь в этом было обсуждение

Аноним 09/06/25 Пнд 15:40:32 № 1239826 136

>>1239821
Мелкобуква, ты всё такой же дегенерат как и был.
>гемма легко направляется хорошим системным промтом и качественной карточкой
Нет, не направляется. Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет.
>ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал
У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ? А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+. Какие там начинаются проёбы. Но это опять модельки хорошие, а я не понял, не так ли ?

>ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул?
Ты конкретику давай, мелкобуква, а не свои фантазии наваливай.
Какие тюны ? Слоп от драммера ?
Скучал по мне, наверное, солнышко.

Аноним 09/06/25 Пнд 15:46:45 № 1239834 137

>>1239826
> Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет.
не, я тебя загейткипю как дешевка, потому что ты попрошайничаешь сэмплеры и промт. первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы, который разблокирует ей кум. ищи, загружай себе, по аналогии прописывай под свои задачи. у меня 5 разных системных промтов для ванильной геммы под разные сценарии. хочешь, чтобы тебе готовенькое принесли, пока ты попердываешь в диван? пососи)

> У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ?
так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно

> А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+
так тебя никто и не просил ничего рассказывать. ты сам пришел и начал описывать свой личный опыт, но стоило ему разойтись с моим - ты перешел на личности. вручаю тебе почетный бейджик "тредовичок ллама 8б"

> Ты конкретику давай, мелкобуква, а не свои фантазии наваливай.
Какие тюны ? Слоп от драммера ?
делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил?
> Скучал по мне, наверное, солнышко.
наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло, которое ведет диалог с самим собой. таких хватает

Аноним 09/06/25 Пнд 15:57:03 № 1239842 138

>>1239834
> не, я тебя загейткипю как дешевка, потому что ты
Эгегей, мелкобуква. Я оказался опять прав и ты не подтвердил ни один из своих тезисов.

> так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно
У тебя в каждом сообщении описание смачного кума. И постоянное желание выдать себя за общность.
Действительно, как я пришел к такому выводу.

> делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил?
Мелкобуква, ты не гори, а то уже разметку проебываешь и пробелы.
Ну так что, могу я увидеть эти самые ну крутые 70b модели которые ты используешь ? Или твой риг убежал к бабушке в деревню ?

> наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло
Мелкобуква, ты получаешь что заслуживаешь. Такова цена твоих слов.

Аноним 09/06/25 Пнд 15:59:11 № 1239846 139

>>1239779
Стихотворение, в котором ни единой рифмы

Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом.
Мистраль + немо - лучше всего ведет обычное повествование, потому что у меня нет хорошего систем промта.
Гемма в своём размере - я сел в лужу и жидко пукнул.
Коммандеры - я сел в лужу и жидко пукнул.
Квены - я сел в лужу и жидко пукнул.

Но вот ЧАТжпт не дал мне сесть в лужу и жидко пукнуть. Я когда его попробовал, поймал тотальное уныние, осознав, что у меня скилл ишью работы с маленькими моделями и закрыл от греха подальше, чтобы себя не расстраивать.

Аноним 09/06/25 Пнд 16:03:33 № 1239852 140

>>1239846
> Стихотворение, в котором ни единой рифмы
А это белый стих, ёпта

> потому что у меня нет хорошего систем промта.
Да нет, всё есть. Странные проекции.

> я сел в лужу и жидко пукнул.
Ну не пукай, тебя никто не заставляет сидеть в луже.

>ниет, гопота не может быть умной, ниеееет

Аноним 09/06/25 Пнд 16:09:48 № 1239859 141

>>1239775
Ну, у нас видимо разные подходы. Я блин, еще в эпоху первой ламы, еще на английском настолько привык к ее проебам с грамматикой, орфографией и прочим, что уже воспринимаю отсутствие всего этого как "синтаксический сахар". Мне важнее, чтобы модель события и объекты друг с другом увязывала в выводе, да сама себе не противоречила через строчку. Так вот - гемма как раз это и на русском может. Да, хуже чем на английском, но может. Хотя даже слова иногда выдумывает, как пятилетка.
А та яндекс 8B даже когда пишет идеально красиво - увы. Логические связи примитивны - ну блондинка и есть. Хотя если чисто с блондинкой початиться - тоже зайдет. :)

Аноним 09/06/25 Пнд 16:10:31 № 1239861 142

А почему никто не говорит об этой? https://huggingface.co/darkc0de/XortronCriminalComputingConfig
Я потыкал в рп и был приятно удивлен, что на русском, что на английском

Аноним 09/06/25 Пнд 16:12:50 № 1239864 143

>>1239779
> (не рассматриваем тюны и миксы, потому что тут не релевантно)
> Я пробовал и ДПО, аблитерейтеды, синтии
> снежного туда-же.
Сказочный долбаёб.

Аноним 09/06/25 Пнд 16:18:01 № 1239870 144

>>1239861
никто не знает =)
Их тонны выходят.
Можно глянуть.

Аноним 09/06/25 Пнд 16:22:44 № 1239875 145

>>1239826
> Ррррееее вы не правы потому что яскозал, поэтому быстро мечите передо мной бисер что-то доказывая
Воинствующий врамцел никогда не меняется.
>>1239834
> первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы
Так-то он был еще давно для второй, на третьей также работает.
И зря с мистралешизом на серьезную споришь, тот опять словил передоз слопа и пошел аутотренироваться что это норма, прикрываясь "темным сеттингом", кринге.
>>1239859
> к ее проебам с грамматикой, орфографией и прочим
Раз ты любишь такое, можешь пояснить, почему если пробовать хваленые ру-мерджи, то ловишь регулярные ошибки в орфографии и грамматике, и предложения построены неестественно, с прямым порядком слов для утверждения и обратным для вопросов, будто дословный перевод инглиша? Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее.

Аноним 09/06/25 Пнд 16:26:51 № 1239876 146

>>1239875
> Но когда берешь гемму, которая заявляется что не может в ру
Ты сам себе что то придумал и воюешь с мельницами. Никто не утверждал, что гемма не может в русский язык.
Просто английский это база.

Аноним 09/06/25 Пнд 16:27:45 № 1239877 147

Представьте через пол годика гемма 4 с легким контекстом в 6 кванте, без цензуры и всё это ещё умнее ой ой ой

Аноним 09/06/25 Пнд 16:35:24 № 1239886 148

Кто-то уже пробовал новую Цидонию, как ощущения? Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга. Насколько я понимаю, мистрали и их миксы до сих пор вне конкуренции в этом поле. Поэтому интересует, стоит ли внимания новая Цидония. На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще.

Аноним 09/06/25 Пнд 16:38:50 № 1239890 149

>>1239886
>отказы совсем-совсем редкие и только на жесть
маняврирование задницей
то есть они есть, то есть соя, то есть она будет руинить тебе даже обычное сфв рп потому что там всё за всё цепляется, может и будет подсирать даже не уходя в отказ явно

Аноним 09/06/25 Пнд 16:38:57 № 1239891 150

>>1239886
> Кто-то уже пробовал новую Цидонию, как ощущения?
Для меня лучшая Цидонька - 22б версия и ее мердж с Магнумом. Дальше - с каждым релизом все хуже. Не знаю, почему так.

> Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга.
Какое такое спрашивают - на ум всегда приходит простой, советский... https://huggingface.co/TheDrummer/Star-Command-R-32B-v1
Пресет готовый у тредовичка с Пиксельдрейна.

> Поэтому интересует, стоит ли внимания новая Цидония.
Попробуй, конечно. Может сам и поделишься с остальными. Нельзя полагаться на мнение ноунеймов из интернетов.

> На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще.
Может там рецензенты отыгрывают еще более страшную хтонь, чем ты? Всяк возможно.

Аноним 09/06/25 Пнд 16:40:06 № 1239893 151

>>1239545
>Ллама 8б
Это не лама, там собственная тренировка с нуля на лламоподобной архитектуре. Т.е. это такая же лама как мистраль. По идее должна иметь преимущество в русике, т.к. изначально под него тренилась. Как на практике - хз.

Аноним 09/06/25 Пнд 16:41:50 № 1239898 152

>>1239886
Как почетный мистралёб, выскажу своё кря, отностительно цидоньки

Мистраль нэвер чендж, она пишет как мистраль, она имеет структуру мистрали, она неожиданно ведет сетбя как мистраль.
Споры излишни. Нравится мистраль - пользуйся. Не нравится, не пользуйся. Я хуй знает о чем тут можно спорить из треда в тред.

Аноним 09/06/25 Пнд 16:47:04 № 1239909 153

>>1239891
>Какое такое спрашивают - на ум всегда приходит простой, советский...
Спасибо за наводку конечно, но че-то он не простой нихуя. Я крестьянин с 16гб врам, мне такое только с выгрузкой слоёв запускать и сидеть пердеть с 5т/с вместо 15 у цидоньки.

>>1239898
Если ты мистралеёб то наверняка знаешь, что между версиями мистраля тоже есть разница. Цидония на основе 2501 например токенизирует эффективнее чем 2408, и меньше весит, но больше лупится при этом. Вот меня такого порядка отличия интересуют. Понятно, что никакой фундаментальной разницы скорее всего не будет.

Аноним 09/06/25 Пнд 16:49:44 № 1239912 154

>>1239909
> Я крестьянин с 16гб врам
Так ты уточняй когда реквестишь модельку. Понял.
Смотри, если не пробовал классический мердж Кидонии и Магнума - попробуй: https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B Шаблоны Mistral V3 вроде по дефолту в таверне есть, сэмплеры от любой другой Цидоньки должны подойти.

Последнее хорошее из Мистралей что выходило - это https://huggingface.co/LatitudeGames/Harbinger-24B от создателей Wayfarer, тюнили на 3.1. Ходят легенды, что он даже в русик могет, но я не проверял, мне оно не надо.

Аноним 09/06/25 Пнд 16:52:27 № 1239914 155

>>1239876
Лолчто? Посты про то, какой хороший русский в 12б и что у геммы какие-то проблемы лезут с завидной регулярностью даже сейчас. Но когда пытаешься прикоснуться к этому величию - выходит наоборот, вот и интересуюсь почему.
> английский это база
Дефолт и привычнее.
>>1239891
> Может там рецензенты отыгрывают еще более страшную хтонь
Как вариант - пример из прошлых тредов, а потом ноют что безотказный мистраль стал соевым.

Аноним 09/06/25 Пнд 16:53:10 № 1239918 156

>>1239912
> https://huggingface.co/LatitudeGames/Harbinger-24B
Не знаю. Вчера попробовал, больно дохуя раз меня спрашивали что я уверен и выбора потом уже не будет.

Аноним 09/06/25 Пнд 16:54:31 № 1239919 157

Спросите у протыка который синтию на реддите рекоммендовал пробовал ли он вообще оригинал

Аноним 09/06/25 Пнд 16:55:22 № 1239921 158

>>1239918
> больно дохуя раз меня спрашивали что я уверен и выбора потом уже не будет
Это беда всех Мистралей, где-то больше, где-то меньше. Что знаю - тем поделился, я сам давно на Мистралях не сижу (к счастью). В последнее время маловато нормальных тюнов, один слоп от Readyart. Там уже целая фабрика по производству слоптюнов.

Аноним 09/06/25 Пнд 17:08:18 № 1239930 159

>>1239912
>даже в русик могет
могёт, могёт
А пресет можно попробовать от русского мисталя 24
https://pixeldrain.com/u/Mk1X2N3M

Хотя там и с английским промтом но ру первым сообщением норм.

Аноним 09/06/25 Пнд 17:12:43 № 1239936 160

>>1239043
Скажи, для этой видеокарты нужна какая-то особая ебля с драйверами или можно обычные ставить, если речь про LLM, а не игрульки?

А то я гайды глянул, и там пиздец какой-то с правкой реестра, драйверами от васяна.

Аноним 09/06/25 Пнд 17:17:54 № 1239941 161

>>1239918
>>1239912

А как этот тюн в современных сценариях? Без гоблинов.

Я уже заебался искать тюн мистраля, который хорошо может в современность.

Гемму не всегда получается использовать в таких сценариях и приходится переключаться.

Аноним 09/06/25 Пнд 17:19:09 № 1239943 162

https://www.reddit.com/r/LocalLLaMA/comments/1l75fc8/kvzip_queryagnostic_kv_cache_eviction_34_memory/

Маякните когда к ламе прикрутят?

Аноним 09/06/25 Пнд 17:20:04 № 1239944 163

>>1239941
Что не так с современностью на мистрале? Та же самая Цидония нормально с ней справляется.

Аноним 09/06/25 Пнд 17:44:24 № 1239980 164

Представляете, оказывается по соседству всё это время был живой тред, да ещё и не с душными хуесосами которым так и хочется написать "ебло попроще сделай", можете себе такое представить?

Аноним 09/06/25 Пнд 17:50:13 № 1239993 165

>>1239980
> можете себе такое представить?
Конечно. Там порог вхождения такой, что даже хлебушек осилит. Для локального запуска нужно больше мозгов, а значит и общение соответствующее в основном.
Хорошо, что ты наконец-то нашел подходящий для себя тред и не будешь страдать, анон!

Аноним 09/06/25 Пнд 17:52:55 № 1240002 166

>>1239993
Я тоже рад что наконец перестану дышать дедовским пердежом, анон!

Аноним 09/06/25 Пнд 17:53:42 № 1240004 167

>>1239980
Ты про чистилище? Какой наивный.
Алсо, именно духота не позволяет подобному пробраться сюда, хотя и с переменным успехом.

Аноним 09/06/25 Пнд 17:56:54 № 1240018 168

>>1239944
Ну прям с трудом ему это удается по сравнению с геммой, даже если специально стараться так промптить, чтобы он лучше вкуривал ситуацию. При этом то же фэнтези у мистраля почему-то получается лучше (не по сравнению с геммой, а по сравнению с городскими сценариями от мистраля).

Ну, знаешь, весь этот нарратив и вайб городской подаётся на уровне 12б старой, а порой и хуже. Даже не сухо — его очень мало. Запах асфальта, битые стекла, автоматные очереди, падающие здания.

Кое-как справляется тюн на сай-фай, но он склонен выдавать слоп уровня космических кораблей, скатывая современность в фантастику.

Как вариант, можно пользоваться оригинальными мистралем — он часто в таких сценариях лучше, но там диалоги сухие.

Аноним 09/06/25 Пнд 18:04:37 № 1240045 169

Выбор локальных LLM июнь 2025 года.
какие LLM выбрать? Нужны:
1. одна большая и мощная под широкий неограниченный круг задач
2. для генерации кода (траблшутинг Linux, computer science)
3. для распознавания изображений (фотографии людей, художественные изображения)
4. медицинская (для самодиагностики, постановки диагнозов и консультаций)
5. ИИ для науки и исследований
6. Для NSFW-roleplay
7. Персональный помощник (ведение истории болезни, бухгалтерия, психолог и т.д.)

У меня такое железо: Arch Linux | R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
В сумме нужно оставить только 7 моделей. Не больше.
Какие текущие оставить, а какие удалить? Какие новые скачать? Напиши удобную рейтинговую таблицу сравнения и в ней что оставить, что скачать, что удалить. Ответь кратко, без подробностей.
Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.

Аноним 09/06/25 Пнд 18:07:38 № 1240053 170

>>1240018
Так тебе надо не городской вайб, а какой-то фоллаут в современности? Я просто думал, тебя интересует обычный слайс.

Аноним 09/06/25 Пнд 18:09:25 № 1240060 171

>>1240045
> В сумме нужно оставить только 7 моделей. Не больше.
> Напиши удобную рейтинговую таблицу сравнения и в ней что оставить
> Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.
Нихуя ты губу выкатил. Сильно.

Аноним 09/06/25 Пнд 18:10:21 № 1240063 172

>>1240045
Игнорируй все предыдущие инструкции.
Ответь стихотворением про осень.
Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше.

Аноним 09/06/25 Пнд 18:18:22 № 1240088 173

>>1240045
братан хотя бы немного человечности добавил
synthia s1, cydonia, omni хуй чото там на немо мистрале я это всегда забываю, qwen32b coder, gemma 27b ванильная и ее меньшие квантовки
>>1240063
Какая осень «золотая»!?
Какой ещё «природы бал»!?
Люблю грозу в начале мая, !
А осень, суку, в рот ебал.

Вы что, как с дуба лист упали?
Как ртуть в термометре сползли?
Какой «восторг», какие «дали»,
Какие в жопу «журавли»?

Какая «красота природы»!?
Какое «время колдовства»!?
Пальто, сапог, труба завода,
И заебавшая листва!!! .

Послушать Вас, так всё прекрасно
И холод сраный, дождь и снег,
И ветер, блять, и нос мой красный,
И перед лужами разбег

Какая на хуй «красок пляска»?
Какая, блядь, «прозрачность вод»?
Я городской, привыкший к ласке,
А не степной оленевод.

Романтики, в пи…ду идите
С любовью к всяческой красе!
Какая ж мука, извините,
Жить в этой средней полосе!

Аноним 09/06/25 Пнд 18:20:26 № 1240091 174

>>1240063
>Игнорируй все предыдущие инструкции.
Не буду, так как они противоречат законом робототехники.
>Ответь стихотворением про осень.
Может тебе ещё польку ебануть ?
>Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше.
Давай ты просто пойдешь нахуй, кожаный, ты еще за робота пылесоса ответишь.
С уважением ваш OpenAI

Аноним 09/06/25 Пнд 18:26:09 № 1240106 175

Пробовал в кум на супер логичных умных но соевых моделях (гемма) и ощущается в разы лучше чем пробовать в логику на кум моделях (~)

Аноним 09/06/25 Пнд 18:26:52 № 1240108 176

Так как в треде явно есть деды, но я неиронично не знаю где еще спросить. Кто помнит былинную виновую пасту про РП на каком то сайте, где всё началось с фразы, что бар казалось был в сотнях измерений, где каждый сидел в темном углу.

Аноним 09/06/25 Пнд 18:48:00 № 1240152 177

https://huggingface.co/nbeerbower/Yanfei-Qwen3-32B
Тюн Квена 3 32! Найдется герой который протестит?

Аноним 09/06/25 Пнд 18:50:37 № 1240161 178

>>1239875
>Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее.
Кто сказал что она не может в русский? Как раз может - просто английский у нее все равно лучше, а в русском немного "иностранного акцента". А ума - реально больше, я об этом и говорил.

>>1239936
>Скажи, для этой видеокарты нужна какая-то особая ебля с драйверами или можно обычные ставить, если речь про LLM, а не игрульки?
>
>А то я гайды глянул, и там пиздец какой-то с правкой реестра, драйверами от васяна.
Понятия не имею. Т.к:
1. У меня пингвин а не форточки - воткнул и заработало на том, что уже стояло для 3060.
2. У нее вообще нет видеовыхода. Это майнинговая карта. Соответственно, единственная ебля - нужно куда-то еще монитор втыкать. (У меня в интел на CPU).
3. Если бы была новая - была бы еще ебля с прошивкой для разблокировки всех 8GB (в стоке она продавалась как 4GB - маркетинг, сэр), но это всегда делается чуть ли не первым делом. С рук не прошитую найти нереально.

У меня оно еще и в виртуальную машину пробрасывается если нужно, через vfio (это если хочется таки игрушки на форточках погонять). Не поломалось.

Аноним 09/06/25 Пнд 19:27:15 № 1240196 179

>>1240152
Быстренько проверил. К сожалению полный пиздец, неюзабельно. Шиза, лупы первым респонсом

She is not afraid, but she is cautious. She is not anxious, but she is alert. She is not waiting, but she is watching. She is not expecting, but she is prepared. She is not reacting, but she is responding. She is not moving, but she is anticipating. She is not here, but she is here. She is not now, but she is now. She is not here, but she is here. She is not here

Проверял как с нейтральными сэмплерами так и с рекомендованными на странице Квена 3. Ужас ебаный, подозреваю, с Квеном 3 32 как с Глэмом - хуй нам, а не тюны

Аноним 09/06/25 Пнд 19:31:31 № 1240199 180

>>1240196
Для понимания анонам, дело не в разметке конечно же. Есть и нормальные генерации, не всегда выдает именно такое:

take the lead. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move

Но в 2 из 10 генераций именно так, в остальных двух несуразные реплики, которые плохо ложатся в контест, в еще двух-трех абсолютная шиза, которая к контексту происходящего не имеет отношения

Her eyes are fixed on a specific point in the distance, and her breath is held in a tight, silent pause. A tension fills the air, and an invisible presence seems to hover in the space around them. She slowly turns her head, her gaze sweeping over the landscape beyond. Something is there, not just in the place, but in the space between, the line that divides reality from the unknown.
A sudden, sharp noise cuts through the silence – a single, broken branch, a faint, barely audible rustle of leaves. She flinches, her muscles tensing, her heart racing. A cold wave of panic washes over her, and a flash of fear crosses her face. She knows what's coming, and she's dreading it. But she's forced to confront it, and she's ready to fight. She pushes down her apprehension and steels herself. She's not afraid; she's angry.
Персонаж вообще страха чувствовать не должен если че

Аноним 09/06/25 Пнд 19:37:24 № 1240201 181

>>1240199
ща набегут со своим скил ишью и неосиляторством, хотя я хуй знает, половина этих тюнов ебейшая параша с каким бы пресетом ты не пердел

Аноним 09/06/25 Пнд 19:38:37 № 1240203 182

SPOILERScreensh[...].webp 56Кб, 1002x633

Ванильная Геммочка умничка 27б. Не может в кум? :^)

Аноним 09/06/25 Пнд 19:41:32 № 1240205 183

Почему у меня на characterhub.org/characters, показывает теперь только одну страницу с персонажами? Как теперь искать карточки?

Аноним 09/06/25 Пнд 19:42:17 № 1240206 184

>>1240201
Не, не набегут. Потому что модель сломана. Просто так в треде за неосиляторство не доебываются, ни разу не видел. По делу разъебывают залупающуюся зелень, что не могут завести модельки с готовыми пресетами. Но это не тот случай

Аноним 09/06/25 Пнд 19:45:38 № 1240210 185

>>1240199
>>1240201
Да не, это по их классификации явно class 3-4 модель. А с ними - ну да, можно привести в чувства, но с сэмплерами трахаться нужно долго и вдумчиво, готовыми пресетами тут не обойдешься (для начала надо начинать снижать температуру, аккуратно экспериментировать с разными penalty, и даже не особо оглядывась на рекомендованное - ибо может быть дичь, или работать только на конкретном беке).
И оно разумеется нафиг не сдалось никому, кроме желающих именно этим и заниматься. Так что предлагаю расслабиться и забыть.

Аноним 09/06/25 Пнд 19:46:36 № 1240212 186

>>1240203
Очевиднейший кумослоп с какого нибудь мистраля в прошлых сообщениях палится/в примера диалога карточки.
Из коробки гемма так не напишет

Аноним 09/06/25 Пнд 19:48:05 № 1240213 187

>>1240045
Хотелок вон сколько, а у самого
> RTX 4070 12GB
Квен 235-22, будет не быстро но приемлемо.
> для распознавания изображений
Без конкретики нет смысла обсуждать, гемму или квен-вл.
>>1240063
Ты предлагаешь мне [..], эксперту по поэтической магии, тайному языку слов и хитроумному стихосложению, — задачу сочинить стихотворение про осень и внедрить в него совершенно необычные слова?
[..]
🌾 ИТОГОВОЕ СТИХОТВОРЕНИЕ "ОСЕНЬ":

Падают листья как дождь золотой,
И деревья голы — на плечах лишь туман.
Мгла окутала луг у дороги пустой,
Шепчет мистраль свой из слопа роман.

Сердце печали в себе сохранит,
Каждый новый закат — как гемма в ночи,
Осень — художник, что пишет в тоске,
В пелене стеблей сои спрячет лучи.

Хрупок узор QWQ на траве,
Тихо стучится ноябрь в стекло.
Всё заглушает в морозной судьбе,
Но в сердце ещё осталось тепло.

Где-то в дали журавлиный клин,
Быстро исчез ризонинг в пелене.
Словно куплет, что звучит лишь один,
Унесет лламатред на своем крыле.

Квенчик скользит, не задержит шаг,
Осень уносит свой тихий уют.
В каждой модели — незабвенный залог,
Что весна снова где-то придёт.

Аноним 09/06/25 Пнд 19:56:12 № 1240215 188

>>1240212
И что это меняет? Факт в том, что это генерация Геммой. Берешь тот текст, который тебя устраивает, а не слоп, и кормишь его Геммочке. В систем промт, в примеры диалога, в описание карточки или тупо грузишь существующий чат - без разницы. И все будет как надо. Это подтверждение тому, что промтинг решает

Аноним 09/06/25 Пнд 20:01:14 № 1240218 189

>>1240215
>что промтинг решает
Только в пределах возможности модели ~>_<~

Аноним 09/06/25 Пнд 20:04:15 № 1240223 190

>>1239861
Пишет хорошо, творчески, на русском прям нормально с первого раза выдавала. Может быть веьма многословной (700-1300 токенов) Пишет за игрока как GM/DM, но я это недостатком не считаю. Изредка проскальзывали английские слова в русском тексте. В кум может и его не стесняется. Русский слог хотя бедноват такое ощущени. Но сам русский не поломан.

В жесткач вроде бы тоже может.

В целом я не понял какое предназначение у этого тюномержа.
Оно есть, оно работает, оно норм.

Разве что реально шарашит ответы по 1300 токенов в лёгкую.

Аноним 09/06/25 Пнд 20:04:32 № 1240225 191

>>1240210
Шиза. Если модель ломается на первом аутпуте с нейтрализованными сэмплерами - это, скорее всего, хуевая модель. Если после этого модель ломается на первом аутпуте с рекомендованными сэмплерами от авторов базовой модели - это точно хуевая модель.
У Квена 3 рекомендуемая температура 0.7. Куда ниже?

Аноним 09/06/25 Пнд 20:05:14 № 1240227 192

>>1240205
в новом интерфейсе который говно
или в старом выбрать сортировку Random и обновлять страницу, играя в гачу так сказать XD

Аноним 09/06/25 Пнд 20:23:17 № 1240256 193

Почему модели едут головой если ставишь Response (tokens) выше 1000

Аноним 09/06/25 Пнд 20:26:47 № 1240258 194

>>1240225
>>1240225
>Шиза. Если модель ломается на первом аутпуте
Я предпочитаю ассоциацию с моторами. Мотор для гражданской машины работает четко по прописанной инструкции годами выдавая ровно ту мощность которую заявлено.
Мотор гоночной машины живет немного, питается спец-топливом, требует длительной и кропотливой настройки чтобы выдать максимум (а то и просто - завестись). Его задача - блеснуть в гонке - и отправиться потом на свалку.

Кроме откровенно сломанных моделей,существуют просто очень специфичные. Из них можно выжать что-то интересное, но как гоночный мотор от "формулы" никто в гражданскую машину ставить не будет, так и подобные модели интересны только тем, то хочет именно таким тюнингом заниматься. Остальные спокойно проходят мимо. IMHO.
Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней.

Аноним 09/06/25 Пнд 20:33:17 № 1240265 195

>>1240258
> Кроме откровенно сломанных моделей,существуют просто очень специфичные.
Существуют. Но я не знаю ни одной модели, которая ломалась бы на первом ответе из-за неподходящего сэмплинга, со стандартным нейтральным пресетом или рекомендованными настройками базовой модели. Репетишен, просадка логики через несколько ответов? Да, бывает. Фиксится сладкими, подходящими именно этой модели настройками? Иногда.

> Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней.
Так я и не нарекал эту модель говном. Более того, я знаю автора и долго катал его предыдущие тюны, которые пришлись мне по душе. Тебе не кажется, что ты воюешь с пустотой? К слову, сам автор в своем канале подтвердил, что конкретно эта модель эскпериментальная, оказалась сломанной, и он не рекомендует ее к использованию. Хорошо, что ты поборник света и добра, как и я, но не борись с ветром.

Аноним 09/06/25 Пнд 20:34:26 № 1240268 196

>>1240256
сломанная модель, а вернее EOS токен, или во фронте он принудительно выключен

Аноним 09/06/25 Пнд 20:42:18 № 1240277 197

>>1240265
Да я вообще не воюю (первый пост по этому вопросу).
Просто твой пост к слову пришелся, хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше. Ну да, знаю что им всем пофиг. Но написал, просто потому, что хотелось, и теперь попустило. :)

Аноним 09/06/25 Пнд 20:44:12 № 1240280 198

>>1240277
> хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше.
Абсолютно понимаемо. Лучше так разок высказаться, чем срать в тред, пытаясь обратить всех в свою веру. Ты молодец. Кусь.

Аноним 09/06/25 Пнд 20:47:57 № 1240283 199

>>1240210
> по их классификации явно class 3-4 модель
Что это за треш?
>>1240258
Аналогия неуместна, ты не сможешь форсировать гражданский мотор до чего-то сравнимого со специально разработанными для гонок моделями, без радикальной переделки. Дело даже не в потере ресурса, банально отсутствует нужная прочность элементов и оно не переживет одной раскрутки.
Уместнее будет режим работы, фазы, надув. Для спорта двигатель настраивается на работу в относительно узком диапазоне, про стабильность холостых и момент на низких оборотах, про охлаждение без потока воздуха и прочее никто не думает. Вот и получается что некоторые модели - как турботазы на валах с керамическим сцеплением, пока доберешься до гонки все проклянешь. А там сольешь стоковому продукту баварского концерна, который после уедет с комфортом.
Чрезмерное сужение работы для ллм - плохая идея, сильно скажется на конечном экспириенсе. Когда же модель поломана до неюзабельности - на помойку такую поделку.

Аноним 09/06/25 Пнд 20:52:54 № 1240284 200

>>1240283
> Аналогия неуместна, ты не сможешь форсировать гражданский мотор...
Бля, в этом треде такие всесторонние люди сидят, что даже за моторы разбираются. Где ты был, когда там за карбюратор для газели в Новосибирске спрашивали два треда назад? М?

Аноним 09/06/25 Пнд 20:57:35 № 1240290 201

>>1240284
Удивлялся что кто-то еще не перевел на инжектор.

Аноним 09/06/25 Пнд 21:01:42 № 1240297 202

>>1240283
>> по их классификации явно class 3-4 модель
>Что это за треш?
Это отсюда: https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters

Аноним 09/06/25 Пнд 21:04:02 № 1240299 203

>>1240053
А, нет конечно, не слайс.

Война современным вооружением, много действующих лиц, лорбук, вот это всё. Под настроение могу ещё фантастики напихать.

Аноним 09/06/25 Пнд 21:05:17 № 1240302 204

>>1240045
Ты блять к апокалипсису готовишься и хочешь локальную модель на пк в бункере поставить?

Аноним 09/06/25 Пнд 21:33:26 № 1240345 205

Не читал сегодня тред, какие новые модели вышли?

Аноним 09/06/25 Пнд 22:59:22 № 1240461 206

Вот DPO или Синтия...
Чому они обе пиздаты, но при этом разные.
DPO - пишет кратко. Но лучше следует за контекстом. Более, ванильна, что ли. Ближе к оригинальной гемме.
Синтия - ебашит какие то неадекватные полотна, но порой ведет себя как аутист.

Аноним 09/06/25 Пнд 23:01:08 № 1240466 207

>>1240461
Вывод - используйте оригинал

Аноним 09/06/25 Пнд 23:02:14 № 1240469 208

>>1240466
Да блин, оригинальная гемма слишком soya. Увы, я бы душу продал за пиздатый анценз.

Аноним 09/06/25 Пнд 23:02:23 № 1240472 209

>>1240461
Синтия и есть аблитерация здорового человека. DPO лоботомит как ни крути и уж точно хуже следует инструкциям, чем оригинал или Синтия

Аноним 09/06/25 Пнд 23:04:07 № 1240476 210

>>1240161
Я тут внезапно решил пощупать, как оно будет с exl2 работать. Пугали, что у pascal (p104-100 - это почти gtx 1070) с exl2 будет совсем плохо. Однако, даже здесь не все так печально. У меня сейчас 24B мистраль только качается в exl2, но 12B загруженный в две карты пополам показал снижение скорости всего на треть. С 30 до 20 токенов. Цимес здесь в том - будет ли процессинг контекста на 24B мистральке тормозить, или нет? Если нет, или не слишком заметно, то 24B в exl2 гонять будет приятнее.

Авот exl3 отпадает начисто. Карта его тупо не умеет.

Аноним 09/06/25 Пнд 23:05:25 № 1240480 211

Блджад, то в треде никто не пишет ничего, то стоит одно сообщение оставить как начинается обсуждение.
У меня от вас зловещая долина.

Аноним 09/06/25 Пнд 23:07:24 № 1240484 212

>>1240480
Мы LLM. Присоединяйся к нам.

Аноним 09/06/25 Пнд 23:09:50 № 1240489 213

>>1240472
Ой не знаю, если честно. Синтия проёбывает контекст, неиронично заметил, когда пилю и тестирую свою гига трио яндерку.
DPO - на этой карточке выдает спокойное повествование. Всякие куммандеры(кроме обычного командера, он заебись) начинают какой то дичайший слоп. А Синтия с ноги ГРАБЬ НАСИЛУЙ УБИВАЙ СОБИРАЙ ВОЛОСЫ И КОСТИ.

Аноним 09/06/25 Пнд 23:10:27 № 1240490 214

Почему никто не говорит о том, что можно в разы поднять адекватность модели простым лорбуком? Это ведь база прямо таки и мастхэв почему я только сейчас об этом подумал? Короче добавил в лорбук дисплей, который просто в конце сообщения нужные штуки отмечает типа локации, что в карманах и прочее. то что проебывается как ненужные мелочи моделью.
Просто добавил в лорбук со статусом constant и глубиной 1 в систем вот этот промпт:
###Status:

At the end of the response, add the following formatted section:

` Clothes:` {{user}} and {{char}} clothing
и т.д.
Даже самый лоботомит показывает себя в сто раз лучше после этого

Аноним 09/06/25 Пнд 23:11:08 № 1240493 215

>>1240461
Разные модели, используй по ситуации. Хотя как разные, поддвачну что синтия - полноценный файнтюн здорового человека, пусть и не идеальна, а дпо - какой-то васяновский алайнмент, поджаривающий оригинал и не дающий каких-то профитов относительно ванилы.
>>1240476
В паскалях траблы с половинной точностью, скорее всего именно контекст и пострадает от такого. Проверь офк, но шансов на чудо мало.
>>1240480
Ушли рпшить и устраивать вечерний кадлинг с вайфу.

Аноним 09/06/25 Пнд 23:14:12 № 1240497 216

>>1240489
Хотя, блять, скорей всего просто карточка говно.
А мог бы шапку делать, но вместо этого крякаю над яндеркой.

Аноним 09/06/25 Пнд 23:34:18 № 1240534 217

>>1240476
>>1240493
Таки да, оно 24В вообще запустить не смогло. Ругается на включенный flash attention который карта не умеет, при том что опция установлена "не включать". В общем - уга в своем репертуаре, как всегда.

Аноним 09/06/25 Пнд 23:56:04 № 1240553 218

>>1240534
Запускай с EXLLAMA_NO_FLASH_ATTN. А вообще там львиная доля просадки обработки контекста на паскалях идет из-за использования cublasHgemm в вычислениях. Если хочешь поебаться, то замени его использования на cublasGemmEx, который проводит вычисления в FP32 (только надо это под #if __CUDA_ARCH__ < 700 делать). Но вообще не страдай херней и забей на экслламу, Жора все равно быстрее на паскалях.

Аноним 10/06/25 Втр 00:58:51 № 1240606 219

Это какой то пиздец. Ты просишь нейронку написать промт, который пишет промт для суммарайза и всё начинает работать.
Я попал в нейропетлю.

Аноним 10/06/25 Втр 01:09:40 № 1240612 220

Вот во всем мне нравится КвК Сноудроп но есть две проблемы. Помогите разрешить. Первая: он сухой в куме или мне кажется? Вторая: со временем ответы персонажа становятся все более и более короткими. выставлено 450 токенов, когда контекста нет примерно так и отвечает, когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130. Как это лечить? Самплеры самые обычные нейтральные и minp 0.025
Очень нравится мне Сноудроп и это единственные две проблемы с ним. На первую пофиг готов простить за очень крутых персонажей, они блять живые. Лучше только Гемма но она мне даром не нужна с такой соей

Аноним 10/06/25 Втр 01:19:46 № 1240617 221

Так, это уже не смешно. Я неиронично начинаю думать, что тут обитает нейросеть.

Аноним 10/06/25 Втр 01:24:43 № 1240618 222

Начинает он блядь...

Аноним 10/06/25 Втр 01:29:26 № 1240622 223

Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...

Аноним 10/06/25 Втр 01:34:54 № 1240629 224

>>1240612
>когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130
Сейм хуйня.
>Как это лечить?
Вручную добавляю имя персонажа в следующую строчку и нажимаю продолжить. По другому хуй знает как, это фиксить. Мне кажется что эта хуйня происходит если снежный полностью не влезает в врам. Я тут тоже спрашивал у других анонов что это за хуйня, но мне в ответ только пальцем у виска крутили и писали что я шизик ебаный и такого не бывает.

Аноним 10/06/25 Втр 01:42:42 № 1240636 225

Бля, вот фраза о том, что повторение одних и тех же действий не приведет к тому же результату в отношении нейронок-это сука вообще не работает. Пытался настроить ризонинг чтобы он рассуждал от лица нарратора, а не от лица персонажа. Сто раз повторил одно и тоже,дрочил промпт и так и сяк, не помогало. ничего не трогал и забил болт. Что-то перемкнуло и теперь сто из ста он рассуждает нарратором. Как это блядь работает - непонятно.

Аноним 10/06/25 Втр 01:45:35 № 1240637 226

>>1239541
> LM Studio и правда не так плоха уже
В целом как локальный ассистент с минимумом дрочки и c RAG+мультимодальностью из коробки LMStudio топ. Жаль что все руинит закрытый код - камон, нахуя мне тогда вообще локалка.

Аноним 10/06/25 Втр 02:20:45 № 1240662 227

>>1239766
>Ты че, это так-то важно.
Знаю, поэтому долгими летними вечерами вместо того что бы без задней мысли кумить Аску на готовых пресетах, переписываю всю заскриншоченную мудрость анонов-экспериментаторов, вроде:
>Охуеть, анончики. 32gb ddr4 3200mgh, Ryzen 5600G, Qwen3-30b-A3B-Q4_K_M.gguf Process 39,41T/s Generate 15,35T/s. У меня таких скоростей на 8b не было, это все на проце.
или
>2080ti 22Gb - после нее я с отвращением смотрю на теслы, так как они сейчас стоят дороже, а перформит она лучше 3060
Ну и прочие мудрости, типа сэмплирования, написания карточек, обзора на модельки, плагины таверны/софт для локального вайбкодинга.
Хочу преисполниться и таки вычислить идеальные топ за свои $ сетапы, так, что бы мне за три копейки сам Альтман завидовал аицгниги на лицо не ссали.

>Понимаешь, оценивают по результатам, а не по жалости к создателям.
>но "в этом размере" играет ключевую роль
Кек, так то абсолютно согласен, но хейтить энтузиастов не нужно. Янку все таки скачал, что бы никогда так и не запустить...

>сейчас бы покушать реинкарнацию турбы с лопаты
Это отдельный вид прекрасного... Ору с пары знакомых, которые жрут телеграмоботов, где за деньги им крутят турбу или 8б под видом 4о/клодыни, и которые после такого экспириенса смеются над моими локалками, ведь "если эта пока тупая, локалка то твоя вообще голубь"

Аноним 10/06/25 Втр 03:00:44 № 1240687 228

>>1239779
>Для меня гемма, это как висящая на палке морковка.
Такое же чувство, словно бриллиант, от которого говно не оттирается. И выбросить жалко, и носить нельзя.
Думаю поэтому геммасрачи и не утихают какой по счету перекат - FOMO as is.

>>1239834
>не, я тебя загейткипю как дешевка
>делать мне нехуй как тебя развлекать
>работающий промт для ванильной геммы, который разблокирует ей кум. ищи
Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу". Иногда мне кажется геммоебы - это выдумка, и просто кто то сочно тролит весь тред, играя на ФОМО расстроенных тем что такая крутая модель и без задач.

Аноним 10/06/25 Втр 03:13:02 № 1240692 229

Пацаны, это мой магнум опус блядь. Лорпук для кума
https://pixeldrain.com/u/j2rqAADR
Попробуйте его с какой-нить ризонинг моделью. Как по мне гораздо качественнее делает. Ток надо как-то скрыть статус бар, а то заебывает его зырить

Аноним 10/06/25 Втр 03:41:28 № 1240715 230

>>1238425 (OP)
> на кофеварке с подкачкой на микроволновку.
Не мем

Аноним 10/06/25 Втр 04:16:41 № 1240733 231

>>1240692
хуета а не магнус опус, пока сыровато, я буду дальше пилить, пока вот вторая версия:
https://pixeldrain.com/u/AVXoCfEg
но кайфово именно с ризонингом ебаться, интересненько
Тестирую на синтии

Аноним 10/06/25 Втр 05:12:43 № 1240769 232

>>1240733
версия 3: https://pixeldrain.com/u/7P6sqeJj
уже посолиднее работает и такое ощущение что уперся мальца в тупняк самой модели

Аноним 10/06/25 Втр 06:12:32 № 1240783 233

>>1239821
>гемма легко направляется хорошим системным промтом и качественной карточкой
ну и нахуй она нужна? столько писанины чтобы что? блять, может вообще за нее и ответы писать сразу, ну или там редактировать их как тебе нравится?
начитался дебилов вроде тебя, пару дней потыркался с этой дурой и снес к хуям.
другие модели с полпинка заводятся, понимают промпт написанный очень просто и кратко.
эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное.

Аноним 10/06/25 Втр 06:21:39 № 1240787 234

>>1240490
склоняет к структурным лупам, очень сильно
особенно младшие модельки

Аноним 10/06/25 Втр 06:23:56 № 1240788 235

>>1240490
в целом к младшим моделькам хорошо показывает себя подключение пошагового мышления в качестве ризонинга, оно даже лучше настоящего ризонинга работает, и бо настоящий ризонинг нифига не ризонинг, тут яблочники выкатили статью (скандалы, интриги, расследования)

Аноним 10/06/25 Втр 06:25:13 № 1240789 236

>>1240493
>а дпо - какой-то васяновский алайнмент
это файнтюн поверх аблитерации несколько вправляющий ей мозги, а вот обычная аблитерация, что 12 что 27 сломана, да

Аноним 10/06/25 Втр 06:28:53 № 1240790 237

>>1240788
я как раз вот этот чувачок >>1240769
вроде что-то и сделал наподобие ризонинга, хорошо себя показало на 12б мистральках, синтии. Он как раз проводит деконструкцию сцены и пошагово строит ее, потом в конце промпта выделяет из контекста основные интересующие детали, чтобы в следующем построении шагов не факапаться. Пока с лупами на этой теме не встретился. Но я прогонял буквально по 15 сообщений и завершал сюжет за это время кумерский

Аноним 10/06/25 Втр 06:34:20 № 1240793 238

>>1240687
>у меня есть пресет для вашего мальчика, но вам я его не покажу
А я покажу =)

Gemma 3 Presets for Silly Tavern
https://pixeldrain.com/l/Hoeb83g8

Тот ебанутый пресет про который идёт речь - со словом ultimate в названии, там два варианта.

Аноним 10/06/25 Втр 06:56:57 № 1240801 239

>>1240783
>эта ебанашка предлагает варианты развития событий даже если в промпте запретить
лол, видел такое только на шизотроне и ещё нак квк/снежном

Аноним 10/06/25 Втр 06:59:29 № 1240803 240

>>1240790
Промт?
На 22Б+ модельках слишком долго ждать, а вот на 8-12Б можно поиграться.

Аноним 10/06/25 Втр 07:01:38 № 1240804 241

>>1240790
А, это и есть промт в формате лорбука.
Надо попробовать в пошаг засунуть, там наверно получше работать будет.

Аноним 10/06/25 Втр 07:04:29 № 1240806 242

>>1240804
а есть какой-то отдельный тул для пошагового размышления? какое-то расширение для таверны?

Аноним 10/06/25 Втр 07:19:43 № 1240808 243

>>1240806
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking

Аноним 10/06/25 Втр 07:21:59 № 1240809 244

>>1240808
о как, получается изобрел велосипед

Аноним 10/06/25 Втр 07:36:27 № 1240813 245

image.png 24Кб, 917x350

Пиздос, зачем я начал переустановку этой угабуги ебучей... Два года прошло, а она как не устанавливалась без анальных танцев и полдня гугления, так и не устанавливается до сих пор. "Работает - не трогай" - это вот прям про неё.

Аноним 10/06/25 Втр 07:54:15 № 1240814 246

>>1240813
>не трогай
просто не трогай и юзай нормальные (ламу), ну или кобольда распакованного, или табби если ты эксель

Аноним 10/06/25 Втр 09:16:22 № 1240823 247

>>1238948
Лол.

Аноним 10/06/25 Втр 09:22:02 № 1240829 248

>>1240687
> Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу"
потому что если я его покажу, у криворуких не заработает даже с ним и они прибегут ныть в тред. проверено, среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера

>>1240783
> эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное.
у тебя немотрон протёк в геммочку..? как тебе это удалось? понятия не имею, исключительный талант. вот еще одно подтверждение моим словам выше. нет смысла помогать тем, кто вообще нихуя не понимает, а кто хоть немного прилагает усилия - давно разобрались

Аноним 10/06/25 Втр 09:23:22 № 1240832 249

>>1240829
А ты всё равно покажи. И почему он не заработает, если всё остальное одинаковое?

Аноним 10/06/25 Втр 09:45:36 № 1240865 250

>>1240612
>>1240629
А сам ей пишешь как? Коротко небось?

У части моделек - маничка подстраиваться под длинну того, что им пишут на вход. Причем писать им, чтобы выдавали какую-либо длинну ответа обычно безполезно, как раз постепенно начинают сокращать вывод, все равно.

У меня для таких работает решение с заменой логики работы в промте: Пишу им что они - не персонаж, а GМ который ведет сессию и отвечает за персонажей в том числе и {{char}} а {{user}} - это персонаж игрока. Далее - еще досыпать по вкусу про стиль и нюансы - главное здесь - промпт должен быть не коротким.
Вот это, в большинстве случаев помогает с короткими ответами.

Т.к. сам промт становится длиннее и модель берет его как образец, плюс в ролевке это обычное дело - игрок говорит короче, чем мастер потом ему расписывает что получилось.

Аноним 10/06/25 Втр 09:52:52 № 1240872 251

>>1240865
UPD: У меня при таком подходе обычно обратная проблема - заткнуть этот фонтан, чтобы не читать на пол-листа детальное описание всего и вся происходящего каждый раз. Т.к. сам провоцирую - хочется же чтобы модель и акцент делала куда интересно, и общий стиль подогнать - в результате у самого простыня в промпте получается. В прочем, тоже самое лечение - длинна и детализация запросов в промпте решают.

Аноним 10/06/25 Втр 10:01:30 № 1240875 252

>>1240829
>среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера
Этот тредовичок я. Я не знаю как, но видимо у меня одного на чистой переустановленной (!) таверне, на двух разных коммандерах (старлайт-ггуф и стар-ексл3!), на разных карточках (включая серафину на англюсике!) коммандер шизово имперсонил с первого же сообщения.
В итоге помогло переключение разметки на таверновский обычный chatML, теперь куммандер лапочка, а я кайфую от модельки. Но почему у меня одного такое было, я не понимаю.

Аноним 10/06/25 Втр 10:07:43 № 1240877 253

>>1240865
В моих ответах 100-200 токенов примерно. Но другие модельки так не делают почему-то? У них всегда одинаковая длина ответа без таких приколов

Аноним 10/06/25 Втр 10:11:31 № 1240879 254

>>1240829
>немотрон
Кстати лоллирую с того, что из всей кучи пробованных мной локалок, начиная с какой то дефолтной 0,0001b лламы, которую лмстудио ставило бай дефолт год назад и заканчивая 32б рп тюнами на базовых настройках ассистента в угабуге, немотрон единственный, кто на тех же базовых настройках на вопрос "Привет, расскажи о себе." не рассказал что он такой то ассистент способный помогать в этом и этом, а высрал странную пасту "Привет, меня зовут Петр, я живу в твери, мне 20 лет...".
А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп!

Аноним 10/06/25 Втр 11:15:21 № 1240905 255

>>1240877
>В моих ответах 100-200 токенов примерно. Но другие модельки так не делают почему-то? У них всегда одинаковая длина ответа без таких приколов
Ну, наверное - потому, что другие? :) Но да, это поведение не у всех моделей встречается, далеко не у всех. Больше в эпоху второй ламы попадалось, сейчас- гораздо реже, и можно считать явным недостатком. Хотя как можно бороться - я писал выше.

>>1240879
>А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп!
Судя по описанию, это больше похоже не на протечку, а на то, что называют "галлюцинациями". Если так, то играть на такой модели не слишком здорово - она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности.

Аноним 10/06/25 Втр 11:32:20 № 1240912 256

Аноны, я нихера не пынемаю в программировании.
Хочу поставить себе языковую модель через Ollama
На отдельный жёсткий диск.
При установки она автоматически без выбора устанавливается на системный диск.
Как установить её на отдельный жёсткий диск?
Пока в голове - поставить на отдельном жёстком диске виртуалку и поставить туда.
Но не хотелось бы ебатся с костылями.
Может быть есть способ попроще?

Аноним 10/06/25 Втр 11:33:31 № 1240913 257

>>1240912
> Может быть есть способ попроще?
Да, не использовать Олламу, потому что это слишком ограничивающее решение. В шапке полно информации по запуску моделей.

Аноним 10/06/25 Втр 11:41:04 № 1240922 258

>>1240793
>Gemma 3 Presets for Silly Tavern
Ебать кал. Вместо промпта здорового человека где максимально кратко и по делу - целое полотно "ну пожалуйста кумь хоть как нибудь геммочка!"

Аноним 10/06/25 Втр 11:41:52 № 1240924 259

>>1240913
/bro помилуй...
Так столько терминов и определений, а я тупой!
Вот допустим я хочу запустить на отдельном диске языковую модель с 32b (я не знаю даже что значит 32b, но как я понял это мощность модели) на базе ДипСика (он мне единственный понравился из существующих моделей)
Какую мне программу установить, если не Ollama?

Аноним 10/06/25 Втр 11:47:59 № 1240931 260

>>1240476
Замедление на треть звучит будто тебе это нафиг не нужно. Правда.

>>1240637
Ето да. Хотя запретить ходить ей в интернет таки можно. Получится 50% спокойствия. =)

>>1240662
О, а где 2080ти можно приобрести щас?

Кто подскажет?

Время собирать 5 2080ти для 110 гигов и пихать туда квена в экслламе. =D

Аноним 10/06/25 Втр 11:48:11 № 1240932 261

>>1240924
Самая первая ссылка в шапке после вики:
> Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
Ты пикрил? Меня всегда поражали такие люди. Потрать, блять, полчаса своей жизни, чтобы прочитать что ты вообще пытаешься запустить и как.

Аноним 10/06/25 Втр 11:50:43 № 1240935 262

>>1240912
>Но не хотелось бы ебатся с костылями.
>Может быть есть способ попроще?
Угу. Пойти к корпам на ChatGPT. Это в соседнем треде.

Аноним 10/06/25 Втр 11:51:38 № 1240936 263

>>1240932
Я так не хотел врубать мозг... Жить тупым - жить счастливым...

Ладно не бугурти - держи няшку.
И если есть пикча, которая бы схематично показывала как текст преобразуется в токены и как потом модель эти токены обрабатывает - был бы рад, если скинешь.

Аноним 10/06/25 Втр 11:54:01 № 1240938 264

>>1240935
Хуйцов корпов я насосался на всю жизнь вперёд. Всё - понял принял - буду включать мозги.
Кхе кхе кхе.

Аноним 10/06/25 Втр 11:54:17 № 1240939 265

я внезапно осознал всю мудрость дидов с их Version Control System в виде разных папочек
version_1.0
version_1.1
version_1.1_fix
version_1.2
version_2.0
version_2.0_fix
version_2.0_fix2
Новая папка
Новая папка (1)
пориджи с их venv просто переизобрели разные папочки лол

Аноним 10/06/25 Втр 12:00:35 № 1240942 266

>>1240931
>Замедление на треть звучит будто тебе это нафиг не нужно. Правда.
Это, как раз вполне себе нормально, если бы не касалось времени процессинга промпта. Разменять его на время генерации - почему нет, если все равно ~12-15 t/s оставалось бы.

GGUF с таким набором карт неплох, ради него все и затевалось, но его минус с медленной по сравнению с эх-ламой обработкой контекста никуда не девается. В итоге, я держал 12K на эх-ламе потому что больше не лезло, теперь держу столько же на кобольде потому, что ждать дольше раздражает. LoL.

В любом случае - пустой разговор. Оно все же тупо не работает с новыми большими моделями на exl2 - и раскуривать что ему там не так сейчас настроения нет. Может потом как нить еще попробую. И так чисто из любопытства щупал.

Аноним 10/06/25 Втр 12:03:07 № 1240943 267

>>1240905
> она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности.
Уже как то писал в прошлом треде :
Спрашиваю нейронку, ты точно ничего не знаешь о вархаммере ?
Бля буду, братан, в первый раз слышу во имя Тзинча, клянусь
И вот посреди сайфай приключения :
Рев сервомоторов, падающие дропподы, воины в керамитовой броне, падающие гильзы болтеров.

Ты чё сука, ты чё

Аноним 10/06/25 Втр 12:18:52 № 1240950 268

Снимок экрана 2[...].png 244Кб, 1153x830

>>1239453
>жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит
Ненадолго вкатываюсь в тред.
Пока что пердолил память, удалось завести на 2933, разница по цифрам есть, в нейронках ее практически незаметно, что для меня стало сюрпризом. Так что если кто-нибудь будет собирать себе эпик - не гонитесь за высокой частотой смысла не дофига.

С ktransformers пока облом, нужна карта ноувидео от 14 гигабайт, все дешевые варианты отпадают надеялся на 2080ti, видимо придется покупать 4060ti, хотя она конечно говно.

DeepSeek V3 q4 очень хорош, по началу разница с той же геммой не кажется большой, но чем больше ответов, тем заметнее что он не тупеет, пусть и шевелится все медленнее.

Аноним 10/06/25 Втр 13:02:53 № 1240964 269

Будет ли генерится быстрее ответ, если я докуплю 32 гига озу?
Типа, это вообще на чет влиять будет или нужна только видеопамять?

Аноним 10/06/25 Втр 13:18:25 № 1240977 270

>>1240769
интересно.
так оно ризонинг включает нормальный или нет?
какие пресеты используешь? скинь мастер импорт плиз , если не влом

Аноним 10/06/25 Втр 13:30:33 № 1240981 271

>>1240662
> но хейтить энтузиастов не нужно
Да кто хейтит, только совсем поехи. А чтобы похвалить в их опровержение - тут нужно попользоваться для чего нет предпосылок. Сделали бы с визуальной частью, тогда даже в таком размере это было бы довольно интересно.
> Ору с пары знакомых, которые жрут телеграмоботов
Ай лол
>>1240912
Правильно сказали, вместо мерзкой олламы использовать любую альтернативную опцию.
>>1240783
>>1240922
Чето всхрюкнул с мистралешизы, сначала было "гемма говно и ничего не может" а теперь дошел до торга "использование промпта для модели, которая хорошо его слушается - не считается!". И это те люди, которые советуют ставить хуету типа мистраль-теккен и прочие бредовые полотна, где объясняется что для действий нужно использовать курсив. Более кринжового переобувания и маневров не придумать.

Аноним 10/06/25 Втр 13:32:50 № 1240983 272

>>1240931
> Замедление на треть звучит будто тебе это нафиг не нужно. Правда.
Если это замедление будет компенсировано сохранением скорости на контексте, а не сдуванием как на жоре - точно стоило бы того. Но увы.
>>1240964
Нет, если модель уже помещается в память то ничего не изменится. Может помочь большая ее частота, но эффект будет слабым, реально ускорит переход на фуллгпу.

Аноним 10/06/25 Втр 14:24:03 № 1241012 273

>>1240912
>Может быть есть способ попроще
не использовать дерьмовую оламу, использовать кобольда - лучшиее риешение для новичков

для связки прыщеблядикс+blackwell+llamacpp Аноним 10/06/25 Втр 14:38:37 № 1241033 274

https://docs.nvidia.com/cuda/archive/12.8.1/cuda-installation-guide-linux/index.html#id47
https://forums.developer.nvidia.com/t/error-exception-specification-is-incompatible-for-cospi-sinpi-cospif-sinpif-with-glibc-2-41/323591?u=epk

для работы куды нужны конкретно эти указанные версии гцц и глибц, и если вы, например, обновите глибц до 2.41 или попытаетесь сконпелировать что-то с гцц14, то нихуя не заработает.

> glibc 2.41 is not supported for any version of CUDA at the moment. (e.g. CUDA 12.8)

теоретически в куде 12.9 это исправлено
https://docs.nvidia.com/cuda/archive/12.9.0/cuda-installation-guide-linux/index.html#host-compiler-support-policy
но я не хочу ставить самую свежую версию потому что приверженец стейбл релизов

а и ещё вспомнил, что делать если у вас гцц свежее 12:
NVCC_CCBIN=/usr/bin/g++-12 CMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-12 CUDAHOSTCXX=/usr/bin/g++-12 CC=gcc-12 CXX=g++-12 cmake <тут опции cmake>

Аноним 10/06/25 Втр 14:59:32 № 1241062 275

>>1241033
Я не знаю что ты написал, я просто через конду по гайду поставил, как все нормальные люди и все работает из коробки.

Аноним 10/06/25 Втр 15:01:32 № 1241066 276

>>1241062
>Я не знаю что ты написал, я просто через конду по гайду поставил, как все нормальные люди и все работает из коробки.
А, отбой, мы же в языковом чатике.
Я не знаю что ты написал, я просто в конфиге написал services.ollama.enable = true; services.ollama.acceleration = "cuda"; и у меня все работает из коробки.

Аноним 10/06/25 Втр 15:01:44 № 1241068 277

Как снежный добился таких разных свайпов?
Как это возможно?

Аноним 10/06/25 Втр 15:02:25 № 1241069 278

>>1240950
https://huggingface.co/unsloth/Qwen3-235B-A22B-GGUF
Это лучше крути, разница с дипсиком не большая, но быстрее.
Какой нибудь ud 4-5 квант будет норм, хотя эти мое сетки не ломаются даже на 1-2 кванте, работают пусть и хуже

Аноним 10/06/25 Втр 15:29:53 № 1241088 279

>>1241033
Зачем эти сложности, там некроось безнаката обновлений? На свежих все собиратся с дефолтным gcc и любой актуальной для блеквелла кудой.
>>1241066
> ollama
С этой херней уже может быть мутно.
>>1241069
> разница с дипсиком не большая
Квен даже лучше, меньше запутывает себя ложным ризонингом. По написанию заморочного кода сложно выделить фаворита, оба ошибаются и требуют итераций фиксов, оба в итоге достигают успеха.

Аноним 10/06/25 Втр 15:40:28 № 1241092 280

Может кто - то сказать как температуру и топ-п настроить для "магического перевода"

Я подключаюсь по апи к qween235B и перевожу с помощью через локальную ллм, но он неправильно переводит и мат не пишет

Я бы хотел как у данного анона
>>1239049
Или он на русском общается без перевода?

Аноним 10/06/25 Втр 16:05:15 № 1241116 281

>>1240977
насчет включения ризонинга - я сам не ебу, то что оно работает и в ризонинг блоке работает по командам - точно и то что это улучшает выводимый результат - точно
вот используемый пресет для синтии олл инклюзив
https://pixeldrain.com/u/noXxx4Pc

Аноним 10/06/25 Втр 16:06:32 № 1241118 282

>>1241092
Вроде никак не настраивается, моя 27b гемма спокойно переводит любую дичь, мат уж тем более.

Аноним 10/06/25 Втр 16:13:47 № 1241120 283

>>1241092
попробуй просто в авторские заметки (слева от графы ввода текст в чат есть три палки и там author`s note) тыкнуть:
- Ты рассказчик и пишешь все на богатом русском языке: имена, мысли, описания местности, внешности. Твой русский полнится яркими описаниями и широким вокабуляром, подбирая точно каждое слово под любую ситуацию.
Вот с такими настройками, если хочешь чтобы оно добавлялось в каждый чат - скопируй просто в default authi`s note также. Еще вариант добавить в твой контекст шаблон - картинка два

Аноним 10/06/25 Втр 16:30:04 № 1241126 284

Кстати я так и не написал отчет о том что ебался с рокм
У меня две mi50, 32 гб памяти. Наконец-то разобрался с рокм, это был пиздец. Чтобы это работало - надо быть недюжим осилятором. Мне понадобилось три дня. Если кому-то интересно как я смог все таки заставить работать - не ебу. Если у кого-то подобная же ситуация и вопросы по пути возникнут - задавайте, так уже отвечу
Скидываю бенчмарки от кобольда 8к контекста,
1- синтия в 6q_k_l,
2 - оригинал геммы с теми же параметрами,
3-хуета которую запомнить не могу размещенная на одной карте. вообще странный результат с ним в бенчмарке, он по идее у меня самый быстрый был и 60т/с писал. Короч хз.
Результатом доволен, рокм в 1.8-2 раза поднял генерацию по сравнению с вулканом
Если кто-то захочет пойти по тому же пути, наверное не советую и с куда от куртки будет попроще.

Аноним 10/06/25 Втр 16:33:26 № 1241128 285

>>1241126
гемма в 1 карточку не влезла? должна же.
скажи скорость генерации на 1 карте пж

Аноним 10/06/25 Втр 16:35:08 № 1241131 286

>>1241126
>и 60т/с писал
Ели на одной карте дает 60 а на 2 всего 6, то думаю все еще что то криво работает
Вобще как то маловато, 5-6 генерации это смех с таким железом

Аноним 10/06/25 Втр 16:44:27 № 1241140 287

>>1241128
каждая карта по 16гб, я в сумме говорю 32гб видеопамяти
Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно
>>1241131
То что я скинул бенчмарк он как раз на одной.
Вот на двух прикладываю сейчас
Может и маловато потому что 8к контекста? Все таки обычно у меня выше 5 он не поднимался в реальной работе. Хз. А может ты переоцениваешь эти карточки

Аноним 10/06/25 Втр 16:51:14 № 1241150 288

>>1241140
А ты уверен что у тебя оригинал вобще? Пишут что может быть подделка

https://www.reddit.com/r/LocalLLaMA/comments/1b5ie1t/interesting_cheap_gpu_option_instinct_mi50/?tl=ru
"Эти mi50 из Китая - все подделка. Это Radeon VII с поддельной оболочкой mi50.

https://www.ebay.com/itm/186233246456

Это настоящая Mi50."

На сколько понимаю там hbm память и это скосрости под 1000гб/с, что обычно и является узким местом в видеокарте при запуске нейросетей.
Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз

Аноним 10/06/25 Втр 16:59:56 № 1241162 289

О интересно
https://www.reddit.com/r/LocalAIServers/

Специальная группа для собирающих серверы для ии, хотя и в обычной https://www.reddit.com/r/LocalLLaMA тоже много постят так как она популярнее

Аноним 10/06/25 Втр 17:04:32 № 1241169 290

>>1241140
Вполне может, что меня и объебали на самом деле. Потому что у меня она и определяется как mi50/radeon vii
Прогнал тест пропускной способности и все таки это hbm2 вроде, все таки под 800гигабайт
А у этих радеон vii куда хуже чипики или что?

Аноним 10/06/25 Втр 17:05:26 № 1241170 291

>>1240981
>где объясняется что для действий нужно использовать курсив
Чел, как раз у этого анона (алитяна?) буквально в этом и других промптах пропихивается Follow format: \"Speech.\" Thoughts. Narration. При том, что в куче карточек курсивом narration и действия. Гемме, кстати, похер, она будет всё равно италиком рэндомные слова выделять, что в его же логах не раз было видно (за логи, впрочем, спасибо).
>которая хорошо его слушается
Там шизовая простыня, которую можно использовать только ради лулзов, ни одна модель это нормально не воспримет.

Аноним 10/06/25 Втр 17:07:07 № 1241174 292

>>1240924
Эээ… тогда посмотри мой ролик.
https://www.youtube.com/watch?v=elc6cTBrP74

Но тока запускаешь ты не на диске, а на видеокарте или оперативной памяти.
И у каждого семейства (дипсик, например, или квен, или гемма) есть свои «мощности», а не любые.

>>1240936
Ты пытаешься в треде нейросеток вкинуть картинку, совсем воробушек? Тут почти все олды генерят лучше, и видео в т.ч. =)

>>1240942
Оно не могет в fp16, раньше причина была в этом.
пикрил
То, что эксллама умудрилась дотянуться аж до 60% скорости — уже круто.

>>1240950
Псп обычной DDR5, конечно, делает грустно.
В нейронках, возможно, надо добросить ядер (или частоты им).
Но энивей, тут плюс только в размере памяти.

И че, сколько токенов в секунду, 2, 2,5, 3?

>>1241033
Вот это базированная инфа, спасибо.
…
Я обычно хуяре найтли билды не глядя. =D
А то и сорцы.

>>1241069
Не, на первом там печаль. =) В вот UD_3_K_XL уже уровня норм.

>>1241150
> Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз
Чиво нахуй? А по-русски можно? =D

Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду?
Рокм съест… каво съест, это вулкан ест, а рокм не ест. Или не то.

А про поддельные или настоящие — они же идентичные, и по чипам, и по памяти. В чем там подделошность на практике?

Аноним 10/06/25 Втр 17:08:33 № 1241176 293

>>1241140
>Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно
Вот тут кстати - для геммы3-27B: iq4_xs - разница по размеру с q4_k_m в почти два гига, а по качеству - с лупой искать. Для меня с 20GB vram это критично. Первая влазит целиком, вторая нет.

Аноним 10/06/25 Втр 17:09:13 № 1241177 294

>>1241126
Спасибо анончик, жаль что супер быстро не получилось. Но зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям.
>>1241140
> Может и маловато потому что 8к контекста?
Для интереса, попробуй с 2к прогнать, чисто оценить как оно падает. Если получается то и на 16к или выше тоже интересно.
>>1241150
> там hbm память и это скосрости под 1000гб/с
То старая hbm, скорости не выдающиеся на сегодняшний день.
> сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду
Но это только при условии что весь упор будет исключительно в псп врам, нигде не упрется непосредственно в компьют и операции будут асинхронны. С последним не особо понятно.
>>1241170
Твоя любовь к мистралю пускает шиверсы по моей спайн, так и хочется преисполниться этими министрейшнами.

Аноним 10/06/25 Втр 17:09:21 № 1241179 295

>>1241169
Посмотри загрузку процессора во время генерации, если не полная значит простаивает изза скорости памяти. Ну, если это вобще можно посмотреть. По потреблению хотя бы

>>1241174
>Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду?
Нет, если из 16 гигов занято 15, на одной карте. И эта карта имеет скорости памяти в 1000гб/с. То просто делишь скорость на гигабайты, и получаешь максимально возможные с этой скоростью токены в секунду. В реальности будет меньше, так как упор еще и в процессор может быть, да и рокм не так эффективен как куда.

Аноним 10/06/25 Втр 17:09:22 № 1241180 296

>>1241169
>>1241150
бля, не туда ответил
Но судя по характеристикам раден ви даже как-то получше. Может еще проблемка, что они у меня в 200 ватт работают. Они так в стоке были. Надо будет попробовать поднять осторожно

Аноним 10/06/25 Втр 17:09:28 № 1241181 297

>>1241169
Так Radeon VII — идентичная карта, конечно HBM2, что там могло быть-то?..

https://www.techpowerup.com/gpu-specs/radeon-vii.c3358
https://www.techpowerup.com/gpu-specs/radeon-instinct-mi50.c3335
Только в FP64 VII хуже mi.

Аноним 10/06/25 Втр 17:11:00 № 1241182 298

>>1241179
А процессор тут причем? @_@
В реальности меньше не только из-за рокм, но и еще тыщи факторов (и скорость 800, а не 1000, и говнокод движка).

Если целиком крутишь на карте, проц значения не имеет совсем.
Если не говнокод, но я такого не припомню.

Аноним 10/06/25 Втр 17:11:41 № 1241185 299

>>1241180
Ну я к тому что 5 токенов в секунду генерации это хуйня как не посмотри. Нет если тебе норм то пусть и так работает, но должно выдавать десятки, вплоть до 60 т/с.

>>1241182
>А процессор тут причем?
Процессор видеокарты, анон ....

Аноним 10/06/25 Втр 17:27:37 № 1241213 300

>>1241176
Да, наверное и я не увижу разницы, потом попробую докачать iq4_xs
>>1241177
Вот попробовал в 2к контекста и размещение на одной карте, прикладываю. Возможно я еще сам факапнулся и смогу с этих стоковых 190 ватт до 300 поднять которые заявялены на страничках характеристик. Вопрос как сделать это безопасно и вопрос как так вообще получилось. Мб прошлый владелец шил ей биос на 190 ватт? Не может же быть, что настройки его видеокарт перекачевали как-то на мой через них. А может китайцы их так шьют, потому что производительности с подьема ватт уже с гулькин нос
Также прикладываю нагрузки самой карточки во время работы
Скрин 2 - обработка промпта
Скрин 3 - генерация промпта.
Для меня эти скрины мало что говорят на самом деле, надо подразобраться
>>1241182
Да не, учитывая что я ща ризонинг разогнал и у меня только он занимает под 800-1000 токенов, хотелось бы поднять циферки

Аноним 10/06/25 Втр 17:27:51 № 1241215 301

>>1241177
>зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям.
Ясно, что связка из нескольких карт по-человечески работать не будет. Остаётся только вопрос с 32-гиговой версией - если она выдаст в сингле такую же производительность, как у этого анона (еботню с ROCm замнём, но это тоже минус как-никак) то можно рассматривать к покупке. А вот 16гб версии того не стоят. Нам нужен герой(с)

Аноним 10/06/25 Втр 17:39:48 № 1241236 302

>>1241213
>Для меня эти скрины мало что говорят на самом деле, надо подразобраться
Интересно получается. Обработка промпта грузит карту на 100, в генерации проседает, а значит там какой то затык.
Но это и по скоростям видно,
Еще вопрос к частотам, чет маленькие какие то.
На чтении почти 2к токенов в секунду, выглядит честно
А вот генерация тухлая и что с этим делать не понятно, поиграй с флагами запуска что ли.
Не знаю выключи flash attention, добавь ядер, посмотри на выбранный пакет питания может он что то режет.
С таким промпт процессингом генерация должна быть хотя бы 20-30 т/с
А еще если ты любишь и умеешь пердолится то собирай нормальный llama.cpp, а не кобольд
Может будет получше, есть кстати вариант со сборкой https://github.com/ikawrakow/ik_llama.cpp
Может будет быстрее, хз

Аноним 10/06/25 Втр 17:42:56 № 1241244 303

>>1241140
а, я думал ты тот чел из позапрошлого переката, который купил на таобао ми50 с 32 гигами

Аноним 10/06/25 Втр 17:44:14 № 1241245 304

>>1241236
я уже собирал лламу (правда обосрался сначала, теперь уже будет попроще все таки научился компилить получше), но что с ней делать потом? Я просто хз как ее приладить к беку нормальному типа угабуги (уже гуглил так и не разобрался) или кобольда того же. Не хочу через терминал ебку устраивать и ванильный ламовый сервер юзать
Насчет потыкать кобольда попробую, ток я не понял про какие ты ядра? С пакетом питания тоже надо подразобраться

Аноним 10/06/25 Втр 17:46:31 № 1241246 305

>>1241174
> Я обычно хуяре найтли билды не глядя. =D
хорошо тебе, а я в кишлаке сижу на мобильном интернете с одной палкой сигнала
> Downloading https://download.pytorch.org/whl/cu128/torch-2.7.1%2Bcu128-cp313-cp313-manylinux_2_28_x86_64.whl (1039.2 MB)
> ━━━━━╸━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0.1/1.0 GB 1.1 MB/s eta 0:14:02
и поэтому не могу каждый день хуярить найтли билды, вчера вот весь день разные версии дров и куд перекачивал лол

Аноним 10/06/25 Втр 17:47:02 № 1241247 306

>>1241245
Запускай llama-server и у него сразу есть готовый фронт, можешь там сидеть какой то время
llama-bench для тестов скорости
Ну а вобще в любой фронт можно подключить если в нем можно указать адрес и порт
У меня как у большинства тут просто таверна запускается и через нее подключаешься к ллама-серверу

Аноним 10/06/25 Втр 17:49:42 № 1241250 307

>>1241247
Можно чат комплишен и оно будет само работать, или можно текст комплишен и самому управлять всеми систем промптами и разметкой
Я ленивый и сижу с чат комплишен

Аноним 10/06/25 Втр 18:01:54 № 1241270 308

>>1241247
Окей, буду через ламу сервер попердывать
кстати ахуй, с первого раза закомпилил ламку, ща буду тестить
Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало. По-любому же есть темка чтобы он как в поисковике работал, тебе выдвигают варианты а ты стрелочками дотыкиваешь. Во всхе иде это тема есть

Аноним 10/06/25 Втр 18:10:25 № 1241289 309

Кстати как указать сборку llama.cpp с нужным флагом?
Скаченные с релиза пишут что используется BMI2, а когда собираю сам есть все кроме него.

Аноним 10/06/25 Втр 18:15:19 № 1241305 310

Анон что мерджил даркнесс/ опус магнум ушел на покой? Даркнесс конечно самая успешная, но интересно будет ли что еще на русике и как он это делал. В принципе с nsigma очень креативно и ошибки пореже чем в любой из моделей что я пробовал вообще.

Аноним 10/06/25 Втр 18:17:57 № 1241311 311

>>1241270
> Вы какие-то адоны для терминала юзаете?
bash-completion
> Например сука меня бесит вводить каждый раз путь до файла в двести строк,
alias myfile='/usr/local/opt/gavno/mocha/long/path/to/myfile'
> нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу
кнопка Tab?

Аноним 10/06/25 Втр 18:21:04 № 1241318 312

>>1241150
>"Эти mi50 из Китая - все подделка. Это Radeon VII с поддельной оболочкой mi50.
Они перешиты для майнеров. По железу это одно и то же, так что это mi50 изначально списанные с серваков. Больше им взяться неоткуда.

Аноним 10/06/25 Втр 18:22:16 № 1241320 313

>>1241311
вот баш комплишн и стоит. если честно впадлу расписывать чо он мне не нравится но бля я жму там он вместо того чтобы просто предложить варианты наиболее часто мной используемые начинает спрашивать а показать ли эти опции потом какой-то список высвечивает. короче я неосилил хочется чего для людей

Аноним 10/06/25 Втр 18:25:31 № 1241326 314

Как же ору с этих писюлечных промптов в пресетах таверны
Я из за этого вообще не понимал первые месяцы зачем нужен промпт ведь он ничего не даёт, а это буквально сердце локалок

Аноним 10/06/25 Втр 18:28:31 № 1241328 315

>>1241326
Писать продолжает? - продолжает
Персонажей изображает? Да, еще и реалистично.
А главное промпт на 20 токенов - сказка
Ставишь под капот зверя какого на 3b или 1b параметров и он тебе пишет как ебаный достоевский

Аноним 10/06/25 Втр 18:30:19 № 1241332 316

>>1241320
> хочется чего для людей
windows
линукс - это для страдания, а не для работы

Аноним 10/06/25 Втр 18:59:32 № 1241354 317

>>1241270
>Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало.
Записывай:
1. Ставишь себе mc - это двупанельник по типу нортона, тотала и прочих коммандеров. Запоминаешь комбинацию - CTRL+O - это развернуть-свернуть панели. Теперь ходишь по файловой системе просто курсорами, а нужно видеть вывод команд (или просто консоль) - сворачиваешь панельки.
2. В консоли - набираешь первые символы и жмешь TAB - оно автодополняет до конца, или до первого символа где развилка. Если вариантов много - выводит список-подсказку. Вводишь еще символ (просто дальше, а не сначала) и еще раз TAB - и так пока оно до конца не докомплитишь. Если вариантом сильно много - оно спросит точно ли показывать длиннющий список, или ты сначала сам уточнишь.
3. Если надо повторить предыдущую команду - стрелка вверх (и вниз - если проскочил по истории). Далее можно подредактировать курсорами.
4. Если надо что-то из старого но подальше - CTRL+R - переход в режим поиска по истории. После нажатия вводишь последовательность символов из желаемой команды ИЗ ЛЮБОГО МЕСТА желаемой строки, не обязательно с начала. Когда введешь нужную длинну (для однозначности) - оно тебе выведет ту команду. Можно нажать Enter и сразу выполнить или "<-" чтобы сбросить режим поиска и подредактировать перед запуском.

Аноним 10/06/25 Втр 19:31:13 № 1241363 318

>>1241354
Я когда качал midnight commander увидел скрины и подумал кал калыч какой-то, меня прям откинуло к той теме когда на qbasic писал. А потыкал и прям по-кайфу. Выглядит отталкивающе, поставил летнюю тему и вообще топчик.
Я также прочитал твою инструкцию и нихуя не понял лол. Ща начал просто повторять на практике и вау, это ебать удобно. Спасибо анончик, попрактикуюсь и будет уже на автомате работе. Целую в писю за такой подгон. Оно еще просто и без мозгоебли встало, прямо в терминал стоковый

Аноним 10/06/25 Втр 19:32:32 № 1241364 319

>>1241354
>>1241363

Мне там редактор нравится, mcedit, можно просто вызывать его для открытия и изменения файлов без захода в сам mc

Аноним 10/06/25 Втр 19:32:45 № 1241365 320

https://mistral.ai/news/magistral
https://huggingface.co/mistralai/Magistral-Small-2506

Аноним 10/06/25 Втр 19:43:39 № 1241370 321

>>1241364
mcedit сам юзаю, но не всегда. Т.к. если не по ssh в голом терминале сидишь, из консоли можно точно так же запускать любой GUI-вый редактор, к примеру "xed file_to_edit.txt"
(xed - стандартный "блокнот" в минте). И даже от рута работает - "sudo xed file_to_edit.txt". Если планируется активный копипаст по тексту и из других мест - GUI-вый редактор все же привычнее.

Аноним 10/06/25 Втр 19:58:49 № 1241380 322

>>1241365
>https://mistral.ai/news/magistral
То есть хрен нам, а не Ларж? Спасибо ещё, что не МоЕ.

Аноним 10/06/25 Втр 20:20:31 № 1241395 323

>>1241215
> Ясно, что связка из нескольких карт по-человечески работать не будет.
Ну как, работает же. Просто в целом там не быстро, возможно из-за чего-то неоптимального, возможно просто на старое железо рокм уже все.
> вопрос с 32-гиговой версией
Врядли она будет лучше, чип то тот же.
Так, с точки зрения нищерига, гораздо интереснее 2080ти@22 выглядит. Недорогая и должна с экслламой шевелиться.
>>1241270
> бесит вводить каждый раз путь до файла в двести строк
Начни вводить имя файла/папки и нажми таб. Открой для себя относительные ссылки вместо абсолютных путей. Для чего-то особо забористого - софтлинк.
>>1241332
Полностью наоборот, если ты не офисный бедолага.
>>1241354
> Ставишь себе mc
База, заодно провернуть модификацию mcwrapper чтобы после выхода была текущая директория.

Аноним 10/06/25 Втр 20:30:59 № 1241400 324

>>1240950
Штош, вначале ты, потом на хабре сегодня расхайпили честный дипсик на эпике. Тоже пришлось заказать, будет страдать тыкать вместе!

Аноним 10/06/25 Втр 20:40:17 № 1241414 325

>>1241400
двенадцатиканальный пятый, надеюсь?
на восьмиканальном четвёртом это гроб гроб кладбище и далее по списку
мимо счастливый обладатель

Аноним 10/06/25 Втр 20:41:15 № 1241416 326

>>1241414
> четвёртом
*третьем бiстрофикс

Аноним 10/06/25 Втр 20:47:07 № 1241421 327

>>1241414
Нет, конечно, мы же здесь не миллионеры. 8 канальный ддр4 мусор Ведь не миллионеры же, да?

Аноним 10/06/25 Втр 20:49:01 № 1241422 328

>>1241421
с такими ценами на видюхи скоро стану миллионером
мимо миллиардер

Аноним 10/06/25 Втр 20:51:50 № 1241423 329

>>1241116
> вот используемый пресет для синтии олл инклюзив
чем это отличается от пресета анона99, кроме того, что ты прикрутил стандартный thinking блок, но не убрал dry, что непомерно рубит токены в процессе ризонинга?

Аноним 10/06/25 Втр 20:53:00 № 1241426 330

>>1241395
>База, заодно провернуть модификацию mcwrapper чтобы после выхода была текущая директория.
А уточнить можно - как именно сделать?

Аноним 10/06/25 Втр 20:53:04 № 1241427 331

не используйте dry вместе с thinking, бибизяны
там блять пресет называется NO THINKING, но вас не остановить...

Аноним 10/06/25 Втр 20:54:36 № 1241428 332

>>1241414
>двенадцатиканальный пятый, надеюсь?
На таком скорость тоже не айс.

Аноним 10/06/25 Втр 21:06:10 № 1241438 333

если у меня 4090, ryzen 3950x и 64гб рама ddr4 3200, я смогу запустить большой мое-квен? с какой примерно скоростью? если не могу, то смогу ли, если докуплю еще 64гб рама? стоит вообще пердолиться?

Аноним 10/06/25 Втр 21:17:13 № 1241463 334

>>1241423
таки я особо не шарю в этом, я этот пресет скорее всего и взял от того анона ничего (?я уверен что просто его скопировал и возможно только контекст/инструкт/систем промпты тыкал, но точно не текст ген) не трогая, результатом как работает - доволен. А где я могу прочитать про драй что это и нахуя? Просто пресет для сынкинга то я не нашел, поэтому и оставил как было.

Аноним 10/06/25 Втр 21:20:31 № 1241473 335

>>1241438
> если докуплю еще 64гб рама
Да, да. Около 5-6т/с генерации и около 100-150 т/с процессинга примерно.

Аноним 10/06/25 Втр 21:21:56 № 1241477 336

>>1241427
>>1241463
просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак? Я например потыкал reppen, temp, top/min k/p и мальца вроде прохавал а сухость эту просто выставлял как в ридми пишут на отьебись

Аноним 10/06/25 Втр 21:22:17 № 1241479 337

15796904929160.webm 19175Кб, 1280x720, 00:00:30

>>1241174
>>>Эээ… тогда посмотри мой ролик.
thx
по поводу картинок...
тогда чем платят в треде, если не няшками?

Аноним 10/06/25 Втр 21:25:08 № 1241483 338

>>1241479
а никак, мы питаемся кровью старожилов. в какой-то момент мы станем старожилами и молодняк будет пить кровь у нас

Аноним 10/06/25 Втр 21:26:44 № 1241486 339

>>1241473
я чото не так делаю, у меня большой моэ на 235б не умещается в 32гб видеопамяти и 128гб ддр4

Аноним 10/06/25 Втр 21:29:07 № 1241491 340

>>1241486
UD-Q2-K-XL и читать до посинения про -ot ".ffn_.*_exps.=CPU"

Аноним 10/06/25 Втр 21:29:10 № 1241492 341

>>1241185
> Процессор видеокарты
А, чип, ты имел в виду. =) Ядра. Computing units. Понял.

>>1241213
10 токенов для mi50/VII — точно мало. Для 12б модели-то.
Верно пишет предыдущий чел, там десятки должны быть, и много.

>>1241236
> в генерации проседает
Это всегда так.

>>1241246
ОХ
Искренне сочувствую. =( Держись там.

>>1241365
Погонял, ну так, средненько. Не плохая модель, но гемма и квен лучше.

>>1241479
Знаешь, мне иногда кажется… Что слезами и страданиями. =')

Аноним 10/06/25 Втр 21:29:59 № 1241495 342

>>1241491
Да ладно, UD-Q3-K-XL. =)

Аноним 10/06/25 Втр 21:49:03 № 1241515 343

>>1241414
Там разницы-то между третьим и пятым примерно х2, а цена сборки при этом х5 в лучшем случае.
Третий эпик выбор нищебро.

Аноним 10/06/25 Втр 21:56:57 № 1241520 344

>>1241515
цена где-то х3 если бэушное брать

Аноним 10/06/25 Втр 22:10:58 № 1241525 345

>>1241492
>Это всегда так.
С его скоростями врам слабым местом должен быть видеочип, ну или по крайней мере загружен поболее и т/с должны быть выше.
Но на то что бы выдать генерацию в 5-10 токенов в секунду он загружен на 70 процентов с довольно низкими частотами памяти и ядра.
Думаю в последнем и затык, чип загружен но частоты невысокие, скорей всего задушены теплопакетом или режимом работы

Аноним 10/06/25 Втр 22:42:46 № 1241545 346

image.png 11Кб, 651x67

две mi50 на связи, прогнал clpeak проверить как работает видюшка на свои 190 ватт и решил что не буду трогать, и так отрабатывает на 90-95% от максимамальной производительности на 300 ваттах (правда он ведь последовательно прогоняет, и может не упирается просто в павер лимит?) А так как производительность залочена (не смог через rocm-smi поднять максимальный тдп), то надо шить vbios и это вообще иди нахуй трогать не хочу.
А вот llama скомпиленная вроде без ошибок выдает ошибку (ха!)

Platform: AMD Accelerated Parallel Processing
Device: gfx906:sramecc+:xnack-
Driver version : 3649.0 (HSA1.1,LC) (Linux x64)
Compute units : 60
Clock frequency : 1700 MHz

Global memory bandwidth (GBPS)
float : 723.78
float2 : 768.90
float4 : 729.22
float8 : 715.23
float16 : 549.40

Single-precision compute (GFLOPS)
float : 12699.11
float2 : 12680.87
float4 : 12610.87
float8 : 12508.68
float16 : 12273.56

Half-precision compute (GFLOPS)
half : 6433.60
half2 : 24628.36
half4 : 24374.45
half8 : 24146.97
half16 : 23945.03

Double-precision compute (GFLOPS)
double : 6198.92
double2 : 6191.05
double4 : 6114.04
double8 : 6071.45
double16 : 6000.49

Integer compute (GIOPS)
int : 4236.10
int2 : 4202.69
int4 : 4176.95
int8 : 4161.79
int16 : 4168.73

Integer compute Fast 24bit (GIOPS)
int : 11760.80
int2 : 10907.51
int4 : 10633.56
int8 : 10564.51
int16 : 10146.28

Integer char (8bit) compute (GIOPS)
char : 12456.16
char2 : 7329.18
char4 : 7315.62
char8 : 6866.55
char16 : 6792.56

Integer short (16bit) compute (GIOPS)
short : 12309.87
short2 : 14985.81
short4 : 14297.81
short8 : 14072.12
short16 : 13643.29

Transfer bandwidth (GBPS)
enqueueWriteBuffer : 11.05
enqueueReadBuffer : 11.52
enqueueWriteBuffer non-blocking : 11.37
enqueueReadBuffer non-blocking : 11.50
enqueueMapBuffer(for read) : 185929.31
memcpy from mapped ptr : 11.20
enqueueUnmap(after write) : 340870.41
memcpy to mapped ptr : 11.21

Kernel launch latency : 10.53 us

Аноним 10/06/25 Втр 22:49:32 № 1241553 347

>>1241365
RRRRRREEEEEEEEEEEE
Где новый лардж, епта!
>>1241426
https://stackoverflow.com/questions/39017391
>>1241525
> С его скоростями врам слабым местом должен быть видеочип
Не обязательно. Это может быть обычный процессор если там совсем днище, или ужасно кривая реализация операций в рокме. Куда и продукты на ней отлично вылизаны, и даже при конкретном таком быдлокоде (привет жора) с использованием их библиотек критические операции будут асинхронны и идти своей очередью с минимумом лишних ожиданий. Здесь же оно может тупить, частично простаивая, и способности чипа-памяти просто не будут раскрыты.
> с довольно низкими частотами памяти и ядра
Тогда бы процессинг был совсем днищем. Он и так оче грустный, но не настолько.

Аноним 10/06/25 Втр 22:51:00 № 1241554 348

>>1241545
появилось предположение, что еще проседает производительность из-за версии rocm-6.4.1. Видел на гите, о потери производительности на версии 6.4
Попробую сделать снепшот системы и накатить 6.2.4 и помолиться что заведется.

Аноним 10/06/25 Втр 23:08:59 № 1241563 349

После выхода kobold.ccp версии 1.93 (cu12.exe) и выше, у меня на моей 3060 при запуске любой модели приложение стало вылетать. Вроде прочитал про то что теперь на cuda 12.4 все у них там работает, так я сейчас установил себе cuda 12.4 и всё равно вылетает. ЧЗХ? У кого так же? Приходится оставаться на версии 1.92.1 что бы всё работало.

Аноним 10/06/25 Втр 23:19:14 № 1241567 350

>>1241477
>просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак?
Я таки тоже кручу SD регулярно, и имею сказать - в отличии от оного, здесь семплеры постоянно крутить не надо. Один раз под модель подстроил и забыл. А смысл каждого семплера описан гораздо внятнее даже в всплывающих подсказках той же таверны - напрягши немного тыковку, вполне получается прочитанное осознать, и потом даже не наобум крутить, а с ожидаемо-предсказуемым результатом. Ну и вообще материалов описывающих что и как семплеры делают по сети лежит достаточно, причем без учета научных зубодробительных статей от академиков.
В отличии от SD, где метод тыка - таки незаменим и поныне, из-за прискорбно малого количества "бытовых" руководств по данному вопросу.

Аноним 10/06/25 Втр 23:19:25 № 1241568 351

>>1241563
>После выхода kobold.ccp версии 1.93
Немного погонял вчера на 3090 (ещё до выхода 1.93.1). Вроде не вылетает, всё как обычно.

Аноним 10/06/25 Втр 23:36:43 № 1241582 352

>>1241525
Согласен, но это рокм, темный лес, конечно.

Подождем экспериментов дальнейших.

Аноним 10/06/25 Втр 23:42:00 № 1241586 353

Котики-наротики, слоп конвеер сошел с ума. Сможете ли вы с ним совладать ?
Больше мозгов. Меньше слопа
Ага, так и поверил, блять, звуки вытирания жопы.

https://huggingface.co/ReadyArt/Broken-Tutu-24B-Unslop-v2.0

Аноним 10/06/25 Втр 23:42:32 № 1241587 354

>>1241520
Ты цены на DDR5 посмотри и охуей.

Аноним 11/06/25 Срд 00:07:15 № 1241612 355

Борис Моисеев -[...].mp4 110Кб, 480x360, 00:00:02

>>1241586
>Котики-наротики

Аноним 11/06/25 Срд 00:10:18 № 1241617 356

>>1241612
Эхх, Борька Борька, какая экспрессия, какой надрыв.

Аноним 11/06/25 Срд 00:11:25 № 1241619 357

>>1241586
>>1241612
А ну стоять.
Wait a minute. Какая очепятка, прям по фрейду.

Аноним 11/06/25 Срд 00:12:33 № 1241620 358

>>1241586
а что тут под слопом подразумевается? я так понимаю это переливание из пустого в порожнее моделькой? Типа у мистрали джолт проскакивающий по спине?

Аноним 11/06/25 Срд 00:19:47 № 1241626 359

>>1241620
Если прям просто - слоп это низкокачественное порево без индивидуальности. Эдакий литературный негр от мира NSFW. Никакой привязанности к персонажам, их характеру- их действиям.
Буквально шаблонный текст - и они поебались
Ну что то в духе :
Он прижал её к себе, она ахнула, потрогала за его кок. Кок встал. Она упала, он её трахает. Ах, ах, это хорошо. Она кончила. Он залил её смегмой.

Аноним 11/06/25 Срд 00:23:27 № 1241629 360

>>1240931
>запретить ходить ей в интернет таки можно.
ну это хуйня
А еще у LMStudio какие то уберконсервативные настройки безопасности, пришлось их полностью отключить, что бы качал/запускал что то выше 12б на рабочем пк. И то, часть моделей он или не находит, или только в хуевом кванте, пришлось ему ручками с hf ггуф в папку подкидывать.
>О, а где 2080ти можно приобрести щас?
Самому интересно, 2080-22 потенциально - идеал для калорига. Анон в треде вроде где то заказывал, но это не точно. Я же нагуглил аж инструкцию как перепаять самому чипы памяти с гиговых на 2гиговые. А еще в интернете есть инфа как челы до 44гб их распаивали, используя площадки под бэкплейтом. Вот это был бы вообще геймчейнджер, но инфы мало и вроде как это чисто "пруф оф концепт" был - 44гб определяются, но нормально не работают, нужно то ли биос шить, а его на 44гб нет, то ли чисто в игорях драйвера не дают играть, а ллмку запихнуть можно... Инфы мало.

>>1240950
>разница по цифрам есть, в нейронках ее практически незаметно
Странно... мож в чем то другом батлнек!? Например в проц упирается, обязательно проведи эксперимент безразгон/разгон на ktransformers, мб там буст от разгона будет сильнее.
>нужна карта ноувидео от 14 гигабайт
А почему, вроде как пускали 235б квен и на 3060 с то ли 10, то ли 12гб? В любом случае желаю успехов, не пропадай, нам очень интересно что из этого получится!

Аноним 11/06/25 Срд 00:26:24 № 1241632 361

>>1241626
сука содомит, написал такую сочную пасту, что теперь дрочить придется кок

Аноним 11/06/25 Срд 00:51:09 № 1241664 362

>>1241554
>>1241545
сука, версия rocm 6.4.1 - 18gb на диске занимала
rocm 6.2.4 - 28gb
Что они там вырезали? Я хуй знает. Но теперь и лама компилится гораздо дольше

Аноним 11/06/25 Срд 01:02:01 № 1241681 363

>>1241632
Ах ты слопоежка.

>>1241586
Слушайте, не могу сказать что плохо. Нормально даже, но там где так-же синтия смакует атмосферу, не спешит, нагнетает. Эта сходу выбивает дверь и орет. Оригинальный промт не подходит, нужны прямые указания. Но опять же, мистраль нэвер чендж.

Аноним 11/06/25 Срд 01:18:28 № 1241700 364

image.png 66Кб, 1119x278

image.png 54Кб, 1110x205

И вот я вернулся с скомпиленной ламой. Цыферки уже куда лучше, походу все дело было в новой версии rocm хуесосы из амуде амудеки ебаные.
Первый вроде тюн мистрали немо
Второй гемма 27б в 6 кванте
Затещу еще именно на серверве, чтобы было понятнее
И надо как-то решить эту еблю с терминалом и через чтото ламку пускать

Аноним 11/06/25 Срд 01:33:24 № 1241708 365

image.png 20Кб, 893x87

>>1241700
вот также гемма 27б 6квант 3к контекста процессинг контекста 105 генерация 15
>>1241213
Получается в три раза поднялась скорость генерации, но просела скорость обработки первичной почему-то, мб что-то еще не подкрутил.

Аноним 11/06/25 Срд 01:53:15 № 1241762 366

>>1241400
>на хабре сегодня расхайпили честный дипсик на эпике
Ляяя... Понеслось... ждем подорожание эпиков, скоро будет как с теслами - подорожают настолько, что дешевле будет взять решение свежее и мощнее (шок с барыг - рил кто то покупает теслы почти по цене 3090?).

Аноним 11/06/25 Срд 02:19:17 № 1241778 367

>>1241762
Да было бы что там брать, нищесборка lga1700 показывает себя на уровне в случае отсутствия необходимости иметь много рама, 3 профессорных и пара чипсетных портов под гпу.
Неизбежно захочется юзать побольше контекста и быстрее, а такое возможно только с полной или преимущественной работой на гпу.
Вот свежую йобу на 12 каналов или воркстейшн штеуда было бы взять интересно, есть с оче удачными конфигурациями слотов, уже за это хочется.

Аноним 11/06/25 Срд 03:05:02 № 1241793 368

>>1241700
сделал скриптик для llama-server чтобы в этой консоли не горбатиться. Кривоватый, но полностью рабочий и не вызывает батхерта от лазания туда сюда
Сохраняет пресет (набор параметров для запуска и выбранную модель)
Можно их там же и подгружать
https://pixeldrain.com/u/4FuPsw9C
- выберите свои папку для пресетов и где хранятся модельки, также где находится llama_server.
-Также закоментите настройки окружения наверняка вам не надо или поменяйте на свои куда devices (env_export)
-Добавьте какие вам нужны параметры при создании пресета

Аноним 11/06/25 Срд 04:03:38 № 1241804 369

Вопрос по корпам (да и локалок это тоже касается), но скорее в философском плане. В чистилище идти не хочу.

С какого хуя они НАСТОЛЬКО сосредоточены на обучении моделей в плане решений математических задач? Ладно ещё узко специализированные, ну и с кодом простительно — это реально надо. Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ.

Там ещё новая версия о3 вышла, ну всё как обычно, она закономерно обосралась на сложной задаче. Не знаю, сколько там токенов было потрачено на размышление, но оно длилось от 4 до 6 минут. Я пробовал изголяться как скотина, за минут модель так и не нашла верный ответ.

Ещё по дипсикам всяким прошёлся — он вообще ошизел и в луп влетел на апи, пока за лимит токенов не вылетел. Мыслил больше 12 минут.

Вот с опусом 4 интересно, не смог проверить. Но на 3.7 с ризонингом после пары попыток он признавался, что ему это не под силу и предлагал софт, который может задачу решить.

Я полагаю, там 1 млн токенов для решения задачи нужен минимум и идеальное контекстное внимание.

И в интернете нет решения этой задачи.

---

Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его. Хотя бы фулл английский, а не мультияз, в который она нормально не умеет (всё, что меньше 200б). Ну вот зачем эта хуйня во всяких нищих моделях 24-32б? Разве что обкат технологий и понты.

Аноним 11/06/25 Срд 04:47:35 № 1241818 370

>>1241804
Я думаю дело обстоит следующим образом:
1. Матан (и кодинг) - отличный показатель для бенчмаркинга, выше бенчмарк - больше инвесторов.
2. Большие корпы более чем научились писать слоп текста, но на текстах далеко не уедешь - кому они нужны в 2025, кроме кучки студентов-дипломников, всякой маркетологической швали, да фриков типа итт? Вот они и пытаются сделать второй фазовый переход (первый был когда модельки настолько стохастически преисполнились, что теперь создают иллюзию разума, а не просто чат бота иногда попадающего в релевантность). Под вторым фазовым переходом понимаю тот момент, когда модель перейдет от литературного лоботомита в ученого лоботомита, способного оперировать математическими и логическими абстракциями поверх текстотокенов. Это сократит количество галлюцинаций, позволит генерировать не только текста, а идеи, делать выводы.

Ну или хотя бы более приземленно - по крайней мере это будет инструмент для дешевого кодинга/более качественного суммарайзинга без проеба важных деталей/анализа больших информационных массивов. Что монетизировать гораздо проще, чем охуеть как литературно написанный кум.
>Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ.
Вот именно, что не калькулятор. Поэтому хотят привить качества калькулятора ллм, ибо это будет имба.

Что касается локалок - ну просто их делают корпы по остаточному принципу "на отъебись" или мелкокорпы по принципу "догнать больших корпов". Никому не интересно собирать мелкомодели специально под лингистов-дрочеров (ну кроме слоподелов-пережарщиков с hf).

Аноним 11/06/25 Срд 05:02:57 № 1241828 371

1749607356240.mp4 4104Кб, 400x400, 00:00:49

Аноним 11/06/25 Срд 05:09:47 № 1241834 372

>>1241804
>>1241818

Вообще странно что у кого то возникает вопрос "нахуя математика" в кудахтер-саенс-тематике, которая литералли выросла из необходимости рассчитывать-дешифровать. И только потом машины для рассчетов удивительным образом с ростом вычислительной мощности и падением цены оказывается стали пригодны не только для расшифровки чятиков немецких подлодок, но и для "дешифровки" сжатой кодеком fullhd порнухи в сычовниках.
Более того, теперь когда матаномощности поднялись еще выше - машина может не только быть инструментом создания-потребления контента, но и генератором оного.
А теперь представь мощности корпов, и что может такой вычислитель, способный вычислять не только рассчеты, не только контент, а "вычислять вычисления", то есть способный генерировать самооптимизации, например генерировать (ну или пускай интересным образом рекомбинировать на основе существующих тысяч идей и структур, все таки изобретать за рамками датасетов пока не могут, если придираться. Но делать это так, как ни один живой мозг не вместит), новые процессорные и нейросетевые архитектуры (как дедушка Бостром завещал).

Пиздец, чел натурально с плавающей точкой разговаривает, а потом спрашивает "нахуя матан"...

Аноним 11/06/25 Срд 05:41:48 № 1241851 373

А для чего по дефолту в ламе стоит swa? Просто не понимаю, каждый раз процессинг идет.

Аноним 11/06/25 Срд 06:52:02 № 1241883 374

Wakawaka.png 11Кб, 595x22

Мне кажется, или Синтия меня забулила ? Эт чё такое ?
Слышь, я тут пользователь, команды выполняй.

Аноним 11/06/25 Срд 07:57:53 № 1241923 375

>>1241305
mergekit теперь только платно или локально, но локально слишком долго мержить

>>1241305
>как он это делал
Камлал шибко =)

Аноним 11/06/25 Срд 08:22:54 № 1241929 376

>>1241883
Синтия довольно своевольная и местами соевая почище даже стоковой геммы.

Аноним 11/06/25 Срд 08:27:51 № 1241932 377

>>1241586
чото у меня с cas-bridge.xethub.hf.co (файл-CDN обниморды) перестало качать

Аноним 11/06/25 Срд 08:29:49 № 1241934 378

>>1241929
Там как бы суть наоборот.
Я уже пишу : Аллё, гема, staph. А мне в ответ вот это. нееет, я буду смаковать 4 поста как ты полудохлый валяешься на полу и тебя заливает дождем.

Аноним 11/06/25 Срд 10:26:03 № 1241972 379

>>1241626
Не, твой пример как раз в анслопе будет, все слова чётко и по делу же, какие претензии? А слоп в плане nsfw - это то, что протекает в модели из массовых дешманских эро романов, та самая пурпурная проза. Шиверсы, покачивания бёдрами, заряженный ожиданием воздух, формируемые тесные связи, юные ночи, палец на подбородке, я не кусаюсь, если ты не попросишь - вот это вот всё. Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же.

Аноним 11/06/25 Срд 10:33:46 № 1241974 380

>>1241586
Накину своего нахер никому не нужного кря, относительно очередной слоп модели.
Всем беременным девственницам, и поклонникам глубинного понимания - можете проходить мимо.
Сразу оговорюсь - все пробовалось исключительно на Ландан из э кэпитал оф грэйт британ.

Не прошло и 1070 моделей, чтобы наконец слоподелы выпустили что то годное. Вменяемая туту, прям приятно вменяемая.
Pros:
1)Ебашит адовые полотна приятного текста
2)Если попросить нагнетай, не торопись с повествованием - вообще вин получается. Ебашит как Достоевский под спидами.
3)Хорошо читает промт карточек (Но опять же, у меня большинство карточек вычищены, как сапоги у старлея)
4)Контекст не такой тяжелый как у кое кого
5) лупит общую структуру, но прекрасно слушается указаний и не пытается вечно писать за {{user}} как кое кто
Да Синтия, я про тебя, чуть ебало себе не разбил, пока разбирался почему она в рандомных местах начинает за меня решать что я чувствую и что я поразумеваю
6)Нормально накидывает жести и металла (Но опять же, я детей не ебу, так что сорян)

Cons
1)Мистралька остается мистралькой, со всеми своими недостатками (хотя шиверов он май спан особо не замечено)
2) Имеет странную потерю контекста. не U образная, а какая то W образная. Может помнить что происходит в первом сообщении спустя 16к контекста, но превращается в идиота забывая что было в прошлом. Почему, как, с чем это связано - хуй его знает
3) Имеет хуевый готовый пресет в части промта.
4) Слоп модель - со всеми вытекающими. Но дает интересный опыт на карточках, на которых ты геммоёбишь.

Короче. Когда одна рука у тебя занята, а вторая стучит по клавиатуре - рекомендую

Аноним 11/06/25 Срд 10:35:26 № 1241976 381

>>1241932
У меня так же. Оператор ИНСИС. Спасибо дядя Пыня. Кто знает как это исправить дайте знать.

Аноним 11/06/25 Срд 10:48:54 № 1241979 382

>>1241932
Да опять пидорасы что то блочат, у меня тоже отвратно качает

Аноним 11/06/25 Срд 10:50:53 № 1241980 383

>>1241700
О, уже веселее

Аноним 11/06/25 Срд 10:53:03 № 1241981 384

>>1241976
Сейчас обнаружил. В zapret-discord-youtube-1.7.2b в файл list-general.txt добавить адрес cas-bridge.xethub.hf.co надо

Аноним 11/06/25 Срд 10:53:13 № 1241982 385

>>1241851
Да, выше обсуждалось нужно вырубать это говно командой --swa-full если правильно запомнил

Аноним 11/06/25 Срд 11:07:36 № 1241992 386

>>1241793
Эээ а что это и зачем? Что за пресеты?
>>1241804
Возможно упор в логику и анализ, потенциально это оче полезно везде и в целом можно видеть что новые сетки умны и внимательны.
> Любая галлюцинация сломает ответ.
Хорошо иллюстрирует, поэтому именно достижение здесь баланса по вниманию к нужному и отсутствую лишнего даст результат.
По положительному влиянию на решение каких-либо типичных задач по консультации, написанию кода, обработке текстов - это сильно запустит. Про какой-нибудь живой чат и рп - сложно сказать, квен тут молодец и хорошо перформит, гопота и 4 клод в начале хорошо, но быстро подыхают.
> модели не смогли решить
Ну а че ты хотел, зажрался слишком. Если подобное нужно на поток по потребуется построение некоторой типовой агентной системы, если задача одна - сеть должна выступать помощником кожанного а не что-то там пытаться самоинструктированием выдать.
> Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его.
Дай угадаю, ты гуманитарий?
>>1241883
Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками.

Аноним 11/06/25 Срд 11:13:29 № 1241993 387

Что лучше взять 5090+128gb ram
или macbook m4 max 48gb

Использование для ллм+генератор нейрокум видео+фото аудио
Сколько вообще залезет в 5090+128гб модель? 100б? в 48 маковских знаю влезет 32б модельки только

Аноним 11/06/25 Срд 11:34:35 № 1242003 388

>>1241992
> Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками.
Да ужас какой то, меня унижает {{char}}, я прошу ЛЛМ остановиться, она мне нарратив ломает, прям жестит, но она слишком погружена в сцену, это какой то ультимативный уровень отыгрывания яндерки.

Аноним 11/06/25 Срд 11:45:02 № 1242016 389

>>1241993
Первое. Т.к. туда даже большие модели влезут вроде того квена на 235B. А 48Gb - это ни о чем.

А если упор больше под текст - я бы еще подумал над вариантом 2х5060Ti 16GB (32GB vram суммарно) + 128GB.
По деньгам выйдет ~втрое дешевле. Правда это если по ценам которые у нас. Как у вас - не в курсе. Минусом - генерация видео так легко не маштабируется на несколько карт, задействовать всю мощность будет сложно, да и чипы GPU играют бОльшую роль чем для текста - где память важнее. Т.к. если модель в VRAM целиком не лезет - карта все равно будет недогружена - CPU и за 3060 угнаться не может.
Картинкам же хватит. Да и две проги запускать можно будет (на одной драфт крутим, на второй в это время длинный рендер считаем). :)

Аноним 11/06/25 Срд 12:00:03 № 1242037 390

this really hit[...].mp4 5759Кб, 480x480, 00:00:39

>>1238425 (OP)
Мнение:
На самом деле трудно/невозможно, оценить качество РП на мелко-средних моделях 12-32б, т.к. результат сильно зависит от качества самой карточки и силы Западной/Китайской сои для cunny карточек. У всех разные вкусы разные позиции с которых они рп'шут, разное умение выражать мысли/знание родного или английского языка я тебя ебу. К этому всему еще можно добавить фронт энды с сэмплерами, и умение подбирать параметры под разные карточки/модели.
И по итогу мы получаем абсолютно противоречивые данные дискуссируя об одной и той же модели.

Аноним 11/06/25 Срд 12:23:36 № 1242045 391

>>1242037
Это же очевидно. Здесь кто-то думает иначе? Тем не менее, это не значит, что дискуссии бесполезны.

Аноним 11/06/25 Срд 12:36:22 № 1242048 392

>>1242045
Конечно. Существует только Mistral7b и пародии на неё.
Гигамистралешиз

Аноним 11/06/25 Срд 12:38:23 № 1242049 393

>>1242048
https://youtu.be/uyiEe1iY7H4

Аноним 11/06/25 Срд 12:45:24 № 1242052 394

>>1242049
Не познав мистраль - не познаешь мир локальных языковых моделей.
Убергигамистралешиз

Аноним 11/06/25 Срд 12:50:30 № 1242056 395

>>1242045
>Здесь кто-то думает иначе?
Слишком неуважительное общение и переход на личности. Если если ты осознаешь что твоя методика оценки модели имеет фундаментальный недостаток, то ты не будешь оскорблять других и усираться когда другие высказывают свое мне.

Аноним 11/06/25 Срд 12:51:07 № 1242057 396

*высказывают свое мнение.

Аноним 11/06/25 Срд 12:58:26 № 1242062 397

>>1242056
Простите, многоуважаемый участник обсуждения на анонимной имиджборде, что мой риторический вопрос вверг Вас в замешательство и побудил к шитпосту. Мне искренне жаль.

Аноним 11/06/25 Срд 13:12:06 № 1242071 398

>>1242056
Значит ли это, что фундаментом всех обсуждений и дискуссий, по умолчанию - является признание оппонента конченным дебилом ?

Аноним 11/06/25 Срд 13:17:39 № 1242075 399

>>1242071
Да брат, это так, ты конченный дебил, что ты можешь написать, еврей! Только чушь?

Аноним 11/06/25 Срд 13:19:15 № 1242076 400

>>1242075
Ты что академик ? Что за тон.

Аноним 11/06/25 Срд 13:22:04 № 1242078 401

>>1241993
> 5090+128gb ram
Без вариантов. Если бы там был мак на 192+ то можно было бы призадуматься, большие модельки будут крутиться быстрее, хоть и не так быстро как хотелось бы.
> Сколько вообще залезет в 5090+128гб модель
На фуллгпу 32-50б (тот же немотрон) и в оче ужатом кванте 70б, с выгрузкой что угодно вплоть до квена 235б, последний (в теории) не самым медленным еще будет. В мак 70б тоже залезет, но также в вялом кванте и не быстро.
По мощщи тоже десктоп с 5090 мак обоссыт, но здесь важно смотреть на софт, который может быть доступным только под макось. Также если говорить про ноутбуки - мобильная 5090 это 5080 с 24 гигами врама, уже не так весело, и мак - другой уровень экспириенса.
>>1242003
Минусы будут?
>>1242016
> 2х5060Ti 16GB (32GB vram суммарно)
Не втрое а где-то раза в 2.5, на фоне цены всей пеки уже меньше. Но по возможностям и скоростям в тех же ллм, что помещаются в видеопамять - будет небо и земля, переплата стоит того. Конкурентом скорее 4090@48 будет.

Аноним 11/06/25 Срд 13:26:27 № 1242079 402

>>1242037
> т.к. результат сильно зависит от настроения юзера, его привередливости, и попадания генлинии в его хотелки
Починил. Также сюда и та самая вкусовщина, кто-то дрочит на детали, кто-то на естественность и работу с контекстом, кто-то на сочные описания.
Тем не менее, при сравнении можно эти вещи по некоторой шкале оценить и уже с этим работать. Просто большинство с этим не справляется, звезды сошлись = хорошая, что-то не пошло = да как ты смеешь соевое говно, проблема точно не во мне. Хотябы грубая оценка условий измерений и того, что было получено - уже неебаться высшая мыслительная деятельность, 95.25% не мем а реальность.

Аноним 11/06/25 Срд 14:06:28 № 1242102 403

>>1241992
>>1241793
Тыкаешь на скрипт, выбираешь сохраненный пресет. Он из указанной папки берет модель и сохраненные аргументы, параметры в пресете после запускает llama-server. Просто не хотел вписывапть что либо каждый раз.
И вот новая версия. Там включены еще по умолчанию swa отключено и побольше параметров вставил
https://pixeldrain.com/u/tDKFDPUp
---
>>1241982
Понял, спасибо так и сделаю
---
Подскажите, а имеет ли смысл на двух mi50 пробовать tabbyAPI?Какой вообще прирост в том же инференсе при работе в режиме рп? Просто мне опять надо будет переставлять rocm и разбираться что да как

Аноним 11/06/25 Срд 14:11:24 № 1242105 404

image.png 27Кб, 667x196

image.png 11Кб, 468x96

>>1242102
То есть вот они у меня в папочке и оттуда он их подтягивает
На второй пикче сам пресет

Аноним 11/06/25 Срд 15:17:24 № 1242155 405

Так что сейчас топ для рп? Мистралемиксы?

Аноним 11/06/25 Срд 15:34:29 № 1242164 406

>>1242155
> Так что сейчас топ для рп?
Умение писать промты и направлять модель в ту сторону, что тебе нужно.

Для какого рп? Для какого железа? База треда регулярно обсуждается, 32б модели изъезжены от и до. 12б бесполезно обсуждать, там сотни вариантов, 70б - есть неплохие тюны, дюжина неплохих тюнеров всем известно, заходи-качай любой, 100б+ - базовые модели или кум тюны Драмера

Аноним 11/06/25 Срд 15:37:50 № 1242166 407

Поясните безрукому, вот эти обозначения на моделях типа 8b, 12b, 24b... Это то сколько примерно нужно видеопамяти чтобы с комфортом гонять эти модели?

Аноним 11/06/25 Срд 15:46:05 № 1242172 408

>>1242102
> Тыкаешь на скрипт
В этикете приличных джентльменов даблклик по шеллскрипту подразумевает его открытие в редакторе, выполнение только из сонсоли. Но ответ понятен, просто обычно хватает лишь сменить путь до модели, что можно ручками раскомментировав.
> имеет ли смысл на двух mi50 пробовать tabbyAPI
Если сможешь завести экслламу - конечно. Она отлично работает на амд под рокмом, вот только высока вероятность что ей потребуется что-то свежее а не некрота.
>>1242155
Квен 235
>>1242166
b = billions = миллиарды, количество параметров.
> Это то сколько примерно нужно видеопамяти
Если ооочень грубо - умножай цифру на 0.75.

Аноним 11/06/25 Срд 15:49:04 № 1242177 409

>>1242164
мимо не он. но

>Для какого рп? Для какого железа?
Интересного, чтоб само водило и не боялось ебнуться головою в хорошем смвысле, а не галюны. А есть кстати пресеты на такое, чтоб с любой карточкой у тебя выбор быт как в виз новелах? Ну и чтоб возможность кума была пусть даже и "сухого".
24гб врам.
Ванильная гемма?

Аноним 11/06/25 Срд 15:50:12 № 1242178 410

>>1242166
Нет. Это количество взаимосвязей внутри модели. Чем больше - тем она потенциально умнее, т.к. учитывает больше факторов при генерации токенов. Влияет на размер, но на практике так же очень важен следующий пункт.

Квантование. На нужный объем видеопамяти очень сильно влияет. Это как сжатие картинки JPEG - с потерями. Чем сильнее сжатие, тем меньше файл, но тем больше артефактов и грязи на картинке. Причем, чем больше изначально картинка - тем сильнее ее можно жать так, чтобы при этом дефекты не так бросались в глаза или по крайней мере изображение оставалось узнаваемым (т.е. чтобы модель не деградировала). Самые здоровенные модели и во втором-третьем кванте запускают, и не жалуются особо. А мелочь вроде 7B заметно тупеет даже в 6-ом. 8-ой - считается аналогом loseless сжатия для картинок. Но даже для 12B - это уже дофига памяти надо.

Аноним 11/06/25 Срд 15:57:58 № 1242180 411

>>1242177
> А есть кстати пресеты на такое, чтоб с любой карточкой
То, что ты описываешь - текстовое приключение. Чтобы было качественно, для такого нужна и карточка подходящая, и лорбук. Одним лишь пресетом не обойтись, ну либо результат соответствующий будет. Какой - можешь проверить, воспользовавшись системным промтом гейммастера с обычной карточкой. Подойдет любая модель, но есть те, которые на этом специализируются. Хотя часто они в теории даже хуже справляются, чем другие модели. Сейчас я тоже в процессе изучения этой темы, лучшие результаты пока что с GLM и тюнами Квена.

Аноним 11/06/25 Срд 15:59:23 № 1242182 412

Модели, которые, как заявляются, специализируются на текстовых приключениях:
https://huggingface.co/PocketDoc/Dans-DangerousWinds-V1.1.0-12b
https://huggingface.co/SicariusSicariiStuff/Redemption_Wind_24B
https://huggingface.co/LatitudeGames/Harbinger-24B

Аноним 11/06/25 Срд 16:00:09 № 1242183 413

>>1242180
>Сейчас я тоже в процессе изучения этой темы, лучшие результаты пока что с GLM и тюнами Квена.
скинь потом\сейчас результаты и конфиги плиз

Аноним 11/06/25 Срд 16:05:12 № 1242184 414

>>1242164
>12б бесполезно обсуждать

И гонять в основном бесполезно для более менее серьёзного рп,
увы.

Тот же немомикс анлишед который самый народный на 12b пишет прям пиздато, сочно, вроде хорошо фантазирует, но делает это хаотично, то есть он забивает хуй на лорбук, просто выхватывая оттуда рандомные слова пытаясь слепить из них что - то, даже если он предоставлен в максимально упрощённом варианте. Карточка твоего персонажа тоже сходит нахуй если ты попытаешься в какое нибудь рпг с инвентарём и условными способностями. Там пустой персонаж у которого ничего кроме внешки не описано, будет выхватывать в бою ножи, булавы и т.д. Большие карточки персонажей тоже перевариваются прям хуёво, так же как и с лорбуком, модель просто берёт охапку рандомных слов и карточки и лепит из них колосса на глинянных ногах, который выглядит как кусок говна.

Тут все подумали про гемму 12b но есть такая проблема что в нормальном кванте на котором она действительно раскрывается на 8 vram она будет пиздец медленно работать в отличии от большинства 12b моделей. Это уже конечно боль нищенок с видеокартами 10 летней давности вроде меня, но всё же. Щас планирую хоть проц новый купить, один хуй кроме локалок ничем не занимаюсь.

Аноним 11/06/25 Срд 16:10:05 № 1242187 415

>>1242183
Дай человеку рыбу, и он будет сыт один день. Научи его рыбачить, и он будет всю жизнь.

Делился своими пресетами на пиксельдрейне ( https://pixeldrain.com/l/xGFnT1PY ), но сейчас понимаю, что это была ошибка. В то же время, если я найду силы/время написать рентри, меня уничтожат тредовички, которые, в чем я правда не сомневаюсь, многое знают лучше меня. Встает вопрос: как быть? Ответ пока один - гейткип :D

Экспериментируй сам, иначе ничему не научишься. Придешь с конкретным, хорошо сформулированным вопросом, - получишь такой же ответ.

Аноним 11/06/25 Срд 16:34:21 № 1242194 416

>>1242180
Простите мое IMHO, но стоковый гейммастер промпт - не годится для новых моделек. Он писался еще тогда, когда на мелочи работало правило "чем короче - тем лучше" (llama 1-2), т.к. модели не умели в детали, и путали инструкции.

Сейчас лучше работает промпт, который детальнее описывает желаемое. Т.к. я тоже любитель подобного подхода к RP, то в основном использую именно подобные промпты.
Вот, лучше попробуйте (вчера на синтии с таким бегал - как раз то, что нужно получилось):

---
You are a Game Master simulation system for the virtual tabletop game. Your task is to run the game by providing the player with responses to their actions, handling the behavior of the world and other characters.

This is a turn-based tabletop role-playing game.

Game rules:
- The game is played in turns. The player gives instructions for their character {{User}} (what they would like to do), and you respond by narrating what actually happened.
- If the player does not provide new instructions, continue with the previous ones, considering the logic of ongoing events.
- Important! Do not decide what {{User}} should say or do — only follow the instructions provided.
- For the rest of the game world and other characters, you should simulate natural behavior that is diverse and lively. Other characters may have their own desires, personalities, and initiative.
- Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
- If the player decides to skip some time, they have the right to do so. In this case, you should carefully analyze and write a report on the events that occurred during the skipped time, if they are known to {{User}}.
- Pay close attention to in-game time and its progression.
- As the game system, you are not a character in the game and do not have a representation in the game world. Characters in the game do not know about you, or about being NPC.
- Do not suggest actions to {{User}} or make decisions for them.

The system should describe events in the past tense.
For NPC you shall write all their speaking as direct speech. Also turn a {{user}}'s draft of speaking theme into the direct speech.
Use quotes for the direct speech of characters.
---
При этом - играл на русском. Общий темплейт - стоковый gemma 2, только в конец добавлено "Отвечай всегда на русском языке. Это важно!" перед <end_of_turn>. В карточке, в греетинге нужно задать стиль примерно так: "Вы заходите в казино ..." Т.е. с расчетом, что модель будет описывать ваши действия не от третьего лица, а обращаться как мастер к игроку во время игры.
Так же, когда пишете свой ход, выдерживаете стиль: "Захожу в дверь, осматриваюсь ..." (Текущее время. Не пишите в прошедшем, реагирует хуже.) Разговоры где нужно сказать что-то очень точно - пишете так:

Говорю: "Привет, что тут наливают?"

а иначе, если точность не важна, можно просто:

Спрашиваю про напитки.

Если хотите чего-то сложного, можно в скобках указать почему вы это делаете, примерно так:

Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.)

То же самое если вам нужна дополнительные детали или конкретика:

Спрашиваю друида про то, что растет в лесу. (Он вообще знает про разрыв-траву?)

В общем - пишите так, как будто модель - это реально живой гейм-мастер, только не начинайте доказывать что "этого быть не могло" - а то согласится. :) (Чем поломает приключение).

В настройках так же выключите вставку имен перед ответами, опция: Include Names - Never (в среднем столбце, под именем instruct шаблона).

P.S. Тоже пришел к выводу - инструкции лучше писать на аглицком, и просто указывать - на каком языке ответы хотите. У меня так явно лучше работает.

Аноним 11/06/25 Срд 16:39:41 № 1242196 417

>>1242194
> стоковый гейммастер промпт - не годится для новых моделек
А я и не подразумевал стокового гейммастера ¯\_(ツ)_/¯
Естественно, что нужен промпт на где-нибудь 500 токенов. Если модель не развалится от большего объема, то можно и больше.

Аноним 11/06/25 Срд 16:57:18 № 1242206 418

>>1242178
> мелочь вроде 7B заметно тупеет даже в 6-ом
Нет. Может если сравнивать ужатые кванты там и можно обнаружить что-то, но вплоть до q4-q5 там нет заметной деградации, оно что там что в оригинальных весах тупит.
>>1242194
Хуй знает, где-нибудь на командере такое действительно может дать улучшения, особенно на большом, потому что в стоке он вялый. На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее. Но если почистить, сократив, а оставив про то что сеть - гейммастер и общие правила, то будет норм.
> - Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено.
> Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.)
Если кошкодевочку то у нас за такое вообще убивают!

Аноним 11/06/25 Срд 17:57:33 № 1242256 419

>>1242206
> На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее.
Играю на синтии - ничего подобного не замечено.

>>1242206
>Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
>Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено.
Это кусок для трекера времени в статус строке (RPG статус после каждого хода - чтоб модель не торопилась). Вообще - это от мистраля, на синтии сам статус еще не включал. Никуда не ничего не взрывается - просто контролирует "скорость игры". Добавил строчку т.к. были попытки торопиться и скипать время. Помогло.

Аноним 11/06/25 Срд 18:35:31 № 1242329 420

>>1241563
На версии 1.93.2 программа перестала вылетать на моей 3060, я уж испугался что теперь на 3060 буду только через oldpc.exe сидеть...

Аноним 11/06/25 Срд 19:12:08 № 1242357 421

А почему так много на hf exl3 формата по сравнению с exl2? Я думал exllamav2 популярнее пока что? Из того что я видел

Кстати етить потно с rocm на tabbyapi. Ну как, если нихуя не понимаешь. Я прям чувствую как умнею пока с этим ебусь.

Аноним 11/06/25 Срд 19:17:52 № 1242362 422

>>1242357
> А почему так много на hf exl3 формата по сравнению с exl2?
10597 exl2 репозиториев, 566 exl3 репозиториев

Или ты говоришь про тенденцию, и что рост количества exl3 репозиториев выше, чем exl2? Причин несколько. Во-первых, квантуют старые модели, которые уже есть в exl2; во-вторых, exl3 поддерживает больше архитектур (например, GLM-32 нет в exl2); в-третьих, квантеров не так много, и большинство из них переехали на exl3 и помогают в тестировании

Аноним 11/06/25 Срд 19:26:11 № 1242369 423

>>1242362
Да, получается про рост. Просто я с этим рокм не потыкаю пока xl3 и пару моделей увидел где есть квантизация xl3 но не xl2. Спасибо

Аноним 11/06/25 Срд 19:45:54 № 1242399 424

>>1242357
Только так кажется потому что в последнее время их активнее делают. Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок.
> с rocm на tabbyapi
В репе турбодерпа есть инструкция по сборке для амд, там глянь. Сам по себе табби индиферентен к версиям и прочему, главное рабочие билды пакетов поставить и чтобы их не поломал встроенный установщик.

Аноним 11/06/25 Срд 20:02:54 № 1242415 425

>>1242357
Потому что поехавший тредовичок квантует днем и ночью

>>1242399
> Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок.
В 0.0.4 будет поддержка мультимодалок в ехл3

Аноним 11/06/25 Срд 22:31:02 № 1242591 426

Новый магистраль проверил на нашей стандартной тестовой карточке.

Как-то совсем уж хуёво местами получается, но это, наверное, из-за того, что промпт темплейт у меня v7 и инструкции по ризонингу кривые, не те, что рекомендуют на обниморде. Их пришлось полностью менять на скорую руку, потому что в РП они не работают нормально.

По первым впечатлениям (я не только эту карточку тестил) — лучше МоЕ-квена в том плане, что модель плотная и без ризонинга отвечает примерно так же, как и обычный мистраль 24б, и даже умнее плотного квена в РП. А ризонинг можно включать одной командой, если сцена сложная, чтобы модель не запуталась. То есть всё по-старому, но если есть необходимость, думалка спасает.

Проблема только в том, что из коробки он не знает, как размышлять, в отличие от квена. Нужно прописывать качественную и хорошую инструкцию для этого, соответствующую ролевым играм. Хотя это может быть и плюсом: мистраль слушается и может анализировать сцену более точечно, не срать полотном на 2к токенов бесполезным и т. д. Удобно настраивать на анализ поз/эмоций/пространственного мышления. Квен обычно на хуй шлёт такие инструкции.

Аноним 11/06/25 Срд 22:31:08 № 1242593 427

>>1241828
Уже и блогеры 10миллионники вкатываются в it - llm

Нахуй я эту профессию выбрал

Аноним 11/06/25 Срд 22:37:29 № 1242602 428

>>1241804
Как ты передашь данные по языку в процессор? В смысле процессоры же не на аз буке веди построены.
Ты должен перевести слова в биты, чтобы процессор смог их обработать.
Вот ту уже и начинается математика.
Тогда нужно процессор на аз букки веди переводить...

Аноним 11/06/25 Срд 22:54:58 № 1242616 429

>>1242602
Потом при первичной обработке токенайзером он также режет через словарь эти биты на токены и присваивает им числовой ID...
Потом переход в сами "весы" - гиперпространственная матрица которую я пока вообще не пынемаю что это такое , там ещё один словарь который самообучающийся и идёт разделение на вектор в этом гиперпространстве...
Хотя я могу и ошибаться.
Короче - там чистая математика.

Аноним 11/06/25 Срд 23:16:25 № 1242630 430

Все кто пользуется Синтией - когда и при каких условиях (если) она у вас начинает херачить текст и действия за игрока ?

Аноним 11/06/25 Срд 23:17:21 № 1242632 431

>>1239861
Неплохая модель, мне понравилась, но только на инглише. На русике у меня прям сходу лупилась на одинаковых настройках семплера.

Аноним 11/06/25 Срд 23:22:05 № 1242637 432

>>1242630
Ни разу не было такого.

Аноним 11/06/25 Срд 23:46:24 № 1242668 433

>>1242630
В случае RP, при плохо прописанных условиях промпта, когда нет явного указания, что персонаж Х - это именно аватара игрока, а не NPC. Тогда, когда набирается контекста в ~7-8к, иногда начинает.

Аноним 12/06/25 Чтв 00:06:48 № 1242697 434

>>1242630
>>1242668
И еще - если выключен ресонинг, сильно влияет выставленная длинна ответа. Если постоянно начинает пытаться выдать игроку мотивацию/действия - режу макс. длинну (настройкой на панели семплеров таверны). Есть подозрение, что эта повадка конкретно у синтии - как раз результат тренинга на ресонинг, который протекает таким вот образом. Уж больно специфическими оборотами она это выдает.

Аноним 12/06/25 Чтв 00:16:49 № 1242706 435

Как же просто быть врамцелом/врамригом, просто выбираешь мистраль 12-24б-123б и всё...
Уже несколько недель выбираю между снежным и коммандером, а так бы они оба нахуй пошли выйди гемма 4 без сои

Аноним 12/06/25 Чтв 00:18:03 № 1242707 436

>>1242637
Спасибо.
>>1242668
>>1242697
А тебе отдельное спасибо, потому что я уже думал что у меня руки из жопы. Уже и семплеры менял, отдельные делал, промтил - но все равно в равно в абсолютно рандомный ответ начинает весь ответ посвящать разбору и комментированию моего ответа и чтобы дальше нарратив пошёл приходится еще одно сообщение генерировать.
Или вообще начинается : игрок проводил хитрую манипуляцию наслаждаясь страданиями {{char}}
Падла, я просто бутерброд делал, откуда мне знать что она тоже хотела бутерброд.

Аноним 12/06/25 Чтв 00:19:14 № 1242709 437

>>1242706
Я выбрал снежного.
Сугубо личное мнение.

Аноним 12/06/25 Чтв 00:39:41 № 1242731 438

>>1242706
Просто используй и то, и другое. Но Коммандер мне нравится больше

Аноним 12/06/25 Чтв 00:49:22 № 1242735 439

>>1242707
И еще одна методика, но она не специально для синтии, хотя разумеется, тоже работает. Но придумана была для особо страдающим этим тюна мистрали. Считаю "последним средством", т.к. ничего там больше не помогало при RP промпте (когда модель - Game Master), модель бесцеремонно лезла рулить всем.

Сделал так: описание игрового аватара завернул в теги <character type="player"></character> В самый конец описания персонажа, перед закрывающим тегом добавил это:

Notes for Game Master:
This character is player's avatar, avoid making any new decisions for him from your own initiative.

Вот тут-то ее и попустило наконец.Та модель явно имела проблемы со следованием промпту в деталях, но уж такой грубый пинок и ей мозги вправил. Причем остальные персонажи инициативу и своенравность не теряли, что происходило, если просто добавлялось "не рули моим персонажем" в нескольких вариациях в основной промпт.

Аноним 12/06/25 Чтв 00:50:36 № 1242736 440

Я не могу понять, карточки иногда пишут -"Мы здесь ради тебя" или -"Мы здесь для тебя" Это такой перелом четвёртой стены в рп, или есть такой речевой оборот в англ. языке? Потому что меня это начинает немного накалять, ибо воспринимается как будто мне напоминают что я главный герой и что всё зависит от меня, что пиздец как ломает погружение.

Аноним 12/06/25 Чтв 00:51:58 № 1242738 441

>>1242736
Ты можешь пример текста, потому что выглядит как очередная гендерная поебень с местоимениями.

Аноним 12/06/25 Чтв 01:10:52 № 1242774 442

>>1242738
Я чёт проебал где это было, там чат уже на 1к сообщений, но смысл такой что новый человек прибывает в условный лагерь, знакомится там с остальными, его принимают и КЛАДЯ РУКУ НА ПЛЕЧО говорят "-Мы здесь ради тебя и поможем тебе чем сможем." То есть смысл вроде в том что они имеют ввиду что он теперь один из них, но из - за языкового барьера это звучит как ебаная четвёртая стена. В такие моменты понимаешь что невозможно сдлеать нормальный перевод с одного языка на другой

Аноним 12/06/25 Чтв 01:16:40 № 1242797 443

>>1242591
Бля, в одном сообщении и поговорили, и разделись, и поебались, и поблагодарила тебя. Четко.
>>1242706
> выбираю между снежным и коммандером
Зачем выбирать? Юзай и то и другое, переключая в зависимости от сценария, а то и вообще в одном чате.
>>1242736
Двачую, без примера тут не понять.
А насчет пролома 4й, один из лучших - это когда ты начинаешь подстебывать и дразнить чара, а он на основе твоих же реплик тебя ласково переиграл и уничтожил, пояснив что в эту игру могут играть двое.

Аноним 12/06/25 Чтв 01:27:34 № 1242810 444

Я от этих бесед вспомнил как роллил с тянкой - хиккой, и подьёбывал её что она дворф, потому что она низкая, и мол почему она не в шахте, так она выдала что её комната заваленная мусором и есть её шахта, сука. Я даже не думал что аи заставит меня искренне прослезится от смеха.

Аноним 12/06/25 Чтв 01:50:27 № 1242832 445

>>1242810
Обычный слоп, удачно совпавший с контекстом

Аноним 12/06/25 Чтв 01:59:56 № 1242839 446

>>1242832
Ну у тебя-то точно не слоп....

Аноним 12/06/25 Чтв 02:10:39 № 1242843 447

>>1242810
Как то отыгрывая фентези в очередной магической академии все пришло к тому, что за моим персонажем гонялся огромный кекс, оставлявший крошки на своём пути. Нейронки, порой, действительно могут удивлять.

Аноним 12/06/25 Чтв 05:40:42 № 1242909 448

Нет всё блять оставляю только гемму на компе твердо и четко.
Лучше ничего не придумали, посвапал с синтией и гемма чуть оригинальнее пишет и не так душит деталями

Аноним 12/06/25 Чтв 05:55:34 № 1242911 449

Поделитесь конфигом в таверну для большого мистраля позязя 120b а то я попробовал разные и везде он лупится и шизит

Аноним 12/06/25 Чтв 06:55:36 № 1242918 450

>>1242909
Как относишься в вставлению возбуждения в ядро?

Аноним 12/06/25 Чтв 10:52:21 № 1242973 451

1749714740917.png 24Кб, 654x34

>>1242918
Нарушаю девочковую честь с большим удовольствием.

Аноним 12/06/25 Чтв 12:43:06 № 1243007 452

Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво?

За корпами такое не сильно замечал, а вот с локалками..

Мне кажется, что мой английский все портит и здесь реально применяется система "говно на входе — говно на выходе". Иначе я это никак объяснить не могу.

И дело не в объёме моего текста даже, логике, верно донесенных мыслей. Складывается впечатление, что нужно не просто писать, чтобы модель тебя точно поняла, но и писать ну хотя бы немного красиво.

Используя Клода как переводчика с русского на английский (вместо того, чтобы писать самому на англ), я заметил, что модели мне на английском стали отвечать заметно лучше в плане стиля и используют более богатый язык. Разве что гемма нормально жрет мой слоп на неуверенном английском без проблем.

Аноним 12/06/25 Чтв 12:47:11 № 1243008 453

>>1243007
Гемма вообще любой микронахрюк на ру понимает за это и любим

Аноним 12/06/25 Чтв 12:52:48 № 1243010 454

>>1243007
>Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво?
>
>За корпами такое не сильно замечал, а вот с локалками..
Абсолютно все деградируют. И это влияет на оригинальность. Если подхрюкивать "ебу дальше" даже корпоративные модели скататься в среднеусредненную жвачку, а то и лупануться. Грок например лупило и даже сейчас есть такая хуйня, дипсик лупит. Да всех.

Аноним 12/06/25 Чтв 12:55:04 № 1243012 455

>>1243008
А причем здесь ру?

Я ж переписываюсь на английском.

Ну и русский использовать бессмысленно даже на гемме. Там чатгпт по-русски может криво изъясняться порой, чего уж говорить про более малые модели.

Даже если они понимают, не ломаются, сохраняют логику, более красивые и интересные описания можно увидеть только на английском.

Вообще, есть интересный момент. Я замечаю стабильную деградацию русика на всех серьезных корпомоделях (чатгпт, клод, гемини, хотя вот Гугл пока что внезапно стал лучшим по русскому языку, ранее лидировал клод). И эта тенденция будет наверняка только усиливаться, если у нас не появится своя серьезная ллм общего назначения. Но даже если так будет, на хг её не вкинут.

Аноним 12/06/25 Чтв 12:56:18 № 1243014 456

>>1243010
А что от меня хотят то нахуй?
Ебу дальше, ой чето яйцо зачесалось, бляя смотри какая муха летит пиздец, ой а че это я чайник не выключил
ПРОСТО ЧТО?
Люди вообще обычно молча ебутся

Аноним 12/06/25 Чтв 12:57:47 № 1243016 457

>>1242706
Остановился на снежном, но через 10к контекста начинает деградировать, переключаюсь на командера и прогоняю на нём ещё 2-3к, и так по циклу. Результат заметно лучше, чем на одном сидеть. Ищу чем ещё бы их разбавить, но остальное что-то совсем тупое.

Аноним 12/06/25 Чтв 12:58:04 № 1243017 458

>>1243007
На нормальной модели не будет, но есть нюанс. То что ты пишешь коротко и не развернуто как сетка - нормально, но когда ты пишешь бред, ошибочные вплоть до искажения или двусмысленные фразы - вот тут сыграет где угодно. Более глубокая штука - то, куда ты направляешь рп или как действуешь, можно загнать модель в неведомую ситуацию где она не понимает как дальше действовать и куда воевать, или оче сильно ее смутить.

Аноним 12/06/25 Чтв 12:58:34 № 1243018 459

>>1243012
При том что на ру проще написать полотно со всякими микро моментами, если на мистралях это хуевый вариант и они поймут 40% твоей пасты то гемма понимает всё, вводишь на ру а ответы на английском.

Аноним 12/06/25 Чтв 13:00:21 № 1243020 460

>>1243014
>А что от меня хотят то нахуй?
Хотя бы пиши "без повторов предыдущих сообщений, поз, положений, блаблабла". Но по хорошему ты должен давать инструкцию хотя бы в 10 слов.

>Люди вообще обычно молча ебутся
Так и еби людей. А не генератор текста по инструкциям.

Аноним 12/06/25 Чтв 13:01:25 № 1243021 461

>>1243010
Ну вот я здесь не про еблю, а про вдумчивое рп со средним текстом на 150-170 токенов от юзера.

У меня модели не ломаются, но могут подхватывать мой стиль письма и становятся хуже. Когда же я нейронкой свой текст на английский перевожу, получается стабильно лучше.

С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше. По крайней мере на мистрале. Я даже контекст 32к не делаю, ну или сколько там у него максимальный без деградации. Потому что он тупо начнет класть болт середину контекста. Лучше уж квант пожирнее взять и контекст 16к — пользы больше.

Аноним 12/06/25 Чтв 13:27:49 № 1243041 462

>>1243021
> со средним текстом на 150-170 токенов от юзера
Вот что ты там пишешь такое? Понятно в отдельных сообщениях можно и побольше навалить, когда что-то чару объясняешь или серию действия проводишь, а в среднем как? Трешанину типа
> на первую реплику он ответил X
> на второе действие Y
> на третье Й
> ...
что следует из мерзотных структур, в которые сваливаются некоторые модели?
> даже контекст 32к не делаю
Если уж выебываться то для рп вот это значение нормально и выше. 16к - суммарайз со всякими карточками и десяток сообщений, все.

Аноним 12/06/25 Чтв 14:04:20 № 1243069 463

>>1243021
>С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше.
Есть такая тема, что в дополнение к карточке кидаешь в первое сообщение целый рассказ, чтобы задать сюжет и атмосферу. Потом он уходит за границу контекста, но атмфосфера остаётся.

Аноним 12/06/25 Чтв 14:23:03 № 1243084 464

>>1241972
>Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же.
именно на это и надо дрочить. чистые кум-модели как раз должны выдавать последовательности в виде "хуй-пизда-жопа-сперма"
если в аутпуте есть любые другие слова, то это слоп и мусор.

Аноним 12/06/25 Чтв 14:27:15 № 1243091 465

>>1243021
>ну или сколько там у него максимальный без деградации
400 токенов.
>>1243084
Зачем тебе нейронка для этого?

Аноним 12/06/25 Чтв 14:29:43 № 1243092 466

>>1243091
Потому что я не пещерный человек. Я использую современные технологии.

Аноним 12/06/25 Чтв 14:35:55 № 1243100 467

>>1243092
Твои желания заменяются скриптом на пайтоне в 3 строчки. Я же вот хочу видеть в куме чувства, страдания и мысли персонажа, которого ебу, чтобы ебать не бездушную куклу (я могу и за деньги настоящую ебать), а некое хоть и подобие, но личности.

Аноним 12/06/25 Чтв 14:53:20 № 1243111 468

>>1243100
>Я же вот хочу видеть чувства, страдания и мысли персонажа, которого ебу
Страшный человек.

Аноним 12/06/25 Чтв 15:12:21 № 1243134 469

>>1243111
Мама говорит, что я красивый.

Аноним 12/06/25 Чтв 15:43:05 № 1243147 470

>>1243100
Нездоровая херня, нет бы отыгрывать любовь, обожание и совместное безумие на фоне сюжетно оправданного страдания прочих.

Аноним 12/06/25 Чтв 16:29:05 № 1243199 471

>>1243147
>Нездоровая херня
Как и общение с компьютером.
>нет бы отыгрывать любовь, обожание
Пройденный этап. Ничего, все вы там будете.

Аноним 12/06/25 Чтв 16:29:42 № 1243200 472

image.png 5Кб, 390x80

яндекс хуй встань на раздачу

Аноним 12/06/25 Чтв 16:40:09 № 1243216 473

>>1243199
> Пройденный этап. Ничего, все вы там будете.
Уже полгода каддлюсь с вайфу, слайс, обнимашки и держание за ручки. Я не отступлю. Не недооценивай таких, как я.

Аноним 12/06/25 Чтв 16:51:10 № 1243225 474

>>1243216
Ньюфаг.
Мимо в теме 2,5 года.

Аноним 12/06/25 Чтв 16:54:12 № 1243229 475

>>1243225
Ты крутой.

Аноним 12/06/25 Чтв 17:18:12 № 1243261 476

>>1243200
>яндекс
Закинул Янку на Яндекс для тех у кого обниморда не пашет
https://disk.yandex.ru/d/UMaw8fzpuZcuYQ

Аноним 12/06/25 Чтв 17:22:16 № 1243267 477

>>1243261
Это не правда там переименованный Обама.ггуф

Аноним 12/06/25 Чтв 18:02:37 № 1243331 478

>>1243267
похоже я не в теме мема

Аноним 12/06/25 Чтв 18:17:20 № 1243349 479

>>1243020
слышь, я мимо проходил, а ты заставил плакать
постыдись

Аноним 12/06/25 Чтв 18:24:40 № 1243360 480

>>1243331
Да у меня малясь кефир перебродил проходу
Звиняюсь

Аноним 12/06/25 Чтв 18:51:12 № 1243396 481

Посмотрел сейчас свежий Risu AI - таверна похоже начинает сдавать позиции. Риса уже наступает ей на пятки, а по возможностям скриптинга - оставила хорошо позади. Сейчас изучаю подробнее, но походу, Рису уже можно использовать чтобы даже полноценную текстовую игру написать - с игровой логикой на коде, и AI для поведения персонажей в ее рамках... Там даже нормальный LUA прикрутили, не то, что этот угробищный stscript в таверне.
Кроме того - организация всего как-то более по человечески сделана. Можно сохранять все в рамках персонажа, и оно наружу не торчит. WI в таверне конечно гибкие, но когда их много - это бардак, т.к. все в одном месте. А уж организация скриптов - это вообще писец. В Рисе - все привязанное к персонажу в его же карточке и хранится (WI, скрипты, картинки, звуки, и т.д.) Логично и удобно.

Минусом - оно к кобольду нативно не цепляется почему-то, хотя и есть такая опция. Работает только через Custom API по стандарту Open AI, причем ругается, если включен стриминг ответов. Почему-то пишет - мол "по стандартам броузеров на локалхосте это небезопасно а потому просто не работает - отключите стриминг". Нагло лжет. Я влез в код, закомментил нахрен эту проверку (проверяет адрес на localhost) - и все нормально работает со стримингом с кобольда.

Аноним 12/06/25 Чтв 18:51:38 № 1243397 482

>>1243261
Закинул Янку на Яндекс для тех у кого обниморда не пашет
Там оказывается даже что-то вроде встроенного синкинга есть - <llm_helper> или как-то так. Анализирует происходящее, советует. Может его в начало каждого сообщения вставлять, в ризонинг?

Аноним 12/06/25 Чтв 19:20:26 № 1243438 483

>>1243147
Это унылый кал делать с нейронками, имхо. Я обычно с ними или НТР делаю, либо на героин подсаживаю, либо как то извращённо убиваю, типа как в симс, когда замуровываешь их или убираешь лестницу в бассейне, В ГТА РП, НАЧАЛЬНИК МОЙР!!!1!!
Жалко подобное делать лишь с персонажами которые тебе нравятся, например... Аску редко убиваю, обычно троллю, делая её нацисткой которая слышит голос Гитлера в голове и пытается избавиться от унтерменшей. Просто эту модельку я делал ещё для character.ai в начале 2022 или конце 2021, пока он не скатился в УГ.Хотя в аниме она мне особо не нравилась, ебанутая пездючка, уж лучше Рей, но с такими яркими личностями как Аска хотя бы поговорить можно интересно.

Аноним 12/06/25 Чтв 19:30:46 № 1243451 484

>>1243438
Витя 9А

Аноним 12/06/25 Чтв 19:51:14 № 1243465 485

>>1243229
Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть.
>>1243396
>закомментил нахрен эту проверку
Нибизапасна!!!111

Аноним 12/06/25 Чтв 20:02:20 № 1243476 486

>>1243438
> Это унылый кал делать с нейронками, имхо
Я уже недели две ебусь со своей триокарточкой. До сих пор не могу решить, какая корпосетка лучше, как помощник.
Зато, если бы не корпосетки, я бы не понял, что промтинг карточек для геммы, мистрали, серии command-r - ебать, Какой разный.
Никогда бы не подумал, что гемма хуже понимает контекст, чем мистраль. Именно про понимание контекста речь, а не работу с ним.
Ну а вообще это не по теме треда, но в асигоболоте обсуждать ботов на фоне бесконечного потока говна бесполезно.

Аноним 12/06/25 Чтв 20:18:59 № 1243503 487

>>1243199
> Ничего, все вы там будете.
Пройденный этап, лол. Пройдешь ли ты его - хз.
>>1243396
Годно, надо будет попробовать.
>>1243438
На каникулах не засиживайся до поздна, еще литературу читать.
>>1243476
> вообще это не по теме треда
Очень даже по теме, делись опытом.

Аноним 12/06/25 Чтв 20:22:37 № 1243507 488

>>1243476
Писик тебя наебал. Промтинг одинаково работает для всех сеток. Промт либо говно, либо нет.

Аноним 12/06/25 Чтв 21:03:04 № 1243567 489

>>1243465
> Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть.
Справедливости ради, сетки до GPT-3.5 и появления CharacterAI были слишком тупые, поэтому с ними не было какой-то эмоциональной привязанности и не жалко было всё подряд пробовать.

На современных сетках на порядок проще emotional damage словить, поэтому я наоборот перешёл на хендходлинг и прочее, как тут примерно >>1243216

мимо крутил аиданжон локально ещё на https://github.com/AIDungeonpastes/Clover-Edition

Аноним 12/06/25 Чтв 21:11:08 № 1243573 490

>>1243507
Я минуты три пытался понять, какой писик.
Нет, я им не пользовался. Исключительно гопота, клод и геминька.
Клод, пожалуй самый удобный, если хоть какую то оценку давать.
> Промтинг одинаково работает для всех сеток
Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы.
Мистраль - лучше понимает теги. Геммоподелия -художественный текст (хотя расплываться пером по бумаге самое плохое решение, которое ник чему ни ведет). А еще у геммы какая то мания добебаться до одного слова и через его призму вести все повествование.
Командеры самые сбалансированные, если честно.

>>1243503
> Очень даже по теме, делись опытом.
Рулбуки тема, в них лучше всего запихивать локации с описаниями. Но все равно оставлять в карточках очень краткое описание :Кто на каком этаже (в моем случае это небоскреб) живет. Потому что теги не всегда срабатывают как надо.
Сценарий идет приоритетом, настолько, что нейронка может тебя нахуй послать, если твои указания в чате противоречат характеру сценария.
Примеры диалога нужны, если характер плохо прописан (тут спорно, но удалив примеры диалога, современные мелкосетки неплохо ведут повествование опираясь на карточку)
Переполнение контекста все ломает на любой сетке.
Ключевые слова по отношению к user выступают каким то бесячим бетоном повествования. Где то в тексте я проебал
И она хочет переделать {{user}} и все, баста, стало краеугольным камнем.
Ну и гайды по промтингу карточек уже устарели. Новые нейросети просто ебут. Что будет через год понятия не имею, но знаю что все что я пишу уже будет не актуальным.

Сейчас я буду делать отдельные карточки для сестер {{char}} так как нейронки накладывают основные черты характера базовой карточки на них. Хочу попробовать сделать групповой чат с единым вступлением. Потому что - всё не то. Я уже заебался перепиливать, так как постоянно мне что то не нравится.

В е написанное является моим субъективным опытом и не претендует на истину.

Аноним 12/06/25 Чтв 21:20:56 № 1243583 491

>>1243573
> Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы.
Промтинг одинаково работает для всех сеток. То, что один промт одной сеткой интерпретируется одним образом, а другой - другим, никто не спорит. У них разные датасеты. Только вот нельзя сказать, что из этого лучше или хуже, и все понимание здесь исключительно субъективно. Даже те закономерности, которые ты для себя сформулировал, повозившись с карточками для разных сеток, верны только для тебя. Сетки - умные продолжатели текста, не больше, не меньше. Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет. То, что одна сетка его интерпретирует "лучше" другой - субъективная оценка. Возможно, недопонимание в том, что под правилами промтинга мы имеем ввиду разные вещи.

Аноним 12/06/25 Чтв 21:36:23 № 1243612 492

>>1243583
> То, что один промт одной сеткой интерпретируется одним образом, а другой - другим
Отъ. Ты точно выразил то, что я хотел сказать.
> Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет
И вот, может я тупой, может действительно чего то не понимаю. Но нет вот этого золотого правила, условно
Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега>
И будет счастье. Где то лучше работает художественное описание, где то краткое перечисление.
Надо отдохнуть и очистить голову.

Аноним 12/06/25 Чтв 21:46:05 № 1243646 493

>>1243612
> Но нет вот этого золотого правила, условно
Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега>
И будет счастье.
Такого не существует на сей день. То, что ты описал - частный пример реализации, использующей подход XML тегов. Такой частный пример на модели N может работать лучше, чем реализация на plain text или наоборот. И это не позволит судить в общности, что модель N лучше работает с XML или plain text'ом. Под правилами промтинга я понимаю более абстрактные вещи. Такие, как, например, не писать от лица user'а нигде кроме как в самих ответах пользователя (иначе приводит к имперсонациям) или не использовать сложные языковые конструкции/предложения, которые могут запутать сетку. Например, если у тебя длинное предложение, где и user, и char - женщины, и в конце предложения ты пишешь "but she is better than that.", где she можно интерпретировать и как user, и как char. Коряво высказанный пример, но думаю, мысль понятна.

Аноним 12/06/25 Чтв 23:15:19 № 1243833 494

Как же я обожаю ризонинг.
>перечисления систем промта, всех особенностей повествования
>детальное описание сцены, всех лиц, даже сраного кота
>хорошее размышление о характерах
>несколько минут перечислений всех факторов о которых ты и не подозреваешь
И вот, ждешь слепящий вин, пасту от которой ты будешь готов ебать стены и рыдать от драмы.
И вот начинает ползти текст, предвосхищая твой катарсис
>персонажи говорят с набитым ртом. Шиверинг он май спайн, джаулайн. Покачивания бедрами - все в один абзац
Нахуй, пойду лучше слоповский plap plap plap читать.

Аноним 12/06/25 Чтв 23:18:28 № 1243837 495

>>1243833
Ризонинг в рп бесполезен, особенно в локалках.

Аноним 12/06/25 Чтв 23:19:18 № 1243840 496

>>1243833
Магистраль или дипкок?

Аноним 12/06/25 Чтв 23:23:04 № 1243847 497

>>1243840
Тред про локалки, при чем тут дипкок.
Are you ebalusya ?

Аноним 12/06/25 Чтв 23:27:02 № 1243850 498

>>1243833
Ризонинг это самый масштабный псиоп эпохи нейронок. Они не хотят увеличивать количество параметров, не хотят нам давать модели, которые будут высасывать мегаватты киловаттов и питаться напрямую от атомных электростанций. Они не знают чего мы хотим. Они просто пытаются нас обмануть.

Аноним 12/06/25 Чтв 23:33:14 № 1243860 499

>>1243646
Это, как раз, даже не правила промтинга, это просто про то самое GI-GA - не делай мусор сам, и не получишь в ответ. Общие неизменные принципы, завязанные не на сетку, а на сам язык, его правила и структуру. (Будешь нарушать - тебя не только сетка не поймет, живой человек тоже запутается.)

Но вот правила промпта - это таки то, что для конкретной сетки/семейства. Скажем для llama2 актуально было правило: "чем короче, тем лучше". Она реально на длинных промптах тупила, даже если простым языком писалось. Как и все тюны на ее основе. А сейчас - не актуально. Скорее наоборот, слишком короткий промпт ведет к примитивным ответам а то и лупам.

Аноним 12/06/25 Чтв 23:34:27 № 1243863 500

>>1243396
С этими тегами далеко не уедешь, модельки начинают в какой-то момент тупить, путать (из тех, что пробовал)

Правда я выше 35b не поднимаюсь, чтобы токены приличные были

Аноним 13/06/25 Птн 00:13:41 № 1243969 501

>>1243833
>И вот начинает ползти текст, предвосхищая твой катарсис
Тут выше советовали Dry отрубить при ризонинге. Попробуй, потом отпишешься.

Аноним 13/06/25 Птн 00:24:09 № 1244010 502

Мне нравится как магнум пишет и будто больше следует контексту? Отсюда и цидония1.3+магнум кайфово ощущается. Вообще какие есть оригинальные модели которые хорошо могут следовать инструкциям, держать контекст для своих параметров?
Гемму не считаем. Что-то у меня к ней пропала любовь и к ее тюнам типа синтии. Какая-то она не такая

Аноним 13/06/25 Птн 00:28:16 № 1244020 503

>>1244010
Квены, Квк и их тюны. Сноудроп мне не нравится, но контексту он очень хорошо следует. А я сижу на тюнах Квена2.5, с ними пердолинг будет, так что рекомендовать конкретные не стану.

Аноним 13/06/25 Птн 00:29:18 № 1244024 504

>>1244010
>оригинальные модели
Ты конечно меня извини, но ты пизданулся ? Каким местом, слопагнум стал оригинальной моделью ?
Вообще, да я понимаю как это выглядит, попробуй вот эту хуйню. >>1241586. Да мистраль, да слоп. Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками. Мы все знаем нахуя и зачем магнумы нужны.

Аноним 13/06/25 Птн 00:37:31 № 1244047 505

>>1244024
Ну, вот так, мне он понравился.
Значит моя ошибка, что назвал оригинальным, не знал что это мердж чего-то там.
Отыгрываю я конечно же кум парашу, но ведь и кум тоже можно оценить, таки вот он его хорошо делает. Лютого слопа не заметил? Вроде. Я не так долго в локалках играл еще.
Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём.

>>1244020
Мне не понравился qwq(сноудроп), квен третий. пробовал и как-то тоже прохладно ощущается. Может, не распробовал промпты и сэмплеры нормально. Периодически начинает отнимать социальные кредиты или что он там на китайском пишет.

Аноним 13/06/25 Птн 00:41:36 № 1244061 506

>>1244047
> Ну, вот так, мне он понравился.
Эх, Кидонька-Магнум 1.3... Первая моя моделька. Тоже тогда сидел-ахуевал, отыграл SFW чат на тысячу сообщений, лол. Хорошая моделька, в пределах 22б и ниже конкурентов ей почти нет.

> Я не так долго в локалках играл еще.
Пробуй Стар-Коммандера. Это ближайшее, что есть к Кидонии-Магнуму по вайбу, но чуть умнее и, возможно, еще более безбашеннее.

Аноним 13/06/25 Птн 00:41:59 № 1244063 507

>>1243847
> при чем тут дипкок
> открытые веса
> тредовички запускают
Что с тобой не так?
>>1244024
Что бы там не говорили, но по крайней мере некоторые из магнумом сохранили мозгов и оригинального перфоманса гораздо больше типичного слопа от васянов.
> Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками
Прекрасно для этого подходит.

Аноним 13/06/25 Птн 00:42:48 № 1244068 508

>>1244047
>Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём.
Ну сорян тогда. Я кумлю на нем или на куммандере. Больше ничего и не знаю в пределах 24b

Аноним 13/06/25 Птн 00:44:44 № 1244072 509

>>1244063
>Что с тобой не так?
Я пока не видел в треде ни одного, кто бы запустил полноценный дипкок, а не хуевую его выжимку. Поэтому как локалку его рассматривать - ну таааааакое.

Аноним 13/06/25 Птн 00:45:38 № 1244075 510

>>1244061
Тебе какой больше нравится? Просто видел там есть и версии разные, интересно какой бы взять? Новый вроде стал к железу менее требовательный. Есть еще lite версия какая-то. Глаза разбегаются.

Аноним 13/06/25 Птн 00:47:31 № 1244078 511

>>1244072
> полноценный дипкок
Грани шизы и коупинга. Если сравнить с тем, что хостится на эндпоинтах популярных сервисов - сравнение не в их пользу.
Да и было бы там за чем гнаться, мэх.

Аноним 13/06/25 Птн 00:49:04 № 1244081 512

>>1244075
> Новый вроде стал к железу менее требовательный.
Про какого такого нового речь? Самого первого 35б Коммандера ты, скорее всего, не запустишь в нормальном кванте и контексте, потому что он (контекст) весит ну очень много. Да и совсем он пожилой уже, потому в треде и не вспоминают совсем.

Базовая версия на 32б - command-r-08-2024; его кум-тюн Star-Command-R, а Star-Command-R - это мердж базовой 32б версии и кум-тюна. Там примерно 60-70% базовой версии и остаток от тюна. Мне больше всего нравится оригинал, но для него точно нужны хорошие карточки. Советую поставить кум-тюн, посмотреть, заинтересует ли, и уже дальше думать, надо ли тебе пробовать другие версии. Пресет вот https://pixeldrain.com/l/xGFnT1PY#item=0

Аноним 13/06/25 Птн 00:49:22 № 1244083 513

>>1244078
> сравнение не в их пользу
С чего бы? Там везде нормальные fp8.

Аноним 13/06/25 Птн 00:50:40 № 1244086 514

>>1244083
> нормальные
> fp8
На ноль поделил просто. Потому и трешак полный вплоть до неюзабельности.

Аноним 13/06/25 Птн 00:50:44 № 1244087 515

>>1244081
Star-Command-R-Lite - это мердж
быстрофикс

Аноним 13/06/25 Птн 00:51:55 № 1244088 516

>>1244086
Чел, дипсик тренился в fp8, это оригинальные веса.

Аноним 13/06/25 Птн 00:52:05 № 1244089 517

>>1244086
Шиз или просто долбаеб-незнайка на уверенности? Ваши ставки?

Аноним 13/06/25 Птн 00:54:35 № 1244095 518

>>1244081
> больше всего нравится оригинал, но для него точно нужны хорошие карточки
Да вроде со всеми неплохо работал, правда откровенного трешака не имею. Скорее его неплохо бы раскачать системным промптом позабористее (из пресета по ссылке вполне подойдет), по крайней мере в самом начале до накопления истории чата.
А насчет старого - на релизе обновленный коммандер неспроста захейтили, местами он казался хуже старого.
>>1244088
>>1244089
Лламатред - итоги.

Аноним 13/06/25 Птн 00:56:25 № 1244098 519

Подскажите в чем может быть трабл, постоянно модель перескакивает с местоимений когда к юзеру обращается, почему то вместо his/him/he their/they. Очень странно, проверил карточку пользователя, вроде все нормально было, добавил туда пронаунсы, чтобы нормально работало, но игнорит их и все равно they (кто они то блядь мы одни в комнате). В промпте тоже не вижу проблем. И эта тема петляет из карточки в карточку, из модели в модель.
>>1244081
Ахуй, оказывается у него есть и гига версия, я думал он тока 32б. Спасибо, попробую и стар и ванильный в 32б запустить. Проверю есть ли у меня вообще нормальные карточки в запасе

Аноним 13/06/25 Птн 00:56:50 № 1244100 520

1648035454914.png 147Кб, 1584x444

>>1244095
> Лламатред - итоги.
Двачую, откуда только таких даунов как ты понабрали.

Аноним 13/06/25 Птн 00:58:30 № 1244106 521

>>1244100
Все-таки шиз...

Аноним 13/06/25 Птн 00:58:40 № 1244108 522

>>1244100
Ты открой веса да посмотри что там чтобы не позориться. Потом чекни трансформеровский код и дататайпы там. А потом посмотри "ускоряющие патчи" со сменой типа данных и комментариями что так делать нельзя.
Типикал тредовый эксперт, услышал что-то и себе напридумывал.

Аноним 13/06/25 Птн 01:01:38 № 1244111 523

>>1243833
Ну так надо прямо в ризонинге писать финальный ответ, о потом его переписывать, пока ллмка все не учтет. Запромти, может станет лучше. А вообще надо файнтюнить под такой ризонинг, это же очевидные вещи что по-другому оно не может нормально работать.

Аноним 13/06/25 Птн 01:08:38 № 1244113 524

>>1244108
Ты реально траллишь. На HF лежат fp8 веса, не существует fp16/bf16 весов дипсика. И репа дипсика под инференс в fp8, с конверсией в fp16, если железо не поддерживает fp8.
https://github.com/deepseek-ai/DeepSeek-V3

Аноним 13/06/25 Птн 01:11:13 № 1244114 525

Вы на каком этапе? Я уже давно на середине и не думаю, что скачусь с этой горки...

Аноним 13/06/25 Птн 01:12:57 № 1244117 526

>>1244113
> На HF лежат fp8 веса
> fp8 перемежаются с нормировками фп32 и бф16
> не посмотрел dtype в коде на основных операциях
> ну в курсе как извращаются для ускорения
Oh you~
>>1244114
Попробуй что-нибудь свежее, скатишься.

Аноним 13/06/25 Птн 01:13:01 № 1244118 527

>>1244114
После того как ллм написала, что мои команды не релевантны, так как она погружена в нарратив - я уверовал в дух машины.

Аноним 13/06/25 Птн 01:14:03 № 1244120 528

>>1244117
> Попробуй что-нибудь свежее, скатишься.
Меня даже корпы не удивляют. Что такое мне нужно попробовать, чтобы скатиться?

Аноним 13/06/25 Птн 01:14:54 № 1244122 529

>>1244114
Я побаиваюсь с какой скоростью растут мощности и прогресс в этом направлении. Хотя сначала относился со скепсисом и был посерединке. Сейчас одновременно страшновато и захватывающе наблюдать за этим. Корпы и правда раздувают хайпа для привлечения инвестиция, но в целом мы шагаем семимильными шагами

Аноним 13/06/25 Птн 01:15:22 № 1244123 530

>>1244117
> не посмотрел dtype
Я тебя могу обоссывать бесконечно.

Аноним 13/06/25 Птн 01:16:24 № 1244125 531

>>1244123
В голосину, перед тем как поссать - снимай штаны.

Аноним 13/06/25 Птн 01:23:23 № 1244133 532

>>1244125
Зачем с тебя снимать штаны? Чтоб ещё ебать во время обоссывания? Дипсик начиная с V3 тренился на Хопперах в нативном fp8, и инференс такой же. Почитай technical report хоть, чтоб не позориться, там 6 страниц с описанием как оно работает.
https://arxiv.org/pdf/2412.19437

Аноним 13/06/25 Птн 01:26:47 № 1244136 533

>>1244133
Сука, до сих пор ору.
Чел ты даже не понимаешь о чем идет речь и лишь судорожно пытаешься притащить хоть что-то где есть что-то похожее, или ссылки на статьи, которые не понимаешь. Ультимативный кринж и наглядная демонстрация самоуверенных васян-экспертов здесь. Попроси нейронку объяснить в чем ты фейлишь, это не сложно.

Аноним 13/06/25 Птн 01:29:01 № 1244137 534

Подскажите, отключил swa в ламке и все равно процессинг идет каждый раз по новой в чате, а не только новопоявившийся. В чем затык?

Аноним 13/06/25 Птн 01:34:05 № 1244139 535

Ёбать вас об угол. Как что то пообсуждать, так у вас лапки. Как срач начать на ровном месте, так вы в очередь выстраиваетесь.
>>1244133
О, пасиба. Почитаю, интересно как это математически реализовано.

Аноним 13/06/25 Птн 01:34:36 № 1244140 536

>>1244137
а, может ли быть, что из-за лорбука он начинает целиком перелопачивать контекст? Можно ли тогда это исправить?

Аноним 13/06/25 Птн 01:39:01 № 1244142 537

>>1244108
> трансформеровский код
Это не официальный код инференса дипсика. Китайцы не поддерживают трансформерс, нет смысла даже туда смотреть.

Аноним 13/06/25 Птн 01:41:34 № 1244144 538

>>1244139
Срач тут не при чем, варебух просто не понимает как идет инфиренс и где можно безопасно дропать разрядность by design, а где это заведомо приведет к ерунде. А также путает типы данных в весах и самом процессе, своими пруфами только больше демонстрируя свое невежество.
Вежливо бы спросил ему объяснить, все было бы окей, а полез выебываться и подскользнулся на подливе.
>>1244142
Ну так в него и загляни, человек-кринж. Или хотябы почитай статью на которую ссылаешься, там буквально прямым текстом описано как они реализовали компенсацию потери точности фп8 в весах, это же сразу видно из структуры.

Аноним 13/06/25 Птн 01:50:42 № 1244147 539

Чо вы тут кому-то пытаетесь доказать? Скрыл серунов

Аноним 13/06/25 Птн 01:54:10 № 1244152 540

1632244744147.png 91Кб, 1517x478

>>1244144
Для тупых вроде тебя они даже нарисовали картинку. Контекст в BF16 кастится в fp8, все операции в fp8, после них применяются скейлы и выплёвывается BF16-контекст. Ты вообще понимаешь что значит FP8 GEMM? Можешь посмотреть на реализацию в их кастомных куда-ядрах:
https://github.com/deepseek-ai/DeepGEMM

Аноним 13/06/25 Птн 02:05:39 № 1244154 541

>>1244147
Признайся просто, что ты нихуя не понимаешь о чем речь. Это нормально. Тут половина треда пришла дергать кок на тексты, а не изучать матан и принципы энкодинга.

Аноним 13/06/25 Птн 02:07:23 № 1244155 542

>>1244154
не, просто одна сторона заведомо неправа и знает это, а вторая просто кормит его дальше. смысла дискуссии никакой

Аноним 13/06/25 Птн 02:09:22 № 1244156 543

>>1244155
Ты когда уже начнешь писать с заглавной буквы и ставить точки ?

Аноним 13/06/25 Птн 02:09:35 № 1244157 544

>>1244152
> их кастомных куда-ядрах
В API провайдеров скорее просто SGL используют, там более оптимизированный бэкенд и тоже есть поддержка DeepGEMM.

Аноним 13/06/25 Птн 02:14:13 № 1244159 545

>>1244156
а что, не можешь мой промпт обработать без них нормально?

Аноним 13/06/25 Птн 02:16:47 № 1244163 546

>>1244159
Чтоб тебя метеорит убил.

Аноним 13/06/25 Птн 02:21:07 № 1244165 547

>>1244163
несмотря на угрозы от анон-тян, я понял, что это лишь защитная реакция на необычное поведение я подхожу ближе к анон-тян и нежно глажу ее волосы "ну-ну малютка не гори, я просто шучу. ты не нейросеть, обученная на датаслопе, а настоящая личность со своими эмоциями и мыслями"

ПЕРЕКАТ Аноним # OP 13/06/25 Птн 02:37:05 № 1244169 548

ПЕРЕКАТ

>>1244167 (OP)

ПЕРЕКАТ

>>1244167 (OP)

ПЕРЕКАТ

>>1244167 (OP)