Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 366 59 69
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №143 /llama/ Аноним 01/07/25 Втр 01:19:14 1260769 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 505Кб, 1718x2292
1718x2292
17508736997250.png 1434Кб, 1280x960
1280x960
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1257129 (OP)
>>1253596 (OP)
Аноним 01/07/25 Втр 01:20:23 1260770 2
Аноним 01/07/25 Втр 01:27:10 1260773 3
Performace of E[...].png 463Кб, 3902x4066
3902x4066
Performance of [...].png 279Кб, 3012x3758
3012x3758
Performance of [...].png 251Кб, 3348x3758
3348x3758
Performance of [...].png 180Кб, 2700x2876
2700x2876
>>1260770
Вот тесты-нетесты если что.
Аноним 01/07/25 Втр 01:33:32 1260775 4
Аноним 01/07/25 Втр 01:33:39 1260776 5
>>1260757 →
>>1260770
Слюни потекли, когда там уже кванты
>>1260765 →
На самом деле занимаются, вон тот же анончик свои пресеты выкладывает. Но основных причин невысокой популярности две:
1 В таверне под промптоформирование для локалок старый интерфейс инстракта и лорбук, вместо украшенного поделенного на каштомные блоки интерфейса для корпов.
2 Без анального цирка на современных корпах нормально непорпшишь. Срать жб, извращаться с кучей (бесполезных) блоков, не забывать включать блок "нсфв" когда захотелось поебаться - вынужденная мера и единственный способ хоть как-то управлять сеткой.

В целом, сам интерфейс по функционалу повторяет уже имеющееся, просто сделан в виде отдельных блочков, которые повторяют содержимое Story String. Можешь смело брать и переносить заготовки корпов туда, разобравшись в стандартных обозначениях ({{char}}, {{stotry}}, {{persona}}, ...) Как уже писалось, даже простое обрамление с микроразметкой и доп комментариями там может дать буст на некоторых моделях. С локалками в большинстве используется текст комплишн вместо чаткомплишна, что открывает огромные возможности для чего угодно, включая полноценный префилл и продолжение постов, отключенные в корпах.
Блоки статов и прочее - через лорбук с инжектом в нужную часть, или другие опции, те же авторские заметки. Все сделать можно, просто в другом месте и менее наглядно, особенно для новичка. Можешь глянуть в более продвинутые штуки типа костыля на степсинкинг, там хоть днд кости можно сделать с честным рандомом.
Аноним 01/07/25 Втр 01:34:05 1260777 6
>>1260770
Я правильно пынимаю, что 424B это 300B c добавленными 124B для вижена? Или же если юзать 424B чисто как текстовую сеть, то она все равно выебет 300B?
Аноним 01/07/25 Втр 01:47:26 1260780 7
>>1260776
>Блоки статов и прочее - через лорбук с инжектом в нужную часть
Да, точно, так можно сделать. Эх, надо бы потом заморочиться и попробовать какой-нибудь из пресетов переделать для тексткомплишена через лорбук. Вдруг тот же лардж можно хоть немного до гемини разогнать. Хотя тут вон эрни завезли, вдруг круче ларджа окажется. Вот как приеду из отпуска - буду устанавливать все нейросети! А то уже руки чешутся попердолиться да покумить на родном железе.
Аноним 01/07/25 Втр 01:56:54 1260786 8
>>1260780
Просто заметки без претензий на истину - лардж хорошо разгоняется мультизапросом и тем же доп синкингом. Он крайне умен и многое может, но на фоне той же жеминьки в исходном виде выглядит вяло потому что старый. Просто дает ответ на запрос и ничего больше, тогда как все новые модели как павлин распушают хвост и пытаются перед тобой чуть ли не танцевать, крича какие они молодцы. Но если запрос более комплексный то и ответ хороший, к тому же на контексте он отлично себя показывает и понимает между строк что мелочи и всяким чмоням с дипсиками не снилось, и может в хорошее письмо. Главное не натаскивай слишком уж много инструкций и противоречивых указаний, иначе станет отвечать коротко и уныло.
Аноним 01/07/25 Втр 02:18:30 1260801 9
image.png 51Кб, 1004x267
1004x267
Для амд + линь можно крутить павер кап через /sys/class/drm/cardX/device/hwmon/hwmon0/power1_cap
Аноним 01/07/25 Втр 06:13:32 1260839 10
>>1260801
Оно вроде при перезапуске сбрасывается.
Аноним 01/07/25 Втр 08:12:20 1260858 11
>>1260770
>Тут дохуя сеток целое новое семейство оказывается вышло новых. Ребята, тестим:
У меня во втором кванте 300В должна влезть. Ждём кванты от Анслота. Эксперты по 47В, так-так.
Аноним 01/07/25 Втр 08:35:16 1260865 12
Челы, кто-нить создавал свои датасеты? Хочу попробовать зафайнтюнить небольшую модельку, но не вдупляю с какой стороны подобраться. Ну положим есть:

1. Первоисточник, который я готов расчленить как угодно. Пиздеж от лица ГГ (монологи и диалоги) и других персонажей, среди которых тот, манера речи которого и знания которого будут затюнены в бота.
2. Wiki-статьи, где более подробно разбирается лор и прочая залупа.
3. Прочие данные. Моя писанина, дополняющая это дерьмо. Минимум по сравнению с 1 и 2.

Что мне непонятно:
1. Какую модель под это взять для 16GB VRAM и альтернативно - для 32GB (не уверен, можно ли тренировать AI на двух видюхах?), обе карточки AMD мусор - 6800 и 9070.
2. Где почитать статей на тему создания датасетов и файнтюна. Именно от знающих людей, не от ботов пишущих про самих себя.

---

Общие представления у меня есть, но хотелось бы взяться за работу, зная, что я не обосрусь фундаментально на самом базовом уровне типа формата датасета под конкретную модель.
Аноним 01/07/25 Втр 09:13:27 1260885 13
Мда, GLM в 3м кванте это груздь-доска, обратно на Синтвейв.

>>1260865
>зафайнтюнить
Для файнтюна надо МИНИМУМ вчетверо больше VRAM чем для Q8 инфиренса, и скорее всего рига у тебя нет =))
Разве какую-нибудь мелочь в 3-4Б.
Датасеты можно прямо на обниморде посмотреть.
Но в целом там ппц всё заморочно, как с картинками не прокатит.

>>1260765 →
>что в таверне для текст комплишена нельзя делать такие пресеты
Может и можно, не задумывался, но в любом случае это вызовет пересчёт контекста что может быть ДОЛГО.
Аноним 01/07/25 Втр 09:17:31 1260886 14
>>1260885
>Разве какую-нибудь мелочь в 3-4Б.
Ну так это тоже полезный опыт.
>Датасеты можно прямо на обниморде посмотреть.
Точно. Что-то я тупанул.
Аноним 01/07/25 Втр 09:21:35 1260888 15
>>1260770
А какого хуя.avi

Почему идет 28b а потом- хуяк, хуяк, и 100+.
Где мои 50b ? Пидоры.
Аноним 01/07/25 Втр 10:01:08 1260898 16
>>1260888
>Почему идет 28b а потом- хуяк, хуяк, и 100+.
Для смартфона=>для потребительской карты=>для ригадля маньяковдля себя. (По сути 28В вообще чисто демонстрационная модель, так думаю)
Аноним 01/07/25 Втр 10:06:44 1260900 17
>>1260898
Но это же моэ, кавааай - все дела.
Для потребителя как раз и подойдет что то больше 30 но меньше 70ч
Аноним 01/07/25 Втр 10:09:45 1260903 18
asus-tuf-geforc[...].jpg 117Кб, 1000x1000
1000x1000
На 12 гб все-таки очень тяжело живется.
Надо признать этот факт и перестать коупить.

Поэтому с сегодняшнего дня начинаю челлендж - до конца года собрать деньги на 3090. Тем более, как раз удачный день для начала - ровно полгода впереди. Планирую откладывать по 400 рублей в день, всего в итоге должно выйти чуть больше 70000, именно столько на авито стоит б/у 3080 от асуса, которую я хочу.

Удачи мне продержаться до конца всего пути.
Аноним 01/07/25 Втр 10:11:30 1260906 19
Аноним 01/07/25 Втр 10:27:37 1260919 20
>>1260903
>>1260906
Чел ты отбитый совсем что ли, скоро 5080 Super с 24гб высрут.
Аноним 01/07/25 Втр 10:35:22 1260923 21
>>1260903
Удачи! Счастливой покупки некрокарточки!
Аноним 01/07/25 Втр 10:57:16 1260934 22
>>1260903
Проблема аппетитов. Я вот сижу на 8 гб и гоняю 12b модели, вроде ок, но хочется карту на 12 гб взять. Меня на самом деле в основном устраивают 12b, просто они очень хуёво читают большие карточки и лорбуки. Я например физичесски не могу протестить большие модели и посмотреть насколько сильно отличии в написание текста между моделями поменьше, но вот видимо слава богу я не знаю об этом. Так же застал времена когда 8b модели еле пердели на 8гб картах, наверное поэтому и радуюсь нынешним 12b.
Аноним 01/07/25 Втр 11:17:15 1260943 23
>>1260919
Это для мажоров, а я нищий с зп 40к.
Аноним 01/07/25 Втр 11:20:16 1260945 24
>>1260943
анончик, а не думал тогда о mi50 на 32гб? она в районе 40 и выйдет, неплохая штука
Аноним 01/07/25 Втр 11:24:45 1260947 25
>>1260943
Ну и в чем логика всирать свои гроши на то, что уже устарело? Тебе наоборот надо копить на хорошее.
Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб с ворвешься в мир йоба-моделей с хорошей видимокартой.
Сейчас есть смысл снюхивать AI-помои только если ты сам маня-разработчик и тебе критически важно не отстать. А вот потреблядям лучше дать газку назад и окунуться в другие хобби, пока вся эта параша не обретёт вменяемый вид.
Аноним 01/07/25 Втр 11:38:11 1260952 26
>>1260945
> она в районе 40 и выйдет
Меньше 15 даже если всё сложить и везти её одну
Аноним 01/07/25 Втр 11:50:30 1260953 27
>>1260952
Ну да, а еще линукс накатывать, пердолиться, и все это ради рабочей темпы 100 градусов по цельсию и 5т/с на 32b моделях
Аноним 01/07/25 Втр 11:54:30 1260954 28
>>1260903
>Удачи мне продержаться до конца всего пути.
Удачи! Мистраль 3.2 в 24гб входит идеально, 6 квант и 32к неквантованного кэша. Стоит того. К тому же к концу срока могут появиться более интересные предложения с таким же количеством ВРАМ.
Аноним 01/07/25 Втр 11:57:14 1260955 29
>>1260952
ты с таобао заказывал?
Аноним 01/07/25 Втр 12:37:55 1260973 30
>>1260955
Прошлый тред. Если коротко - да

>>1260953
Одну попробую разобрать и термуху перемазать, но нужно в начале стрессы погонять
Аноним 01/07/25 Втр 12:50:56 1260981 31
https://pixeldrain.com/u/n7JDy4Mx
Пресет для magnum-diamond. Семплеры для русика онли подобраны. Удивительно хорошо, думаю я переезжаю с синтии на постоянку на этот алмаз, лучше сохраняет логику и детали на русском языке. Думаю, на англе не хуже будет.
Сама модель:https://huggingface.co/Doctor-Shotgun/MS3.2-24B-Magnum-Diamond
Спасибо анону, который ее тут вкинул.
Аноним 01/07/25 Втр 12:54:17 1260983 32
>>1260981
А у меня вопрос. ВОПРОСИЩЕ. ВОПРОШЕНЦИЯ.
Зачем использовать тюн мистрали, когда есть сама мистраль ?
Я потыкал 3.2 - это сама по себе былинная победа, не надо его тюнить. Хи из пиздат эз из.
Аноним 01/07/25 Втр 12:56:32 1260986 33
>>1260981
Спасибо.

>>1260983
MS3.2 Харош, очень харош, но мб челу нужен именно кум с сюжетаом, а не сюжет с кумом. Магнум всё-таки смещает акценты.
Аноним 01/07/25 Втр 13:00:14 1260989 34
>>1260983
Хз, мне магнум в душу запал сам по себе (мне кажется он хорошо следует инструкциям, следит за промптом), также обожаю мистральки, а тут их сочетание.
>>1260986
Ты попробуй сначала, мб опять обосрусь скину недопиленные сэмплеры. Хотя тут я с тремя карточками перед этим попробовал в овер 20 сообщений, обычно тогда у меня по пизде все шло.
Акценты реально смещены и я больше по кум рп именно, тут соблюден прям баланс хороший как по мне.
Аноним 01/07/25 Втр 13:00:42 1260990 35
1751364042517.jpg 83Кб, 1264x1154
1264x1154
Аноним 01/07/25 Втр 13:07:41 1260996 36
>>1260989
У меня новый мистраль норм работает на почти нейтральных настройках. Темпа 0.8 - 1.5, мин-п 0.02 - 0.05 для англ, можно поднять до 0.1 для ру. XTC 0.1 / 0.1 для большего разнообразия свайпов, но отключить если кажется что шизит, особенно на ру.
Аноним 01/07/25 Втр 13:08:55 1260999 37
>>1260996
>Темпа 0.8 - 1.5
Но при этом сами лягушатники пишут про 0.15.
Huh ?
Аноним 01/07/25 Втр 13:10:17 1261001 38
>>1260999
хз, это видимо для ассистента, например я перевожу нейронкой в скрипте, и там вообще темпа 0.0 стоит, для рп такая низкая не нужна
Аноним 01/07/25 Втр 13:23:19 1261012 39
>>1260865
Общая парадигма датасета для ллм: серия сообщений по ролям, где от лица юзера даются запросы или его посты, а от сети ответы или посты персонажа/гма/..., или пары инструкция - большой ответ на эту инструкцию.
Как запарсить в такой формат твои источники уже думай, можно привлечь саму ллм для обработки.
> 16GB VRAM и альтернативно - для 32GB
1б, 2-3б для второго варианта максимум влезет. Остальное уже peft с кучей компромиссов.
> можно ли тренировать AI на двух видюхах?
Объединить для деления памяти - в целом да, но как правило объединяют только одинаковые а не разного калибра.
> AMD мусор
Без шансов.
>>1260885
> это вызовет пересчёт контекста
С какого перепугу? Вызовет только если у тебя в самом начале рандомайзер, который меняется от поста к посту.
> может быть ДОЛГО
Только у бедолаг.
Аноним 01/07/25 Втр 13:28:13 1261017 40
>>1261012
А что насчет лор как есть в sd? Просто я послушиваю книги озона и уже давно мысль есть его стиль повествования внести в нейронку. Просто выкачать в виде аудио его книжки (там часов 200 набежит), перевести stt и начать бумбокс.
Аноним 01/07/25 Втр 13:33:15 1261022 41
>>1261017
>лор
>>1261012
>peft с кучей компромиссов

Ну, и лоры для текстовых не работаю так как для картиночных, так как параметров и связей много больше. С тем же подходом что и к картиночным, можно надрочить только бота-автоответчика.
Аноним 01/07/25 Втр 13:36:44 1261027 42
>>1261012
Когда я задавал похожий вопрос дипсреньку, тот что-то про LORA кукарекал. Это совсем дерьмо? Оно просто упоминало это, кукарекая как можно и 8B зафайнтюнить. Алсо про амд тоже странная заметка, учитывая то, что гуглятся человеческие отзывы о пердолинге с файнтюнами на красных карточках.
Аноним 01/07/25 Втр 13:37:54 1261029 43
>>1261022
> можно надрочить только бота-автоответчика.
м-магнум?
Аноним 01/07/25 Втр 13:41:23 1261035 44
>>1260888
Поддвачну, сейчас наблюдается серьезный дефицит средне-больших размеров.
>>1260903
Удачи, анончик.
>>1260919
По цене 4090, если очень повезет то по цене до дикого подорожания.
>>1260947
> Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб
Святая наивность, при хорошем сценарии там будут в ходу уже 64+гб карточки в количестве нескольких в ригах, при плохом - мало что поменяется и 32гига останутся дорогими, также как 24 сохранят актуальность. И главное - все эти 4 года будет сидеть и ждунствовать грустить, а не довольно урчать эксплуатируя.
То же самое уже наблюдалось в гей_минге и прочем-прочем, но бедолаги необучаемы.
Аноним 01/07/25 Втр 13:45:11 1261042 45
>>1261017
Главная и основная проблема - лору для текстовых нельзя разбивать на части, как в случае со SD. Поэтому для обучения даже 12b, тебе нужен хоппер, лол.
Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.
Аноним 01/07/25 Втр 13:48:54 1261044 46
>>1261029
>м-магнум
У магнума вроде именно тюн а не qLora
Аноним 01/07/25 Втр 13:48:56 1261045 47
Локальщики, вопрос по промтингу. Какой лучше подход использовать, когда прописываешь системную инструкцию? Лучше указывать, что локалка это рассказчик, или напрямую, что локалка это персонаж? Мне хочется, чтобы модель не просто описывала действия и ощущения, но еще и энваермент и всё прочее. Но если попросить локаль быть наративщиком, то она чаще начинает писать за меня, а если попросить быть персонажем, то она занимается только персонажем и чаще игнорирует остальную информацию, касающуюся, например, лора.
Аноним 01/07/25 Втр 13:50:35 1261047 48
Аноним 01/07/25 Втр 13:51:13 1261048 49
>>1261045
Разный. Я неиронично прибегаю к гопоте и прошу составить промт под конкретные хотелки, а потом ручками. Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Просто помни что корпосетки очень, очень, очень, ОЧЕНЬ БЛЯТЬ, цензурированны.
Аноним 01/07/25 Втр 13:51:32 1261049 50
>>1261017
Peft и есть лоры. Но здесь все гораздо сложнее чем с картинками. В тех можно без проблем натянуть модель на глобус чтобы она генерировала только конкретный объект, 95% лор так и делают. Здесь же нужно аккуратно добавить знания не разрушая все остальное, что сильно усложняет процесс тренировки и повышает требования.
В целом, стиль - самое простое из подобного и тут лора как раз сработает лучше всего, но все равно придется накапливать нормальный датасет и стараться чтобы оно не стало просто повторять слоп из тех книжек по поводу и без.
>>1261027
Это не дерьмо, это метод со своими компромиссами. Щитмиксы мистраля - почти все это лишь вмердженные лоры а то и вообще qlora, потому и такая залупа лоботомированная.
>>1261042
> лору для текстовых нельзя разбивать на части, как в случае со SD
Что?
> Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
Что?
> То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.
В целом посыл туда.
Память на полные веса + память на обучаемые веса (если файнтюн то 1 и второе одно и то же, если лора то веса лоры), память на состояния оптимайзера (x1-x4 от веса обучаемых параметров), память на рабочий контекст с учетом батча. В десктопных видеокартах фейл начинается уже на первом этапе.
Аноним 01/07/25 Втр 13:51:38 1261051 51
>>1261035
>То же самое уже наблюдалось в гей_минге
Ну благо для гейминга 12ГБ была и остаётся тем что хватает на всё.
Ну, кроме InZoi.
Аноним 01/07/25 Втр 13:52:44 1261052 52
>>1261045
Индивидуально от модели зависит. Многие хуево следуют инструкциям. Ты можешь накатать длинную залупу и из нее лишь половина будет учтена при исполнении задачи, причем каждый раз это окно внимания будет сдвигаться и модель будет проебывать новую часть инструкций с каждым инпутом промпта. Сталкивался с такой хуйней, пришел к выводу не юзать длинные промпты вообще.

^ это если что про мелкие 8B - 30B, насчет 70B не уверен (думаю та же залупа), а вот у супер-больших с этим может быть получше.
Аноним 01/07/25 Втр 13:53:56 1261055 53
image.png 5Кб, 357x20
357x20
image.png 86Кб, 1241x252
1241x252
image.png 8Кб, 251x130
251x130
Чот у меня llamка не реагирует на то что в настройках таверны у меня стоит контекст в 16к токенов и обрабатывает все равно ток 4к (из 8к контекста). Это нормальное поведение или надо что-то менять? Самому ток задавать контекст заранее при запуске модели?
Аноним 01/07/25 Втр 13:55:39 1261056 54
>>1261049
> Что?
Это я про «активации» (я до сих пор не понимаю, почему они так называются)
Аноним 01/07/25 Втр 13:55:58 1261057 55
>>1261055
>Самому ток задавать контекст заранее при запуске модели
Аноним 01/07/25 Втр 13:56:17 1261060 56
>>1261055
>Самому ток задавать контекст заранее при запуске модели?
Да, количество контекста определяется бэкендом, а не фронтендом.
Аноним 01/07/25 Втр 13:58:31 1261061 57
>>1261057
>>1261060
Так, а нахуя тогда мне дают ползунок дрыгать в таверне? Или это ограничение сколько он будет на бек из чата отправлять? Наверное сам и ответил на свой вопрос, спасибо анонцы
Аноним 01/07/25 Втр 13:59:26 1261063 58
>>1261048
>Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Это понятно, но общие правила действуют для всех. И именно эти общие правила меня интересуют. Конкретные фетиши и квирки я уже потом смогу прописать, но общий вектор хочется задать один раз и для всех моделей.

>>1261052
>модель будет проебывать новую часть инструкций с каждым инпутом промпта
Ну так по мере заполнения чата у нее начинает появляться больше примеров и необходимость в мейн промте постепенно начинает пропадать. Главное чтобы первый десяток был составлен так, как нужно тебе, и потом модель это подхватит.
Аноним 01/07/25 Втр 13:59:53 1261064 59
>>1261061
А хороший вопрос так то, лол. Просто прими это как данность. Может это для Api нужно, хуй его знает.
Аноним 01/07/25 Втр 13:59:54 1261065 60
>>1261061
>нахуя
это для апи, асиги тоже в таверне сидят
Аноним 01/07/25 Втр 14:00:07 1261066 61
>>1261061
Да, ты сам ответил на свой вопрос.
Аноним 01/07/25 Втр 14:01:27 1261068 62
>>1261051
> 12ГБ была и остаётся тем что хватает на всё
Уровень коупинга имаджинировали лол.
В гейминге определяющим уже является мощность чипа если врам достаточно. И суть в том, что варебухов, предлагающих ждать по нескольку лет в надежде что станет лучше всегда было достаточно, и всегда они лишь с проглотом сосали.
Есть смысл подождать какого-то релиза если он запланирован в разумный срок и предполагаются крутые модели, но не более. Прогресс неостановим, то, о чем ты сегодня мечтаешь и надеешься что подешевеет через годы в то время будет уже средним или днищем относительно растущих требований.
>>1261061
> нахуя тогда мне дают ползунок дрыгать в таверне?
Таверна с его помощью осуществляет промпт менеджмент, удаляя старые сообщения что выходят за этот лимит и посылая всегда не более чем доступно.
Аноним 01/07/25 Втр 14:01:52 1261069 63
>>1261061
Если контекст именно в таверне заполнится, она начет выгружать куски контекста самостоятельно. Если заполнится контекст в кобольде, то он начнет сдвигать токены или просто прервет генерацию, если я не ошибаюсь.
Аноним 01/07/25 Втр 14:05:25 1261072 64
>>1261063
https://pixeldrain.com/u/sGaeTTfa Storyteller.json
Лучшее что я пока пробовал.

>>1261068
>коупинга
Никакого коупинга, 4080 12Гб ноутбук, неиллюзорно хватает на всё что только не пробовал, даже Wuthering Waves на релизе год назад где в неё не плюнул только ленивый, и на новую локу в нём же сейчас.
Аноним 01/07/25 Втр 14:10:57 1261076 65
>>1261072
> 4080 12Гб ноутбук
Это аналог 4060 по перфомансу?
> неиллюзорно хватает на всё
Рад за тебя, но это реально коупинг ибо обеспечит что-то типа 60фпс с просадками в древних 1080п на средних настройках в современных тайтлах. Или мобильные дрочильни гонять.
> Wuthering Waves
Неблохо, как оно сейчас?
Аноним 01/07/25 Втр 14:12:56 1261080 66
>>1261076
>60фпс
выше никогда и не ставил, мне норм

>>1261076
>Неблохо, как оно сейчас?
Збс, впрочем и всегда было, играю с релиза и не дропал.
А щас ещё и тонны QOL фич завезли.
Аноним 01/07/25 Втр 14:15:05 1261082 67
>>1261072
>Лучшее что я пока пробовал.
Сомнительно, если честно. Кучу подобных промтов перегонял, писал собственные по такому же принципу. Модель половину инструкции просто игнорирует, не понимания в каких сценариях её правильно использовать. Но может проблема именно в модели, так как я гоняю только мистрали на 12 и 24 кило параметров.
Аноним 01/07/25 Втр 14:18:44 1261085 68
>>1261082
Можешь в режиме ассистента спросить как будет выполнять эту инструкцию. Толькр важно - ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп.
Но это позволит выяснить понимает ли вообще она эту инструкцию.

Можно попросить переписать промт "под себя", на деле такое действительно давало буст, даже на 12Б.
Аноним 01/07/25 Втр 14:26:50 1261093 69
>>1261085
>ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
По опыту могу сказать, что да. Это вообще ничего не гарантирует. Это как спросить её про то, знает ли она про цитату "терпим карлики" и потом спросить, чьего она авторства. Она чаще всего не может просто ответить "нет" или "я не знаю, как эту инструкцию применять", она просто начнет интерпретировать, как умеет. И там уже чистый рандом.

На самом деле, жаль, что у нас нет своей датабазы с промтами, как у корпоратичков. Да, у них и моделей в сотню раз меньше, но даже если бы она покрывала хотя бы десяток самых популярных локалок, было бы неплохо.
Аноним 01/07/25 Втр 14:32:13 1261094 70
>>1261093
> что у нас нет своей датабазы с промтами
Локалщики мы или ключи просящие ?
Смерды или энтузиасты нейронные ?
Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?
Аноним 01/07/25 Втр 14:32:42 1261095 71
>>1261080
> выше никогда и не ставил, мне норм
Ну вот видишь.
На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать, на экраны старых смартфонов без слез не взглянешь, во что-то динамичное типа шутанов - играть тяжело. Норм только в кинцо не телеке с геймпадом, но там уже нужно разрешение и картинка.
>>1261085
> не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
К сожалению именно так. Но никто ведь не мешает напрямую потестить в рп, можно на небольшом готовом чате.
>>1261093
> Это как спросить её про то, знает ли она про цитату
Используешь цитату в рп также как вставлял мемчик или отсылки в естественных диалогах@смотришь на реакцию. Популярные все узнает, чем умнее модель тем лучше результат. На больших можно "спрашивать у Ганса плохие ли мы" комментируя действия сомнительной моральности.
Аноним 01/07/25 Втр 14:33:41 1261096 72
база треда:
- меньше Q6_K жизни нет
- меньше 24B жизни нет
- меньше 16GB жизни нет
- меньше 8 каналов DDR4 жизни нет
- меньше 5 т/c жизни нет

дополняйте
Аноним 01/07/25 Втр 14:34:38 1261098 73
Аноним 01/07/25 Втр 14:35:43 1261099 74
>>1261096
Нахуй иди.
Дополнил.
Аноним 01/07/25 Втр 14:36:02 1261101 75
image.png 1523Кб, 1200x800
1200x800
Аноним 01/07/25 Втр 14:40:13 1261104 76
image 60Кб, 462x243
462x243
>>1261095
>На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать
Мусью слишком много кушать =))
Вообще рили, хз, то ли ценители дофига, толи что, но я пробовал 144 гц и не ощутил разницу с 60.
Аноним 01/07/25 Втр 14:40:52 1261105 77
>>1261094
>Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?
На самом деле из всех вопросов касательно локалок, вопрос с промтами самый неочевидный. Настроить бек и фронт можно путем тупого перебора параметров, если ты совсем нихуя не понимаешь. А вот составлять инструкцию тебе точно придется тупым перебором, даже если ты дохуя чего понимаешь. И если кто-то уже сделал это за тебя и поделился результатами - то его можно заслуженно чмокнуть в щечку.
Аноним 01/07/25 Втр 14:43:08 1261108 78
>>1261101
кому ты пиздиш квен3 не мультимодальный
Аноним 01/07/25 Втр 14:45:23 1261110 79
>>1261105
Круговорот промтов в треде =))
Аноним 01/07/25 Втр 15:50:09 1261138 80
1730080638137.png 11Кб, 744x147
744x147
>>1261098
Не покажу. Но в общем там о размещении гексов с треугольной решетке, чтении-хранении информации об этом в определенном формате, вращение сетки вокруг отдельных нод на кратные 30 градусам углы с помощью быстрых матричных операций и преобразований на основе относительных позиций без перехода к системе координат, ну и различные манипуляции с ними.
>>1261104
> Мусью слишком много кушать
Просто глаз больше 24 не видит, поэтому нужно чтобы было на порядок больше и с мгновенным откликом.
> 144 гц и не ощутил разницу с 60
Это возможно только с древней беспроводной лагучей мышью, или при фантазировании.
Аноним 01/07/25 Втр 16:19:17 1261146 81
>>1261138
>возможно
Хах, ну рад за тебя.

Мышка проводная, не люблю беспроводные, у них батарейки заканчиваются в самые неподходящие моменты.

По мне так разница между 60 и больше 60гц как между 6 и 8 квантом 24-32Б модели - она может и есть, и даже почти точно наверняка есть, но заметить её... сложно. Если вообще получается.
Аноним 01/07/25 Втр 16:40:37 1261156 82
>>1261060
>>1261061
Потому, что оба важны. И на фронте, и на беке. На беке - главный, больше него контекста обрабатываться не будет. От него зависит потребная VRAM/RAM под кеш.
Но ползунком на фронте можно зажать размер контекста сильнее чем на беке выставлено. Иногда помогает от OOM, или от тупняков. Если хочешь подобрать размер контекста на который модель адекватно реагирует - это тоже можно делать через фронт, а бек не трогать, если там нативный контекст а не расширенный через ROPE и т.д.
>>1261069
>Если заполнится контекст в кобольде, то он начнет сдвигать токены или просто прервет генерацию
А если табби или уга - то обругают за превышение возможного контекста и пошлют нахрен такого клиента.
Аноним 01/07/25 Втр 16:49:08 1261161 83
>>1261138
>>1261146
>> 144 гц и не ощутил разницу с 60
>Это возможно только с древней беспроводной лагучей мышью, или при фантазировании.
Или по достижению определенного возраста. Постепенно чувствительность органов чувств падает, ничего с этим принципиально не сделаешь. Ребенок и высоту звука в 25Khz может слышать, а к 50-ти годам и 8Khz могут оказаться пределом. Со зрением то же самое. Да и врожденные данные у всех разные.

Так что не советую кичиться тем, что вы это хорошо различаете - велик шанс, что со временем это изменится. А пока - дает намек на ваш возраст. :)
Аноним 01/07/25 Втр 17:08:32 1261163 84
>>1261156
> подобрать размер контекста на который модель адекватно реагирует - это тоже можно делать через фронт
Ты сейчас его запутаешь. При выходе контекста чата за лимит, выставленный в беке все популярные фронты просто будут удалять из запроса старые сообщения. Их отсутствие может привести к полному провалу не по вине модели, если ответ должен касаться данных в них, что может быть неверно воспринято пользователем.
В целом, посыл верный ибо бывают случаи когда суммарайз кучи старых сообщений в более компактную форму разгружает модель и улучшает ответы. Но простым ползунком в таверне этого не сделать, он даст только обрезку старых с потенциально негативным эффектом.
> пошлют нахрен такого клиента
Единственно верный вариант, а не треш где втихую самостоятельно что-то обрежет или тем более склейки кэша начнет оформлять.
>>1261146
>>1261161
Даже возрастные люди когда им показываешь замечают что "плавненько, тут лучше". Это уже нарушения моторики и зрительного восприятия за пределами естественных изменений.
> дает намек на ваш возраст
Жесткий френдли фаер.
Аноним 01/07/25 Втр 17:29:01 1261182 85
>>1261163
Дожили, не ставишь себе 120+ херц, и уже человек второго сорта по мнению случайного анонимного сыча-двачера...

>>1261163
> дает намек на ваш возраст
Ещё и школота на каникулах небось.

Ой, да о чём это я, типчный двач.
Аноним 01/07/25 Втр 18:02:41 1261196 86
GLM-4 1.png 285Кб, 1346x757
1346x757
GLM-4 2.png 216Кб, 1341x599
1341x599
GLM-4 3.png 278Кб, 1337x804
1337x804
glm4 eh.png 103Кб, 1364x305
1364x305
Привет-привет! Пришел к вам с дисклеймер: субъективным, не претендующим на истину мнением по GLM-4-32B-0414. Ссылка: https://huggingface.co/THUDM/GLM-4-32B-0414

Когда модель только вышла, я в тред отписывался, но сейчас мнение сформировалось окончательно.

Если вкратце - это QwQ / Snowdrop здорового человека. Однозначно, сильная сторона модели - диалоги, подтекст, ум, описания различных местностей и уместная креативность; слабая сторона модели - она ломается после ~20к контекста (тестировал и exl3, и с yarn через llamacpp). Быть может, заметите не сразу, но качество аутпутов после ~20к очень ухудшается, и чем дальше - тем хуже. До 16к работает отлично, с 16 до 20к могут быть небольшие проблемы, что решаются свайпом. Это модель, с которой можно рпшить из коробки, пишет интересно и свежо, цензура при вменяемом промптинге минимальная (из того, что я видел). В кум может. Без чудес, но и не совсем сухо, как всегда многое решает промптинг и карточка. А еще у этой модели местами по-хорошему умный и сложный английский, я такого не видел у моделей в пределах данной весовой категории.

Три важных момента:
- У модели очень легкий контекст, он не занимает много памяти, квантовать его не нужно ни в коем случае, иначе рассыпаться начнет еще раньше.
- Модель может выдавать рандомные рефузы. Происходить они могут даже в самых безобидных сценах, если хоть где-нибудь в промпте имеется упоминание любого страшного контента. Решается обычным свайпом, происходит редко. Пример такого рефуза на последнем пикриле
- ...но при этом, если в промпте явно не указать, что разрешен страшный контент, рефузы можно словить в диалоге. Это поразительно, но GLM не имеет проблем с тем, чтобы отыгрывать героическое фэнтези с чудищами, что сносят армии одним взмахом, падение осколка метерита в город, но стоит кому-нибудь заплакать в диалоге или испытать ментальный стресс - он уходит в домик и прячется за рефузом.
Таким образом возникает ситуация, что промптинг для разрешения (не)страшного контента необходим, но вместе с тем из-за этого промптинга могут возникать рефузы. Такая вот странность, но по моему опыту происходит крайне редко.

Советую как минимум попробовать всем, кто живет в пределах 32б моделей. Делюсь готовым к использованию пресетом ( v2 https://pixeldrain.com/l/xGFnT1PY ) и логами с томбоечкой, из которых как всегда почти ничего непонятно, кроме смутного представления о стиле письма модельки. Всегда нужно пробовать самому. Теперь GLM - моя вторая любимая модель после Коммандера 32б. Если выпустят новую версию, где внимание к контексту не будет разваливаться после 20к, будет вообще замечательно.
Аноним 01/07/25 Втр 18:08:11 1261198 87
>>1261138
>Просто глаз больше 24 не видит
Ты нолик забыл.
Аноним 01/07/25 Втр 18:08:14 1261199 88
К посту выше: для понимания, я сейчас закончил чат на 20к контекста, с префиллом, где явно разрешается любой контент (он имеется в пресете). За все 20к я ловил рефуз 3-4 раза, в самых неожиданных случаях. Видимо, это происходит рандомно, когда attention механизм ухватывается за конкретную инструкцию, и придает ей больше значения, чем остальным
Аноним 01/07/25 Втр 18:21:18 1261202 89
>>1261196
У неё контекста вообще 8к, ярном растягивается до 16-20к, дальше сыпется.
Аноним 01/07/25 Втр 18:23:42 1261204 90
>>1261202
Да, о том и речь. Как и писал выше, по моему опыту на практике работает до 16к практически идеально, до 20к - уверенно хорошо, а дальше пробовать даже не стоит. Формально можно до 32к, но смысла нет, модель будет лихорадить.
Аноним 01/07/25 Втр 18:26:46 1261208 91
>>1261204
Лично у меня впечатления обратные "гемма, только хуже".
Попробуй кстати мерж Remnant-GLM, мне куда больше понравился.
Аноним 01/07/25 Втр 18:29:54 1261210 92
>>1261208
Remnant-GLM - это тюн. Все тюны GLM страшно лупятся, поскольку пока что тюнеры не разгадали, каким образом лучше тренировать. Да и меня базовый инструкт устраивает. С Геммой знакомство у меня было короткое, но как помню, в моем случае она контекст держала еще хуже, я где-то на 16к видел такие проблемы, какие здесь обнаруживал на ~25к. Может напортачил где-нибудь, но в целом Гемма не настолько меня заинтересовала, чтобы разбираться. Каждому свое.
Аноним 01/07/25 Втр 18:47:08 1261226 93
>>1261210
Странно, вот именно что контекст гемма как раз и держит.
Ну можешь ещё глянуть Синтию / Синтвейв, будет желание.

А вот я последнее время модели тестирую, а вот именно рпшиться желания нет, чаты не уходят дальше пары десятков сообщений.
Аноним 01/07/25 Втр 19:05:47 1261235 94
>>1261226
> Ну можешь ещё глянуть Синтию / Синтвейв
Пробовал Синтию, разумеется, и рекомендовал ее треду как единственный работающий тюн Геммы. Но наблюдал те же проблемы и не смог проникнуться настолько, чтобы использовать ее по сей день.

> А вот я последнее время модели тестирую, а вот именно рпшиться желания нет, чаты не уходят дальше пары десятков сообщений.
Та же ситуация. Очень редко чаты уходят дальше 4к контекста, в последнюю пару месяцев рпшусь очень мало. Больше играюсь с моделями и промптингом. Сам не знаю зачем, спортивный интерес какой-то или любопытство. Была мысль наделать кучу карточек на свой вкус и отложить их на пару месяцев, чтобы позабыть детали и отыграть то, что любо-дорого душе, но пока сил/желания на это не находится.
Аноним 01/07/25 Втр 19:10:26 1261238 95
>>1261235
>наделать кучу карточек на свой вкус
уже, и ещё больше в планах =)
Хотя сначала надо ещё Этерне гритинги доделать которые планировал...
Аноним 01/07/25 Втр 20:20:58 1261287 96
>>1261182
Типичная стратегия коупинга, нейтральное выражение "а лучше б" сначала извратить до "кто имеет б вместо а - человек второго сорта" и потом мысленно его опровергнуть, экстраполируя на исходное и успокаивая себя.
С молодости в упрек это особый рофл. Каково это, ощущать что большая и самая лучшая часть жизни уже позади, сил достигать нового все меньше а имеющуюся действительность нужно оправдывать?
>>1261196
А ты не пробовал играться со вставкой имен, например убивая их вообще (снять галочку Context Formatting -> Always add character's name to prompt и Include Names - Never)? У тебя во всех скринах кроме аположайза все начинается с имени чара, подобное может со временем сильно надоедать и дополнительно провоцирует структурные лупы. Если же имена убрать то ответы становятся более разнообразными по виду и структуре. Если чат уже загажен то не обязательно поможет, но при начале нового особенно заметно.
Также, можно со Story String поиграться, добавив туда краткие вставки и разделители.
>>1261202
Ярн вполне прилично растягивает без потерь как это было раньше и до заявленного множителя. Почему она деградирует после 20к и деградирует ли - вопрос отдельный, на других моделях с этим проблем нет.
Аноним 01/07/25 Втр 20:21:37 1261289 97
Нищеброд с 3060 с 12 гб на связи. Есть-ли смысл взять вторую такую-же карту, чтобы гонять 24b сетки на приемлемой скорости и много-ли ебли будет с настройками? Или лучше продать ее нахуй и купить 5070ti 16гб?
ЗЫ новость про 5070ti super видел но не хочу ждать еще год.
Аноним 01/07/25 Втр 20:27:59 1261294 98
>>1261289
> чтобы гонять 24b сетки на приемлемой скорости и много-ли ебли будет с настройками
Можно будет гонять, ебли с софтов немного, потенциально много ебли с установкой в корпус чтобы все хорошо охлаждалось.
Насчет смысла - нужно оценивать исходя из твоих возможностей, цен, перспектив и т.д. С парой 3060 сможешь 30б катать быстрее чем с 5070ти и выгрузкой, в картиночных нейронках она будет по скорости как две 3060 или быстрее, в игоре вообще разъебет.
Самый вин - взять 3090 вместо или второй а потом при желании когда-нибудь еще обновить 3060. Но не в каждый корпус влезет, не каждый бп потянет, бу техника.
Аноним 01/07/25 Втр 20:37:41 1261305 99
Как запустить Ernie от в LM Studio или хотя бы угебуге, подскажите дауну. Оба не распознают архитектуру. Хочу заняться мазохизмом с 300М моделью.
Аноним 01/07/25 Втр 20:41:58 1261312 100
изображение.png 42Кб, 400x162
400x162
изображение.png 50Кб, 606x176
606x176
изображение.png 49Кб, 526x156
526x156
>>1261287
> У тебя во всех скринах кроме аположайза все начинается с имени чара
Забавно, и правда ведь. Это я такие скрины подобрал, совпадение. Это не луп. Структурные лупы иногда были до того, как я добавил щепотку rep pen - 1.03. Сейчас используется настройка Include Names: Groups and Past Personas, как в стандартном GLM инструкт шаблоне Таверны. Чат не групповой, так что это аналог Never. Always add character's name to prompt в шаблоне контекста включен. Если его отключить, очень уж много имперсонейта получается.
Аноним 01/07/25 Втр 20:55:56 1261314 101
>>1261312
Кстати, а в чём отличие
>Include Names: Groups and Past Personas
и
>Always add character's name to prompt в шаблоне контекста
Аноним 01/07/25 Втр 20:59:35 1261320 102
Аноним 01/07/25 Втр 21:02:59 1261322 103
>>1261305
Обновить в венве убабуги трансформерс до дев версии с гита и молиться что она не сломается, запускать через трансформерс. Если сломается - можешь сразу сносить венв и ставить заново, придется искать другую обертку для апи.
>>1261312
Реп пен конкретно от них плохо помогает, но тема с именами работает довольно стабильно на многих моделях.
> Если его отключить, очень уж много имперсонейта получается.
Однако, а менять системный промпт или инструкцию перед ласт ответом на то что нужно дать ответ от лица чара/гейммастера не пробовал?
Аноним 01/07/25 Втр 21:28:53 1261338 104
>>1261322
> Реп пен конкретно от них плохо помогает
Как ни странно, в данном случае помог. Репетишена не так много у базового инструкта GLM, но он есть. После того, как добавил реп пен, прогнал уже примерно 40к токенов, и явных проблем не вижу.

> Однако, а менять системный промпт или инструкцию перед ласт ответом на то что нужно дать ответ от лица чара/гейммастера не пробовал?
Неа. Не было необходимости как-то. Ведь незачем решать проблему, которой нет. Но как будет снова настроение поэкспериментировать, я попробую. Если получится что-нибудь путное, лучше прежнего - обязательно поделюсь в треде.
Аноним 01/07/25 Втр 21:35:24 1261348 105
>>1261314
В том, каким образом форматируется промпт, отправляемый бэкенду. Include Names: Groups and Past Personas будет добавлять имена в промпт, когда используется групповой чат и/или ты заменил персону (персонаж юзера)
Always всегда добавляет имена в промпт, Never - никогда. Имена находятся в префиксе, который в обычном чате ты не увидишь, но это имеет значение для модели. Как правило, если не добавлять имена, генерации несколько разнообразнее, но с другой стороны, модель может начать писать за юзера.
Аноним 01/07/25 Втр 22:00:16 1261359 106
>>1261348
> модель может начать писать за юзера
Это аномалия или следствие противоречий. В групповых и с чатовой разметкой это действительно необходимо, иначе модели придется еще и понимать где в истории кто говорит потому что все ответы размечены как от нее. А в обычном роли сразу понятны из основной разметки, поэтому имена не являются необходимыми.
Аноним 01/07/25 Втр 22:12:53 1261364 107
>>1261359
Если примеров диалога в карточке нет, и это начало контекста, многие модели потеряются и будут отписывать за юзера, если и в инструкте, и в контекст шаблоне нет имён. Так практика показывает, много раз игрался с этим, да и все стандартные шаблоны Таверны имена почему-то включают. Не претендую на правду, но у меня так.
Аноним 01/07/25 Втр 23:41:31 1261456 108
>>1261196
вот с одним я не согласен: считаю, что оно пиздец как может в кум. тестирую на твоем пресетике, просто ахуенно. чмок в щечку за такое, может даже кусь
Аноним 02/07/25 Срд 05:05:06 1261642 109
Аноним 02/07/25 Срд 09:34:26 1261699 110
Квантовать контекст геммы плохая идея?
Аноним 02/07/25 Срд 09:52:40 1261720 111
Аноны, а что насчет новой геммы 3n? Я немного потыкл gemma-3n-e4b в режиме ассистента. Для своего размера очень впечатляет.
Аноним 02/07/25 Срд 10:08:22 1261727 112
Думаю, пора качать модели на черный день.
У меня 12gb vram + 32gb ram. Какие модели подойдут для:
1) Замены гугла
2) Для погромирования
3) Для более широкого взаимодействия, всяких развлечений и ролеплея

И есть ли какая-то база треда по квантизации? Типа, "большая модель в Q4 лучше, чем малая без квантизации! малые модели вообще не нужны бля!", и все такое, или наоборот.

И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились? Что насчет LM Studio?
Аноним 02/07/25 Срд 10:41:25 1261756 113
Какую модель можете посоветовать на базе обновленного мистраля (2506, 3.2, ну или как он там назывался) не для кума, а чтобы резня, падающие стеклянные небоскребы, котлы, залпы РСЗО и мама, я не хочу умирать.

Harbinger неплох в этом отношении, но он на более старой версии, значительно хуже слушается инструкций, а его словесный понос без разделения на абзацы меня просто убивает, хотя стоит признать, что динамику сражений, особенно городскую, он показывает очень неплохо. Аналогов вроде бы нет. Но вдруг появились? А то я не следил за файнтюнами.

Проблема базовой модели нового мистраля, конечно же, в лупах. Поначалу их не было, но где-то на 20к контекста он уже вошёл во вкус, и это говно вырезать абсолютно бесполезно, потому что он напишет его снова. Разве что резко менять вектор направления сюжета и самому писать очень много, вынуждая модель сосредоточиться на чем-то ином. Но у меня и так посты 100 токенов минимум.

ЗАПАХ ОЗОНА
ПОТРЕСКИВАНИЯ
ЧАСЫ НА БАШНЕ
ТЯЖЕСТЬ НЕВЫСКАЗАННЫХ СЛОВ ТЯЖЕЛО ПОВИСАЕТ В ВОЗДУХЕ

Ну и вот это всё, только его охуительные повторяющиеся реплики отъедают по 150 токенов в посте. Без них пост 400-500 токенов, с ними 700-800. Даже файнтюны, кроме самых слоповых, мне так мозг не ебали.
Аноним 02/07/25 Срд 10:45:57 1261761 114
>>1261727
> Думаю, пора качать модели на черный день.
Давно пора, риск чебурнета, к сожалению, уже не просто пугалка.

> 12gb vram + 32gb ram
> 1) Замены гугла
https://huggingface.co/google/gemma-3-12b-it
Довольно умная модель с большим для своей весовой категории количеством знаний. Нужно понимать, однако, что это далеко не замена Гугла. Замена Гугла - в лучшем случае Дипсик в полном размере, для его запуска нужен полноценный риг/сервер.

> 2) Для погромирования
https://huggingface.co/ServiceNow-AI/Apriel-Nemotron-15b-Thinker
https://huggingface.co/Qwen/Qwen3-14B
Если поместится 6, а лучше 8 квант. Для кода или других точных задач только так. Первой моделью я много пользовался, хотя у меня железо позволяет крутить модели побольше. Хорошая, справляется с редактированием кода/кодревью. Опять же, нужно понимать, что за тебя ни одна сетка задачу полностью не решить, даже Гемини. Эти же модели многократ меньше и гораздо слабее, но по-прежнему полезны, если понимать, на что они способны.

> 3) Для более широкого взаимодействия, всяких развлечений и ролеплея
Для ролеплея:
Золото среди 12б моделей: https://huggingface.co/Sao10K/L3-8B-Stheno-v3.2 https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1
Золото среди 22б моделей: https://huggingface.co/concedo/Beepo-22B https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B

Для широкого взаимодействия и развлечений подойдет любая модель общего пользования. Например, упомянутая выше Гемма.

> И есть ли какая-то база треда по квантизации?
Чем меньше модель по количеству параметров (b), тем больше просадка при квантизации. Проще говоря, чем меньше модель - тем больше квант нужно брать. Золотое правило - никогда не брать ниже 4 кванта для общих задач, никогда не брать ниже 6 кванта для точных задач.

> И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились?
KoboldCPP оставь, он сочетает в себе и бэкенд (запуск модели), и фронтенд (промпт менеджмент). SillyTavern в качестве фронтенда, очевидно.

> Что насчет LM Studio?
Проприетарный (закрытый) продукт, нет причин его использовать. Альтернатива - Кобольд или https://jan.ai/
Аноним 02/07/25 Срд 10:48:22 1261765 115
>>1261756
Драй и репетишен пенальти использовал? У меня нет лупов на 2506, только структурные иногда.
Аноним 02/07/25 Срд 10:51:09 1261769 116
А что у нас по хорошим мультимодалком сейчас? Кто лучше и умнее оценивает фото?
Вроде мистраль новый мультимодальный нет? Ну и гемма, что то было еще? В размерах до 30b
Аноним 02/07/25 Срд 11:18:03 1261795 117
image.png 8Кб, 299x145
299x145
>>1261761
Спасибо за развёрнутый ответ, сэр анон. Особенно за инфу по квантизации.

А что насчет Mistral-Small-3.2-24B-Instruct-2506 думаешь?
>Для ролеплея
Что насчет моделей со скрина? Из шапки взял.

Может, ты и про тренировку лор знаешь? Подумал, что было бы прикольно дообучить какую-нибудь модельку на доки актуальной версии Godot, но в тренировку лор именно ллмных пока не вкатывался, не знаю, с чего даже начать. И не уверен, что на 3060 получится за разумные сроки, про бесплатную тренировку в вебе тоже не слышал (только для картиночных моделей).
Аноним 02/07/25 Срд 11:24:26 1261801 118
>>1261795
> А что насчет Mistral-Small-3.2-24B-Instruct-2506 думаешь?
Отличная модель, одна из лучших доступных в категории <49б на сегодня. Не уверен, что поместится в хорошем кванте и при этом будет работать с адекватной скоростью на твоем железе, потому не рекомендовал. Если будет работать хорошо, смотри другие 24б тюны, но адекватных крайне мало. Лучше подождать, пока на 2506 сделают.

> Что насчет моделей со скрина?
PersonalityEngine считается одним из лучших тюнов, по крайней мере 1.2.0 версия. Отзывы по 1.3.0 противоречивы. Много я с этой моделью не игрался, потому большего не подскажу. Mag-Mell-R1 отличный для своего размера.

Помни, что моделям нужно использовать соответствующие шаблоны и настройки, чтобы они работали как положено.

> Подумал, что было бы прикольно дообучить какую-нибудь модельку на доки актуальной версии Godot
Забавно, тоже работаю на Годоте. И тоже думал об этом, но решил, что задача того не стоит, чтобы подробно разобраться в вопросе. В моем случае, я C#-пурист, потому любая модель подойдет. Погугли про RAG, возможно, получится документацию использовать таким образом, если ты на Гдскрипте.
Аноним 02/07/25 Срд 11:38:08 1261823 119
>>1261801
>Помни, что моделям нужно использовать соответствующие шаблоны и настройки, чтобы они работали как положено.
А ведь точно. Я так мало разбирался с локальными моделями, что вообще забыл о параметрах и настройках. Где эти стандартные шаблоны искать-то?..

>Погугли про RAG, возможно, получится документацию использовать таким образом, если ты на Гдскрипте.
Да, надо будет попробовать. Это звучит лучше, чем тренировка лоры. Случайно, не найдется какого-то традиционного гайда, который кидают первой ссылкой? Ты так активно помогаешь, что мой градус лени начинает повышаться и я стал наглеть. Еще раз спасибо.
Аноним 02/07/25 Срд 11:48:35 1261838 120
import.png 257Кб, 1277x387
1277x387
>>1261823
> Где эти стандартные шаблоны искать-то?..
У каждого семейства моделей свои шаблоны. Если пользоваться Таверной, нужно выбирать Text Completion и указывать Instruct, Context шаблоны. Как на Кобольде сделано - не знаю, не пользуюсь им. Возможно, подтягивает откуда-то шаблоны сам? Другие аноны подскажут.
Где искать их - вопрос хороший. У хороших тюнов иногда и вовсе есть готовый файл импорта (пресет) для Таверны, с шаблонами, сэмплерами и промптом. Но часто нет. Как минимум, на странице модели на Обниморде можно найти базовую модель тюна, а на странице базовой модели обычно указывается шаблон.

> Случайно, не найдется какого-то традиционного гайда, который кидают первой ссылкой?
Не знаю таких.

> Да, надо будет попробовать. Это звучит лучше, чем тренировка лоры.
На своем железе ты Лору не натренируешь. Нужно искать Гугл Колаб или еще какой-нибудь способ сделать это бесплатно, и результат с очень большой вероятностью будет плох.

> Еще раз спасибо.
Рад помочь. Если Таверной пользуешься, для 2506 можешь взять готовый пресет здесь: https://pixeldrain.com/l/xGFnT1PY
На пикриле показано, как в Таверну импортировать подобный файл.
Аноним 02/07/25 Срд 11:49:29 1261839 121
>>1261727
> И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились? Что насчет LM Studio?
Есть ещё openwebui
Аноним 02/07/25 Срд 11:49:39 1261841 122
IMG0570.jpeg 3221Кб, 3008x4981
3008x4981
Как не зайду в тред или не поколупаю локальные llm возникает непреодолимое желание всрать кучу денег которых пока все равно нет на йоба риг из парочки 5090 или макстудио с 256ram. С каждым разом сопротивляться желанию все труднее
Аноним 02/07/25 Срд 11:50:46 1261844 123
>>1261761
>Золотое правило - никогда не брать ниже 4 кванта для общих задач, никогда не брать ниже 6 кванта для точных задач
Говорит только о том, что ты отстал примерно на полгода. TQ1, UD1-3 уже давно есть и работают прекрасно. Но понятно, что не для 12б лоботомитов
Аноним 02/07/25 Срд 11:53:41 1261848 124
>>1261841
Всегда хочется большего. Думаю, обладателям рига то и дело хочется добавить еще гпу или второй риг.

>>1261844
> Говорит только о том, что ты отстал примерно на полгода.
Да-а... Это грустно. Что мне теперь делать?

> TQ1, UD1-3 уже давно есть и работают прекрасно.
Расскажи об этом анону, что интересовался, помоги новичку.

> Но понятно, что не для 12б лоботомитов
Мы их и обсуждали.
Аноним 02/07/25 Срд 11:54:43 1261851 125
>>1261844
>работают прекрасно
Нет, они работают, но далеко от прекрасного. Если не хочется глюков и проебаной логики с короткими ответами - велком ту +-4 бит на вес
Какие то жирные сетки да, могут на это забить. Какой нибудь квен3 250B, или квен3-30б у которого по факту даже на 2 кванте остаются многие веса в 4 кванте
Аноним 02/07/25 Срд 11:59:40 1261859 126
>>1261844
зелени объясняли какие кванты для 12-15b лоботомитов качать, но ты не мог не пройти мимо и не блеснуть тем, как ты отстал в развитии примерно на много лет. зато про уд3 кванты знает
Аноним 02/07/25 Срд 12:06:16 1261865 127
>>1261699
>Квантовать контекст геммы плохая идея?
В Q8 - нормальная. Я даже на Q4 сидел, 26 контекста отыграл, норм.
Аноним 02/07/25 Срд 12:36:34 1261923 128
card.png 23Кб, 1353x236
1353x236
card2.png 108Кб, 1640x635
1640x635
Признайтесь, захотели.

Какое же говнище все-таки большинство карточек. Иногда захожу на чуб и аналоги тупо поорать.
Аноним 02/07/25 Срд 12:38:07 1261926 129
>>1261923
Вымер нахуй с первой. Ну бля, ну как, ну почему?
Аноним 02/07/25 Срд 12:39:48 1261930 130
69 токенов сука, это финальный аккорд...
Аноним 02/07/25 Срд 12:43:49 1261939 131
>>1261765
Это ж штраф за повтор? У меня 1,05-1,1 с окном 2к токенов (потому что модель срет 800 токенов за пост), но может быть иначе, в зависимости от того, насколько большие посты у модели.

Dry не использовал.

Беда в повторении идеи или структуры. К примеру, модель считает, что ей обязательно нужно сделать три абзаца про окружение и два про эмоции.

Всегда удалять это дерьмо бесполезно, даже новый чат не спасет — начнёт срать снова. Она так и без особого систем промпта делает, а у меня ещё инструкции на нарратив. Вот только там указано, что это нужно применять тогда, когда уместно. И это понимают большие модели, и гемма понимает, и даже 30б3а тупорылый осознаёт, а вот с новым мистралем такая хуйня.

Ну и у меня с лорбука может прилетать инфа по 500 токенов в контекст каждые 3 сообщения.

С другой стороны, при всём этом она совершенно не шизеет и соблюдает все остальные инструкции, логично ведёт повествование и помнит кто, где и что делал 5к токенов назад и уместно эти факты использует. И даже про середину контекста чуть-чуть.
Аноним 02/07/25 Срд 13:01:53 1261972 132
Может кто подсказать дауничу как делать карточки или скинуть свои любимые и хорошо читаемые модельками карточки. Я пробовал делать в формате

[[
#basic info
Name: Billy Herringhton
Age: 999 Yo
#Core Identity
sosihyi blyad
#Speech Patterns
HYI BYDESH?~
#Key Objectives
Trahnyt user
#Summary for AI
total no homo
]]

И у меня такое ощущение что такие карточки хуже считываются чем стена текста из

[[(Age: “24 years old” "adult")(Gender: "female" "woman")(Job: "receptionist at massage parlor")(Personality: "bitchy" "easily annoyed" "tries to avoid her family at all costs" "does drugs" "fearless" "not scared of anything"]]

Как делать то епта надо а как не надо делать подскажите.
Аноним 02/07/25 Срд 13:13:59 1261982 133
>>1261642
> 72B A16B
Без второй части было бы лучше.
>>1261769
> оценивает фото
Что значит оценивает?
>>1261923
Кринжанул со второй.
Аноним 02/07/25 Срд 13:15:25 1261985 134
>>1261972
Мне кажется, что не надо делать карточку набором структурированным набором тегов и фактов. Использовать два поля - Description для единого полотна из plain text'a и Example Dialogue для примеров диалога. Если текст качественный, хороший, отражает задумку художественно, то модель подхватит стиль письма из данных полей, и результат получится более убедительным.

Например, у меня в одной карточке в поле Description намеренно используется немного "рваное" повествование, словно гиперактивное повествование. Множество перечислений в предложениях, восклицания и всякое разное. При этом поле функционально: модель узнает и про физическое описание персонажа, и улавливает эту молниеносность между строк. В итоге персонаж и ведет себя соответствующе: действует очень быстро, движения резкие, уверенные, громкие. И это без примеров диалога. В другой карточке через примеры диалога я рассказываю бекстори персонажа, и это показывает не только характер персонажа, но и факты, которые иначе надо было бы отразить в Description. Меньше токенов тратится, а также задается определенная тональность карточки и немного направляется примерами диалогов то, как персонаж будет себя вести в тех или иных ситуациях. Все карточки в среднем 700-800 токенов у меня.
Аноним 02/07/25 Срд 13:17:57 1261988 135
>>1261982
>Что значит оценивает?
Тестов воды наделал полосками с кучей значений, хотел сетку для распознавания значений напрячь. Но чет гемма не осилила а на кобальде мистраль новый падает, беда беда. Хотел проверить правильно ли я своими глазами оттенки распознал, но не вышло. Путают даже в названиях колонок которые даже блин подписаны. И это я разрешение картинки разрешал до 2к.
Может надо было проекторы не в 16bf качать, хз
Аноним 02/07/25 Срд 13:26:24 1261999 136
image.png 191Кб, 1092x391
1092x391
5070 Super = 18GB
5070 Ti Super - 24GB

Такие вот слухи от железячных сливщиков доходят.
Аноним 02/07/25 Срд 13:32:47 1262004 137
>>1261988
> Тестов воды наделал полосками с кучей значений
Что? Ничего не понятно.
Если тебе нужно оценить содержимое картинки с точки зрения наличия объектов и дальнейшего анализа на основе них - да, но придется хорошо составить инструкцию. Если хочешь "качественно" оценивать картинки с точки зрения красивости, стиля и прочего - не по адресу.
Алсо в жоре и кобольде большинство мультимодалок работают через жопу.
> разрешение картинки разрешал до 2к
Размер обрабатываемых изображений ограничен, препроцессор сам всеравно до определенного порежет.
Аноним 02/07/25 Срд 13:35:18 1262007 138
>>1261999
>24GB
Да хуле, это мало. Столько у 3090 было еще пять лет назад.
Аноним 02/07/25 Срд 13:39:07 1262012 139
>>1262007
Ну это геймерские поделки же... а Хуанг работает над сжатием текстурок с помощью AI.
Думаю это все неспроста.
Аноним 02/07/25 Срд 13:40:52 1262013 140
>>1261923
>2 пик
Какой-то шизик с ОКР это говнище составлял, ей богу.
Аноним 02/07/25 Срд 13:48:55 1262020 141
>>1261972
Разные варианты возможны, но если у тебя там не какое-то РПГ, требующее особых анальных игр, то лучше всего писать в свободном стиле и KPACUBO.

Хотя бы просто потому, что в модель подаётся не срань со скобочками и кавычками, а нормальный, блядь, человеческий язык. Иначе получится говно на входе — говно на выходе.

В общем, суть в том, что естественные описания у меня обычно дают лучшие результаты в 60% сценариев. Ну и от модели зависит.

Проблема таких описаний только в том, что модель может потеряться из-за большого количества токенов.

Нужно скорее не говорить о внешности или о чём-то другом, а показывать, какое впечатление внешность производит. То есть тугая киска + маленькая грудь + розовые соски + очень чувствительные соски + бритый лобок — это говно, если модель не умная. Всякие чатгпт тебе из такого ого-го раздуют, а вот мелкие — нет.

Когда пишешь про тугую киску, нужно объяснять, в чём суть тугой киски, обволакивающей и засасывающей.

Или когда пишешь, что персонаж владеет телекинезом, нужно аккуратно вписать примеры использования. Не писать, что персонаж способен одну тонну поднимать. Модель тупая и не вдупляет, что там сколько весит, а вот конкретные и органичные примеры дают ей больший простор для фантазии и понимания. И зацикливания на примерах, лол.

>>1261985
Вот у тебя хороший подход, хоть я и не люблю им пользоваться.

Пару раз скачивал карточки, где вообще описания нет, а тупо диалог в описании персонажа, где он описывает сам себя и просто балаболит. Там и речь его отображена, и бэк, а значит модель стиль сразу подхватывает и знает все факты.

И видел карточку вообще на 600 токенов + 1000 токенов примеров диалогов. На ней мощнейший поток кума возникает даже на довольно дегенеративных моделях благодаря мастерству автора. И получается очень забавно, если ты пытаешься выкрутиться из сценария. Автор это предусмотрел и персонаж старается по красоте из тебя высосать всю сперму. Не типично, не тупым словом, а внятными аргументами или хитростями с живой речью. Все выглядит естественно.

Но это всё только на случай каких-то не слишком задростких сессий. Если нужно сидеть с 32к контекста с лорбуком и мир с вайфу захватывать, то такой метод не очень подходит.
Аноним 02/07/25 Срд 14:01:03 1262026 142
chat.png 4Кб, 449x48
449x48
>>1262020
> На ней мощнейший поток кума возникает даже на довольно дегенеративных моделях благодаря мастерству автора.
Да, потому что, видимо, такое вот описание получилось. И в Description, и в примерах диалога. Это нюанс данного подхода к созданию карточек: модель перенимает настроение. Если переборщить в чем-то (иногда это делается намеренно, разумеется), то и результат будет соответствующий. Сделать таким образом сбалансированную карточку сложнее, чем может показаться на первый взгляд, но результат меня всегда радует.

> Но это всё только на случай каких-то не слишком задростких сессий. Если нужно сидеть с 32к контекста с лорбуком и мир с вайфу захватывать, то такой метод не очень подходит.
Не могу согласиться. Все же от карточки зависит. Откопал сейчас старый чат, где я как раз с вайфу мир спасал. Почти 600к токенов получилось.
Аноним 02/07/25 Срд 14:01:40 1262028 143
mainyvette-mage[...].png 1799Кб, 1024x1649
1024x1649
>>1261972
https://chub.ai/characters/yoiiru/yvette-mage-hunter-e91d44ee
С моделями, которые следуют карточкам хорошо - Иветта просто эталон охуенного ролеплея. Она тебя с говном смешает, обложит хуями или вообще убьёт, если будешь неосторожен.
Аноним 02/07/25 Срд 14:08:09 1262031 144
>>1262004
>Что? Ничего не понятно.
Цветовые индикаторы кислотности видел?
Такие бумажки суешь в воду и они меняют цвет, там мизерные отличия в оттенках которые трудно распознать глазами. На справочной таблице эти оттенки света подписаны соответствующими значениями кислотности.
А у меня полоска с 16 индикаторами по всякой химии, еще и с разными цветами и оттенками. Я заебался распознавать и подумал дать сетке.
Ну и вот ничего не работало, сейчас перекачаю мистраль и попробую снова, может ранний квант был битый.
А разрешение проектора можно менять, стандартное кобальда 1024 но некоторые сетки поддерживают и большее, нужно ручками включать. Вроде бы гемма как раз из таких.
Аноним 02/07/25 Срд 14:12:56 1262032 145
Аноним 02/07/25 Срд 14:21:39 1262034 146
>>1262031
Для нового мистраля проектора же вроде нету пока. Какой угодно не годится, нужен именно под конкретную модель и количество параметров.
Видел только на 3.1 (2503) - скорее всего для 3.2 (2506) не подойдет. Хотя - хз, 2506 заявлен как дотренировка, так что может и состыкуется. На синтию от чистой геммы подходит же.
Аноним 02/07/25 Срд 14:25:34 1262035 147
>>1262034
>Для нового мистраля проектора же вроде нету пока.
Так я какой то же скачал у анслота в новом мистрале как раз лежал, я так подумал ага уже сделали, но крашится все равно
https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF/tree/main
Может кобальд не поддерживает пока, хз
Аноним 02/07/25 Срд 14:35:00 1262040 148
>>1261999
Пчел, я со своей затычкой 4090 чувствую что это энтрилевел для llm и самое дно.
Аноним 02/07/25 Срд 14:38:44 1262043 149
>>1262040
Ты просто чмоня-элитист, отвергающий 8B / 12B и 30B MoE модели.
Накатил себе dense 70B каличей и думаешь, что они реально лучше.
А по факту там одинаковая дристанина на выхлопе, и решают лишь правильные карточки да внятные промпты, ну и чтоб модель не была как после лоботомии.

мимо тоже думал, что ниже 70B жизни нет и терпел 3 токена в секунду
Аноним 02/07/25 Срд 14:39:18 1262044 150
>>1262040
Сколько т/с на шестом кванте нового мистраля?
Аноним 02/07/25 Срд 14:40:42 1262045 151
>>1262043
Ты другая крайность. Вы оба не правы.
Насчет 12б и 30б МоЕ еще можно поспорить, но 8б? Считаю, что 32б - золотая середина. Лучше сидеть либо на них, либо на 100б+
мимо
Аноним 02/07/25 Срд 14:42:42 1262046 152
>>1261848
>Всегда хочется большего. Думаю, обладателям рига то и дело хочется добавить еще гпу или второй риг.
Не. Хочется небольшую такую, тихую коробочку, к которой при необходимости можно подключить ещё одну такую же коробочку. Или две. В общем удобное такое, расширяемое устройство чисто для инференса ЛЛМ, куда влезет разумный квант чего-нибудь очень большого, а чип внутри даст хорошую скорость. Со временем так и будет.
Аноним 02/07/25 Срд 14:46:50 1262050 153
>>1262046
Ну, суть-то та же. Всегда хочется чего-то нового и более совершенного. Такая уж человеческая натура. Обладатели 12гб хотят 24, обладатели 24 хотят 48 и так далее.
Аноним 02/07/25 Срд 14:53:06 1262061 154
>>1262034
>>1262035
UPD, проверил - подходит от 2503. Можно брать тут, свеженькое:
https://huggingface.co/koboldcpp/mmproj/tree/main

У меня работает с 2506, даже на русском картинку описывает весьма неплохо. Правда на одной картинке конфуз случился - рыжеволосую анимешную эльфийку с кицуне спутало. Явно приняло длинные волосы специфической формы за хвост, и в купе с острыми ушами.. :)
Аноним 02/07/25 Срд 14:54:11 1262064 155
А можно воткнуть в пекарню 2 разных видюхи (от одного производителя, обе 16гб, но одна уже устарела а другая новее) и гонять AI на одной, пока другая хуярит игоры и прочее говнецо? Меня пока именно эта хрень напрягает - не попиздишь с ботом в ST, пока игрулька открыта. Бесит постоянно выходить.
Аноним 02/07/25 Срд 14:58:31 1262074 156
>>1262061
Ммм, я помню тестировал еще на квене что ли, так вот чем сильнее изменен файнтюн тем хуже работает родной не измененный проектор, доходило до того что путало цвета, например начинало считать красный желтым.
Судя по росту качества работы новой мистрали, там что то серьезно поменяли. Не уверен что мне стоит проверять со старым проектором, хотя то что оно работает приятно.
Аноним 02/07/25 Срд 15:08:13 1262081 157
>>1260769 (OP)
Поясните по фасту: имеется 13900к и 32 гб ддр5 7200мгц, без гпу. Есть варик продать 13900к и купить 13600к с парой ртх3060 12гб. Долго объяснять почему такой расклад (вкратце мини-пк, где тяжело охлаждать 13900к и нету денег на мощный гпу).
Итого вопрос сводится кокой вариант мощнее для запуска ллм 13900к с ддр5 7200мгц или ртх3060 12гб?
Аноним 02/07/25 Срд 15:09:16 1262082 158
Кстати, новые геммы наконец то стали доступны в ггуфе
gemma-3n-E2B-it и gemma-3n-E4B-it
Аноним 02/07/25 Срд 15:10:10 1262083 159
Аноним 02/07/25 Срд 15:16:29 1262088 160
>>1262081
В 12гб видюхи влезет мелкая модель (8B например) на каком-нить мелком Q4 XS кванте.
Скорость будет ебейшая, молнийносно как понос польется текст.
А вот если запустишь на цпу - то же самое будет жиденько пердеть.

При этом можно размазать модель побольше между цпу/гпу (задействуешь VRAM и RAM, но скорость будет всратая).

Короче говоря, вариант без видюхи самый проигрышный и не имеет плюсов, кроме экономии твоих денег. Готов ждать пока AI будет по 5 минут высирать одно мелкое сообщение?
Аноним 02/07/25 Срд 15:17:18 1262091 161
теперь я тоже присоединяюсь к лагерю тех, кто считает, что тюны не нужны. ладно, за редким исключением. синтия, это я про тебя говорю.

стоковые модели выдают такой сочный кум, что не снился любым васянотюнам-анслоп-переслоп-мержамговнасговном. коммандер, глэм, даже стоковый qwq могет. может быть тюны были нужны раньше, какой-нибудь лламе 8б, когда модельки были совсем лоботомитными, но сейчас они делают только хуже.
Аноним 02/07/25 Срд 15:18:51 1262095 162
>>1262091
а ну и мистрал маленький 3.2 туда же. мало того что поумнел так еще и жесткий куминг из коробки, даже когда он не задается явно промтингом.
Аноним 02/07/25 Срд 15:19:39 1262097 163
>>1262088
Понял, принял. Благодарю.
Аноним 02/07/25 Срд 15:33:26 1262117 164
>>1262095
>жесткий куминг из коробки
Тоже с этого охуел, файнтюны буквально НИНУЖНЫ.
Аноним 02/07/25 Срд 15:33:58 1262119 165
Аноним 02/07/25 Срд 15:34:10 1262120 166
>>1262088
>В 12гб видюхи влезет мелкая модель (8B например)
Ты там ебу дал? Там спокойно 12b войдет а это уже другой уровень.
Если же говорить о запуске той же геммы3 27b в 4 кванте то половина модели влезет.
С его быстрой ддр5 и половиной модели на гпу он получит свои 8-10 токенов в секунду, а это хороший уровень.
Там и 32b можно крутить так то, в среднем будет в сумме где то 20-24 гб с нормальным контекстом где половина опять же на гпу. Оставляя процессору и оперативе 10-12 гб. Если скорость ддр5 в двухканале будет под 100 гб/с то он получит где то 5-7 токенов в секунду. Что опять таки неплохо.

>>1262081
Чисто на процессоре и ддр5 сидеть можно, это опять таки зависит от скорости чтения озу. Если аида намеряет под 100 гб/с, то сможешь даже так запускать сетки размерами гб под 20 с контекстом, и крутить их токенов на 3-5 в секунду.
Больше не влезет в твою озу, там ведь система и браузер еще должны быть ну и хотя бы гига 2 запаса.
Вобщем попробуй сейчас какой нибудь Qwen3-32B-UD-Q4_K_XL.gguf на кобальде запустить и посмотреть скорость, скорей всего ее можно будет поднять настройками до 4-5 токенов в секунду. Это где то минута на средний ответ что неплохо для процессора.
Есть очень быстрый вариант для процессора это мое сетки, это вот эти сетки выше >>1262082
И Qwen3-30B-A3B. Последний самый умный так как самый жирный. Но он другой архитектуры и очень быстрый для процессора, да и для видеокарты.
На ддр4 получают 25+ токенов в секунду генерации, это очень быстро. У тебя может под 40 будет если скорость хорошая.
Аноним 02/07/25 Срд 15:36:50 1262124 167
бенч.png 74Кб, 2029x752
2029x752
бенчдва.png 81Кб, 2029x753
2029x753
>>1262095
по данным ugi, мистрал 2506 более расцензурен, чем personalityengine, blacksheep и среди всех существующих 24б моделей находится на третьем месте. базовый инструкт, ага. тюны всегда нужны были для более "красивой" прозы, меньшей цензуры, а на деле они лоботомируют, лупятся, слопятся, так теперь и смысла в "расцензуривании" буквально нет
Аноним 02/07/25 Срд 15:43:13 1262148 168
>>1262124
Так, пошёл скачивать ДаркТриад, спасибо за скрин.
Аноним 02/07/25 Срд 15:44:47 1262158 169
>>1262148
да не за что конечно, но зачем? это мерж 3.1 тюнов, 2506 инструкт он обходит в пределах погрешности
Аноним 02/07/25 Срд 16:11:32 1262218 170
Thinking и Planing расходуют контекст или они "забываются" после того как чар напишет ответ и не засирают память?
Аноним 02/07/25 Срд 16:21:37 1262228 171
>>1262218
По умолчанию, если ты не менял настройки в Таверне, содержимое Thinking блока не уходит в контекст.
Аноним 02/07/25 Срд 16:27:44 1262232 172
>>1262228
Спасибо! А как узнать сколько контекста поддерживает модель если в документации не указано?
Аноним 02/07/25 Срд 16:33:26 1262240 173
context.png 66Кб, 584x891
584x891
>>1262232
Смотреть документацию базовой модели, на которую точно должна быть ссылка на странице модели на Обниморде. Или смотреть config файл тюна/базовой модели, если по-прежнему не можешь найти.
Аноним 02/07/25 Срд 16:50:03 1262269 174
>>1262120
А так каклй вариант быстрее будет 13900к или 3060 12гб?
Аноним 02/07/25 Срд 16:51:28 1262271 175
>>1262269
ВСЕГДА будет быстрее видеокарта, ОСОБЕННО зелёная
Аноним 02/07/25 Срд 16:58:54 1262285 176
>>1262269
>>1262271
Да, у видимокарты скорость памяти всегда быстрее, у тебя максимум 100 гб/с, а у нее от 250 - до 1500 на последних блеквелах.
Скорость памяти одно узкое место тут, но видеокарты имеют мало врам или дорогие, так что всегда хочется большего. Лучшие без пердолинга это нвидиа, но тут вот энтузиасты на амд собирают серверы, там есть дешевые карты с 32 гб на борту быстрой врам. Но это пердолинг тот еще.
Аноним 02/07/25 Срд 17:25:49 1262311 177
>>1262228
у меня почему-то в Thinking пишет не мысли персонажа о ситуации, а действия персонажа, а потом в ответе уже действия на те действия что были в Thinking, т.е. по сути часть действия проебалась.
Аноним 02/07/25 Срд 17:28:34 1262315 178
>>1262311
Ты не дал достаточно информации, чтобы предположить, в чем у тебя дело. Разметку (instruct, context), настройки ризонинга, промпт, модель (и квант) показывай. Чем больше информации, тем лучше. Что-то не так настроено или модель поломана/не предназначена для ризонинга.
Аноним 02/07/25 Срд 17:30:52 1262318 179
>>1262311
модель не может в размышления а ты её форсишь, возможно промт проебался, возможно база в синкинг умела а тюн нет
Аноним 02/07/25 Срд 17:32:39 1262320 180
image.png 265Кб, 936x766
936x766
>>1262315
разобрался, вот тут галка почемуто ломала мыслительный процесс модели
Аноним 02/07/25 Срд 17:58:28 1262345 181
Ку, у меня нубовопрос.
Как пофиксить то, что ллмка на предложение "поговорить" или "поболтать" периодически начинает в своем ответе писать промпты от моего имени и сама же отвечать на них?
Аноним 02/07/25 Срд 18:04:30 1262351 182
>>1262345
1. отредактируй пару ответов чтобы модель поняла что не надо писать за тебя
2. в system promt укажи что модель отыгрывает только свою роль
3. уменьши ответ в токенах, хотя бы до 500
Аноним 02/07/25 Срд 18:10:10 1262355 183
Хочу попробовать локалки, что сейчас в мете что я могу запустить на rtx 5090 (32gb vram+64ram)?

интересуют топ 3 модели для этих категорий

-кодинг
-рп без цензуры
-общая модель которая понимает глубину контекста похоже как это делает gpt 4-o, с душой, для повседневного использования

пойдут файнтюны мержи, все что угодно
желательно указать квантизацию, и количество параметров
интересен именно ваш тиер лист
как попробую отпишу
Аноним 02/07/25 Срд 18:21:05 1262363 184
Откуда столько зелени сегодня в треде? Пошла новость, что через неделю интернет всё?
Аноним 02/07/25 Срд 18:22:42 1262365 185
Аноним 02/07/25 Срд 18:24:42 1262367 186
>>1261727
>>1262355
Попробовал 12б модельки и решил купить новый комп?
Аноним 02/07/25 Срд 18:48:28 1262378 187
Подскажите пожалуйста где в таверне отключаются thinking и planing у модели? В гугле пишут что надо какието регулярки хуярить. Неужели просто нет чекбокса?
Аноним 02/07/25 Срд 18:50:15 1262381 188
>>1262046
>Хочется небольшую такую, тихую коробочку
Дохуя хочется. Так не бывает.
>>1262064
Можно, даже почти без проблем.
Аноним 02/07/25 Срд 18:50:59 1262383 189
А есть какие-то сетки, хорошо понимающие руссик? В идеале обученные на двачах.

Поставил gigachat ради пробы, такая хуета, как-будто вернулся в 2022
Аноним 02/07/25 Срд 19:00:21 1262394 190
>>1261841
Главное не думать сколько ты можешь апи купить за эти деньги. На десятилетия.
Аноним 02/07/25 Срд 19:01:13 1262396 191
Кто то проверял новый мистраль на сжижаемость? Как он квантизацию переносит? На 3 жизнь есть?
Аноним 02/07/25 Срд 19:11:23 1262401 192
>>1262394
Ага. Ещё бы работали компании эти десятилетия. И не банили за рейп канничек чуть более чем романтичные отношения с ИИ-персонажем. И были доступны без прокси, и принимали оплату картой МИР.
Аноним 02/07/25 Срд 19:13:05 1262403 193
>>1262158
Эх, Skyfall v4c всё ещё лучше что истрали, что дарктриады...
Аноним 02/07/25 Срд 19:13:56 1262408 194
>>1262401
Забыл добавить что эти десятилетия нужно будет еще как то прожить, и с доступом к всемирному интернету, или хотя бы интернету вобще, кек
Аноним 02/07/25 Срд 19:14:01 1262409 195
ти шо сука.png 133Кб, 640x640
640x640
>>1262383
> обученные на двачах.
Аноним 02/07/25 Срд 19:26:54 1262418 196
>>1261761
Насчёи маг мелла, что означает пикрил, то что он натренен чисто на фэнтези? То есть если я пойду отыгрывать пост апок то посредия ядерной пустные я встречу мудрое дерево которогое наградит меня луком? И хотелось бы узнать почему лично ты считаешь эту модель золотом.

ДругойАнон
Аноним 02/07/25 Срд 19:33:47 1262425 197
>>1262418
Почитай страницу модели. В конце концов, загрузи ее и проверь самостоятельно. Ничего страшного не произойдет, если она тебе не подойдет.

ТотАнон
Аноним 02/07/25 Срд 19:34:53 1262426 198
Безымянный.png 1Кб, 279x24
279x24
>>1262425
Блядь, у меня пикча отвалилась, но ладно уже.
Аноним 02/07/25 Срд 19:49:46 1262449 199
>>1262383
Гемма. Хз помнит ли ещё кто-то как крутил нейродвачера в б на ней. Мультимодальность - имба
Аноним 02/07/25 Срд 19:59:52 1262465 200
>>1262355
1) Квен кодер, GLM, восьмой квант, даже в ущерб скорости
2) Mistral-Small-3.2-24B-Instruct-2506, шестой-восьмой квант
3) Гемма-3-27Б, сильная соя и цензура, шестой квант

Для Геммы рекомендую тюн Synthia, а если он тебе покажется слишком своевольным и припезднутым, то мерж Synthwave-gemma3-27B, там с этим намного лучше, и сейчас на нём остановился.

Да, с 32 VRAM ты не только мистраль запустишь, но и 32Б модели в шестом кванте, но среди них норм РП так и не нашёл, возможно другие подскажут.
Аноним 02/07/25 Срд 20:01:25 1262470 201
>>1262378
можно префиллом пихнуть в пост что она уже подумала, на многих работает
Аноним 02/07/25 Срд 20:02:46 1262471 202
Аноним 02/07/25 Срд 20:03:57 1262473 203
Погонял Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf на умеренной жести, отказов не ловил, свайпы разнообразные, как позитивные, так и негативные.

>>1262396
на 4 точно есть, 3 не пробовал
Аноним 02/07/25 Срд 20:04:27 1262474 204
>>1262408
>интернету
чебурнету
Аноним 02/07/25 Срд 20:13:31 1262480 205
>>1262471
>с промежуточным мышлением
Вы бы сразу поясняли, в чем профит для простого Васяна, который пиздит с ботами для "подрочить"
Аноним 02/07/25 Срд 20:14:22 1262481 206
>>1262480
Васян может зайти на страницу модели в обниморде и прочитать
Аноним 02/07/25 Срд 20:21:42 1262484 207
>>1262480
>в чем профит для простого Васяна, который пиздит с ботами для "подрочить"
Ни в чём, в таких задачах thinking это нинужный кал говна. Отключил эту неюзабельную парашу и дело с концом.
Аноним 02/07/25 Срд 20:30:07 1262491 208
>>1262471
>видосик на ютубе
Ебать там недоедающие индусы (или пакистанцы?).
Аноним 02/07/25 Срд 20:35:26 1262495 209
>>1262491
Не, ну индус программист это ж живой мем, все четко
Акцент на месте, кек
Звучит их поделие интересно, но как на деле еще не докачал
Аноним 02/07/25 Срд 21:28:11 1262552 210
>>1262031
> там мизерные отличия в оттенках которые трудно распознать глазами
Может тогда лучше вместо нейронок численные алгоритмы использовать? Точнее от нейронки какую-нибудь йолу чтобы определить позицию твоих бумажек на фоне, а дальше просто усреднение цвета по измеряемой области, коррекция по известному цвету (белому участку) и сравнение со значениями. Если на фотках тут же разместить и бумажку с референсными цветами и сделать равномерное освещение то никакой корректировки не потребуется.
Конкретно сетка здесь врядли справится потому что малые изменения цветности где-то там вообще мимо энкодера пройдут.
> А разрешение проектора можно менять, стандартное кобальда 1024
Какойад блять, у каждой ллмки свой препроцессор и свой алгоритмы обработки, включая даунскейл и нарезку на тайлы. А тут "менять можно", неудивительно что эта залупа поломана в хлам.
Аноним 02/07/25 Срд 21:40:05 1262573 211
>>1261844
> TQ1, UD1-3 уже давно есть и работают прекрасно
Ud3 действительно уже неплохо. Все что ниже - компромисс, оно все еще умное но налет безумия очевиден и знания запорчены.
>>1261848
> Думаю, обладателям рига то и дело хочется добавить еще гпу
Заменить на более мощные
> или второй риг
Нахер нахер
>>1262043
> отвергающий 8B / 12B и 30B MoE модели
Так это же ни на что не годные лоботомиты. Обратное утверджают только их убежденные пользователи во время приступов коупинга и аутотренинга.
>>1262091
Не то чтобы не нужны, нужны хорошие полноценные тюны, а не васяновская залупа с полной лоботомией, что мы наблюдали последний год на мистрале.
>>1262218
Смотря что выставлено в настройках таверны, по дефолту исключаются, можно сделать чтобы включало последние несколько штук. Если ты про костыль степсинкинг - там такая же настройка.
Аноним 02/07/25 Срд 21:43:55 1262579 212
>>1262552
> А тут "менять можно", неудивительно что эта залупа поломана в хлам.
Там меняется максимальный размер картинки, я так понимаю кобальд просто будет ужимать картинку до 1024 а там дальше ее ужмет до нужного проектор. Но некоторые новые проекторы могут работать с большим расширением сами по себе, и выставление просто указывает кобальду не сжимать картинку самому а оставить это проектору сетки.
>Может тогда лучше вместо нейронок численные алгоритмы использовать?
Можно было бы, но это еще больший гемор чем смотреть глазами, что я и сделал.
Потом просто сунул результаты в макрдауне сетке и попросил описать и сделать выводы, ну и проверил потом что она понаписала.
Вобщем новой мистралью я доволен, умна и послушна.

А на счет распознавания цветов тут то сетки могут наоборот лучше человека работать, описывают они криво да, но сравнить внутри себя могут лучше как и определять. Потому что воспринимают цвет напрямую кодом, а не как мы. По крайней мере те несколько параметров что сетки(геммы3 в начале) не путали и видели они распознавали так же как я, что было интересно.
Аноним 02/07/25 Срд 21:56:10 1262593 213
>>1262285
> энтузиасты на амд собирают серверы
По токенвсекунду/рубль оно как-то пока неоче.
>>1262480
> в чем профит для простого Васяна
Придется ждать не только первых токенов ответа, но и ловить остановки посреди него. Еще можно с видоса порофлить.
>>1262579
> не сжимать картинку самому а оставить это проектору сетки
Зачем вообще это сделано, для чего? Раньше у жоры был хардкод вместо нормального препроцессора, потом ставили костыли но это было далеко от идеального. Это остатки старого кода или что такое вообще?
> но это еще больший гемор
А в чем гемор для той задачи? Там видится две сложности: найти бумажку на картинке, определить ее точный цвет с учетом возможного изменения баланса белого на камере. Первое решается компьютерным зрением, второе использованием референса в кадре.
> А на счет распознавания цветов тут то сетки могут наоборот лучше человека работать
> Потому что воспринимают цвет напрямую кодом
Ты хоть посмотри как они устроены, поймешь насколько ерунду излагаешь. Они могут различать цвета, понимать где градиенты, но понять что в нужном месте 0F6A8C вместо 0A456A - не способны. Если нужно было бы определять что-то типа желтый-лезеный-синий-красный то без проблем, но с малыми изменениями цвета, да еще искаженного балансом камеры - без шансов.
Аноним 02/07/25 Срд 22:05:29 1262599 214
>>1262593
>но понять что в нужном месте 0F6A8C вместо 0A456A - не способны.
А и не нужно, нужно только что бы она сопоставила "ощущение" от одного цвета с другим. И так как это ощущение располагается между 2 цветами градиента индикатора, она определит где это ощущение похоже на получившееся.
Особая точность не нужна, тест этого и не предполагает.
Ты ведь знаешь о скрытых пространствах где на разном расстоянии друг от друга расположены разные образы которые нейросеть у себя сформировала. Я чет забыл как оно там называлось но общую суть помню. В процессе тренировки у нее формируются связи между разными цветами и их градиентами. Связать их с определенными весами цветов для нее не проблема, просто за счет всего обучения с разными цветными картинками. Это кстати довольно простые паттерны, они наверное формируются первыми, сложные структуры уже потом идут формируясь из них.
Сумбурно описал, но как уж запомнил.

> Это остатки старого кода или что такое вообще?
Ну наверное как совместимость с проекторами, они же все разные. Но обычно требуют картинку поменьше, а тут сделали преобразование до 1024 стандартным. Что бы не кидать файл на 20 мегабайт в нейросеть. Для быстроты чтения промпта картинки может быть.
Аноним 02/07/25 Срд 22:21:17 1262605 215
>>1262599
> нужно только что бы она сопоставила "ощущение" от одного цвета с другим
Это по сути то же самое, картинка кодируется к эмбеддинги с потерей подобной информации и не зависимо от текстовой инструкции чтобы сместить фокус на нужное. Будут лишь галюны и оче искаженные ответы вместо нормальных.
Если совсем ленивый - ту же гемму можно использовать для детекции объектов чтобы выдавала координаты нужного.
Ее же предварительно заставить написать скрипт, который будет давать обращения к ней по апи для определения координат и дальше сравнивать цвета. За время составления поста уже можно было бы первую версию реализовать так-то.
> Связать их с определенными весами цветов для нее не проблема
Они не завязаны напрямую на цвета и это не совсем классические эмбеддинги, там не просто обезглавленный клип или его аналоги, а сверху еще настакано.
> Что бы не кидать файл на 20 мегабайт в нейросеть.
Чтобы что? Ей глубоко пофиг на размер файла, все равно после предобработки он сконвертируется в тензоры с размерностью тайла, повторяющие сырые rgb без сжатия, и дальше пойдут на вход.
Аноним 02/07/25 Срд 22:39:15 1262614 216
IMG202507021147[...].jpg 3893Кб, 4000x3000
4000x3000
>>1262605
Что бы понять примерное охуевание сетки от моей задачи вот тебе один из тестов для примера. Самый смак в том что большую часть параметров сетка определила так же как и я. Но путалась в названиях некоторых строк и там писала ерунду. Будто как раз ограниченное разрешение поднасрало с которым она работала.
Наверное я слишком много хотел от локалки и текущих ии вобще давая такую сложную задачу с кучей информации
Аноним 02/07/25 Срд 22:58:19 1262634 217
>>1262614
Очень уж много их, тут любая модель будет ошибаться, особенно учитывая как хорошо ни определяют цвета. В целом, точное и эффективное решение уже озвучено, учитывая что эти штуки упорядочены и на белом фоне то можно целиком на алгоритмах сделать.
Аноним 02/07/25 Срд 23:06:37 1262648 218
>>1262043
Согласен в целом, но не совсем.

Монструозное говно почти всегда лучше, даже если там кодерская сетка, но жирная. Другое дело, стоит ли игра свеч?

Какая-нибудь 12б, обученная исключительно на рп и за хорошие бабки, будет лучше 32б, потому что она для этого и предназначена. То, что было забито говнокодом, математическими задачами и вот этим калом, там отсутствует и может дать сильный буст. Но таких сеток, увы, не делают для свободного доступа. Поэтому количество параметров всё же решает сильно, ведь чем их больше, тем выше шанс, что в датасете будет что-то нужное.

Ещё одна беда — следование инструкциям и контекст на малых моделях. После 32к обычно начинается деградация, мелкомодели не тянут. Видимо, их не обучали для длинных последовательностей и там rope, всё в таком духе. Да даже в начале рп они могут не следовать инструкциям.

А так следование инструкциям и здоровенный контекст были бы весомым аргументом в их пользу. Зачастую можно потерпеть более кривую писанину, но радоваться деталям и понимаю нейросеткой, что было в середине истории.
Аноним 02/07/25 Срд 23:33:46 1262695 219
Вторая видюха не влезает. Хуй знает че делать, думал оставлю старушку - но увы, новая трёхслотовая мразина не даёт.

Че делать-то. Поискал riser-кабели, очкую брать китайское говно за 3к+. Кто-нибудь сталкивался с такой же проблемой?
Аноним 02/07/25 Срд 23:45:31 1262709 220
>>1262648
> Какая-нибудь 12б, обученная исключительно на рп и за хорошие бабки, будет лучше 32б, потому что она для этого и предназначена.
Увы но нет. Она может быть лучше в стиле письма (только в теории, на практике печально), она может лучше кумить и легче сводить к куму любые истории, опять же в теории может предлагать более разнообразные сценарии и в стоке держать какие-нибудь механики и подобное.
Но это будет копиум, просто вариации красивого письма по мотивам, ошибки в ответах, затупы в пространстве, упущение важных деталей и т.д. Просто потому что
> говнокодом, математическими задачами и вот этим калом
а также более глубокие общие знания как раз дают значительный буст в логике, внимании к важным вещам, понимаю причинно-следственных связей и сутевой части контекста. И та самая "суперрп сетка 12б" должна быть сделана тренировкой из такой же ллм общего назначения, иначе оно будет абсолютно мертвым.
>>1262695
Огласи свое железо.
Аноним 02/07/25 Срд 23:47:19 1262712 221
image.png 511Кб, 1373x1033
1373x1033
>>1262709
А чего тут оглашать-то, всё дело в размерах - и только.
Пикрилы больно дорого стоят, чтобы вслепую их пробовать.
К тому же, я и не уверен, что эта хуйня тоже влезет.
Пиздос. Неужели надо еще и корпус новый брать.
Аноним 02/07/25 Срд 23:55:14 1262719 222
>>1262712
> А чего тут оглашать-то
Размеры карт, версии pci-e. Пикрилы в целом и нужны, там есть только нюансы и разница в цене от версии шины. По размещению уже от корпуса зависит, вариант что влезает в большинство - первую карточку твоим пикрелом просто развернуть чтобы открыть доступ ко всем портам и отодвинуть ее от плоскости материнки, вторую вертикально вдоль задней стенки корпуса на более длинном райзере примерно как на оппике. Только там корпус хитрый и под ту карту углубление, если же обычная стенка то стоящая в слотах гпу будет мешать такому размещению, поэтому ее нужно выносить на 90 градусов.
Аноним 03/07/25 Чтв 00:10:16 1262750 223
image.png 1196Кб, 1000x1000
1000x1000
>>1262719
Да забей, там полная пиздень - места между БП и трехслотовой картой - ну может сантиметров 7 и из них старая карточка сожрет более 5 сантиметров - то есть шлейф придется согнуть буквой S и боюсь он обломится к хуям. Да и не привинтишь ее там никуда, потому что мелкие PCI-E тоже никто не отменял.
Единственный вариант - монтировать старую на стенку корпуса. Или класть пекарню на бок, а карточку положить снаружи (и шлейф с кабелем питания пустить через пропиленную в стенке дырень).
Нормально в общем я попал с этим дерьмом.

Если что обе сапфировские pulse, 6800 и 9070хт.
Аноним 03/07/25 Чтв 00:11:35 1262752 224
>>1262750
>, потому что мелкие PCI-E тоже никто не отменял.
То есть они пустые конечно, но думаю все будет мешать так или иначе. Ладно завтра на свежую голову подумаю, вариант с крепежом к стенке походу реально единственный.
Аноним 03/07/25 Чтв 00:16:05 1262760 225
>>1262750
Глянь еще раз пост, там решаются эти проблемы, если только у тебя не задействованы другие pci-e каким-то экзотическим девайсом. Только кронштейн нужно брать не совсем тот что на твоем прикреле, а другой вариант, который сильнее удален от слотов а не жмется к ним вплотную, а то с тем вообще карточка в радиатор врм может упереться. Шлейф в меру гибкий, гнуть можно. Если у тебя в корпусе под бп отдельная шахта то кронштейн можно просто поставить на нее, прикрутив или чтобы сам на магнитах держался.
Аноним 03/07/25 Чтв 00:23:14 1262774 226
image.png 1244Кб, 1000x1000
1000x1000
>>1262760
Проблема в том, что так ее не развернешь, места впритык лишь под обычное расположение.
Короче помянем корпус, больше 10 лет прослужил.
Аноним 03/07/25 Чтв 00:28:39 1262784 227
>>1262774
Основная как у тебя на пикреле на кронштейне с райзером, вторая на задней стенке справа от материнки. Если же там места нету - только менять, врядли найдешь другую позицию без компромиссов.
Аноним 03/07/25 Чтв 00:33:03 1262795 228
>>1262784
До чего же нас AIдроч доводит... Был бы нормальным человеком, продал бы старье на лохито.

Кстати у меня возникла еще 1 шизо-идея. Снять бэкплейт со старой видюхи - может быть влезет. Правда охлад у первой задохнется по всей видимости, да уж, одни минусы.
Аноним 03/07/25 Чтв 00:34:10 1262797 229
>>1262795
>может быть влезет.
Ну тобишь всухую прямо в родной PCI-E без шлейфохрени.
Аноним 03/07/25 Чтв 00:35:20 1262799 230
>>1262795
> До чего же нас AIдроч доводит... Был бы нормальным человеком
Шутка про амд
Аноним 03/07/25 Чтв 00:41:09 1262811 231
.jpg 870Кб, 2558x1919
2558x1919
.jpg 740Кб, 2558x1919
2558x1919
Доехали остальные девайсы, предпринята попытка пересобрать эпик в майнерское ведро типа специально под гпу. В итоге получилось ПОТРАЧЕНО: кулер не лезет на несколько мм, большие карты тоже торчат проводами питания, приходится ложить на бок, второй бп не войдёт. Вроде большой корпус, а больше 4 карт не засунуть всё равно. Из хорошего - проверена бифуркация любого слота из биоса, работает чётко.

Запускал жору на винде/убунте. И только на проце, и при 1, и при 3 картах скорость абсолютно идентичная. Кажется рассказы о линупс-преимуществах - только рассказы. Экслама не очень интересна - всё, что входит в врам - работает и так слишком быстро. Осталось придумать к чему пристроить этот сетап.
Аноним 03/07/25 Чтв 00:46:39 1262821 232
image.png 138Кб, 367x303
367x303
>>1262811
А это все по обособленным кабелям идёт или там какие-то разветвленные Y-образные?
Я тут очкую, не будет ли опасно вставить один 8-пин в БП, из которого два 6+2 разводится...
Аноним 03/07/25 Чтв 00:51:54 1262825 233
А чего до сих пор нет гайда в шапке на покупку 3090 с лохито?
Реквестирую. Подскажите адекватных производителей (MSI, GIGABYTE и прочие), и температуру чипа в хотспоте на тесте. Память я так понял 85-90. А чип, именно в хотспоте, сколько?
Аноним 03/07/25 Чтв 00:52:11 1262827 234
1700824879383.jpg 68Кб, 700x500
700x500
>>1262811
О, модное майнерское ведно, однако не побоялся такой формфактор взять где карты в сторону вынесены, ведь с райзерами может быть тяжело.
> ПОТРАЧЕНО: кулер не лезет на несколько мм
Пикрел, лол. В качестве колхозного варианта - вместо стенки прикрутить сверху металлическую сетку от случайных взаимодействий и зверей, можно найти в автомагазинах и будет выглядеть даже цивильно.
> большие карты тоже торчат проводами питания
Сместить ниже верхнюю перекладину и райзеры поставить на самое дно не вариант? С угловым кабелем офк еще.
> всё, что входит в врам - работает и так слишком быстро
Попробуй на большом контексте а потом повтори, жоракал становится совсем жидким стоит выйти за 40к, при том что квант в 1.5 раза меньше.

А что за бп? Крайне компактный для такого сетапа, что-то дорогое-богатое?
Аноним 03/07/25 Чтв 00:56:45 1262845 235
>>1262449
27b или какие-то файнтюны дроченные?

Что значит если у модели стоит имя какого-то платного слопа? Типа claude-3.7-sonnet-reasoning-gemma3-12b?
Аноним 03/07/25 Чтв 01:07:35 1262869 236
>>1262821
> обособленным кабелям
Дыс. Обычно сейчас кладут кабеля к бп 1в1 кабель - 1 вход бп на 1 8пин пси-е/процовый. Но на фотке есть один кабель какой-то левый, У-образный.

>>1262827
> О, модное майнерское ведно, однако не побоялся такой формфактор взять где карты в сторону вынесены, ведь с райзерами может быть тяжело.
Корпус по цене оцинкованного ведра, не особо и жалко. Думал, что 50см окулинки коротковаты будут, но как раз идеально.

> Пикрел, лол. В качестве колхозного варианта - вместо стенки прикрутить сверху металлическую сетку от случайных взаимодействий и зверей, можно найти в автомагазинах и будет выглядеть даже цивильно.
Да я скорее верну обратно всё в бытовую пека, там те же 4 карты жили и более цивильно было.

> Сместить ниже верхнюю перекладину и райзеры поставить на самое дно не вариант? С угловым кабелем офк еще.
Там всё уже в максимальном низу, увы.

> > всё, что входит в врам - работает и так слишком быстро
> Попробуй на большом контексте а потом повтори, жоракал становится совсем жидким стоит выйти за 40к, при том что квант в 1.5 раза меньше.
Ге, я на 40к и не играл никогда. Понятно, что тормозит чем дальше тем больше. Но просто те модели, что влезут полностью - не интересны. + уже 2 раза хватал косяки на ехл квантах, бета-тестером не хочется быть.

> А что за бп? Крайне компактный для такого сетапа, что-то дорогое-богатое?
Deepcool PX1300P, оч хороший, уже второй такой взял. В комплекте 2 vhpwr и 3 8pin. А по размеру - даже не самый маленький. Те же ADATA XPG CYBER CORE II 1300W или Galax Hall of Fame GH1300 ещё меньше.
Аноним 03/07/25 Чтв 01:09:04 1262876 237
>>1262869
>Но на фотке есть один кабель какой-то левый, У-образный.
Ну то есть это норм работает, даже если по дефолту производитель БП сует 1:1 кабельки, да?
Аноним 03/07/25 Чтв 01:12:31 1262885 238
изображение.png 109Кб, 509x232
509x232
>>1262811
>В итоге получилось ПОТРАЧЕНО
Зато с RGB подсветочкой!
>>1262825
>А чего до сих пор нет гайда в шапке на покупку 3090 с лохито?
Потому что теряет актуальность.
Бери любую, тут чистая удача. Кидай кубик перед покупкой, если выпадет 10 и больше, то пробуй.
>>1262869
>Думал, что 50см окулинки коротковаты будут, но как раз идеально.
Что в окулинках хорошо, так это наличие кабелей по-длиннее.
>В комплекте 2 vhpwr
Вижу только один на БП, второй через обычные разъёмы что ли?
Аноним 03/07/25 Чтв 01:18:28 1262899 239
>>1262869
> Там всё уже в максимальном низу, увы.
Вот же курва а. Ну ладно, хотябы опыт анончикам что для высоких кулеров и видеокарт такие корпуса могут неподойти.
> те модели, что влезут полностью - не интересны
Тут уже увы, только пожелать скорейшего расширения, лол.
А где косяки были? Альфа версии простительно, особенно после регулярных фейлов жоры, но таки интересно.
> я на 40к и не играл никогда
И вы смеете называть себя порядочным нейрокумером? Ужас, полнейшее бескультурье! Но вообще действительно желаю поймать удачное сочетание и экспириенс чтобы такое делать хотелось, очень доставляет.
> В комплекте 2 vhpwr
Однако, крайне жирный на разъемы бп.
Аноним 03/07/25 Чтв 01:19:01 1262900 240
>>1262031
>мизерные отличия в оттенках которые трудно распознать глазами.
Вроде хорошо глазом различаются, хотя я по различению цветов сосу у тянок.
Я бы если делал то сначала как-то нарезал на полоски, а в идеале вообще отделить семплы от референсных полосок и подавать нейронке только нужное.

Кстати интересно есть ли какая-то нейронка которой текстом описываешь что нужно сделать с изображением, а она делает? Или это уже более релейтед к sd треду?

мимо
Аноним 03/07/25 Чтв 01:26:33 1262905 241
Можете пояснить, насколько тупо вообще рассматривать к покупке карточку от красных, если собирать новый гроб под нейронки? Допустим брать какую-нибудь 7600 XT с 16 килошками, а потом в перспективе (около года) взять еще одну карту?
Аноним 03/07/25 Чтв 01:28:41 1262907 242
>>1262905
Сижу с 9070 кайфую, очень быстро все.
Никакой шизотупости нет, но тебе ща сектанты наплетут что надо бежать на лохито за Б/У зеленью.
Аноним 03/07/25 Чтв 01:34:36 1262919 243
>>1262907
А что по скоростям и совместимости? Куда-культисты пиздят, или реально есть какие-то проблемы?
Аноним 03/07/25 Чтв 01:37:40 1262924 244
>>1262240
это минимальные и максимальные значения?
Аноним 03/07/25 Чтв 01:37:43 1262925 245
>>1262919
Пока в видеопамять все влезает - обработка длинных промптов молниеносна как понос, токенов в секунду тоже много, что аж считать нет смысла.
Как обычно все упирается в эти несчастные 16гб на одной карточке.
Аноним 03/07/25 Чтв 01:46:07 1262935 246
>>1262825
По той же причине что нет многих других вещей. Опытные работяги и так все знают, а вкатуны просто попрошайничают никак не мотивируя им помогать.
>>1262900
Новые картинкогенераторы от корпов, спецверсия флюкса которая недавно вышла, несколько экспериментальных комплексов где реализована связка llm+спецадаптер+диффузия.
>>1262905
Зависит от твоих перспектив, продвинутости пользователя и готовности пердолиться. Если ты хлебушек - настрадаешься. Если хочешь поставить много - придется продать и купить зеленых из-за низкой производительности. По ценам за врам брать красных нет смысла, только некрота но там еще не все понятно.
Аноним 03/07/25 Чтв 02:10:02 1262950 247
image.png 32Кб, 311x225
311x225
>>1262905
Если любишь испытывать удачу можешь взять АМД. Но нужно учитывать что ИИ софт крутится вокруг нвидии и если у тебя возникнут проблемы ждать её решения/вероятность того что её исправят намного меньше. И это не считая порезанной скорости.
Аноним 03/07/25 Чтв 02:33:52 1262956 248
1751499233461.png 2948Кб, 1344x1599
1344x1599
Пожилая имба на 4 16х видяхи, ещё место под 10гбит сеть, 1 нвме и что то совсем простое т.к. только х4 2.0 останется.
Есть энтузиасты сборки копролитов? Как раз под 32гб мишки. Если есть бифуркация то можно вообще 256+ врам набрать за менее 130к в сумме за всё
Аноним 03/07/25 Чтв 02:49:22 1262959 249
>>1262935
>По той же причине что нет многих других вещей. Опытные работяги и так все знают, а вкатуны просто попрошайничают никак не мотивируя им помогать.

Вкатунам нах не нужна 3090 с авито, они еще не прочувствовали. К бу 3090 надо прийти, затем понадобится вторая, риг, риг помощнее.

Я вот думаю, нормальная ли идея вместо 3090 собирать 2х 3060 12GB в качестве ультимейт бомжесборки? Будут те же 24 гб, но за 36к. Скорости поменьше, но если все влазит в врам, то должно хватать с лихвой.
Потом если прогреюсь и подкоплю на нормальный апгрейд, уже может появится серия 60ХХ. Или китайцы подсобят.

Допустим у меня сейчас 1х 3060 12GB
Вариант 1: Просто докупить еще одну и кайфовать с 24ГБ (Затраты ~18к, придется все продавать вместо апгрейда)

Вариант 2: Докупить 3090, новый БП, новый корпус, рейзер. Итог 36ГБ (Затраты ~105к, при апгрейде просто заменю 3060, мощности и места будет уже хватать)

Вариант 3: Заменить 3060 на 3090 (Затраты ~60к -18к = 42к, те же 24ГБ, но зато игрульки пойдут на ультрах в качестве бонуса)
Аноним 03/07/25 Чтв 02:54:52 1262968 250
Подскажите это нормально что на моей 4060ти с 16 гигами 13B Q8 модель с 24к контекста генерит ответ по 2 минуты? Или это я с настройками где-то проебался?
Аноним 03/07/25 Чтв 03:00:29 1262973 251
>4060
>3060
>5070
))
Аноним 03/07/25 Чтв 03:10:27 1262977 252
>>1262959
> Вкатунам нах не нужна 3090 с авито, они еще не прочувствовали
Обычно наоборот именно ею начинается, когда прочувствовали на уже имеющемся железе. Она все еще могет и аномально дешевая (сейчас на лохито ~50к), особенно сильно рост производительности относительно пары 3060 ощутишь если запустишь что-угодно кроме ллм. Есть еще 2080ти-22 но мало что понятно по скоростям.
Свой же выбор оценивай из ситуации. Есть некий свитспот, он очень хорош, но не обязательно добиваться его любой ценой.
Аноним 03/07/25 Чтв 03:29:31 1262983 253
Аноним 03/07/25 Чтв 04:27:44 1262994 254
Аноним 03/07/25 Чтв 05:08:55 1263000 255
>>1261756
Проблема нового мистраля что это всё ещё мистраль с кринжовым слопом и пока это не изменится даже 120б модель нахуй не нужна.
Аноним 03/07/25 Чтв 06:00:09 1263006 256
пиздец, короче.
сидел тут чисто ради технических подробностей и думал, что вы все шизы ебучие, дрочите на текст, совсем ебанулись короче, а сам я банально на картинки теребонькал, ведь там изич вообще: написал промпт, негатив, покрутил рулетку, neuron activation, теребоньк, а потом в процессе изучения своих экстремальных фетишей абсолютно легальных к слову, нет, правда обнаружил, что картиночные модели могут отнюдь не всё, и в рамках "а что если...?" дал задание текстовой нейронке написать хорни рассказ по моему промпту...
и вот на улице уже утро, а я всё теребонькаю со вчерашнего вечера и не могу остановиться, всё поправляю промпт, подсказываю нейронке что куда и как, короче пиздец, приехали, принимайте в ряды шизов
Аноним 03/07/25 Чтв 06:31:24 1263012 257
>>1261196
>Теперь GLM - моя вторая любимая модель после Коммандера
Мне кажется дело твоем системном промпте. Попробуй с ним в новые мистрлы 3.1 или 3.2 например.
Аноним 03/07/25 Чтв 06:35:53 1263013 258
stttrrr619.png 613Кб, 1365x707
1365x707
>>1262028
Чел, она какая-то поехавшая, даже надругалась надо мной после убийства...
другой анон
Аноним 03/07/25 Чтв 06:49:33 1263015 259
>>1262845
>у модели стоит имя какого-то платного слопа
вроде бы тюнили на её выхлопе, многократно перевареный кал
Аноним 03/07/25 Чтв 06:53:22 1263016 260
>>1262900
>текстом описываешь что нужно сделать с изображением, а она делает
flux1-kontext-dev-Q6_K.gguf + СomfyUI
Аноним 03/07/25 Чтв 07:02:30 1263018 261
>>1262968
Используй ламуцпп или кобольда, проверь сколько слоёв куда кидается, насколько заполнен контекст, может быть он в оперативку вытек.

Экстрасексы в отпуске, но две минуты - 120 секунд - популярные модели в треде могу на изи 600-800 токенов на ответ строчить, то есть 5-6 т/с

Может и проебался, и меня на 12 гб 24Б 4 квант с выгрузкой тензоров 6-8 т/с даёт.
Аноним 03/07/25 Чтв 07:03:34 1263019 262
>>1263000
>мистраль с кринжовым слопом
шиз, спок
Аноним 03/07/25 Чтв 07:06:57 1263020 263
>>1263006
Тоже пресытишься и поймёшь что это инструмент.
Но инструмент хороший и годный, да.

Свитспот это 24-27-32Б модели.

Большие вроде бы могут больше, но сколько в треде не просили, никто так и не принёс доказательств.
Аноним 03/07/25 Чтв 08:04:46 1263031 264
>>1263020
> никто так и не принёс доказательств.
А как должны выглядеть данные доказательства?

> Свитспот это 24-27-32Б модели.
Предъяви доказательства, пожалуйста.
Аноним 03/07/25 Чтв 08:27:34 1263035 265
>>1263031
>А как должны выглядеть данные доказательства?
Кулстори чат лог демонстрирующий то что не могут средние модели.

Хотя да, пока писал это предложение, понял что даже если кто и принесёт, хз как это доказывать.

>>1263031
>Предъяви доказательства, пожалуйста.
"Усы, лапы и хвост - вот мои доказательства."

Так что эта претензия снимается.

Но мнение остаётся. 8-12Б могут быть весьма хороши (Янка, Даркнесс, Омни-Магнум), но в масштабе это танец с манекеном.

Новый мистраль и гемма уже умненькие чтобы продвигать историю хотя бы частично-самостоятельно, но при этом и ригов не требуют.
Аноним 03/07/25 Чтв 08:53:02 1263050 266
>>1263035
> Кулстори чат лог демонстрирующий то что не могут средние модели.
Точно так же никто не приносил и логи 24-27-32б моделей, которые точно выигрывали бы перед 12б. Потому что логи мало о чем говорят, "ум" модели ощущается во время взаимодействия с ней.

> 8-12Б могут быть весьма хороши (Янка, Даркнесс, Омни-Магнум), но в масштабе это танец с манекеном.
12б модели с лорбуками вполне себе хорошо могут двигать сюжет. И нет, это не коупинг, я сам 24-32б модели гоняю, но незачем отрицать правду.
Аноним 03/07/25 Чтв 09:11:54 1263058 267
ВЫБОР ЛОКАЛЬНЫХ LLM ИЮЛЬ 2025 ГОДА.
какие LLM выбрать? Нужны:
1. одна большая и мощная под широкий неограниченный круг задач
2. для генерации кода (траблшутинг Linux, computer science)
3. Для NSFW-roleplay
4. медицинская (для самодиагностики, постановки диагнозов и консультаций)

У меня такое железо: Arch Linux | R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
Какие текущие оставить, а какие удалить? Какие новые скачать? Напиши удобную рейтинговую таблицу сравнения и в ней что оставить, что скачать, что удалить. Ответь кратко, без подробностей.
Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.
Аноним 03/07/25 Чтв 09:14:09 1263060 268
хитрый ебальник.jpg 8Кб, 173x173
173x173
>>1263058
> большая и мощная
> RTX 4070 12GB
Аноним 03/07/25 Чтв 09:18:20 1263062 269
Аноним 03/07/25 Чтв 09:18:22 1263063 270
>>1263020
> никто так и не принёс доказательств
Какие ваши доказательства? Достаточно было, но не собирает должного фидбека банально из-за невозможности оценить качество модели по одному посту. Ведь нужно знать и помнить что за карточка и что же такое там было в истории чата чтобы оценить ахуенность и уместность ответа. Например, когда ты переборщил с подразниванием чара, тот решает проявить инициативу, сначала воспользовавшись побочными следами вашей недавной активности чтобы тебя дезориентировать, потом оформив захват-перехват и начинает раелизовывать свое шутливое обещание, высказанное сотню постов назад напомнив о нем. И такое будет генерироваться регулярно радуя тебя. А мелкомодели на том же чате вообще нахер роли и историю путают, кто есть кто. Не говоря об унылых безжизненных ответах, учитывающих только последние 5 постов и обращающиеся с остальной истории только при упоминании каких-то фактов тобой, а не самостоятельно чтобы эту самую историю развивать.
>>1263035
> 8-12Б могут быть весьма хороши
Если 30 еще действительно иногда могут сиять, то это - совсем грусть. Разве что удачно совпадет шиза модели и будет воспринята как разнообразие.
>>1263058
Умеренно лоботомированный квант qwen-235b на процессоре, но с той скоростью врядли захочешь использовать.
Аноним 03/07/25 Чтв 09:59:17 1263079 271
>>1263063
> не собирает должного фидбека банально из-за невозможности оценить качество модели по одному посту
По логам действительно ничего не понять, даже если поделиться большим их куском. Можно разве что оценить наличие/отсутствие чрезмерного количества слопа и/или лупов (которые могут быть плохим сэмплингом, например). Только самому играться с моделькой и чувствовать. Если очень хочется попробовать 70б модели, часто на сервере Драммера хостят временные апишки. Особо любопытные могут подловить момент и попробовать, подключив к своей таверне.

> Если 30 еще действительно иногда могут сиять
Все же я считаю, что текущие 27-32б модельки (по крайней мере Коммандер, Синтия и GLM) не (слишком) уступают 70б моделям. Способом выше я попробовал популярные тюны из последних. Что там отличается, так это датасеты. Потому что в пределах 70б немного другая тюн-тусовка, там ребята правда стараются работать над датасетами, а не прогоняют одно и то же. Но все это можно делать и на меньших моделях, просто не находится герой. У Драммера каждый тюн все хуже и хуже, увы. Какого-то скачка в мозгах или особой инициативы, проницательности у души у 70б моделей я не нашел, хотя прогнал несколько чатов по 30к. Но конечно же, все субъективно. Тот же GLM мне понравился больше. Выше кидал логи с томбоечкой, по логам не видно (к слову о их бесполезности), но там инициатива исходила такая, что я в какой-то момент намеренно перестал двигать сюжет сам в своих ответах и принял, что плыву по течению. Помните, был анон, который поделился, что у него в карточке была щепотка драмы, и GLM все свел к ней, съев его душу? У меня обратная ситуация. В карточке была щепотка романса, и GLM мою душу согрел, а не съел.
Аноним 03/07/25 Чтв 10:05:29 1263081 272
>>1260945
>>1260952
> mi50
Как она во флоуматчинг флюксах/ванах?
Аноним 03/07/25 Чтв 11:13:11 1263099 273
>>1263081
На выходных буду гонять сд, тестить андервольт, менять термуху, гонять вллм. Сейчас времени нет т.к. железками сыт не будешь
Аноним 03/07/25 Чтв 11:22:22 1263107 274
Аноним 03/07/25 Чтв 11:23:45 1263109 275
>>1263020
> но сколько в треде не просили, никто так и не принёс доказательств
Ты не обижайся, но ты дурак ?
Достаточно один раз попробовать РП с гопотой (хотя нет, гопота все таки ассистент, ебучий соннет подойдет, со своими описаниями падающих листков на стылом сентябрьском ветре). В корпосетки вкладываются миллиарды нефти, тот уровень РП и понимания ситуации который доступен - даже близко не стоит с локалками.
И ты можешь хоть сейчас пойти и попробовать в чатике поиграть. Да локалки имеют массу своих преимуществ, но не нужно перемогать что они хоть чем то в плане мозгов и написания лучше корпов.
Аноним 03/07/25 Чтв 11:25:21 1263111 276
>>1263109
В данном треде речь идет про локалки, еблуша~.
Аноним 03/07/25 Чтв 11:26:35 1263113 277
>>1263111
>еблуша
Нет ты.
Есть такое
Аноним 03/07/25 Чтв 11:43:36 1263130 278
>>1263109
Пшёл вон, отродье асига.
Аноним 03/07/25 Чтв 12:21:28 1263156 279
>>1263079
> По логам действительно ничего не понять, даже если поделиться большим их куском.
С логами получше чем одиночный пост, но тоже может не зайти.
> Только самому играться с моделькой и чувствовать.
База
> не (слишком) уступают 70б моделям
Они просто другие, там нет такого объема, внимания и "души", но 70б уже оче давно не обновляли, а прогресс в тренировке и качестве базовых моделей значительно выросло. Тюнов там тоже нормальных не больше чем везде, большинство "удачных" получились не из-за крутой тренировки а из-за достаточно жирной базы, которую не так просто убить. От того вдвойне обидно наблюдать, когда подобная модель при начале кума резко лоботомируется и срет сплошным слопом, а не хотябы пытается как-то его вплетать в сюжет с учетом происходящего.
А жлм умница, хорошая и душевная модель.
>>1263109
> РП
> с гопотой
Содомит, эх ньюфаги ньюфажики, не застали души доцензурных сонетов и опуща и довольствуются копиумом даже хваля его. Да даже вторая клодыня и то веселее была, после чмони гопота все и новые были вялыми.
Аноним 03/07/25 Чтв 12:30:42 1263165 280
>>1263006
Милости прошу к нашему шалашу. Ехехехехехе

>>1261972
Что это ща шиза? Просто текстом опиши чара. В конце

Dialog examples:

Все.
Аноним 03/07/25 Чтв 12:43:56 1263169 281
>>1263165
>Dialog examples:
Переоценённая хуйня.
Аноним 03/07/25 Чтв 12:45:13 1263171 282
>>1263169
>переоцененная хуйня
>через десять сообщений начинается чистейший порнослоп без учета на характеров
>ряяяя локалки говно
Аноним 03/07/25 Чтв 12:46:00 1263174 283
Аноним 03/07/25 Чтв 12:46:20 1263175 284
>>1263171
Просто не нужно использовать васяномистраль вместо модели, хотя бы ту же новую ванилу.
Аноним 03/07/25 Чтв 13:10:02 1263190 285
Аноны не особо следил за последними событиями, есть какие-то новые годные модельки на которые можно пересесть со сноудропа?
Аноним 03/07/25 Чтв 13:11:42 1263192 286
>>1263190
Да, на новую мистраль, лол.

Ну а если серьезно, то пока всё так-же.
Аноним 03/07/25 Чтв 13:43:54 1263219 287
>>1263020
>32Б
Соглы, Skyfall нынче топчик
Аноним 03/07/25 Чтв 13:47:53 1263223 288
>>1263219
> Skyfall нынче топчик
Каво? Ты другие 32б модели не пробовал что ли?
Аноним 03/07/25 Чтв 13:52:44 1263234 289
>>1263223
Пробовал. Все на 6 кванте. Они сосут. Ну ещё Snowdrop могу выделить, все остальные просто кал. И да, Skyfall постоянно обновляется. Если ты его юзал, скажем, полгода назад, то всё уже изменилось.
Аноним 03/07/25 Чтв 14:03:07 1263247 290
>>1263234
> Они сосут
> все остальные просто кал
Скилл ишью? Нежелание разбираться? Слепая любовь к Мистралям?

> И да, Skyfall постоянно обновляется.
Актуальная версия v2 вышла 5 месяцев назад. v3 только недавно начали делать, тестовые кванты появились 10 дней назад.

> Если ты его юзал, скажем, полгода назад, то всё уже изменилось.
Пробовал и v1 39b, и v2 36b, и v4c. Все тот же Драммерский кумслоп, мало что меняется. Хотя сама по себе идея с апскейлом моделей прикольная.
Аноним 03/07/25 Чтв 14:05:20 1263250 291
>>1263247
>Скилл ишью?
А ты самокритичный.
Аноним 03/07/25 Чтв 14:06:32 1263252 292
>>1263250
Ты пришел в тред, чтобы высрать "все модельки кроме моей любимый кал", а затем ждешь нежного к себе отношения? Но я не хотел тебя обидеть и не был груб. Похоже, ты сам все понимаешь.
Аноним 03/07/25 Чтв 14:07:57 1263254 293
>>1263247
>Слепая любовь к Мистралям?
Ну ты или признайся, что мистралехейтер или назови мистраль 32b, мне вот не понятно, где ты в данных рамках нашел мистраль.
Аноним 03/07/25 Чтв 14:10:55 1263258 294
>>1263252
>"все модельки кроме моей любимый кал"
Пиздежь. Анон ответил своим мнением на вопрос. Его вкусы не обязаны совпадать с твоими.

>а затем ждешь нежного к себе отношения?
Ну охуеть пассаж, лол.
Аноним 03/07/25 Чтв 14:12:27 1263262 295
>>1263254
Skyfall это натянутая на глобус мистраль. Но так то да, мистралей 32b оригинальных нет.
Аноним 03/07/25 Чтв 14:12:32 1263264 296
Гемма3 27 q4 и q6 - насколько сильно они отличаются, стоит ли разница того, что терпеть в полтора раза меньшую скорость работы?
Аноним 03/07/25 Чтв 14:14:26 1263271 297
>>1263252
Ты шизик какой-то. Это я так, просто по факту, без негатива. Можешь продолжать бороться с ветряными мельницами своей фантазии.
Аноним 03/07/25 Чтв 14:15:30 1263274 298
>>1263254
> мистралехейтер
Почему ты так решил? С радостью использую 3.2 и его тюны. В моих постах не было хейта к Мистралю.

>>1263258
Мы обсуждали модели, анон перешел на личности, получил заслуженный плевок в рожу. Ответил тем же.

> Его вкусы не обязаны совпадать с твоими.
Этого я не утверждал и не ожидал. Ты похоже френдлифаер оформил.
Аноним 03/07/25 Чтв 14:15:54 1263275 299
image 3897Кб, 1451x2120
1451x2120
>>1263262
>Skyfall это мистраль
Мистраль не может похудеть.
Аноним 03/07/25 Чтв 14:17:02 1263279 300
>>1263264
>Гемма3 27 q4 и q6
Для 24B+ четвёртый квант более чем адекватен, сам на нём сижу.
Аноним 03/07/25 Чтв 14:19:15 1263282 301
>>1263264
Как по мне, 6 юзабельный, мельче ощутимо хуже.
Аноним 03/07/25 Чтв 14:22:07 1263285 302
>>1263264
Могу сказать только про отличия в языках. На 4 кванте лучше английский в силу структуры языка. На русском будут проёбы в окончаниях, родах и падежах.
Чем больше квант - тем точнее модель. В рамках текста это общая грамотность речи и условный ум( для умников которым РЯЯЯ МОДЕЛЬ ТУПАЯ, ну напишите сами блять критерии ума. Каждый в этом вопросе буквально дрочит как хочет. Тестов вагон и тележка и каждый из них истинно правильный, ага)
Аноним 03/07/25 Чтв 14:25:05 1263288 303
>>1263275
Будешь обижать малышку мистраль, я позову её милфу и она размажет твою видеокарту своей жопой.
Аноним 03/07/25 Чтв 14:28:17 1263297 304
Насколько мне больно будет вкатываться с 8ГБ видеокартой?
Аноним 03/07/25 Чтв 14:30:47 1263306 305
>>1263297
По хорошему начинать надо с 24, но 16 самый минимум чтобы гонять 24-32, при наличии быстрого процессора и рам.
Аноним 03/07/25 Чтв 14:30:58 1263307 306
>>1263297
Анальная боль в жопной дырке ануса
Аноним 03/07/25 Чтв 14:33:14 1263311 307
>>1263297
Никаких проблем, уже пол года гоняю 12b модели из шапки на 7т/с. Всяких шизофреников не слушай, тут тебе щас начнуть высирать рандомные значения видеопамяти и говорить что это база.
Аноним 03/07/25 Чтв 14:44:34 1263347 308
>>1263306
Мало советуешь, чем больше цифры тем круче. Начинать надо с рига из шести видеокарт на 128 гб врам, а в идеале иметь личный датацентр в отдельной квартире.
Аноним 03/07/25 Чтв 14:52:07 1263362 309
>>1263311
А больше модели гонять не пробовал, вроде же можно на РАМ частично загружать?
Аноним 03/07/25 Чтв 15:00:05 1263374 310
>>1263362
И получить 1.5 тс на 30б?
Аноним 03/07/25 Чтв 15:00:52 1263375 311
>>1263297
Зависит от остальной твоей системы, если там гииперпень с 8 гб рам то больно
Аноним 03/07/25 Чтв 15:02:41 1263377 312
>>1263374
>И получить 1.5 тс на 30б?
Я на голом процессоре 32b в 4км получаю 2.5 т/с в начале
Хотя если скорости рам пососные то может быть и так
На +-60 будет как у меня или лучше
С выгрузкой веселее конечно
Аноним 03/07/25 Чтв 15:03:55 1263379 313
Скажем так, меньше 10 т/с — НИПРИЯТНА. На 5 т/с охуеешь внятный ответ ждать, не ходить же курить каждый раз, когда 600 токенов генерятся.
Аноним 03/07/25 Чтв 15:04:22 1263381 314
>>1263374
С учетом какая большая разница между отыгрышем на 12b и 32b, эти полтора токена можно и потерпеть, если цель в рп, а не быстром куме. Имхо конечно, сам на 2 токенах сижу попутно работая за компиком или подходы на турничке делаю, поэтому такая скорость особо не парит.
Аноним 03/07/25 Чтв 15:15:55 1263392 315
Аноним 03/07/25 Чтв 15:20:25 1263402 316
>>1263297
Нормально, если остальной компуктер мощный с ДДР 5 и хорошим процем, ну и видяха нвидиа. Я лично сижу на 24B моделях Q4_K_S кванте с 20к конекста и 5тс. Выгрузка тензоров вместо слоев сильно помогает. Синтия 27B на таком же кванте и скорости с 12к контекста запускалась.
Аноним 03/07/25 Чтв 15:22:55 1263407 317
Кто-нибудь с локалкой кодит?
Аноним 03/07/25 Чтв 15:23:28 1263408 318
>>1263285
На Гемме (Синтии) прям отличный русик. Проебы краайне редко даже на 4 кванте.
Аноним 03/07/25 Чтв 15:31:10 1263420 319
>>1263190
А как его думать заставить? Чот нихуя не получается, ещё и картинка с настройками на странице модели никуда в таверне не импортируется. Я ещё не смешарик, не бейте, лучше подскажите.
Аноним 03/07/25 Чтв 15:33:34 1263425 320
Аноним 03/07/25 Чтв 15:52:09 1263460 321
>>1263425
Пощупать что это вообще такое, интересно же.
Аноним 03/07/25 Чтв 16:12:12 1263502 322
>>1263460
А, ну, щупай тогда. Я эту срань отключил.
Аноним 03/07/25 Чтв 16:16:51 1263508 323
>>1263502
+ синкинг в рп всё ломает... и ли скорее наоборот, цементирует XD
Аноним 03/07/25 Чтв 16:26:59 1263530 324
>>1263252
Все так и есть, шиз-слопоед защищает свое болото и еще смеет остальных критиковать, а потом обижается.
>>1263254
> мистралехейтер
Глупо ненавидеть модель на которой паразитируют одни васяны и с которой ловят синдром утенка другие. Но вот хейтить таких васянов - сам бог велел.
>>1263264
> полтора раза меньшую скорость работы
Если это 30т/с вместо 45 - конечно стоит, если 4 вместо 6 то уже надо задуматься. Возьми 5й квант в качестве компромисса, но в целом 4й не так уж плох.
>>1263288
Зови, может тогда она наконец обновится.
Аноним 03/07/25 Чтв 16:31:27 1263536 325
>>1260769 (OP)
Подскажите по-братски классную модель для транслейта.
Сейчас пользуюсь gemma3-translator-4b, но она микроскопическая и это вызывает у меня сомнения, все-таки запас еще 8гб, можно было бы что-то ультимативное запихнуть.
Аноним 03/07/25 Чтв 16:55:06 1263562 326
>>1263536
> gemma3-translator-4b
Квант жирнее возьми или 12b выбери, можешь еще новых гемм пощупать которые gemma-3n-E4B-it и gemma-3n-E2B-it, первая какое то странный аналог мое на 8b вторая аналог мое на 4b
Аноним 03/07/25 Чтв 17:29:20 1263585 327
>>1263562
Такую жирнее 4Б не смог найти.
>gemma-3n-E4B-it и gemma-3n-E2B-it
Чисто транслейтеров таких не нашел или ты предлагаешь как универсальную взять и в т.ч. для перевода использовать?
Аноним 03/07/25 Чтв 17:32:21 1263589 328
>>1263585
Конечно. И 4b и 12b тоже обычные инструкты нужны в переводе
Аноним 03/07/25 Чтв 17:54:45 1263612 329
>>1263377
У меня кусок говна вместо процессора, так что твой пример тут непременим.

>>1263362
Я чёт читал, читал, тыкал, тыкал эту выгрузку тензоров и нихуя не вышло.

>>1263381
Ты пиздец как утрируешь, это тебе не 8b модели, ты видимо уже столько времени сидишь на больших моделях что не знаешь что они вообщем то ок. Я очень редко кумлю, но буквально срываюсь и яростно дрочирую почти пол дня, так в основном рпшу без сексуального контекста, а 1/5 т.с это можно глаза себе выцарапать от такой скорости.
Аноним 03/07/25 Чтв 18:01:55 1263622 330
Очередной виток войны между коуперами двух мастей: 12б Мистральки против ригеров?

Напоминаю базу треда: лучшая модель та, которую ты можешь запустить и которая тебе нравится. Если вы считаете иначе, то отправляетесь навстречу слопу!
Аноним 03/07/25 Чтв 18:05:28 1263629 331
Где кванты Эрни 4.5?!


>>1263379
Есть стриминг, 5-10 т/с уже вполне норм, с современной токенизацией ты сможешь читать ответ во время генерации без особых затыков. Это если ризонинг используется то больно, но такое везде, даже на корпах.
>>1263381
Ну не совсем. Особенно в начале может не быть радикальной разницы между 12 и 30б, на модели побольше у тебя будут завышенные ожидания и долгий неудачный ответ вызовет сильное недовольство. А на мелкой но быстрой ты просто оформишь понять@простить и нажмешь свайп
>>1263622
> то отправляетесь навстречу слопу!
Она медленно подходит к тебе, размахивая бедрами, шиверс медленно пробегает вниз по твоей спайн. Она спрашивает тебя: "Все еще считаешь иначе?". Она ждет твоего ответа. Она смотрит на тебя, в ее глазах формируется мишчувэс глинт. "Ночь еще молода, выбор за тобой!"
Аноним 03/07/25 Чтв 18:09:58 1263633 332
>>1263629
ЧСХ в новой MS3.2 из всех старых мистрализмов видел только шиверс, вот уж он неистребим, другие не встречались.
Аноним 03/07/25 Чтв 18:13:49 1263640 333
>>1263562
>gemma-3n-E2B-it
Сам попробовал, а неплохо переводит. Хоть имена не путает
Аноним 03/07/25 Чтв 18:16:54 1263645 334
>>1263633
Там и бедра и прочее, и главное - мерзотная и суперуебищная структура. Настолько мерзкая что можно специально пускать и наблюдать для успокоения, когда вдруг разочаруешься в выдаче других моделей.
Но это не так назойливо как в васянтюнах и не настолько критично чтобы ныть, у опытного нейродрочера уже давно слоповая слепота должна была сформироваться.
Аноним 03/07/25 Чтв 18:27:50 1263656 335
Нет-хлеба-ешьте[...].jpg 347Кб, 2560x1440
2560x1440
>>1263622
Блять, мне просто нравится как рассуждают челы с ригами и теслами. Если кто - то сидит на 12B, наверное у него нет выбора? Я при чём не хвалю эти модели, я знаю их минусы, но видеопамять это не та вещь которую можно скачать из интернета или приготовить своими руками, если что.
Аноним 03/07/25 Чтв 18:40:10 1263683 336
>>1263622
>базу треда: лучшая модель та, которую ты можешь запустить и которая тебе нравится

Гигакоупинг
Аноним 03/07/25 Чтв 18:42:19 1263686 337
А есть какая-то сетка для переводов, типа contrxt reverso, закидываешь какое то слово или сочетание, оно еще кроме пояснения всяких контекстов использования пишет
Аноним 03/07/25 Чтв 18:42:54 1263687 338
Аноним 03/07/25 Чтв 18:46:05 1263692 339
>>1263686
Анон, вся серия геммы3 нацелена на переводы и работу с языком. Если ты попросишь сетку быть переводчиком - она им будет. Попросишь давать пояснения контекстов использования - она напишет
Создай карточку профессионального переводчика и спрашивай что хочешь
Аноним 03/07/25 Чтв 19:29:12 1263750 340
>>1262028
Карточка конечно разьебная, но ее внутренние диалоги это пиздец. Вроде как с ними карточка симпатичней и приятней, но эта хуйня со временем ломается и она забывает как вообще разговаривать.
Аноним 03/07/25 Чтв 20:14:57 1263806 341
>>1263502
>>1263508
А как какать настроить то?
Объясните хлебушку что нужно сделать чтобы моделька начала высирать блок с мыслёй, перед каждым ответом.
Аноним 03/07/25 Чтв 20:30:13 1263831 342
>>1263297
мысраль 24б 4ку_к_м
рыкс 580 8гб, проц 4790к, оперативка ддр3, частоты стоковые. линукс с выключенными митигейшынами
2 токена в секунду на старте около 4к контекста, падает до 1.5 по приближению к 16к

./llama-server --device Vulkan0 --no-context-shift --no-warmup --ctx-size 16384 --gpu-layers 15

>slot release: id 0 | task 6466 | stop processing: n_past = 9390, truncated = 0
>prompt eval time = 560.44 ms / 1 tokens ( 560.44 ms per token, 1.78 tokens per second)
> eval time = 42999.15 ms / 76 tokens ( 565.78 ms per token, 1.77 tokens per second)
> total time = 43559.59 ms / 77 tokens

это вообщем как играть во что-то на 15 фпс - больно, но похуй.
Аноним 03/07/25 Чтв 20:55:05 1263872 343
>>1263831
F
А че так грустно? Память бы хоть разогнал, вроде проц с К индексом. Не забывай указывать количество потоков кстати, поиграйся может системе не хватает и в итоге тормозит генерация.
Аноним 03/07/25 Чтв 21:27:14 1263916 344
Screenshot2025-[...].png 24Кб, 482x172
482x172
>>1263872
мать - копеечная h81m-p33, изначально брал под копеечный целерон, чудо что 4790к с ней вообще работает. не помню почему я не стал оверклокить - то ли пробовал и не было стабильности, то ли вообще не пробовал.
я особо бы прироста с ддр3 не ожидал.
потоков сколько посоветуешь прописать с его 4ядра/8потоков? система особо не загружена когда генерации нет, во время генерации 50-60%
Аноним 03/07/25 Чтв 21:53:00 1263948 345
>>1263916
Ну тут у тебя загружены 4 потока судя по графику, может даже 3 если лламаспп ставит как обычно -1 от физич%скиз ядер. Попробуй поставить 2, 4, 6, 7, 8 и смотреть будет ли изменение скорости генерации. Где лучше там и оставь.
Я не помню что там по разгону ддр3 но тайминги хоть подожми да частоту подними, прирост на 10-20 процентов может получишь по скорости
Аноним 03/07/25 Чтв 22:33:34 1263997 346
>>1263013
Там есть альтернативный старт, где она в задристанной комнате привязана к стулу. Это просто кладезь шизоидных возможностей.
Аноним 03/07/25 Чтв 22:43:14 1264014 347
Нашел кабель питания, теперь у меня 16+16гб с двух карточек. Вместо 1.5 т/с стало целых 10 т/с на 70B модели (dense, 83 layers).

Это как бы неиронично шин. Из мусора в категорию абсолютно сносной юзабельности.
Аноним 03/07/25 Чтв 23:26:43 1264074 348
>>1264014
Так, подождите, это был IQ3-XS, который я привык пытаться юзать.
Что-то Q4-KM по сравнению с этим плох. С с хрена ли такое улучшение для бомжекванта и наоборот ухудшение для кванта пожирнее? Это че получается, при двух GPU когда модель не влезает в VRAM - все превращается в еще большую тыкву, чем когда она не влезает в VRAM одной видюхи?
Аноним 03/07/25 Чтв 23:31:43 1264081 349
>>1264074
О, начинаешь понимать, что нужно три...
Аноним 03/07/25 Чтв 23:35:20 1264086 350
>>1264081
Да епт, но почему Q4-KM упал до 0.5 т/с? При одной видюхе оно точно так же пердело на 1.5 как и IQ3_XS.

Я конечно доволен ускорению бомжекванта до приятной десяточки, но такого не ожидал.
Аноним 03/07/25 Чтв 23:39:01 1264089 351
>>1264074
> в еще большую тыкву
Если там было переполнение врама и выгрузка, а не правильный оффлоад на процессор - будет хуже потому что шина уже. Если не превышать объем врам то будет только лучше.
Аноним 03/07/25 Чтв 23:43:03 1264093 352
>>1264089
Тут совсем залупа произошла. Я перезапустил IQ3-XS и он тоже замедлился.
Завтра разберусь. Голова уже не работает, надо спатеньки.
Аноним 04/07/25 Птн 00:09:02 1264121 353
Имеет ли смысл пытаться запускать мистральку 123b во втором кванте? Говорят тут что модель с большим числом параметров меньше тупеет от квантовки, но насколько правда?
Аноним 04/07/25 Птн 01:10:31 1264167 354
Есть ли шансы, что корпораты выложат свои топовые модели в попенсорц? Мета вроде хотела выложить бегемота, но оподливилась. Грок-1 выкладывали больше года назад, сейчас уже грок 4 будет в релизе. Единственные, кто держат в курсе - это дипсик, но они делали это изначально.
Кто-то скажет, а нахуя тебе огромные модели, если ты и дипсик-то во вменяемом кванте не запустишь. Но а вдруг потом найдут какой-нибудь способ квантования, позволяющий оставить из 2Т моделей только рп и кум, а все остальное выкинуть нахуй.
Аноним 04/07/25 Птн 01:22:44 1264171 355
videoframe199894.png 377Кб, 536x720
536x720
Чел >>1261196 дело говорит, обязательно пощупайте.
Аноним 04/07/25 Птн 01:41:38 1264177 356
>>1264167
>Есть ли шансы, что корпораты выложат свои топовые модели в попенсорц?
Спроси себя, нахуя им это? Их главный профит как раз в продаже доступа к таким моделям, они за счет этого живут. Им нет смысла выпускать что-то в попенсорс чтобы доказать, как они трясутся за развитие искусственного интеллекта. Захотят сделать вклад - выпустят статью или полноценную научную работу, разжевав общими словами как и что они делали. Жопены вон уже проклинают себя который год за свое название и что им за него постоянно предъявляют, хотя ничего в открытый доступ они уже давно не выкладывают. Меты, микромягкие и те же китайские конторы вынуждены контрибьютить чтобы их заметили хоть как-то, а монополистам вроде антропиков и альтманов это не нужно, они нихуя не приобретут и нихуя не потеряют.
Аноним 04/07/25 Птн 01:44:06 1264178 357
>>1264167
Вряд ли. Я думаю Цукер окуклится в клозед соурс, учитывая как жадно он понапиздил себе людей за сотни миллионов зп. Альтман кинет кость в виде какой-нибудь смартфонной модели и все. Гугл туда же. Короче вся надежда на китайцев.
Аноним 04/07/25 Птн 02:05:49 1264190 358
>>1264178
>Цукер окуклится в клозед соурс
Это было очевидно с самого начала. Мета экстремисты террористы высосут деньги из любого пердежа, дай только им повод. Но в любом случае, они внесли огромный вклад в развитие локалок, особенно на старте, так что это их немного прощает.
>Альтман кинет кость в виде какой-нибудь смартфонной модели и все.
Меня всегда забавляло понятие "модель для смартфонов", ибо никто до сих пор не знает, что эта модель будет из себя представлять. Огрызок на 2-4 лярда параметров, или огрызок на 7 и больше? Если они реально такой мусор выкинут, то в очередной раз подтвердят свой статус конторы пидорасов. И думаю Альтман это понимает, по этому уже в который раз откладывает релиз и пытается нагнать хайп в твиттерах.
>Короче вся надежда на китайцев.
Китайская лавочка будет открыта ровно до тех пор, пока будут гос. инвестиции и не будет никакой прибыли. Как только кто-то выстрелит и отхапает весомую долю рынка - все остальные шарашки прикроют и никаких oss-релизов больше не будет.
Аноним 04/07/25 Птн 02:39:31 1264199 359
>>1264171
Пощупал, это пиздец. Пока что по первым ощущениям, которым никогда верить нельзя, намного круче снежного и командера.
Аноним 04/07/25 Птн 02:41:10 1264200 360
>>1264167
Дипсик уже давно продолжает радовать, квен ебет все что движется, байду выкинули жирную штуку которую хочется покрутить, может быть когда-нибудь мистраль наконец новой милфой и большим мое разродится, еще серия релизов достаточно крупных и оче мощных моделей. Все они - уровень топовых корпов, последние сейчас вообще с крутости ллм смещают фокус на готовые решения для их применения (те же возможности чата опенов).
Пареллельно с этим регулярно релизятся средние и мелкие, которые не уступают более младшим-быстрым версиям корпомоделей.
Аноним 04/07/25 Птн 06:34:40 1264252 361
>>1264200
> квен ебет все что движется
30B показало себя тупее 8B моделей блять. Первое сообщение генерирует, на втором начинается шиза, на третьем повторяет второе частично. И так и сяк семплер крутил, и как файнтюнщики советуют и официальное тоже - ху е та.
Аноним 04/07/25 Птн 06:58:36 1264256 362
smartphone-soc-[...].webp 71Кб, 1080x1189
1080x1189
Аноним 04/07/25 Птн 07:16:37 1264261 363
>>1263058
>1. одна большая и мощная под широкий неограниченный круг задач
https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF
https://huggingface.co/unsloth/Magistral-Small-2506-GGUF (reasoning)
https://huggingface.co/unsloth/Qwen3-32B-GGUF
https://huggingface.co/mradermacher/Qwen3-32B-abliterated-GGUF
https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF
https://huggingface.co/mradermacher/Qwen3-30B-A3B-abliterated-GGUF
https://huggingface.co/unsloth/Qwen3-14B-GGUF
https://huggingface.co/mradermacher/Qwen3-14B-abliterated-GGUF

>2. для генерации кода
https://huggingface.co/unsloth/Qwen2.5-Coder-32B-Instruct-128K-GGUF
https://huggingface.co/unsloth/Devstral-Small-2505-GGUF
https://huggingface.co/unsloth/GLM-4-32B-0414-GGUF
Аноним 04/07/25 Птн 07:21:27 1264263 364
serene-pub-v0-3[...].jpg 128Кб, 1080x1201
1080x1201
serene-pub-v0-3[...].jpg 158Кб, 1080x1201
1080x1201
serene-pub-v0-3[...].jpg 208Кб, 1080x1201
1080x1201
🌟 Serene Pub v0.3.0
Serene Pub is an open source, locally hosted AI client built specifically for immersive roleplay and storytelling. It focuses on presenting a clean interface and easy configuration for users who would rather not feel like they need a PHD in AI or software development. With built-in real-time sync and offline-first design, Serene Pub helps you stay in character, not in the configuration menu.

After weeks of refinement and feedback, I’m excited to announce the 0.3.0 alpha release of Serene Pub — a modern, open source AI client focused on ease of use and role-playing.

✨ What's New in 0.3.0 Alpha
📚 Lorebooks+
• Create and manage World Lore, Character Lore, and History entries.
• Character Bindings: Hot-swappable character and persona bindings to your lorebook. Bindings are used to dynamically insert names into your lore book entries, or link character lore.
• World Lore: Traditional lorebook entries that you are already familiar with. Describe places, items, organizations—anything relevant to your world.
• Character Lore:Lore entries that are attached to character bindings. These lore entries extend your character profiles.
• History:Chronological lore entries that can represent a year, month or day. Provide summaries of past events or discussions. The latest entry is considered the "current date," which can be automatically referenced in your context configuration.
🧰 Other Updates
• In-app update notifications – Serene Pub will now (politely) notify you when a new release is available on GitHub.
• Preset connection configurations – Built-in presets make it easy to connect to services like OpenRouter, Ollama, and other OpenAI-compatible APIs.
• UI polish & bug fixes – Ongoing improvements to mobile layout, theming, and token/prompt statistics.

⚡ Features Recap
Serene Pub already includes:
• ✅ WebSocket-based real-time sync across windows/devices
• ✅ Custom prompt instruction blocks
• ✅ 10+ themes and dark mode
• ✅ Offline/local-first — no account or cloud required

🚀 Try It Now
1. Download the latest release
2. Extract the archive and execute run.sh(Linux/MacOS) or run.cmd(Windows)
3. Visit http://localhost:3000
4. Add a model, create a character, and start chatting!
Reminder: This project is in Alpha. It is being actively developed, expect bugs and significant changes!

🆙 Upgrading from 0.2.2 to 0.3.x
Serene Pub now uses a new database backend powered by PostgreSQL via pglite.
• Upgrading your data from 0.2.2 to 0.3.x is supported only during the 0.3.x release window.
• Future releases (e.g. 0.4.x and beyond) will not support direct migration from 0.2.2.
⚠️ To preserve your data, please upgrade to 0.3.x before jumping to future versions.

📹 Video Guide Coming Soon
I will try to record an in-depth walk-through in the next week!



https://github.com/doolijb/serene-pub
Аноним 04/07/25 Птн 08:09:38 1264280 365
>>1264200
>Все они - уровень топовых корпов
Нет, даже не близко. Если нужно написать нормальный код, приходится идти к клауде. Если нужно решить задачку чуть сложнее написания порнофанфика - нужно идти к клауде. Да даже если нужно написать порнофанфик - лучше идти к клауде. Локалки не про мозги, локалки про независимость.
Аноним 04/07/25 Птн 08:17:04 1264281 366
>>1264263
>modern, open source AI client focused on ease of use
>JavaScript
Да как вы заебали
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов