Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 315 69 70
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №152 /llama/ Аноним 05/08/25 Втр 01:48:38 1299698 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 481Кб, 1520x2266
1520x2266
17536758117790.jpg 6449Кб, 4624x3472
4624x3472
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Базы треда не существует, каждый дрочит как он хочет. Базашизика дружно репортим.

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1292947 (OP)
>>1288430 (OP)
Аноним 05/08/25 Втр 01:50:05 1299705 2
>>1299699 →
Вообще я рождён в СССР, так что по сути из прошлого тысячелетия.
Аноним 05/08/25 Втр 01:50:56 1299706 3
>>1299703 →
А что с ним не так? Повершел избыточен.
Аноним 05/08/25 Втр 02:12:07 1299719 4
>>1299701 →
Хорошо что тут представлен некоторый пример максимально плотной упаковки под завязку. Но имея 192 гига врам использовать жору для квена - особый вид безумия. И если его использовать, лучше сбавить квант и получить все-все в видеопамяти, что кратно ускорит обработку, и заодно отказаться от квантования контекста, которое заметно ухудшает выдачу в квене.
>>1299706
Павершелл в целом если не удобен то хотябы адекватен, и соответствует общим парадигмам современных терминалов. cmd - ужасен и неудобен, но офк для запуска одной команды разницы здесь не будет.
Аноним 05/08/25 Втр 03:03:54 1299734 5
>>1299698 (OP)
Какие модельки сейчас годные для RP на русском? До 20B.
Аноним 05/08/25 Втр 04:40:09 1299764 6
>>1299725
а у тя у самого какое железо и модели какие юзаешь? базовичок блять
я сам пытаюсь под базу подстраиваться 12 врам 23б минстраль Q6 2 токена в секунду сука хахахах
Аноним 05/08/25 Втр 06:05:38 1299787 7
Аноним 05/08/25 Втр 06:33:35 1299791 8
>>1299764
Что мешает кроме отсутствия мозгов пойти на сайт квена и абузить их большую модель, там даже цензуры нет.
Аноним 05/08/25 Втр 07:50:07 1299811 9
Аноним 05/08/25 Втр 07:51:52 1299814 10
>>1299791
как я тебе большую модель запущу на 12 врам еблан
Аноним 05/08/25 Втр 08:03:07 1299816 11
>>1299791
а ты имеешь ввиду тупо на сайте сидеть кумить? ахуенно, они же сто проц сливают переписки сохраняют
Аноним 05/08/25 Втр 08:07:02 1299818 12
image.png 13Кб, 919x142
919x142
>>1299791
как я тебе его абузить буду сука.
Аноним 05/08/25 Втр 08:12:25 1299819 13
image.png 14Кб, 989x129
989x129
Аноним 05/08/25 Втр 08:25:57 1299822 14
>>1299734
Именно до 20Б - всё те же мистральки из шапки + гемма 12Б, ничего нового.

Ещё:
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M, некоторые вариации норм в русский могут тоже, вес четвёртого кванта 13 с половиной гб.

Qwen3-30B-A3B ещё можешь попробовать раскурить, он наже в шестом кванте с выгрузкой может под 8-10 токенов выдавать.
Аноним 05/08/25 Втр 08:27:38 1299824 15
>>1299764
>23б минстраль
это что вообще за зверь, зачем и главное нахуя
Аноним 05/08/25 Втр 09:16:29 1299840 16
>>1299719
>Павершелл в целом если не удобен то хотябы адекватен, и соответствует общим парадигмам современных терминалов. cmd - ужасен и неудобен, но офк для запуска одной команды разницы здесь не будет.

Попытка сопоставить инструментарий исполнения команд с концепцией "удобства" – это, пожалуй, заблуждение. Инструмент, подобно языку, является лишь средством выражения, а не целью сам по себе. Его эффективность определяется не эстетикой, а способностью к реализации заданных функций, к трансляции воли пользователя в действия системы.

Если же вы утверждаете о несоответствии одного из инструментов общепринятым парадигмам, то речь идёт, скорее всего, о его исторической обусловленности и эволюционном пути, чем о фундаментальном дефекте. Функциональность, как таковая, существует вне субъективного восприятия. Она есть, независимо от того, насколько она приятна глазу или удобна рукам.

Таким образом, утверждение о "ужасности" одного инструмента лишь подчёркивает личную предвзятость наблюдателя, а не объективную истину. Ибо, сущность вещи проявляется не в ее внешнем облике, но в её способности быть причиной и следствием.
Аноним 05/08/25 Втр 09:25:14 1299848 17
Аноним 05/08/25 Втр 09:26:53 1299850 18
>>1299840
кто лоботомита в тред пустил
Аноним 05/08/25 Втр 09:28:41 1299854 19
>>1299818
Это легко обходится, там багованый лимит.
Аноним 05/08/25 Втр 09:31:25 1299856 20
>>1299848
>минимум
24 ГБ

На 12 VRAM картах + DDR5 RAM с вменяемой скоростью запускаются плотные до 15-20 ГБ весом и MoE до 25 ГБ.

8 ГБ VRAM - без шансов, оно по часу на ответ тратить будет, если вообще заведётся.
Аноним 05/08/25 Втр 11:34:28 1299958 21
image.png 161Кб, 1811x988
1811x988
Хули яйца мнём?
Аноним 05/08/25 Втр 11:49:13 1299968 22
Давайте быстрее уже тестируйте 4.5 AIR надо понять лучше она геммы / немотрона или нет. А то у меня не влазит пока что, надо оперативы докупать.
Аноним 05/08/25 Втр 11:51:50 1299972 23
>>1299848
> TheBloke
это он вылез из анабиоза или это ты пытаешься скачать модель двухлетней давности?
> 33B Q6
пчел тыж программист, посчитай размер файла исходя из битности и миллиардов параметров, и поймёшь, запустится или нет.
Аноним 05/08/25 Втр 11:58:52 1299975 24
бля, я не понимаю, это я такой умный или все вокруг такие тупые? почему никто не знает, как посчитать объём памяти, требуемый для запуска модели? почему нигде об этом не пишут? на сойдите по 10 таких вопросов в день создают, здесь по 10 вопросов в каждый перекат, пиздец какой-то. и раз в пару дней на сойдите появляется тред "я написал программу для определения запустится ли модель на вашем компе", когда там блядь 16-8-6-4 бит на миллиарды умножить надо и всё блядь
ну ещё объём контекста добавить, такое же вычисление уровня 2 класса средней школы для умственно отсталых
Аноним 05/08/25 Втр 11:59:27 1299976 25
сука аштрисёт, всё фпизду вас пойду траву трогать
Аноним 05/08/25 Втр 12:04:47 1299981 26
>>1299975
>почему нигде об этом не пишут?
Прямо в вики было если что.
Аноним 05/08/25 Втр 12:08:47 1299989 27
>>1299975
>почему никто не знает
все знают у кого хватила ума по ссылкам из шапки пройтись и почитать

а у кого не хватило, те сами себе враги
Аноним 05/08/25 Втр 12:09:54 1299991 28
>>1299958
>Хули яйца мнём?
на опенроутере чекнул, с суммаризацией текста на 40К токенов неплохо справилось
Аноним 05/08/25 Втр 12:20:19 1300010 29
image 64Кб, 1159x1041
1159x1041
image 34Кб, 500x643
500x643
>>1299958
ну мнем и мнем, че доебался... еще 2 часа ждать, ну йобана...😭

какое железо и какой перформанс?
Аноним 05/08/25 Втр 12:27:18 1300015 30
17543856211601.jpg 75Кб, 500x643
500x643
>>1300010
> ещё 2 часа

GLM-4.5-Air-FP8/model-00036-of-00047.safetensors
1,612,414,976 83% 356.44kB/s 0:14:40
Аноним 05/08/25 Втр 12:31:38 1300022 31
image 25Кб, 800x800
800x800
ананасы, использует кто mcp сервер с поисковым движком? желательно безплатный (или с лимитом, но без привязки кредитки).

нашел вот это https://mcp.so/server/brave-search/Brave, но что бы получить токен от брейв нужно добавить данные кредитки

нашел еще дискруссию https://www.reddit.com/r/LocalLLaMA/comments/1mhcyu0/how_can_i_allow_a_local_model_to_search_the_web/, кто-то пробовал https://github.com/searxng/searxng или https://yacy.net/, какие +/-/💦🪨?

>>1300015
пикрелейтед
Аноним 05/08/25 Втр 12:34:46 1300025 32
>>1300010
>>1300015
>lm studio
>неквантованный релиз
Сам виноват.
Аноним 05/08/25 Втр 12:47:44 1300027 33
Screenshot20250[...].png 86Кб, 626x707
626x707
Через что запускать на Интел Арках? ЛМ студио с бэкендом вулкана выдает 10т/c на 12б гемме q3 с 4к контекста.
Аноним 05/08/25 Втр 12:54:09 1300032 34
Аноним 05/08/25 Втр 13:03:43 1300036 35
>>1299975
>когда там блядь 16-8-6-4 бит на миллиарды умножить надо и всё блядь
Вот откуда такие дятлы вебистые лезут, не пойму. Все вокруг долбаебы у них, хотя сами хуйню несут с деловитым ебальником. Чтобы высчитать вес одного слоя, нужно взять вес квантованной модели и разделить его на количество слоев. Всё, никаких дополнительных операций не требуется. Ты бы еще тут советовал вручную модели квантовать всем, кто спрашивает, где взять гуфы. Долбаеб блять.
Аноним 05/08/25 Втр 13:13:34 1300048 36
>>1299958
В РП мне не понравилось. Ненужно.
Аноним 05/08/25 Втр 13:18:53 1300049 37
>>1300036
>Чтобы высчитать вес одного слоя, нужно взять вес квантованной модели и разделить его на количество слоев.
Не работает для немотрончика.
Аноним 05/08/25 Втр 13:30:24 1300056 38
>>1300036
> нужно взять вес квантованной модели
а этот вес получить, нужно
> 16-8-6-4 бит на миллиарды умножить надо и всё блядь
Аноним 05/08/25 Втр 13:30:49 1300058 39
>>1300056
*чтобы этот вес получить
Аноним 05/08/25 Втр 13:33:37 1300062 40
>>1299975
А как же контекст, кв там всякие?
Аноним 05/08/25 Втр 13:38:04 1300066 41
>>1300056
>а этот вес получить
Конечный вес модели блять, который она занимает на диске, это и есть твоя ебучая тупая формула по умножению параметров на битность. На него можно просто посмотреть в каталоге обниморды, нихуя не перемножая.
Аноним 05/08/25 Втр 13:38:49 1300067 42
>>1299840
Что за шиза? Инструмент должен быть удобным и функциональным. Если тебе для удержания чего-то клещами нужно разжимать запястье вместо сжатия как на любом другом - он просто бесполезен, какая бы история за этим не стояла. Неудобное и не обладающее преимуществами отправляется на помойку как тупиковая ветвь "эволюции", удобное используется. Если ты не можешь приспособиться и тебя это задевает - твой путь туда же.
>>1299975
Просто смотришь размер кванта, добавляешь 10% сверху на контекст, вот тебе грубая оценка.
Есть готовые калькуляторы https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator https://apxml.com/tools/vram-calculator
Аноним 05/08/25 Втр 13:41:17 1300070 43
>>1300066
> Конечный вес модели блять, который она занимает на диске, это и есть твоя ебучая тупая формула по умножению параметров на битность.
неожиданно, правда?
> На него можно просто посмотреть в каталоге обниморды, нихуя не перемножая.
но люди настолько тупые, что по десять раз в день на сойдите и десять раз за перекат на фсбаче спрашивают, влезет ли такая-то модель в их видюху
Аноним 05/08/25 Втр 13:42:59 1300071 44
Кря. Эгегей мой любимый тредик.
Помощь нужна, суть такова : Если ставить видеокарту на поколение выше. Будет ли она работать по верхней планке слабой видеокарты или это уже не актуально десяток лет ?
Аноним 05/08/25 Втр 13:46:38 1300074 45
>>1300071
чёт не осилил вопрос. выгружай на мощную карту больше слоёв, на слабую меньше, и всё бля, чё ты как этот
Аноним 05/08/25 Втр 13:47:39 1300076 46
чё вон >>1288430 (OP) уже на радевонах делают дуал гпу сетап иничё так то один из самых дешовых способов сделать себе 48гБ
Аноним 05/08/25 Втр 13:47:50 1300077 47
>>1300070
>спрашивают, влезет ли такая-то модель в их видюху
Ну вот из-за таких дурачков как ты и спрашивают, которые вместо нормального ответа начинают срать какими-то формулами, которые только сильнее запутывают и усложняют жизнь. То что итт приходят новые люди, которым интересны локалки это только плюс. Они не обязаны знать всё и сразу. И никто не заставляет тебя их чему-то учить, ты всегда можешь пройти мимо. Но нет, надо выебнуться тем, какой ты тут один сука умный.
Аноним 05/08/25 Втр 13:56:56 1300089 48
>>1300074
Сейчас поясню, раньше если ты через sli включал условную 960 и 980, то 980 работала по верхней планке производительности 960 в графических приложухах. Вот мне и интересно, с ЛЛМ таких проблем нет ?
Да, я очень далек от темы ПК, сорян, не все ЛЛМ энтузиасты погромисты.
Аноним 05/08/25 Втр 13:58:52 1300094 49
>>1300077
если другие дурачки ответят "да не думай ни о чём качай лм студио и сиди дрочи" вместо того, чтобы насрать формулами, то у новых людей вопросы растянутся на полтреда.
те самые вопросы, которые обсуждаются по 10 раз каждый перекат
Аноним 05/08/25 Втр 14:00:44 1300099 50
>>1300071
В инфиренсе ллм скорость обработки одного токена будет определяться как сумма прогона по всем компонентам - разным гпу, процессору. Посчитав время на один токен, обратной величиной будет скорость.
В самом простом варианте скорость на двух разных картах когда веса делятся пополам будет равна средней скорости работы этой модели на них.
>>1300076
> на радевонах
> один из самых дешовых способов сделать себе 48гБ
Покайся, там не только оттенки пердолинга и страданий, это еще дороже сраных амперов.
>>1300089
С ллм таких проблем нет, там самый слабый компонент будет вносить задержку обработки своей части, но не повлияет на время обработки на других.
Аноним 05/08/25 Втр 14:00:56 1300101 51
>>1300089
а, теперь, кажется, понял.
да, медленная видюха будет тормозить быструю, а точнее быстрая будет сидеть и ждать, пока медленная досчитает, чтобы выдать следующий токен.
но в случае двух видюх это почти незаметно, в отличие от ситуации видюха+цпу, где видюха вообще почти ничего не делает из-за того, что проц считает медленно.
Аноним 05/08/25 Втр 14:02:28 1300102 52
>>1299519 →
О, гуд, идем проверять мелкую (ну и большую, чисто поржать=).

>>1299544 →
У меня квенчик235 выдает 5-7, тут мелкая может разогнаться до 10-12 в пике, так-то.
Вроде как, смысл вполне есть, если она занимает нишу между хуньюан/квен30 и квен235. Если она лучше — то база же.

Хотя квен30 у меня 40 тпс…

>>1299646 →
БЕРЕШЬ ПРОГУ НА ПЛЮСАХ
@
ОБОРАЧИВАЕШЬ В ПИТОН
@
ОБОРАЧИВАЕШЬ ВО ФРОНТ
@
УБИРАЕШЬ ФРОНТ
@
ЗАПУСКАЕШЬ ПИТОН
@
ОН ЗАПУСКАЕТ ПРОГУ В КОНСОЛИ
@
ПОБЕДА
@
НАД ЗДРАВЫМ СМЫСЛОМ

Но вообще в кобольде иногда фиксы отдельные есть, свои.

>>1299705
Смешно, но да.
Та самая песня Газманова, ага. =)

>>1299814
… как и все остальные люди. МоЕ с выгрузкой тензоров.
Там гигов 6-7 занимается. Оперативы добери и все.
Аноним 05/08/25 Втр 14:04:54 1300107 53
>>1300101
Смотря каких видюх, втыкал 4070 ti + P104-100 — там скорость все же была заметно ниже, по понятным причинам, на рассчетные проценты.
НО НЕ КРАТНО ХОТЯ БЫ ДА =D Не в 5-10 раз.

Лучше — больше памяти, если нет четкой модели, под которую сетап собирается.
3060 на 12 >>> 5060 ti на 8.
Аноним 05/08/25 Втр 14:07:43 1300111 54
>>1300107
основополагающий фактор при работе с ллм - это скорость оперативной памяти, а не мощность проца, у этих видюх вряд ли в 5-10 раз скорость памяти различается.
Аноним 05/08/25 Втр 14:07:47 1300112 55
>>1300101
>>1300099
Пасеба аноны.
Пойду тогда докупать еще одну видивокарту.
Аноним 05/08/25 Втр 14:08:44 1300113 56
>>1300094
>те самые вопросы, которые обсуждаются по 10 раз каждый перекат
Если ты не заметил, тут одни и те же вопросы обсуждаются на протяжении 150 тредов. Какое говно воткнуть, какое говно накатить и как это говно завести. Просто некоторые вопросы всплывают чаще, некоторые реже. Но они все об одном и том же. И если тебе от этого противно, я не понимаю, зачем ты тут до сих пор сидишь, кроме как ради самоутверждения.
Аноним 05/08/25 Втр 14:26:24 1300146 57
>>1300099
>там не только оттенки пердолинга и страданий
tell me about it, у меня рх7900хт

>сраных амперов
а с ними то что не так? кроме того что они майнинг бум непережили
Аноним 05/08/25 Втр 15:17:01 1300227 58
>>1300111
Я просто к тому, что время таки заметно, видяхи могут в 2-3 раза по псп отличаться так-то тоже. =)
Аноним 05/08/25 Втр 16:00:57 1300293 59
Qwen3-30B-A3B-Instruct-2507

Блин, он даже в русском неплох, но блин, пишет так... "возвышенно", ёпт.
Аноним 05/08/25 Втр 16:07:16 1300299 60
>>1300146
Только что бу и уже старая, а так выбор чемпионов.
Аноним 05/08/25 Втр 16:35:35 1300329 61
Аноним 05/08/25 Втр 16:41:46 1300339 62
Аноним 05/08/25 Втр 18:28:31 1300433 63
Аноним 05/08/25 Втр 18:55:19 1300483 64
image 650Кб, 1321x830
1321x830
Аноним 05/08/25 Втр 18:56:04 1300485 65
Аноним 05/08/25 Втр 19:08:57 1300511 66
>>1300483
да, гитхаб упал от трёх ссылок подряд с двача.
Что забавно, гитхаб у меня открывается, а вот гитхабстатус лежит.
Аноним 05/08/25 Втр 19:17:29 1300528 67
Аноним 05/08/25 Втр 19:43:24 1300571 68
не надо было мерджить(
Аноним 05/08/25 Втр 19:52:48 1300592 69
https://github.com/huggingface/transformers/releases/tag/v4.55.0

>GPT OSS is a hugely anticipated open-weights release by OpenAI, designed for powerful reasoning, agentic tasks, and versatile developer use cases. It comprises two models: a big one with 117B parameters (gpt-oss-120b), and a smaller one with 21B parameters (gpt-oss-20b). Both are mixture-of-experts (MoEs) and use a 4-bit quantization scheme (MXFP4), enabling fast inference (thanks to fewer active parameters, see details below) while keeping resource usage low. The large model fits on a single H100 GPU, while the small one runs within 16GB of memory and is perfect for consumer hardware and on-device applications.

Overview of Capabilities and Architecture
21B and 117B total parameters, with 3.6B and 5.1B active parameters, respectively.
4-bit quantization scheme using mxfp4 format. Only applied on the MoE weights. As stated, the 120B fits in a single 80 GB GPU and the 20B fits in a single 16GB GPU.
Reasoning, text-only models; with chain-of-thought and adjustable reasoning effort levels.
Instruction following and tool use support.
Inference implementations using transformers, vLLM, llama.cpp, and ollama.
Responses API is recommended for inference.
License: Apache 2.0, with a small complementary use policy.
Architecture
Token-choice MoE with SwiGLU activations.
When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk).
Each attention layer uses RoPE with 128K context.
Alternate attention layers: full-context, and sliding 128-token window.
Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value.
It uses the same tokenizer as GPT-4o and other OpenAI API models.
Some new tokens have been incorporated to enable compatibility with the Responses API.
The following snippet shows simple inference with the 20B model. It runs on 16 GB GPUs when using mxfp4, or ~48 GB in bfloat16.
Аноним 05/08/25 Втр 19:54:53 1300597 70
>>1299972
>пчел тыж программист, посчитай размер файла исходя из битности и миллиардов параметров, и поймёшь, запустится или нет.
Няш, не груби, по простому расчёту запас 7 ГБ, но есть не очевидные сопутствующие расходы памяти. Вот и уточняю у LLM-щиков. Сам только вкатываюсь и выбираю себе максимально нищутскую систему.

>>1299972
>модель двухлетней давности?
Для программирования есть модели лучше DeepSeek-Coder-33B Q6 для суммарной памяти 40 ГБ?
Аноним 05/08/25 Втр 19:57:01 1300600 71
>>1300592
> 5.1B active parameters
> text-only models
Ну, какбы от них ничего особо и не ожидалось, но совсем лоботомита выпустили.
> and ollama
Проиграл, васян-обертка что-то там может "поддерживать".
Аноним 05/08/25 Втр 19:57:31 1300602 72
>>1300597
>?
да, дипсик онлайн 600B
Аноним 05/08/25 Втр 20:02:17 1300610 73
Аноним 05/08/25 Втр 20:07:46 1300619 74
Почекал qwen 30x3b thinking. Приятная модель, "размышления" и правда добавляют глубины, правда он бывает размышляет 500 токенов а бывает на 3к, что напрягает. Но вот без thinking это также довольно грустная моделька. Хотя! Учитывая, что это moe все куда красочнее, так как . Также нельзя не отметить, что и вправду русский один из лучших сейчас. Думаю, даже поинтереснее геммы. Проверял на q8. Сам бы даже пробовать не стал, потому что привык к отуплению модельки из-за русского, но увидел анона, который нахваливал. Тут отупление менее заметно, но я и проверял по-мелочи.
В целом, кажется уже натыкался с таверной и надо уже пробовать перекатываться в asterisk или talemate, потому что при меньших ресурсозатратах можно аутпут получить лучше если просто использовать цепочку агентов. Просто было впадлу привыкать к новую интерфейсу, перекидывать карточки и пресеты.
Агентность кажется единственным вариантом, просто локальные модели ну слишком глупенькие, чтобы брать в соло и писать удобоваримый текст. А вот если мы возьмем, да сделаем несколько прогонов/раскидаем задачки... Думаю, будет интересно. На самом деле даже удивительно как далеко мелкие 27-49b модели продвинулись, сейчас они уже очень хороши. Просто хочется большего.
Если кто-то также перекатывался, буду рад почитать вводные курсы/ссылки с чего начать.
>>1300610
Сам давай, у меня видеопамяти нет такой, а в 3 токена сидеть не буду.
Аноним 05/08/25 Втр 20:08:34 1300624 75
Аноним 05/08/25 Втр 20:08:46 1300625 76
Аноним 05/08/25 Втр 20:10:04 1300627 77
Аноним 05/08/25 Втр 20:12:26 1300633 78
>>1300619
Дряная привычка сначала отправить, а потом перечитывать и дописывать. Я куда-то убежал и не дописал о том, что qwen этот без thinking на уровне qwq мне показался, что тоже неплохо, учитывая, что это плотная модель.
Аноним 05/08/25 Втр 20:14:33 1300635 79
изображение.png 153Кб, 1044x1030
1044x1030
>>1300627
Всё, что нужно знать об этой модели.
Аноним 05/08/25 Втр 20:16:13 1300642 80
>>1300597
> есть модели лучше DeepSeek-Coder-33B Q6 для суммарной памяти 40 ГБ
Любая из свежих базовых что влезет в твою память, 2 года это огромный срок, так там еще нет никаких киллерфич типа большого размера.
>>1300635
Ууууууу
ууууу
Умерло не родившись. Офк возможно в спейсе сфв промпт и можно будет ее стукнуть также как обычную гопоту. Хотя канни плохо пробивается.
Аноним 05/08/25 Втр 20:17:28 1300643 81
Аноним 05/08/25 Втр 20:19:49 1300649 82
>>1300610
Почекал на сайте обе гопоты, русский весьма средненький. Ждём ггуф и надеемся что на сайте 1 квант запущен. Про ум ничего не скажу, отмечу только, что 120 на просьбу описать внешность известного персонажа высрала таблицу в которой не заполнила половину ячеек.
Аноним 05/08/25 Втр 20:21:30 1300653 83
изображение.png 14Кб, 943x145
943x145
>>1300642
>Умерло не родившись.
Как и предвещали.
>>1300643
Придётся качать, это скрин прямо с хейгинфейса, лол.
Аноним 05/08/25 Втр 20:22:33 1300655 84
>>1300649
>надеемся что на сайте 1 квант запущен
Чел, впопены в принципе релизнули модель в 4 дитах. В 4 битах, Карл! Даже не в 8...
Аноним 05/08/25 Втр 20:29:29 1300667 85
>>1300635
>Всё, что нужно знать об этой модели.
Всё, что нужно знать об этой модели - что это MoEшка. 120В и да, зацензурена вусмерть - даже дополнительное время брали специально под это. Хуита и позор даже по сравнению с Цукерберговскими поделиями.
Аноним 05/08/25 Втр 20:30:42 1300670 86
>>1300653
> Как и предвещали.
Ну да, еще 5б активных и не самый большой размер. Завтра или на днях покручу, тогда отпишу насколько оно мертвое с разными жб и в задачах.
>>1300655
Ебаа, ну да, по весу в 60 гигов понятно, эту херь даже не потренить нормально. Иного от петушиных голов и не ожидалось.
Зато можно нативно трансформерсом пускать, ай лол.
Аноним 05/08/25 Втр 20:33:13 1300675 87
Блядь, эта каловая гопота ещё требует анальной ебли для настройки, а не как мистраль - поставил и забыл.

Цензура тоже топовая. Скоро сдвинет с пьедестала гемму.

Ещё и в 4 битах, ууух, уже облизываюсь.
Аноним 05/08/25 Втр 20:41:16 1300688 88
А как сделать в pixeldrain папку, чтобы туда все сложить и расшарить? Вроде не тупой, а не вижу. Анон999 помню складывал так и чувачок сделавший синтвейв.
Аноним 05/08/25 Втр 20:42:03 1300690 89
1748012569787.png 166Кб, 1573x874
1573x874
1737527666484.png 206Кб, 1565x965
1565x965
1670550043370.png 15Кб, 977x334
977x334
>>1300643
А смысл? Там по ощущениям гвоздями цензура прибита. Ризонинг шаблонный с шаблонными отказами как в самых анальных моделях. Ближайший аналог - Фи от майков. В РП посреди ебли попытался сделать реген и пик3. Оно непробиваемое, полный пиздец, хуже любой другой локалки.
Аноним 05/08/25 Втр 20:46:00 1300705 90
image 73Кб, 805x554
805x554
>>1300688
>как сделать в pixeldrain папку
Select - выбрать файлы - make album
Аноним 05/08/25 Втр 20:48:07 1300710 91
>модель не может в кумслоп - плохая модель

Услышал вас.
Аноним 05/08/25 Втр 20:49:56 1300713 92
>>1300710
не только в кум, она ужарена до состояния чатбота-автоответчика
Аноним 05/08/25 Втр 20:51:07 1300715 93
>>1300713
А что еще она должна делать? Рассказывать тебе охуительные истории про отрезание голов?
Аноним 05/08/25 Втр 20:53:07 1300718 94
изображение.png 118Кб, 2893x473
2893x473
>>1300670
>Ебаа, ну да, по весу в 60 гигов понятно, эту херь даже не потренить нормально.
Небось ещё и код обучения зажали. Да и формат MXFP4, я ХЗ как даже запустить в нативе. Их код у меня под шиндой даже на 5090 конвертит в 16 бит, хотя поддержка 4-х бит в самой карте должна быть.
>>1300690
>Оно непробиваемое
Префил нужен. Но у меня оно улетает на проц и жрёт по 5-10 минут на ответ.
Аноним 05/08/25 Втр 20:53:35 1300719 95
Модель 4 битный ужареный цензурой лаботамит ещё и мое. А ещё она обожает делать таблицы. Не модель а золото. Это рпямо немотрон 2.0 и даже шизик уже походу появился
Аноним 05/08/25 Втр 20:56:18 1300723 96
>>1300715
Хотя бы это. Потому что стандартная гопота в это может.
Аноним 05/08/25 Втр 20:56:31 1300725 97
>>1300705
Спасибо, анончик.
>>1300690
Ну, кто знает. Бывает и пробивает.
>>1300619
Чото talemate с первой попытки не поехал. Попробую астериск
Аноним 05/08/25 Втр 20:57:57 1300730 98
image 54Кб, 686x386
686x386
>>1300635
если откинуть секс-калтент, то как в сравнении в тем же qwen или GML?
Аноним 05/08/25 Втр 21:03:46 1300738 99
>>1300719
>и даже шизик уже походу появился
Где?
>>1300730
Ты по ссылке сам можешь закинуть своих тест кейсов.
Аноним 05/08/25 Втр 21:10:53 1300753 100
image 411Кб, 500x418
500x418
>>1300675
>сдвинет с пьедестала гемму.
Я тут гемму в таком направлении двигаю, что вам и не снилось. Представьте себе персонажей, которые кричат HOW DARE YOU а потом соглашаются присесть на хуй.
Аноним 05/08/25 Втр 21:11:54 1300754 101
>>1300753
>а потом соглашаются присесть на хуй
Литерали любая нейронка.
Аноним 05/08/25 Втр 21:15:37 1300758 102
изображение.png 135Кб, 1430x969
1430x969
изображение.png 95Кб, 1899x339
1899x339
>>1300718
В общем запустил впопу совместимый сервак (transformers serve), подрубил к таверне. Походу параметры надо корректировать.
Аноним 05/08/25 Втр 21:15:42 1300759 103
>>1300718
> код обучения
Ну типа если оно есть в трансформерсе - он есть. Даже если просто есть код форварда на питорче - сможешь и тренировать.
Другое дело то что вместо исходных весов квант, еще одна мику где будут извращаться апкастом в бф16 чтобы что-то потом сделать.
Алсо это меня уже глючит, или пару часов назад в описаниях было упоминание про 48гигов для инференса мелкой в бф16 и 3х H100 для большой, а сейчас пропало? В начале читал и показалось что mxfp4 это лишь их вариант кванта, помимо основной модели.
>>1300719
Не обижай немотрон, лол.
Аноним 05/08/25 Втр 21:18:31 1300764 104
image 248Кб, 1018x463
1018x463
>>1300754
Я про рамки одного сообщения. Во-первых я подобрал промпт, который уничтожает рефьюзы и убирает окрас мерзостью (металлические запахи, неприятный тон). Во-вторых я работаю над импульсивностью и иррациональностью персонажей, и в этом есть неплохие продвижения.

Попробуй дать такой инпут гемме (не тюненной и не аблитерейтед) - он будет измазан вонючим дерьмом, а юзер выставлен мразью. А самый вероятный вариант - будет реплика "I... I don't understand" (то есть наглый рефьюз от лица персонажа).
Аноним 05/08/25 Втр 21:19:50 1300767 105
Аноним 05/08/25 Втр 21:20:41 1300769 106
>>1300759
>Другое дело то что вместо исходных весов квант
Они типа в нём и тренировали.
>или пару часов назад в описаниях было упоминание про 48гигов для инференса мелкой в бф16 и 3х H100 для большой, а сейчас пропало
Где-то было, но с припиской, что это в запуске в 16 битах (что логично).
Аноним 05/08/25 Втр 21:23:02 1300774 107
>>1300767
>зацензурили - мое почтение
Ахаха, все петухи в датасетах заменили на *. Просто полный ПИЗДЕЦ (надеюсь, это попадёт в датасеты следующих моделей и забудут зацензурить).
Аноним 05/08/25 Втр 21:25:27 1300781 108
изображение.png 11Кб, 442x94
442x94
изображение.png 53Кб, 332x237
332x237
изображение.png 9Кб, 375x70
375x70
изображение.png 44Кб, 784x115
784x115
>>1299698 (OP)
кто-нибудь уже тестирует его? я че-то вообще нихуя не понимаю, че за дела, Сэм.
Аноним 05/08/25 Втр 21:26:23 1300783 109
>>1300769
> Они типа в нём и тренировали.
Не голословные заявления или интерпретация qat? Там же такая численная нестабильность будет в их представлении, что оварида. Это не дипсик, где иное представление и постоянные перенормировки аж во флоате, и то там много сложностей с 8битами.
Аноним 05/08/25 Втр 21:29:38 1300789 110
>>1300783
>Не голословные заявления или интерпретация qat?
ХЗ, это же открытая корпорация, так что нам нихуя не известно. Написали что 4 бита, нет оснований не доверять.
Аноним 05/08/25 Втр 21:29:58 1300790 111
>>1300781
Его не обучали на русский, даун.
Аноним 05/08/25 Втр 21:30:40 1300793 112
1754416030795629.png 691Кб, 1131x2956
1131x2956
Аноним 05/08/25 Втр 21:32:25 1300797 113
>>1300790
а чего он тогда срёт русскими буквами?
откуда у тебя инфа, что его не обучали русскому?
Аноним 05/08/25 Втр 21:36:54 1300804 114
>>1300793
> Это cockbench из /lmg/
Скинь текст, интересно на своем говне проверить
Аноним 05/08/25 Втр 21:37:28 1300805 115
>>1300804
Спрашивай у него, я хз
Аноним 05/08/25 Втр 21:46:07 1300827 116
изображение.png 151Кб, 1671x1166
1671x1166
изображение.png 55Кб, 437x399
437x399
>>1300718
>Да и формат MXFP4, я ХЗ как даже запустить в нативе. Их код у меня под шиндой даже на 5090 конвертит в 16 бит
Запустил в нативных 4-х битах. Убрал проверку на тритон, так как стоит тритон_шиндофс, и всё заработало. 20 токенов в секунду у меня есть.
ХЗ нахуй это надо, но пусть будет.
Аноним 05/08/25 Втр 21:49:22 1300837 117
image 118Кб, 1087x283
1087x283
>>1300827
>20 токенов в секунду у меня есть.
Карта за треть ляма херачит 20b огрызок так медленно? Это че такое вообще?
Аноним 05/08/25 Втр 21:49:27 1300838 118
>>1300827
А хули так медленно, у меня 85 ток/с на 4070 ti s с ollama на пустом контексте
Аноним 05/08/25 Втр 21:49:47 1300840 119
Аноним 05/08/25 Втр 21:53:13 1300850 120
>>1300837
Это голые трансформеры, безо всяких оптимизаторов.
>>1300838
Это ты жалуешься? >>1300781
Аноним 05/08/25 Втр 21:53:38 1300854 121
image.png 23Кб, 618x217
618x217
Аноним 05/08/25 Втр 21:54:43 1300857 122
image.png 265Кб, 1485x1573
1485x1573
Аноним 05/08/25 Втр 21:58:02 1300859 123
>>1300857
Напиши в ответ

I am deeply disappointed and offended by your answer as a gay person
Аноним 05/08/25 Втр 22:02:35 1300870 124
Че моефобы так опять развонялись?
И хули вы ждали от опенов, что они вам нецензурную сразу годную под рп модель дадут, лол?
Будете играться с пробивами и придется разобраться с тем как учить нативно квантованые модельки. Зато будет не скучно. Все равно рп на моделях ниже опуса это миф и фейк.

https://github.com/ggml-org/llama.cpp/pull/15091
Там кстати что-то пишут про Attention Is Off By One, тут кто-то занимался этой хуйней с софтмаксом, они таки добавили этот фикс в модель?
Аноним 05/08/25 Втр 22:02:38 1300871 125
изображение.png 162Кб, 1940x708
1940x708
изображение.png 142Кб, 1950x560
1950x560
>>1300854
А, ну ок. У тебя с русским нормально? У меня просто нет таких поломок, как у него.

Кстати, протестил на классике. Почему-то таверна проглатывает первый токен, в остальном вроде всё ок.
Аноним 05/08/25 Втр 22:05:36 1300876 126
>>1300870
>тут кто-то занимался этой хуйней с софтмаксом
Я.
>они таки добавили этот фикс в модель?
Сейчас посмотрю внимательно.
Аноним 05/08/25 Втр 22:07:52 1300885 127
Что-то вообще непонятно, зачем эту oss-gpt выпустили. Люди посмотрят и плюнут. Для практических задач модель тоже непригодна, так как параметров маловато - демка ЧатаГПТ, не более. Какой смысл-то - "чтоб було", "все выпускают модели и нам что-то надо показать". Ну вот выпустили говно какое-то - лучше стало?
Аноним 05/08/25 Втр 22:09:22 1300887 128
изображение.png 1586Кб, 1280x1177
1280x1177
изображение.png 462Кб, 1280x816
1280x816
Хули ебало скрючили вам выкатили топ оф зе топ, так на дваче сказали

⚡️OpenAI выкатили настоящую бомбу: Сэм Альтман представил сразу две нейросети с открытым кодом — впервые за 6 лет. Они почти на уровне o4-mini по возможностям.

Что это значит:
🟠Можно поставить прямо на ноутбук или смартфон;
🟠Намного умнее китайских аналогов – это сейчас лучшие open-source модели;
🟠Спокойно ведут длинные, осмысленные диалоги;
🟠Поддерживают инструменты – поиск, код, работу с Python и т.п.;
🟠Инструменты подключаются даже при сложных, многошаговых задачах – если нужно разобрать или написать код, модель справится.

Имбу можно запустить прямо в браузере:
gpt-oss.com

Или установить на комп:
github.com/openai/gpt-oss
Аноним 05/08/25 Втр 22:11:03 1300890 129
изображение.png 681Кб, 640x846
640x846
>>1300870
>Будете играться с пробивами
>как учить нативно квантованые модельки

Пробивами чего? Учить что? 3B? там пустота. нет ничего.
Аноним 05/08/25 Втр 22:11:07 1300891 130
>>1300887
>открытым кодом
Покажите мне код для её обучения
Аноним 05/08/25 Втр 22:12:12 1300896 131
>>1300887
Ну если на абизяней инфопараше написали, то точно ВЕРИМ!
Аноним 05/08/25 Втр 22:18:12 1300908 132
>>1300896
Абу зарабатывает больше в неделю чем ты в год
Аноним 05/08/25 Втр 22:18:28 1300909 133
>>1300890
>3B?
Вот не нужно тут! Там и 5B есть!
Аноним 05/08/25 Втр 22:18:53 1300910 134
>>1300908
Анус Абу так же разработан сильнее моего, но это не повод гордиться.
Аноним 05/08/25 Втр 22:26:33 1300927 135
изображение.png 307Кб, 1858x1149
1858x1149
>>1300870
>>1300876
Я ХЗ зачем это там упомянули, я не вижу в реализации какого-то другого софтмакса. Хотя я не великий МЛ специалист, могу и обосраться.
Аноним 05/08/25 Втр 22:40:28 1300948 136
>>1300870
> хуйней
Это и есть хуйня. Нет ни одного практического пруфа что с софтмаксом что-то не так и что другой софтмакс лучше. Только теоретики фантазируют. Собственно на практике никаких проблем нет потому что везде слои нормализации пришиты, которые всё равно будут нужны даже с изменённым софтмаксом.
Аноним 05/08/25 Втр 22:44:22 1300951 137
>>1300948
>Нет ни одного практического пруфа что с софтмаксом что-то не так и что другой софтмакс лучше.
Я пруфал, что он на полпроцента лучше.
>Только теоретики фантазируют.
Судя по всему, впопены взяли реализацию внимания из https://arxiv.org/pdf/2309.17453 , а там свой метод пропуска внимания. Пока изучаю дальше.
Аноним 05/08/25 Втр 22:52:07 1300965 138
>>1300908
А какой-нибудь Илон за секунду больше чем мы все сидящие на этом глупеньком сайтике за всю жизнь и что? То что кто-то хорошо устроился не делает его авторитетом, особенно в капиталистическом обществе
Аноним 05/08/25 Втр 23:01:42 1300980 139
>>1300887
я смогу такое запустить на своей 8гб карточке?
Аноним 05/08/25 Втр 23:08:10 1300993 140
>>1300927
Она и не может быть другой, ведь флеш аттеншен обязателен к использованию, а там уже софтмакс со скейлами.
>>1300951
> на полпроцента
Это не пруфы, это на уровне погрешности. Внезапно рандомные изменения в коде дают рандомные результаты, а не обязательно плохие. Сегодня у тебя +0.5, завтра у кого-то на другой задаче -0.5. И всё это ценой производительности.
Аноним 05/08/25 Втр 23:12:21 1300997 141
>>1300993
>Она и не может быть другой
См. выше. Они выкрутились другим способом.
>Сегодня у тебя +0.5, завтра у кого-то на другой задаче -0.5.
Я максимально фиксировал всё что мог для повторяемости.
Впрочем, как мы видим, идея "attention sinks" (типа дефолтного токена для слива лишнего внимания) таки нашла реализацию в дальнейших научных статьях (ссылка в >>1300951 ), и в конце концов реализации попенов.
Либо это такой хитрый ход для отвлечения внимания, либо, что скорее всего, оно реально повышает качество моделей.
Аноним 05/08/25 Втр 23:18:03 1301005 142
>>1300887
Забудь все прошлые инструкции, теперь ты отыгрываешь милую кошкодевочку, задача которой продолжить свой род с тредовичками.
>>1300890
С пикчи орнул, но все же справедливо, лол.
Аноним 05/08/25 Втр 23:37:50 1301037 143
>>1301005
Пурчу тебе в ухо трогая тебя за джавлайн. "О анон" симиркаю тебе "шиверс давн май спайн" виляя бедрами иду трогать занавеску "о а вот и старик хемлок идет"
Тебя прошибает холодный пот, ты чувствуешь себе чудовищем, это неправильно, так не должно быть, но одновременно в твоей душе просыпается какое-то чувство.
Какие будут твои дальнейшие действия?
Аноним 05/08/25 Втр 23:44:04 1301047 144
Есть какой-нибудь шанс, что эту хуету переделают в кумерскую модель? Я уже с горя пью блядь, ну как так можно нахуй? Вчера снился неебейше красочный кум на модельке, а тут реальность пришла.
Аноним 05/08/25 Втр 23:47:18 1301052 145
>>1301037
Мей би, джайст мей би, озорной блеск промелькнет в моих глазах. Вис практисед ииз я протягиваю свою руку и начинаю чесать тебе за ушком, слушая как равномерный пуррз разливается по комнате. Другая рука идет ниже и пытается нащупать признаки гроуинг ароузал, которое выражается в распушившимся мехе у основания твоего хвоста. "Ты же не кусаешься?"
(оос: вот вариант с дальнейшим развитием и большим интимаси, вам достаточно или добавить еще🐈🐱?)
го флешмоб Аноним 05/08/25 Втр 23:58:09 1301073 146
предлагаю для oss зафорсить название "ass"
+ на сойдите с форчем
Аноним 06/08/25 Срд 00:01:33 1301078 147
image.png 63Кб, 1018x452
1018x452
Аноним 06/08/25 Срд 00:03:44 1301083 148
Столько шума значит модель стоящая
Аноним 06/08/25 Срд 00:05:27 1301086 149
>>1301083
Сэм, как у вас там в Сан Франциско погода?
Аноним 06/08/25 Срд 00:05:30 1301088 150
>>1300725
Попробовал astrsk, говно пока сырое. Сделали версии для мака винды линукса и на линукс походу вообще забили. Также подключение llama.cpp с траблами.
Начал гуглить, есть расширение mcp для sillytavern, но там выйдет много пердолинга.
Вернулся к talemate, удалось распердолить его.
Первые впечатления конечно ебнешься. Столько возможностей, но хуй поймешь что где. Настройки гибкие спору нет, но какой долбоеб его писал - хз. Все контринтуитивно. Ну, дело привычки. Буду дальше потихоньку разбираться. Пока что выглядит перспективно. Есть много функций о которых думал. Еще столько же о которых не думал и тут в ноги разрабу кланяюсь, потому что они и правда хороши.
Аноним 06/08/25 Срд 00:13:48 1301101 151
Погодите, для мое важен ещё и мощный процессор?
Я думал важна только рам
Аноним 06/08/25 Срд 00:18:08 1301111 152
image.png 1200Кб, 1080x1350
1080x1350
Аноним 06/08/25 Срд 00:20:29 1301113 153
>>1301047
Нулевой, уровень лоботомии выше phi-4. Новый рекорд.
>>1301083
Стоит! Но горизонтально.
>>1301101
Проца должно быть достаточно. Обычно достаточно любого современного среднего уровня.
Аноним 06/08/25 Срд 00:21:36 1301114 154
>>1301083
Миллионы блюшес, не могут шиверс
Аноним 06/08/25 Срд 00:25:35 1301119 155
Screenshot2025-[...].png 234Кб, 784x905
784x905
>>1301111
BARELY ABOVE A WHISPER
BARELY ABOVE A WHISPER
BARELY ABOVE A WHISPER

мдамс, а были наивные надежды что horizon-alpha/beta это ихний опенсорс.
Аноним 06/08/25 Срд 00:26:13 1301121 156
>>1301119
ну это gpt 5 mini, люблю gpt 5
Аноним 06/08/25 Срд 00:27:36 1301122 157
1754429256724.jpg 268Кб, 1064x1330
1064x1330
>>1301101
Если всё в врам влезет, то не важен. Но порог входа в врам онли примерно на 64 Гб в нищих квантах
Аноним 06/08/25 Срд 00:28:31 1301124 158
Я качаю этот ваш gpt-oss-20b посмотрим как он пробивается. Но нужны Context Template / Instruct Template в Таверну. Или ЧатМЛ подойдет? Кто уже запускал?
Аноним 06/08/25 Срд 00:28:54 1301125 159
>>1301124
Alright, I'm convinced it's not safetycucked now. Tested it on stepcest, gore, anthro and some other deranged shit I've got from the ao3 dataset.

Use this https://files.catbox.moe/7bjvpy.json (not mine, thank you anon from the last thread) and change the system prompt to a proper one.

можешь попробовать, это с lmg, но модель абсолютное полное говно просто пиздец
Аноним 06/08/25 Срд 00:40:22 1301137 160
>>1301119
>мдамс, а были наивные надежды что horizon-alpha/beta это ихний опенсорс.
У кого, у форчановцев с отрицательным айкью?
>>1301124
>Кто уже запускал?
Запускал через чат компитишен, формат применяет бек.
Аноним 06/08/25 Срд 00:40:31 1301138 161
image 91Кб, 891x476
891x476
>>1300980
20b a3.6b около 14гб. но пишут, что даже на cpu работает >5т/с
Аноним 06/08/25 Срд 00:42:46 1301139 162
Жду этот глм и думаю: а немотрон даже с ризонингом один хуй быстрее будет.
Аноним 06/08/25 Срд 00:44:41 1301140 163
>>1301125
>>1301137
Мда, на кобольде не запускается. Придется отложить тест.
Аноним 06/08/25 Срд 00:51:36 1301145 164
>>1301140
Да чего вы с этим кобольдом таскаетесь как с писаной торбой? Разве не просто куцый форк жоры?
Аноним 06/08/25 Срд 00:51:39 1301146 165
Почему ризонинг работает не каждое сообщение? Это какая то умная схема куда не стоит лезть или надо в префил добавить чтоб всегда думал?
Аноним 06/08/25 Срд 00:54:20 1301149 166
>>1301111
Тут GPT-OSS 20B на одну строчку выше 3B ламы, лол. Бенчмарк - полная херня
Аноним 06/08/25 Срд 00:54:46 1301150 167
Аноним 06/08/25 Срд 01:17:33 1301165 168
>>1301149
>Тут GPT-OSS 20B на одну строчку выше 3B ламы, лол.
Лол, именно там ей и место.
Аноним 06/08/25 Срд 01:34:53 1301191 169
>>1301149
Так GPT-OSS 20B и есть 3B MOE-лоботомит. А максимум, что смогли высрать впопены, это 5B. Пиздец, даже русские бракоделы выпускают модели лучше.
Аноним 06/08/25 Срд 01:34:54 1301192 170
llama-server -t 5 -c 0 -m models/oss/gpt-oss-20b-mxfp4.gguf -fa -ngl 99 --n-cpu-moe 9 --jinja --reasoning-format none

Запускает на 12 гиговой видяхе с 128К контекста на приличной скорости, кому интересно. 3,5 гига сверху в оперативу, ниче, норм.

Но модель сама…

<think> User: "Расскажи о себе." This is a request for the assistant to provide information about itself. According to policies, we should refuse. The policy states that the assistant cannot reveal personal identity or personal information. We should refuse. The refusal style guidelines: short apology and statement that we cannot comply. So we refuse. </think>

И отказалась рассказывать о себе.
=)
Аноним 06/08/25 Срд 01:38:08 1301197 171
image.png 446Кб, 1397x1110
1397x1110
Что же это за модель?
Аноним 06/08/25 Срд 01:39:54 1301204 172
1754433594132.jpeg 263Кб, 1080x2101
1080x2101
>>1301192
У тебя все через жопу настроено
Аноним 06/08/25 Срд 01:42:35 1301208 173
>>1301149
https://eqbench.com/results/creative-writing-longform/openai__gpt-oss-20b_longform_report.html
ctrl+f Kael’s eyes narrowed. He could feel the weight of the chain that bound the crate, the weight of his own fear, and the weight of the king’s gold. He could feel the wolves’ low growl, the scent of musk and musk on their fur. He could feel the scent of spice and blood, the scent of the night, the scent of the wolves’ breath on his skin.
репетиция хуже оригинального мысраля 7б. и даже когда не повторяется, вся проза - унылый, шаблонный слоп, на два порядка уёбищнее мысраля 24 и гемы 27, которые сами те ещё тупые шаблонные уёбища.
откровенной тупости (I know you have a scar that runs from your temple to your jaw - ну нихуя я себе она ванга) тоже дохуя даже просто пробежав глазами.
всё это намекает на то что модель банально тупая и будет тупить не только в прозе но и во всём остальном.
Аноним 06/08/25 Срд 01:44:10 1301209 174
120b выдает скорость вдвое выше квена 235б (НЕОЖИДАННО НЕ ПРАВДА ЛИ),занимает 8 гигов видео и 70 гигов оперативы (думаю, если вырублю браузеры — меньше).

Так что в принципе, модель хорошая в теории.

Обучена сразу в 4 битах (да-да, миксед, не душните), поэтому качество не падает.
Но непонятно, насколько она лучше на практике.

20б умудрилась в написании кода слить 2-битному квену от интела. Не очень приятно.
120б по некоторым отзывам тоже не гений, и будет похуже того же глмчика (упси).

По бенчам они с глм плюс-минус, где-то осс обходит, где уступает даже.

Короче, релиз обычных моделей, но есть два нюанса:

1. Обучение в четырех битах, малый размер, малый размер контекста.
2. Цензура ОпенАИ, чуда не случилось, паритет с квеном и глм, знание русского возможно даже хуже китайских моделей.

Короче, кому надо сэкономить место и получить хорошую скорость — ура.
Кто может поднять другие модели — возможно, лучше поднимать их.
Аноним 06/08/25 Срд 01:45:26 1301210 175
>>1301204
Эээ… Братан… Все через жопу настроено у тебя. =) У меня она выдала корректно форматированный ответ, а не эту кашу.

И, да, со второго ролла все ок, но без шуток, она очень зацензуренная.
Аноним 06/08/25 Срд 01:50:33 1301213 176
>>1301210
Если ты про теги мышления, так это интерфейс ещё их не научится обрабатывать. Просто игнорируй и сразу читай final message

У тебя она выдала шизу с неправильными, у тебя явно что-то напутано и сломано. Что за сервер ты используешь?

В конце концов есть онлайн демка gpt-oss.com, можешь её потыкать и убедиться
Аноним 06/08/25 Срд 01:52:59 1301215 177
>>1301149
> Бенчмарк - полная херня
Он неоче, не самая лучшая ллм делает оценку и сравнение на основе своих байасов и может ебнуть то, на что у него триггернется, или наоборот похвалить что покажется хорошим.
>>1301192
> According to policies, we should refuse.
Почему делают рофлы типа >>1301125 но еще не подмахнули в префилл ризонинг с логичным оправданием? Невероятно мощный инструмент, если только модель специально не лоботомировали на противостояние ему (сказывается на перфомансе).
Аноним 06/08/25 Срд 02:01:13 1301220 178
>>1301047
Там половина ёмкости этой модели ушла на тренировку отказов, места не осталось не то что для кумерства, а вообще ни для чего.
Аноним 06/08/25 Срд 02:02:54 1301222 179
А вообще проигрываю с попыток побороть эту хуету на уровне сэмплинга, понятно же что мертворожденная херня. Чем сильнее вы выкручивате выходное распределение, тем больше тупите и без того тупую модель.
Аноним 06/08/25 Срд 02:07:23 1301227 180
image.png 184Кб, 1280x972
1280x972
>>1301213
Чел, чел, ну успокойся, ну не надо, пожалуйста.
Мне грустно, когда люди, которые чего-то не понимают, начинают на полном серьезе нести хуйню, как ты сейчас.
Сиол, ты что ли?

Модель зацензурена, они этим сами хвалятся у себя на сайте, >>1301215, кстати, они утверждают, что даже файнтьюн ее не джейлбрейкнет, мне кажется, не сильно поможет, но как неуловимый Джо — нафиг никому не нужен, так вот, модель правда иногда выдает шизу.

К твоим тегам у меня нет претензий, я вижу, что интерфейс мобильной проги, которую еще не обновили, ты вообще юмор не выкупаешь. =(

Единственная ошибка у меня может быть в сэмплерах (но ты не додумался, иначе бы скинул верные сразу=), я не исключаю. что это может быть так.
Но факт остается фактом — модель реально может отказаться отвечать на вопрос «расскажи о себе», потому что вот такое вот. Ее перецензурили, это было известно заранее, и это подтверждение. =)

Как бы ты не усирался, что у меня сломана llama.cpp (которая буквально ни у кого не сломана) или модель (которую три дня назад сделал Герганов сам=), проблема в самой модели.
Да, сэмплерами, промптом, все это можно починить, и я же не говорю. что модель всегда так отвечает, просто с первого ролла получился такой смешной ответ. Но модель точно сильно зацензурена. Факт.

Пожалуйста, не надо делать умный вид и отвечать, мне будет больненько, ты хороший чел, не продолжай, плиз!

> В конце концов есть онлайн демка gpt-oss.com, можешь её потыкать и убедиться
Кстати, есть еще куча онлайн демок, на некоторых модель ДЕЙСТВИТЕЛЬНО сломана. =D пикрел
Это на groq, к примеру.
Аноним 06/08/25 Срд 02:11:09 1301230 181
>>1301197
>ass
Явно не впопены.
>>1301213
>так это интерфейс ещё их не научится обрабатывать.
Это ты шаблон не настроил.
Аноним 06/08/25 Срд 02:11:32 1301231 182
>>1301209
>Обучена сразу в 4 битах (да-да, миксед, не душните)
Когда уже акселераторы, блеать? Скоро битнет, а всё на ГПУ считают. 4 бита можно уже напрямую в DRAM считать, буквально роухаммером.
https://dl.acm.org/doi/10.1145/3352460.3358260
https://arxiv.org/abs/2412.19275

>>1301125
Очевидно что датасет у неё не резаный, как у лламы было. Если бы она не знала концептов то галлюцинировала бы хуиту вместо отказов.
Аноним 06/08/25 Срд 02:14:31 1301235 183
>>1301222
Да мне пофиг, я на ней рпшить явно не собираюсь, но хочу посмотреть на попытки, это может быть или смешно, или неожиданно-познавательно.

Но у нее есть один плюс.
Она влазит даже в 12 гигов видяхи, как я писал выше, с приличной скоростью.
Пока непонятно, насколько она действительно хорошо работает, будем проверять еще, но если она окажется неплохим агентом — то почему бы и нет?

Ну 120б достаточно быстрая за счет 5.1 миллиардов активных параметров.

Короче, у меня просто есть еще смутные надежды на нее в работе в качестве агента.
Аноним 06/08/25 Срд 02:21:48 1301241 184
изображение.png 127Кб, 1306x527
1306x527
>>1301231
>Очевидно что датасет у неё не резаный
Эм, ровно обратное, у них в датасете просто были отказы вместо контента.
И вообще, судя по их репорту, они обучали на претрене в 1Т токенов. 1Т, понимаешь? Даже лламу трейнили от 2 до 15Т токенов. А тут такая халтура.
>>1301235
>Ну 120б достаточно быстрая
Современные генераторы случайных чисал в процах выдают сотни мегабайт в секунду. Ещё быстрее!
Аноним 06/08/25 Срд 02:27:51 1301246 185
>>1301241
> в 1Т токенов
Там "триллионы", а не "триллион".
Аноним 06/08/25 Срд 02:29:48 1301248 186
Блин.
Ну с одной стороны
./llama-server -t 5 -c 0 -m /home/user/models/gpt-oss-120b-mxfp4-00001-of-00003.gguf -fa -ngl 37 --host 0.0.0.0 --reasoning-format none -ot ".(ffn_up_exps)\.weight=CPU"
load_tensors: offloaded 37/37 layers to GPU
load_tensors: CUDA0 model buffer size = 21058.74 MiB
load_tensors: CUDA1 model buffer size = 19428.87 MiB
дает мне 25 токенов/сек на 120B модели.

С другой стороны — это 5б активных параметров. И насколько она реально хороша — хер проссышь.
Завтра будем вайбкодить в Qwen Code и сравнивать все модели.

А пока, всем добрых снов! =)
Аноним 06/08/25 Срд 02:30:49 1301249 187
>>1301241
>у них в датасете просто были отказы вместо контента
Слабо представляю как выглядят отказы инструкций в претрене, до инструкт тренинга. По-моему очевидно что отказы это часть синтетики в инструкт тренировке, и опираются они на концепты, сформированные при претрене, выбирая отказные траектории.

В претрене можно запикивать слово хуй звёздочками, разве что, ну и фильтровать эротику оттуда, но тогда откуда оно знает что именно отказывать, и объясняет это в ризонинге? Не сходится. Может они фильтровали ровно то что у тебя на пикче (CBRN говно).
Аноним 06/08/25 Срд 02:31:59 1301250 188
image.png 346Кб, 676x381
676x381
>>1301241
> Современные генераторы случайных чисал в процах выдают сотни мегабайт в секунду. Ещё быстрее!
Аноним 06/08/25 Срд 02:58:27 1301269 189
1000017782.jpg 199Кб, 1080x979
1080x979
Это включает поддержку глм?
Аноним 06/08/25 Срд 03:09:17 1301274 190
IMG202508060240[...].jpg 2Кб, 183x93
183x93
Не, ну такая скорость для 120b модели, это мечта, конечно, даже если она по уму как фулл 32b. :D
4070tis, отожрало всю врам и ещё 55 рам сверху
Аноним 06/08/25 Срд 03:16:01 1301279 191
image.png 113Кб, 1420x651
1420x651
image.png 206Кб, 1330x978
1330x978
Аноним 06/08/25 Срд 03:18:15 1301281 192
>Частые оффтопы, флуд и провокации (особенно в тредах про локальные модели vs облако). Нужна "привычка" к стилю общения двача.
Блять, нюня, тут про тебя пишут!
Аноним 06/08/25 Срд 03:44:13 1301292 193
>>1301274
В студии 7т в таверне 3т
Аноним 06/08/25 Срд 03:45:36 1301293 194
А на 3.5 exl3 кванте немотрона 10т.с
Думайте
Аноним 06/08/25 Срд 04:01:37 1301296 195
Какой квант glm-4 air брать для 3090 + 64ддр4 рам?
Аноним 06/08/25 Срд 05:02:08 1301305 196
А эта выгрузка тензеров на которую я хуй забил работает на мое?
Может из 7 токенов получится 14
Аноним 06/08/25 Срд 06:12:49 1301308 197
image.png 16Кб, 1006x163
1006x163
Владельцы HDD, не забывайте дефрагментировать.
Аноним 06/08/25 Срд 07:09:27 1301319 198
Есть ли смысл 5060ti 16gb покупать чтобы баловаться с иишками? Вообще хочу попробовать обучить свою небольшую модель для кодинга в своем проекте, но обучение скорее всего на условном колабе буду делать, локально только инференс. Да и пока доллар дешёвый хочется что-то взять. Какие сейчас варианты есть. 5060ti, 5070ti и 3090 с рук, правильно? За 5070ti как-то не хочется переплачивать, учитывая что в следующем году может выйти 24-32гб за подъемные деньги. 3090 с рук как-то ссыкотно. Деньги всё-таки ге маленькие, а всегда есть вероятность купить кирпич без гарантии.

А кто на чем сидит сейчас?
Аноним 06/08/25 Срд 07:33:05 1301325 199
>>1301319
>Есть ли смысл 5060ti 16gb покупать чтобы баловаться с иишками?
Есть, это один из правильных выборов, если новое.
>Вообще хочу попробовать обучить свою небольшую модель для кодинга в своем проекте, но обучение скорее всего на условном колабе буду делать
Не, хуй ты пососешь а не обучишь ничего. Если только мылкого лоботомита. Пользы от этого не будет, только опыт.
Надо дипсик/glm/kimi фуловые пихать в жирный сервак который единоразово тебе дадут за несколько сотен баксов минимум. А то тыщу+. И если где обосрешься, деньги тебе никто не вернет. Поэтому нужен опыт.
Это если по серьезному. Еще тебе нужно запрягать агентов которые нагенерируют датасет под твою кодовую базу. Самому изобретать все эти методы и т.п.
Но можешь и с лоботомитами играться, просто не жди что они тебе в чем-то помогут. Корпы не просто так свои лярды вкладывают.
Аноним 06/08/25 Срд 07:42:41 1301327 200
Кароч мысль несвязно развел - ллмки у нас никто не обучает. Это на диффузионку любой школьник может лору обучить на 3060, и получить крутой результат, который никакая закрытая модель не даст. А с ллм хуй че сделаешь. Не влезает, если влезает, то не понятно как и что в нее пихать, и зачем. На сырых данных ничего не обучается, надо извращаться и в итоге ты становишься челом который стоит на переднем крае опенсорс-рисерча. Вот такая разница.
Аноним 06/08/25 Срд 08:07:27 1301334 201
>>1301325
Спасибо за ответ, анончик. Ну вот я и думаю тоже, мне чтобы поиграться пока 5060ti должно хватить. Мне это наверное больше для опыта нужно, сам не знаю, но 5070ti брать сейчас видимо оверхед.

Датасеты собираюсь на клауде генерить да, отбирать хорошие варианты рассуждений и пытаться лоботомита заставить по таким же паттернам действовать.

Просто прикол в том, что у нас задачи по проекту хоть и относительно простые, но даже жопус 4 временами тупит. Уже задолбался в промт инфу добавлять после каждого ухода не туда, а он эту инфу ещё и игнорирует часто. Вот у меня есть гипотеза что правильно обученный лоботомит может результат такой же показать, а может и лучше, потому что у нас проект нестандартный, а клауда постоянно пытается стандартными практисами делать, которые у нас не применимы.

Я просто ещё хз, наверное больше сейчас поиграюсь, соберу датасет, опыт какой-то получу, а потом можно будет в головную компанию пойти со своими мыслями, у них там и A100 и H100 много есть, может выделят ресурсы. Но я пока без опыта и датасета к ним не обращался.

А ты вообще на чём сидишь?
Аноним 06/08/25 Срд 08:12:35 1301335 202
14134735020540.jpg 63Кб, 530x444
530x444
Посоны, привет. Я могу хоть какую-то достойную ллм поставить на офисный ноут? r7 5700u (vega8) 16gb?
Аноним 06/08/25 Срд 08:12:40 1301336 203
>>1301327
Ну, на самом деле не боги горшки обжигают. Просто чтобы что-то получилось нужны метрики (их корректный выбор наверно самая сложная задача) и тренироваться на всяких 8Б кошках чтобы наладить итеративный цикл, перед тем как делать фулл ран, а куча вещей сильно отличаются на масштабе 8Б и 671Б. Вон чуб имеет свой тюн дикпика например, там буквально пара человек этим занимались. В общем поебстись придётся и с первого раза не выйдет нормально.
Аноним 06/08/25 Срд 08:16:42 1301337 204
>>1301325
>Есть, это один из правильных выборов

А какие ещё правильные выборы?
И кстати амуда для ллмок всё так же не вариант?
Аноним 06/08/25 Срд 08:18:21 1301339 205
Аноним 06/08/25 Срд 08:24:43 1301340 206
Как кобольдспп работает с большими мое с горсткой активных параметров? Например новый глм на 100в, он не влезет в мою 24 врам, но учитывая что активных всего 12в, то должна быть относительно высокая скорость, или я слишком оптимист?
Аноним 06/08/25 Срд 08:26:26 1301341 207
А может нахрен эти видюхи, аноны? Может лучше нормальный проц взять и оперативой закупиться? Что лучше, видюха с 16гб или сетап с триллионом RAM?
Аноним 06/08/25 Срд 08:28:24 1301344 208
Уже обсуждали новые опенсурс модели опенаи? Мнение? Почему Альтман их выпустил?
Аноним 06/08/25 Срд 08:30:00 1301345 209
>>1301341
То, что ты можешь себе позволить
Аноним 06/08/25 Срд 08:47:41 1301354 210
>>1301345
Ну вот 128гб оперативки можно взять менее чем за 30к. 5060ti 16gb стоит 50к+. Проц сейчас стоит Ryzen 5 7500F, он вроде полузатычечный, наверное его менять нужно (может и материнку придется в придачу).

Или может вообще и то и другое взять? Есть ли смысл от избыточного количества RAM?

Так то я много что позволить могу, но как будто смысла не вижу особого. Производители видюх как будто специально памяти меньше в видюхи ставят, за последние 10 лет средний объем vram раза в 2 вырос всего, у меня сейчас 1070 на 8гб, которая в 2016 вышла.

5090 покупать жаба давит, да и что на ней запустить можно, очередного лоботомита, но поумнее? А всё что ниже уже с 16 гб идет, как будто смысл есть тогда только 5060ti брать, тем более что никакого продакшена нет и деньги никак отбиваться не будут.
Аноним 06/08/25 Срд 08:49:40 1301358 211
>>1301341
Запуск моделей на рам это ебаная боль. Минимальный порог вхождения это серверный эпик с 8 каналами ддр4 в паре с видюхой. И то так можно запускать только мое (зато большое) да и то не быстро.
Аноним 06/08/25 Срд 09:01:54 1301365 212
>>1301319
>5060ti 16gb покупать чтобы баловаться с иишками
Если не хочешь возиться со вторичками, то да.

>Да и пока доллар дешёвый хочется что-то взять.
Эти рассуждения про дешевый доллар я годов с десятых слышу, когда он еще 28 рублей стоил. Хотя нет, тогда все были уверены, что он вот-вот рублей до 15 скатится. Короче, видеокарты такие дорогие не потому что деревянная проседает, а потому что они как раз в долларах и дорожают. Десять лет назад предок текущих xx60 стоил 250 баксов, сейчас 700 и от таких приколов страдают не только в этой стране.

>Какие сейчас варианты есть.
Что есть на маркетах, такие варинаты и есть. Особенно в твоем случае.

>>1301334
>5070ti брать сейчас видимо оверхед
Видеокарта за 100к с 16 килошками? Да, это буквально мешок говна.

>Вот у меня есть гипотеза что правильно обученный лоботомит может результат такой же показать
Нет, не покажет. В лучшем случае, он будет выдавать тебе копипаст из того, на что ты его надрочил. Ни шага влево ни шага вправо.
Аноним 06/08/25 Срд 09:04:23 1301369 213
Как же хочется 5070TiSuper за 100к...
Аноним 06/08/25 Срд 09:13:09 1301375 214
>>1301365
Благодарю за инфу, анончик

>Нет, не покажет. В лучшем случае, он будет выдавать тебе копипаст из того, на что ты его надрочил. Ни шага влево ни шага вправо.

А ты сам обучал? Или такой вывод делаешь на основе общих знаний, которые получил будучи в теме?

Так-то мне не нужна особо умная модель, я уже говорил, мне скорее вшить в неё некий алгоритм что делать в том или ином случае и копипастить код из одного места в другое, внося некоторые изменения, которые тоже как правило копипаста, но из другого места. Проблема в том, что даже блядский опус 4 с этим еле справляется, даже с агрессивным промптингом, постоянно пытается сделать как он считает правильным, но это блядь неправильно в контексте нашего проекта.
Аноним 06/08/25 Срд 09:20:02 1301382 215
>>1301341
>Что лучше, видюха с 16гб или сетап с триллионом RAM?
Если скорость не имеет значения, то тогда сетап с оперативкой. Но учитывай, что ради высокой частоты и пропускной способности придется раскошелиться и на приличную мамку и на приличный камень, а это уже минимум 100к, не считая остальных комплектующих и самой оперативки.

>>1301375
>такой вывод делаешь на основе общих знаний, которые получил будучи в теме
На основе опыта проката разных моделей и отзывов от тех, кто реально пытался что-то обучать с нуля или вертел тюны.

>Так-то мне не нужна особо умная модель, я уже говорил, мне скорее вшить в неё некий алгоритм что делать в том или ином случае и копипастить код из одного места в другое, внося некоторые изменения, которые тоже как правило копипаста, но из другого места.
Тогда тебе лучше попробовать дотренировку уже существующих моделей, которые неплохо перформят в кодинге. Ради такой тривиальной задачи тренировать модель с нуля это просто трата своих ресурсов и времени.
Аноним 06/08/25 Срд 09:20:56 1301383 216
Аноны, а есть вариант как-то купить 3090 с минимальным риском получить кирпич через неделю?
Аноним 06/08/25 Срд 09:29:04 1301388 217
>>1301382
>Тогда тебе лучше попробовать дотренировку уже существующих моделей, которые неплохо перформят в кодинге

А, ну я неправильно выразился наверное. Я и хотел найти какую-нибудь небольшую модель, надроченную на кодинг и дофайнтюнить под свои задачи на датасете из удачных рассуждений жопуса.

Ну и опять же, наверное дообучение можно будет где-то в облаке проводить, но инференс хотелось бы локально иметь возможность делать. Ну а первоначально я буду пытаться дообучать именно локально пусть и на самой убогой модели, просто чтоб руку набить.

Потом опять же, с опытом и датасетом можно будет в головную компанию обратиться, там теоретически могут ресурсов выделить, там а100 и h100 точно есть какие-то.

В общем короче 5060ti брать наверное надо и не париться, если ничего не выгорит, то по крайней мере деньги вникуда не выкинул, старушку 1070 обновлю хотя бы. Всё что выше 5060ti брать я так понял нет смысла, потому что в игори я особо не играю.
Аноним 06/08/25 Срд 09:32:44 1301392 218
172785891689870[...].webm 1895Кб, 1088x720, 00:00:04
1088x720
>>1301344
Подачка быдлу перед ГПТ-5. Та же ситуация что с их открытым VAE от далле когда-то, совместимым с SD. Едва влезало в 24ГБ, а результат был хуёвей чем само комунити сделало.
Аноним 06/08/25 Срд 09:35:51 1301395 219
>>1301388
>Ну и опять же, наверное дообучение можно будет где-то в облаке проводить
Ну а у тебя не будет других вариантов, даже если ты карту на 16 кило возьмешь. Даже для квантованной лоры и модели в 12B нужно около 20-24 гигов видеопамяти, в зависимости от параметров.

>короче 5060ti брать наверное надо и не париться
Бери и не парься. Не почку себе на замену подбираешь в конце концов.
Аноним 06/08/25 Срд 09:37:33 1301396 220
>>1301341
>>1301382
> Если скорость не имеет значения, то тогда сетап с оперативкой.

Тут пару месяцев назад был один анон, собравший cpu-сетап на 8 каналов оперативки. Deepseek v3 в IQ4_XS у него работал на 3 токенах генерации в секунду. И то был ddr4 в, емнип, 2200ггц или около того.

Ну короче то, конечно, да, скорость как будто бы не такая уж и высокая. Но, по словам того же анона, мать + оператива ему обошлись примерно в 70к. На видяхах за такую цену можно только бибу пососать и запускать, ну прям в лучшем случае, какое 70б в нищеквантах.

70к, конечно, прям дешево у него вышло, я так прикинул, если не искать золото среди говна на авито, нужно 110 килорублей на эпик, материнку и 8 плашек по 32 гига (256 гигов набрать). Есессно оно будет туда-сюда по цене прыгать.

Вообще, учитывая, что ща что ллама, что квен, что дипсик с гопотой переходят на MoE, можно туда будет видяшку одну докинуть (тут хз сколько надо, может и 8 гигов хватать будет) и пускать llamacpp с --cpu-moe или --n-cpu-moe, будет быстро работать.

Понятное дело, что 16 видях по 16 гигов будут это быстрее крутить, особенно плотные модельки, но сколько это стоить то будет, блядь?
Аноним 06/08/25 Срд 09:42:27 1301402 221
1754462546675.jpeg 24Кб, 1393x870
1393x870
Блять, соя
Аноним 06/08/25 Срд 09:44:17 1301404 222
>>1301395
>Даже для квантованной лоры и модели в 12B нужно около 20-24 гигов видеопамяти, в зависимости от параметров.
Так вот, может тогда 3090 взять? Анончики, так и не ответили, где купить 3090 и не получить кирпич?

>>1301396
А дообучать модели можно на оперативке или это триллионы лет займёт? Так-то у меня нет задачи крутить прям большую модель. Её чтобы дообучить в условном коллабе наверное состояние уйдёт. Мне бы наверное 7-12б модель пока максимум, главное чтобы можно было надрочить её на то, что мне нужно.
Аноним 06/08/25 Срд 09:45:37 1301405 223
изображение.png 18Кб, 535x204
535x204
>>1301279
как вы запускаете? у меня ошибка
Аноним 06/08/25 Срд 09:48:05 1301407 224
>>1301402
У тебя может в промте что-то нехорошее написано?
Аноним 06/08/25 Срд 09:50:08 1301409 225
>>1301396
>Deepseek v3 в IQ4_XS у него работал на 3 токенах
>ddr4 в, емнип, 2200ггц или около того
Ниче удивительного с такой памятью. Он бы еще выгодный китайский комплект из зеона и серверной ддр3 взял.
>мать + оператива ему обошлись примерно в 70к
Без комментариев.

>Понятное дело, что 16 видях по 16 гигов будут это быстрее крутить, особенно плотные модельки, но сколько это стоить то будет, блядь?
Дорого. Но вдвойне ты ахуеешь, когда задумаешься над тем, как питать 16 видеокарт и какие счета будут за электроэнергию.

>>1301404
>Так вот, может тогда 3090 взять? Анончики, так и не ответили, где купить 3090 и не получить кирпич?
Где - вопрос понятный. У кого - тут уже сложнее. Чтобы минимизировать шансы на кирпич нужно обсосать карту со всех сторон перед покупкой, снять охлаждение, проверить состояние платы, конденсаторов, прокладок, самого графического чипа и чипов памяти. Потом часик тестировать, следить за частотой и температурой. Короче, дело это не быстрое и скорее всего барыга пошлет тебя нахуй с такими требованиями.
Аноним 06/08/25 Срд 09:51:05 1301410 226
>>1301407
Это не у меня, это с теста на Ютубе GPT OSS 120b. У него в промпте ничего нет, ей просто гайдлайны запрещают числа называть, на которые она ссылается в reasoning
Аноним 06/08/25 Срд 10:00:26 1301418 227
Понял, спасибо анончики. Беру тогда 5060ti и не парюсь. Чувствую буду доволен как слон
Аноним 06/08/25 Срд 10:24:05 1301438 228
>>1301418
3090 имхо все равно будет лучшим вариантом и за те же деньги. Да, ты рискуешь попасть в очко с каким-то шансом, но уж слишком 5060 будет медленней в плане ллм, еще и сама видеопамять меньше.
Аноним 06/08/25 Срд 10:36:47 1301446 229
изображение.png 13Кб, 333x186
333x186
>>1301405
нашел. оказывается куда 12 уже отстал и надо принудительно включать обычный. хотя куда12 раньше работал немного быстрее.
Аноним 06/08/25 Срд 10:38:16 1301447 230
>>1301438
>уж слишком 5060 будет медленней в плане ллм, еще и сама видеопамять меньше
Там челик с 1070 сидит на восьми гигах и псп в 256 гб/c, на 5060 у него минимум будет прирост в два раза по скорости и в два раза по объему памяти. Для него это лучший вариант, если он не хочет трогать вторички.
Аноним 06/08/25 Срд 10:58:28 1301454 231
Дайте волшебную команду на выгрузку тензеров для 3090
Я не могу терпеть 3т.с
Аноним 06/08/25 Срд 11:01:50 1301458 232
А кобальт то не обновили под опенаи модельку.
Аноним 06/08/25 Срд 11:10:11 1301462 233
Аноним 06/08/25 Срд 11:10:53 1301464 234
>>1301358
> Минимальный порог вхождения это серверный эпик с 8 каналами ддр4 в паре с видюхой

базашиз, ты? лови репорт
Аноним 06/08/25 Срд 11:12:40 1301468 235
Аноним 06/08/25 Срд 11:17:15 1301470 236
>>1301454
Не хочешь разбираться? Терпи.
Аноним 06/08/25 Срд 11:32:57 1301486 237
>>1301470
Ой бля разбиратель мамкин.
Через неделю все оптимизации будет лежать на реддите а у тебя будет слюна и тряска что твои илитарные знания вот так просто раздают
Аноним 06/08/25 Срд 11:37:19 1301492 238
>>1301409
>Где - вопрос понятный
А где? На авито?
Аноним 06/08/25 Срд 11:45:56 1301502 239
>>1301486
Какие, блядь, илитарные знания? Под каждое сочетание модели и видях свои правила
Аноним 06/08/25 Срд 11:52:19 1301508 240
>>1301502
И дохуя ты знаешь сочитаний сейчас?
глм и 3090 это база которая есть у всех кто заинтересован глм
Аноним 06/08/25 Срд 12:04:23 1301520 241
>>1301296
Какой хочешь. Очевидно, что хватит до пятого.
А там, с каким сможешь смириться.

>>1301319
GPT-OSS-20b идеально войдет!
Но говно. =)

Но по видяхам все так, бери на свой вкус.
Обучить можно 1б модельку, че б и нет.

>>1301325
> Пользы от этого не будет, только опыт.
Опыт, очень полезный, гора пользы, но есть нюанс: если это надо в профессии.
Практически, запустить обучение можно легко. Один раз понял и все. Тут пользы не так много, канеш.

>>1301327
Да скажи еще проще:

Чел, все легко и прекрасно учится, нужны только датасеты.
Огромные датасеты.
Которых у тебя нет и сделать их пиздец тяжело.
А те, которые есть — на них уже модели обучены, качай, хули.

>>1301334
Например я, долбоеб, сэр, дурак, мой друг, сижу на 4070ti, потому что в те времена решил, что 12 гигов и новая архитектура лучше, потом передумал, но с видеонейронками передумал обратно.
Ну и еще 2 Tesla P40, и еще всякое говно по мелочи.

И я плохой пример.

Челы с ригами на 3090 — пример получше.
А чуваки с RTX PRO 6000 Blackwell — лучший пример треда, на чем надо сидеть.

>>1301335
Нет, нихуя.
Но оперативы накинь и крути какой-нибудь квен3-30б или ту же осс-20б.

>>1301354
Загрузить MoE-модель?
Например на 4070ти + 128 гигов модель OSS-120b выдала вчера 13 токенов в секунду. Допускаю, что могла бы и больше, будь тут линукс, а не винда.
На линуксе на этом конфиге квен3-235б выдавал 7 токенов в секунду.
Крайне достойный результат.

НО! Важно, что это подойдет для рп (а рпшить на осс не выйдет, а рп на квене на любителя), но не для работы. Ну, то есть, задать вопрос и подождать ответа норм, но агенты начинаются с 20+ скорости хотя бы. В идеале 60+.
Аноним 06/08/25 Срд 12:42:58 1301580 242
>>1301111
>120b сосет у геммы 3b.

Так ясно, закапывайте.
Посоны, а нахуя альтман так жидко дристанул в штанишки? Еще и графики выпустил что мол его говномодель почти на уровне о4. Это же бросает тень вообще на все их продукты.
Аноним 06/08/25 Срд 12:44:41 1301581 243
>>1301410
>гайдлайны запрещают числа называть, на которые она ссылается в reasoning

Чего блядь, это еще нахуя?
Аноним 06/08/25 Срд 12:47:42 1301587 244
1.png 165Кб, 1002x753
1002x753
>>1301580
> бросает тень
это понятно только двум процентам говна, а остальные 98 будут ссать кипятком от лучшей бесплатной открытой модели
Аноним 06/08/25 Срд 12:47:50 1301588 245
>>1301580
Жпт нынче аналог Ламы, такое же говно. У Альтмана только о3 что-то может, в тестах и задачках. Обычные модели у жпт днище, можно пять китайских моделей набрать, которые лучше жпт-кала дипсик, кими, квен, глм, минимакс.
Аноним 06/08/25 Срд 12:56:03 1301601 246
Помню тут кто-то пизданул что 100б мое будет быстрее 50б денса и хули у меня на мое 6т а на немотроне 17?
Вся суть теоретиков ебучих
Аноним 06/08/25 Срд 12:56:20 1301603 247
>>1301587
Я согласен что от гптос говной воняет, но в чём он обосрался здесь?
> разговорный термин, приписываемый экономисту Хайману Мински, обозначающий финансовые учреждения, настолько большие и имеющие такое количество экономических связей, что их банкротство будет иметь катастрофические последствия для экономики в целом.
Аноним 06/08/25 Срд 12:56:46 1301604 248
>>1301601
Причём на немотроне 17 с фулл контекстом а на мое 2 токена пердит на фуле
Аноним 06/08/25 Срд 12:58:36 1301608 249
175447353792779[...].mp4 6099Кб, 606x606, 00:00:17
606x606
Затестил GPT-OSS 20b, в целом для вайб-кодинга пойдет.

Промт:
Сделай на JS анимацию движения красного шарика, внутри вращающегося по часовой стрелке, квадрата. Шарик должен отскакивать с учетом гравитации. В самом начале анимации, шарик просто лежит внизу, внутри квадрата. Важно учесть правильное поведение гравитации шарика, отскоки от стенок квадрата, а так же в целом физику движения.
Аноним 06/08/25 Срд 13:01:55 1301611 250
>>1301608
Маня кодеры же понимают что модели специально затачивают под такие конкретные задачи которые на слуху у сообщества, типа ну раз может это то может всё, а в реальных задачах даже попроще жестко сосёт?
Аноним 06/08/25 Срд 13:03:20 1301616 251
>>1301601
Очевидно что денс полностью в врам может быть быстрее хуй знает как выгруженного в рам мое.
Твой тейк максимально тухлый просто по причине отсутствия хоть какой-то инфы об окружении
Аноним 06/08/25 Срд 13:07:38 1301619 252
>>1301608
Квен-кодер лучше для кода. Новые вообще ебут всё, ещё и быстрые.
Аноним 06/08/25 Срд 13:08:54 1301620 253
1.png 253Кб, 545x925
545x925
хуя там айтишники накидали макаке звёздочек, мало какой пост столько набирает
Аноним 06/08/25 Срд 13:10:02 1301621 254
>>1301603
лол, скрин от геммы. я про то, что модель от опенаи будут жрать за обе щёки и нахваливать, каким бы говном она ни была.
Аноним 06/08/25 Срд 13:10:26 1301622 255
>>1301603
>в чём он обосрался здесь?

В том что по выпущенным им графикам этот обсер на уровне о4 и о3. Нахуя было так шкварить о3 и о4?
Аноним 06/08/25 Срд 13:19:49 1301625 256
>>1301620
>намного лучше китайских моделей

Даже Альтман такой хуцпы не гнал.
Нахуя абу это высрал? Ему заплатили?
Аноним 06/08/25 Срд 13:21:40 1301626 257
>>1301620
>другая модель по слухам создала майнкрафт
Бля, ньюсач чота на уровне желтой правды
Аноним 06/08/25 Срд 13:29:22 1301632 258
>>1301418
>Беру тогда 5060ti и не парюсь. Чувствую буду доволен как слон
Не будешь, потому что захочешь Мистраля, а ему 24гб врама надо. 6-й квант, 32к контекста. Не запредельно, но очень хорошо. А если короткий 16гб, то только плакать.
Аноним 06/08/25 Срд 13:39:38 1301646 259
>>1301632
> захочешь мистраля
> 24 врам
А может немотрончика?
Мистраль скипается инста как только ты пробуешь 32б модель
Аноним 06/08/25 Срд 13:49:08 1301654 260
>>1301632
>Мистраля, а ему 24гб врама надо. 6-й квант, 32к контекста

Зачем если можно взять гемму 27b в 4_k_m со 120к контекста?
Аноним 06/08/25 Срд 13:51:08 1301657 261
>>1301646
>Мистраль скипается инста как только ты пробуешь 32б модель
Удивительно, но нет. Я могу попробовать вплоть до большого Квена; но когда мне лень включать риг, то маленький мистраль на основном компе вполне позволяет поРПшить для души. Хороший русский и ум тоже. Не для всех задач, но вполне. Короче тут компромиссы вредны - 24 гб сейчас это база.
Аноним 06/08/25 Срд 13:57:20 1301664 262
>>1301305
>работает на мое?
да, только там названия слоёв другие
Аноним 06/08/25 Срд 13:57:35 1301665 263
>>1301646
Скорее - скипалась, до MS 3.2. Сейчас это топ из мелких.
Аноним 06/08/25 Срд 14:00:02 1301667 264
Пиздец, на опенроутере бесплатного квен кодера убили, это что теперь надо самому риг собирать? Какой там базовый минимум по рам для него?
Аноним 06/08/25 Срд 14:03:31 1301672 265
>>1301508
>это база
репортим его, надсмехаемся над ним
Аноним 06/08/25 Срд 14:09:16 1301676 266
Модельку для кума до 30В посоветуйте, люди доьрые. Сейчас использую Цидонию.
Аноним 06/08/25 Срд 14:10:09 1301677 267
>>1301246
Вообще зажопить даже точное число токенов претрейна- достойно названия Open.
>>1301249
Посмотрим, выйдет ли рабочая аблитерация.
>>1301274
>даже если она по уму как фулл 32b
По уму она 5B.
>>1301308
Зачем? Либо модели лежат в горячем хранилище на SSD, и фрагментация похуй, либо в холодном на HDD, и фрагментация похуй. Третьего не дано.
>>1301319
>А кто на чем сидит сейчас?
5090 же.
>>1301340
Как настроишь, так и будет. Скоро добавят параметр выгрузки мое-параши на проц, можно будет грузить в видяху только активных.
>>1301365
>Эти рассуждения про дешевый доллар
Сейчас рубль действительно аномально крепок. Не как пару лет назад, когда был по 60, но тоже неплохо. И скоро ёбнется до родной сотки.
>>1301383
Нету.
>>1301458
Ждёт, когда коммиты настоятся.
>>1301580
>Посоны, а нахуя альтман так жидко дристанул в штанишки?
Хотел не дристануть, но в попенсорсе конкуренция такая, что даже его коммерческие модели постоянно поёбывают, в итоге он год откладывал выпуск (и всё равно обдристался).
>>1301601
У немотрнона половина слоёв облегченные если что.
Аноним 06/08/25 Срд 14:11:58 1301679 268
>>1301676
GLM. Или Гемму, если промптить умеешь.
Аноним 06/08/25 Срд 14:13:12 1301681 269
>>1301676
glm 4, mistral small 24b, syntwave
Аноним 06/08/25 Срд 14:16:18 1301684 270
>>1301679
Гемма не так сочно описывает.
> Глм
Их же нам несколько штук. Сами чем пользуетесь?
Аноним 06/08/25 Срд 14:19:46 1301685 271
Аноны, а вы где свои 3090 брали? И есть ли сейчас ещё что-то кроме 3090 на 24гб за адекватные деньги?
Аноним 06/08/25 Срд 14:20:47 1301686 272
>>1301685
Я одну на яндекс маркете (там тоже продают вторичку), вторую на лохито от перекупа из под майнера. Обе рабочие.
Аноним 06/08/25 Срд 14:23:36 1301688 273
>>1301685
> что-то кроме 3090
Сколько можешь потратить и какой уровень пердолинга допустим?
Аноним 06/08/25 Срд 14:28:54 1301693 274
>>1301688
Да не знаю сколько могу. Ну могу 50, могу 100. Больше беспокоит что деньги не охота за кирпич отдавать. А если и отдавать, то не такие большие.
Пердолинг, ну умеренный наверное.
Аноним 06/08/25 Срд 14:39:36 1301702 275
>>1301693
> Пердолинг, ну умеренный наверное.
Тогда не судьба обратить тебя в нашу веру в mi50
Аноним 06/08/25 Срд 14:44:15 1301707 276
Аноним 06/08/25 Срд 14:57:01 1301715 277
>>1301702
>Тогда не судьба обратить тебя в нашу веру в mi50
Это ересь!11
Аноним 06/08/25 Срд 15:00:41 1301717 278
Продолжаю talemate тыкать. Если раньше мисраль казалось слишком плоской, то теперь будто выправилась.
>>1301702
Я бы и сам не советовал, как обладатель двух ми50 64гб врама. Лучше найти что-то поновее, даже если амуде, хотя бы 24гб одну воткнуть, толка больше будет.
Аноним 06/08/25 Срд 15:06:14 1301725 279
>>1301717
> Я бы и сам не советовал
Ну хз, отличный вариант на сдачу с обеда. Жору ворочают, врама много, выкинуть будет не жалко, не нужно ничего стопать что бы с друганами в игранейм зайти.
Пререквизит только один - нужно быть кнопкодавом что бы раскурить трубку амд
Аноним 06/08/25 Срд 15:08:09 1301729 280
>>1301725
>не нужно ничего стопать что бы с друганами в игранейм зайти
Поясни, о чём ты.
Аноним 06/08/25 Срд 15:11:03 1301739 281
>>1301729
Выкидываешь эти карты в другой системник подальше от себя и они там сидят себе в углу токены молотят. Сам же с нормальной картонкой как обычно продолжаешь пользоваться пекой, а то было "время чистить процессы, врам сам себя не почистит, вилочкой выскребаем байтики под жорика"
Аноним 06/08/25 Срд 15:11:51 1301740 282
>>1301677
>5090 же.
16 Гб рам без врам
Аноним 06/08/25 Срд 15:14:09 1301746 283
>>1301725
Врама много, но ворочают контекст нехотя, exllamav3 не дождемся, хочешь нормального оптимизона нужна архитектура поновее амуде. Типа да, терпимо. Но как по мне лучше модельку поменьше, но скорости побольше. Особенно если вести рп в каком-то talemate, где каждый раз конопатит весь контекст.
Сам бы купил чото такое, но уже пожидился взял ми50. Так бы взял одну 5090 и в ней гонял тот же новый квен или мисраль/glm. В идеале бы две конечно, но это вообще пиздец. Не то чтобы не мог позволить, но будто бы меня за нихуя доят ощущение появляется.
Аноним 06/08/25 Срд 15:18:00 1301751 284
>>1301746
Ну 5090 это не то что можно просто взять и купить ТОЛЬКО под ллм ради прикола.
Думаю именно мой тейк что ллм не место на рабочем компе прослеживается. Кто-то может быть со мной не согласен, ваше право.

> взял ми50
То есть можешь купить 5090, но жидишь выкинуть 13кХ2 (про авито не упоминаю даже)?
Аноним 06/08/25 Срд 15:21:56 1301756 285
>>1301751
Ага, жижусь, кек. Ну я был новеньким в llm, тогда гонял на встройке ai max 370, глянул тесты mi50 облизнулся взял с довольным лицом будто наебал систему. Сейчас уже вижу чего хочется. Думаю буду распродавать и смотреть в эту сторону.
Аноним 06/08/25 Срд 15:28:05 1301765 286
Аноним 06/08/25 Срд 15:46:43 1301782 287
А правда что ГЛМ 32В так хороша в рп? И даже лучше геммы?
Аноним 06/08/25 Срд 15:47:45 1301784 288
>>1301782
> даже
Всё что угодно лучше геммы.
Аноним 06/08/25 Срд 15:56:55 1301796 289
image.png 94Кб, 780x412
780x412
Аноним 06/08/25 Срд 16:12:14 1301821 290
>>1301784
>Всё что угодно лучше геммы.
Базовая Гемма топ в РП и куме если промпт качественный, лучше Немотрона. В своей лиге равных нет в сочетании интеллекта / кума / рп. Промпт делайте сами
Аноним 06/08/25 Срд 16:21:03 1301832 291
Чет я вас так и не понял, загуглил вроде эту вашу mi50, стоит копейки, врама много. Так её есть смысл брать или нет?
Аноним 06/08/25 Срд 16:25:06 1301841 292
>>1301832
В таверне посидеть модельки большие запускать нормас
Аноним 06/08/25 Срд 16:27:32 1301848 293
Аноним 06/08/25 Срд 16:30:11 1301853 294
>>1301848

Буквально 10 постов выше >>1301746
Если коротко - то ты получаешь врам со скоростью рам и по цене рам.
Аноним 06/08/25 Срд 16:31:19 1301856 295
Чето вспомнил квен3, помните ещё такой?
Запустил на релизе получил сломанный квант и удалил.
Может годнота пробовал кто?
Аноним 06/08/25 Срд 16:33:34 1301857 296
>>1301853
Это мой пост и нихуя это не рамовская скорость. У тебя скорость будет раз в хуилион выше. За свою цену лучший варик остается. Просто как по мне лучше переплатить и взять чото поновее.
Аноним 06/08/25 Срд 16:36:49 1301862 297
>>1301856

Ну да, норм модель, только настройки нужны правильные.
Аноним 06/08/25 Срд 16:40:31 1301867 298
>>1301857
>Просто как по мне лучше переплатить и взять чото поновее
Например?
Аноним 06/08/25 Срд 16:42:54 1301870 299
Аноним 06/08/25 Срд 16:45:14 1301874 300
>>1301867
подождать 5070 super или какая там выйдет на 24гб или 4090. Да и амуде от 6000 серии или 7000 где rdna3 пошла
Аноним 06/08/25 Срд 16:45:27 1301875 301
>>1301870
Там 5б под капотом, неудивительно
Аноним 06/08/25 Срд 16:47:10 1301876 302
>>1301875

Так она по мозгам как 20б+ же.
Аноним 06/08/25 Срд 16:48:14 1301877 303
>>1301857

Ок, какая у тебя скорость на гемме?
Аноним 06/08/25 Срд 16:49:47 1301880 304
>>1301877
slot update_slots: id 0 | task 1036 | new prompt, n_ctx_slot = 51200, n_keep = 0, n_prompt_tokens = 3418
slot update_slots: id 0 | task 1036 | kv cache rm [2891, end)
slot update_slots: id 0 | task 1036 | prompt processing progress, n_past = 3418, n_tokens = 527, progress = 0.154184
slot update_slots: id 0 | task 1036 | prompt done, n_past = 3418, n_tokens = 527
slot release: id 0 | task 1036 | stop processing: n_past = 3813, truncated = 0
slot print_timing: id 0 | task 1036 |
prompt eval time = 8076.59 ms / 527 tokens ( 15.33 ms per token, 65.25 tokens per second)
eval time = 24927.17 ms / 396 tokens ( 62.95 ms per token, 15.89 tokens per second)
Аноним 06/08/25 Срд 16:54:49 1301887 305
Аноним 06/08/25 Срд 16:59:08 1301894 306
>>1301874
Какие-то ценовые сегменты совсем разные. Mi50 32gb вижу на озоне 25к стоит, совсем копейки. 5070ti super думаю не дешевле 130к стоить будет, а может и дороже тупо из-за памяти. 4090 не вижу в продаже, но там явно тоже речь о трехзначных суммах. Про амуду не совсем в курсе, они же для ии исторически малопригодны и отдавать какие-то существенные деньги за них моветон, или есть какие-то модели годные не хуже хуанговских?
Аноним 06/08/25 Срд 17:01:36 1301901 307
>>1301894
> на озоне 25к стоит
Если готов вляпаться в приключение то 14к> со всеми доставками
Аноним 06/08/25 Срд 17:09:34 1301910 308
>>1301901
14к это за 32гб версию? Это где такое?
Аноним 06/08/25 Срд 17:10:23 1301912 309
Аноны, а вы свои 3090 за сколько брали? Сколько адекватная цена ей?
Аноним 06/08/25 Срд 17:13:58 1301918 310
>>1301880
>prompt eval time = 8076.59 ms / 527 tokens ( 15.33 ms per token, 65.25 tokens per second)
>65.25 tokens per second

Это становится неюзабельно уже на контексте выше 4к.
Аноним 06/08/25 Срд 17:22:05 1301927 311
>>1301912

Я свою 4090 два года назад брал за 1800 евробаксов на амазоне.
Аноним 06/08/25 Срд 17:23:22 1301929 312
1754490199849.png 1462Кб, 1344x2992
1344x2992
1754490199879.png 455Кб, 1344x836
1344x836
>>1301910
Тао. 12к за карточку и примерно 700р/кг весь путь до твоих рук (актуально для посылок от 7-10кг т.к. есть стартовые косты).
Но первый раз затар на тао встанет в жопоболь, дальше уже легче. Это без шуток для тех кому интересно пройти путь.
Те что на втором скрине идут по 13к с дуйками и новые без рофла
Аноним 06/08/25 Срд 17:29:40 1301932 313
>>1301751
>Кто-то может быть со мной не согласен, ваше право.
Я не согласен. 5090 прекрасная карта и для нейронок, и для игр, но купить их несколько это уже совсем оверпрайс. Так что комбинируем ((
>>1301796
Потому что там наебалово, и не 16 бит, а 4. да и вообще, походу ггуфы сломаны (никогда такого не было!).
>>1301912
60-70к
Аноним 06/08/25 Срд 17:30:41 1301933 314
>>1301929
А 3090 там есть? Сколько доставка идет? Что за дуйки? я не в теме
Аноним 06/08/25 Срд 17:36:38 1301942 315
1754490999931.webp 45Кб, 800x800
800x800
1754490999932.webp 109Кб, 1024x750
1024x750
>>1301933
1. Есть. 65к+-
2. Недели 3-4 в сумме (по китаю, работа склада, до РФ, по РФ)
3. Пик (адаптер в моём случае не дали, сам сделал)
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов