Программирование

Ответить в тред Ответить в тред
НЕЙРОНОЧКИ И МАШОБ ТРЕД №34 /ai/ Аноним 06/01/21 Срд 14:57:23 19024621
image.png 775Кб, 1386x881
1386x881
image.png 1172Кб, 1528x1671
1528x1671
image.png 15Кб, 800x600
800x600
Очередной тред про хипстерские технологии, которые не работают

Я ничего не понимаю, что делать?
Вкатывальщики импортят slesarplow as sp по туториалам (хотя сейчас актуальнее pytorch)
Толковые качают из репозитория awesome-XXXX на гитхабе проект какого-то китайца, меняют фамилию и получают $10M инвестиций как стартап.
Умные смотрят prerequisites на https://see.stanford.edu/Course/CS229 и http://cs231n.stanford.edu/
Остальные сидят ИТТ

Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus

Как работает градиентный спуск?
https://cs231n.github.io/optimization-2/

Почему python?
Исторически сложилось

Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет

Что почитать для вкатывания?
http://www.deeplearningbook.org/
Николенко "Глубокое обучение" - на русском, есть примеры, но меньше охват материала
Франсуа Шолле - Глубокое обучение на Python

В чем практиковаться нубу?
http://www.deeplearning.net/tutorial/
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials

Где набрать первый самостоятельный опыт?
https://www.kaggle.com/ | http://mltrainings.ru/
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.

Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел

Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой

Где узнать последние новости?
https://www.reddit.com/r/MachineLearning/
http://www.datatau.com/
https://twitter.com/ylecun
На реддите также есть хороший FAQ для вкатывающихся

Где посмотреть последние статьи?
http://www.arxiv-sanity.com/
https://paperswithcode.com/
https://openreview.net/
Версии для зумеров: https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew

Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском

Где ещё можно поговорить про анализ данных?
http://ods.ai/

Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь

Когда уже изобретут AI и он нас всех поработит?
На текущем железе - никогда, тред не об этом

Кто нибудь использовал машоб для трейдинга?
Никто не использовал, ты первый такое придумал. Готовь камаз для бабла.

Список дедовских книг для серьёзных людей:
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: http://libgen.io/

Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.

Предыдущие:
https://2ch.hk/pr/res/1881607.html
https://2ch.hk/pr/res/1868191.html
https://2ch.hk/pr/res/1847673.html
https://2ch.hk/pr/res/1832580.html
https://2ch.hk/pr/res/1817320.html
https://2ch.hk/pr/res/1785952.html
https://2ch.hk/pr/res/1758961.html
https://2ch.hk/pr/res/1734710.html
https://2ch.hk/pr/res/1704037.html
https://2ch.hk/pr/res/1665515.html
Аноним 06/01/21 Срд 15:07:18 19024802
Что у жопеншмульца почитать про генерацию картинок по тексту?
Аноним 06/01/21 Срд 15:17:03 19024983
Аноним 06/01/21 Срд 15:28:38 19025164
Аноним 06/01/21 Срд 15:43:46 19025405
>>1902498
Давай сразу по теме
Аноним 06/01/21 Срд 15:46:35 19025426
>>1902540
Это и есть по теме, ты почитай
Аноним 06/01/21 Срд 15:53:29 19025647
>>1902542
Манёвры начались раньше чем я думал.
Аноним 06/01/21 Срд 16:01:04 19025868
>>1902564
> нихачу четать непонятно нечево манёвры какието
Ок
Аноним 06/01/21 Срд 16:01:44 19025879
Чем можно генерить текст без задрачивания всей этой вашей магии?
Аноним 06/01/21 Срд 16:03:56 190259410
Аноним 06/01/21 Срд 16:16:59 190263211
>>1902462 (OP)
>Как работает градиентный спуск?

Нахуя мне это знать, если фит-предикт на готовой либе дает на 0,001% результат хуже, чем простыня из говнокода? Кагглобомж, ты?
Аноним 06/01/21 Срд 16:27:15 190265712
>>1902632
Чтобы вонючей необразованной пидорашкой не быть
Аноним 06/01/21 Срд 16:30:27 190266313
image.png 298Кб, 600x556
600x556
Аноним 06/01/21 Срд 17:03:47 190273714
>>1902632
>Нахуя мне это знать
Не знаю, а ты кто?
До добавления в фак это был довольно популярный вопрос. Может совпадение, конечно.
Аноним 06/01/21 Срд 17:48:20 190282215
>>1902308 →
>А не валидные это обычно шум с высокой энтропией вкраплённый в валидный набор.
Так может просто gzip'ом данные пожать и посмотреть на коэффициент сжатия? Это простой способ замерить энтропию.
>В итоге какой вариант сети лучше всего с такой задачей справится?
Когда у тебя одномерный поток байт типа текста - стекай трансформеры и не еби мозг.
Вот с этого можешь начать https://keras.io/examples/nlp/text_classification_with_transformer/
Только там где у него
x = transformer_block(x)
настекай больше таких блоков
x = transformer_block(x)
x = transformer_block(x)
x = transformer_block(x)
x = transformer_block(x)
Желательно ужать длину чанка в 128-512 токенов, после константа в o(n^2) будет жрать дохуя ресурсов. Токен - не обязательно символ, можно сжимать данные токенизатором типа https://en.wikipedia.org/wiki/Byte_pair_encoding , так делают OpenAI.
Если нужны чанки от 1024 - читай статьи Efficient Transformers: A Survey и Long Range Arena: A Benchmark for Efficient Transformers, получишь интродакшен в 2020 год. tldr для длинных чанков переходи на BigBird.
LSTM после появления трансформеров потерял смысл.
Сверточные сети могут сработать, если данные сильно локальные и однородные. Можно использовать их как пре-процессинг вместо токенизатора. То есть изначальный поток байт серией из сверток со страйдом сжимаешь до многоканальной последовательности меньшей длины, а на это наворачиваешь трансформеров. Но не забывай скип коннекшены и батчнорм. В трансформеры нормализация и скипы уже встроены, а в свертках их нет, и не похоже, что ты знаешь об этом, судя по твоему посту.
Аноним 06/01/21 Срд 17:51:00 190282616
>>1902822
В трансформер встроен скип?
Аноним 06/01/21 Срд 17:51:16 190282717
Аноним 06/01/21 Срд 17:52:19 190282918
image.png 80Кб, 510x680
510x680
>>1902826
Ага, и в декодере, и в энкодере, везде скипы и LayerNormalization слои
Аноним 06/01/21 Срд 18:01:07 190284619
Надо, кароч, вкатываться в трансформеры, посоны. В 20к21 все остальное это помоечка.
Аноним 06/01/21 Срд 18:40:04 190290520
>>1902829
https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.
BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.
GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.
Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>>1902846
Да. Кто еще не вкатился - тот дурачок.

Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа
[w1 w2 w3 0 0 0 0 0
0 w1 w2 w3 0 0 0 0
0 0 w1 w2 w3 0 0 0
...и так далее...
]
То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где
x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).
То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.
Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету. То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.
Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.
Аноним 06/01/21 Срд 18:46:07 190291421
Имеет ли возможность хохол поступить в шад на заочку или типа того?
Аноним 06/01/21 Срд 18:49:54 190292622
Хммм, а хоть где-то остались рекуррентные сети?
Могу вспомнить только RL агентов и всякие модификации берта, про которые на следующий же день забывают.
Аноним 06/01/21 Срд 19:08:48 190293923
>>1902926
Проблема рекуррентных сетей в том, что в теории у них контекст бесконечный, но на практике у тебя back propagation through time обрезает его до величин, позволяющих ужать сетку в память gpu, и эти величины меньше трансформерных. По итогу смысла мало.
Чтобы смысл был, нужно отказаться от бэкпропа, мозг ведь как-то работает без него, там бэкпроп максимум на уровне отдельных нейронов. Но мозг может выезжать чисто на том, что отдельный нейрон - крутой аналоговый компьютер. Или тупо на количестве нейронов.
Пока этого нет, забудь о RNN.
Аноним 06/01/21 Срд 19:17:18 190294224
>>1902846
Ну вот в 2021 какую-нибудь новую хуйню родят в недрах гугла или опенаи и будет новая мода, а трансформеры в том виде как они есть выкинут. В машобе жанра stackmorelayers нет смысла бегать за прошлогодними трендами.
Аноним 06/01/21 Срд 19:27:52 190294925
>>1902905
>Лично я использую подход
А ты разботал как DALL-E кодирует? Они картинки бьют на 8х8 квадраты и переводят их в дискретные (?) токены. Этот перевод делает специальная нейроночка еще до начала тренировки трансформера, как я понял.
Аноним 06/01/21 Срд 19:28:24 190295126
>>1902942
Дело определенно в моде, да, ты прав.
Аноним 06/01/21 Срд 19:30:03 190295227
Есть мода, а есть результаты. Попробуй ГПТ-3 на ЛСТМах сделать.
Аноним 06/01/21 Срд 19:35:11 190295528
>>1902942
Как будто что-то плохое. Если усвоил биттерлессон, то ты просто заменяешь один слой новым и все.
А вот те кто наделали adhoc костылей, плачут горькими слезами и думают, какой бы еще костыль накостылить, чтобы еще годик продержаться перед тем, как все юзеры проапгрейдят свои видюхи и твои старания пойдут на помоечку.
Аноним 06/01/21 Срд 20:28:04 190298929
>>1902955
>Если усвоил биттерлессон, то ты просто заменяешь один слой новым и все
Если ты ничего кроме битерлесона не читал до трансформера ты просто не додумаешься.
Аноним 06/01/21 Срд 20:33:46 190299430
>>1902949
>А ты разботал как DALL-E кодирует?
Не особо, чтобы понять что-то из их куцых фраз, нужно хорошо знать тему VAE. И если как работает VQ-VAE я примерно понимаю (если ты не понимаешь, почитай christineai.blog/vq-vae/), то про continuous relaxation впервые слышу. Нужно хотя бы https://arxiv.org/abs/1401.4082 покурить.
В принципе задача любого автоэнкодера это обеспечить информационный ботлнек, чтобы энкодер и декодер обучались чему-то в плане поиска сжатых представлений. VAE делает это, заставляя энкодер генеририровать матожидание и сигму, а затем генерируя рандомное число из этих параметров, VQ-VAE заменяет то, что накодировал энкодер ("попиксельно" - то есть каждый многоканальный пиксель - это отдельный вектор) на ближайший вектор из обучаемого словаря, тоже ботлнек очевиден - это собственно "квантизация" к ближайшему значению из словаря.
А вот тут не понятно. одной стороны они пишут, что словарь им там не нужен благодаря continuous relaxation. С другой - ссылка на 1401.4082 нихуя не проясняет.
Пока писал пост, увидел, что Килхер уже выпустил видео, и он тоже нихуя не понимает эту часть https://www.youtube.com/watch?v=j4xgkjWlfL4 , на 27-й минуте у него такие же wtf'ы как у меня.
>Этот перевод делает специальная нейроночка еще до начала тренировки трансформера, как я понял.
Да, это принципиальное отличие от "моего" подхода. У меня сверточные слои тренируются одновременно с трансформерными end-to-end, а у них отдельно тренируется "энкодер-декодер картинки низкого разрешения, но с большим числом фич-каналов". Что довольно понятно, почему - энкодеру by design нужно видеть всю картинку целиком, а вот DALL-E генерирует попиксельно. Но вообще интересная мысль, надо попробовать.
Аноним 06/01/21 Срд 20:42:14 190300231
>>1902951
>>1902952
И тем не менее, до трансформеров все так же кипятком ссали от лстмов и прочих gru, а потом любовь прошла.
Аноним 06/01/21 Срд 20:56:49 190301632
>>1903002
Потому что они так же дико повысили метрики, как сейчас трансформеры.
Меня больше удивляет, почему не взлетели всякие теоретически обоснованные попытки сделать рекуррентную ячейку, которая будет лучше чем лстм. Вроде как лстм была сделана суперхуево на коленке с кучей лишних гейтов.
А ведь были всякие структурно регуляризованные SCRNы, унитарные матрицы весов, эволюционный поиск ячеек. Даже интересно, чего это всё загнулось.
Аноним 06/01/21 Срд 21:00:28 190302133
>>1902989
Я и не претендую. До него люди умнее меня 50 лет не могли додуматься, пока в гугле работающие над машинным переводом люди не посмотрели на seq2seq with attention и не выкинули оттуда нахуй RNN часть. Куда уж мне.
Аноним 06/01/21 Срд 21:44:48 190306034
>>1903016
У всех RNN один и тот же фатальный недостаток - _каждый_ таймстеп должен хранить инфу обо _всем_ прошлом, потому что инфа может потребоваться и сейчас, и в будущем.
Плюс машинерия которая позволяет это прошлое копить.
Плюс отсутствие возможности процессить таймстепы параллельно - а значит нужны гигантские батчсайзы, чтобы на уровне каждого отдельного таймстепа видюха грузилась на 100%.

В итоге чтобы это работало эффективно, тебе нужно, чтобы вычислительное ядро видюхи имело на пару порядков больше локального кэша. Иначе видюха будет простаивать, пока данные гоняются между глобальной gddr памятью видюхи и вычислительными модулями.
Но локальный кэш (то что в cuda терминах называется shared memory) - это дорогая статическая память, а не дешёвая динамическая.
В итоге RNN тупо недогружает железо. А если ты попытаешься побороть эти недостатки, ты повторишь путь к трансформерам.
Аноним 06/01/21 Срд 22:39:25 190312635
>>1903060
Имхо не в этом самая большаю проблема. Трансформеры тоже дай бог жрут ресурсов. РНН имеет тенденцию забывать очень быстро. Потому что прошлый токен он вот он, а что там было тысячу токенов назад, уже прокрутилось тысячу раз. Даже в ЛСТМ все умножается каждый шаг на число, и чтобы что-то сохранилось, это число должно быть 1 на каждом шагу. Это со скрипом учится, на деле что-то нетривиальное не учится совсем дальше нескольких десятков шагов.
Аноним 06/01/21 Срд 23:18:33 190319136
15982164124121.png 115Кб, 482x400
482x400
>>1902657
>Чтобы вонючей необразованной пидорашкой не быть
Аноним 06/01/21 Срд 23:20:13 190319337
>>1903126
https://arxiv.org/pdf/1511.06464.pdf
Поэтому я и говорю, что вот такие штуки в теории должны были взлетать и отбирать пальму первенства у lstm. Но почему-то не произошло такого. Вопрос - почему.
Аноним 06/01/21 Срд 23:30:58 190320038
>>1903193
Сложно, и на практике пользы не было. На синтетических тасках ЛСТМ тоже может 10000 шагов помнить, это еще в самой первой статье показано. То, что градиенты не взрываются, еще не значит что оно будет все помнить. Это значит лишь, что тренировка в принципе возможна.
Аноним 06/01/21 Срд 23:41:02 190320939
>>1903200
Так это диплернинг, тут везде с гарантиями плохо.
Аноним 06/01/21 Срд 23:43:02 190321340
Сетки не "помнят" ничего.
Аноним 06/01/21 Срд 23:47:29 190321741
>>1903126
> РНН имеет тенденцию забывать очень быстро
Это недостатки конкретных типов рнн.
Теоретически ничто не мешает тянуть тебе все прошлое с собой. Были эксперименты со всякой памятью такого рода. Идеи приходят вплоть до тупой конкатенации аутпутов прошлых шагов в одну большую матрицу.
Но практически возникает проблема с тем что я описал, так как каждый таймстеп - это вещь в себе, он должен содержать в своём текущем стейте инфу обо всем прошлом. Это дохуя. Поэтому практические рнн задизайнены так, чтобы память о прошлом была постоянной. А это значит, что из нее постоянно надо что-то выкидывать. Но ты не Ванга, и можешь выкинуть что-то что потребуется в будущем.

Ты скажешь - если n шагов содержат инфу каждый в среднем об n/2 предыдущих шагов, это так же o(n^2) по памяти, что у трансформера. Какая разница.
Но тут возникает уже железо.

Если грубо и на пальцах, пусть q - это вектор, а Q - матрица состоящая из n таких векторов, K - это матрица, соответствующая стейту этой rnn, которая помнит все свое прошлое.

Если трансформер считает K*Q' один раз, все вектора скопом
RNN считает K q' для каждого q, итого n раз.

Второе сильно хуже.
Аноним 07/01/21 Чтв 00:04:42 190323142
>>1903193
Ну фундаментально это - а давайте запилим такой костыль, чтобы забывать ненужное и помнить нужное. И вот с нашим костылем на этих датасетах, которые мы подобрали под костыль, у нас sota.
И по факту
Copying problem решена
Adding problem сосёт у lstm
Mnist обучается быстрее, но lstm по итогу работает лучше
Далее они с горящей жопой придумали добавить permuted lstm, чтобы результаты не были таким днищем, получили небольшое улучшение, уря, победа

Хуйня в общем
Аноним 07/01/21 Чтв 00:48:32 190325243
>>1903231
>Adding problem сосёт у lstm
The uRNN achieves lower test error, but it’s curve is more noisy.
>Mnist обучается быстрее, но lstm по итогу работает лучше
This equates to roughly 60K parameters for the LSTM and almost 9K for the uRNN.
>Далее они с горящей жопой придумали добавить permuted lstm
Если опустить твои охуительные фантазии, то в чем проблема? Задача некорректная будет?
>чтобы результаты не были таким днищем
Ты сказал? Сходится в десятки раз быстрее, параметров меньше, качество в задаче лучше, теоретические обоснования есть.
>Хуйня в общем
Можно заливать твой отзыв на openreview
Аноним 07/01/21 Чтв 02:15:55 190327744
>>1903252
>The uRNN achieves lower test error, but it’s curve is more noisy.
На одном графике с T=750. И это единственный график где оно заметно лучше из всех в статье. В остальных лстм либо лучше, либо статпогрешность.
>This equates to roughly 60K parameters for the LSTM and almost 9K for the uRNN.
Так почему не сделать 60к параметров и въебать лстм еще сильнее? Значит хуитка какая-то. Например, просад по флопсам, или качество не растет с увеличением веса, или параметров мало, а памяти они жрут много. Иначе что ща хуйня вообще.
>Если опустить твои охуительные фантазии, то в чем проблема?
Да не фантазии это. Когда метод реально хорош, автор разве что свой рентген не выкладывает, а когда плох сравнивает красное с синим и постоянно недоговаривает. Может ты еще в магазине на диване товары покупаешь.
>Задача некорректная будет?
Ты правда считаешь, что это самая интересная задача на длинный контекст?
>Ты сказал? 
Автор выпустил единственную статью на которой он протестил работу на 4 мелких и экзотических датасетах и не стал развивать свою работу. Тут уже все ясно. Ты можешь конечно верить что это hidden gem, но вообще намного более вероятно что это типичная статья где для публикации он расфорсил достоинства, но по факту там все не так однозначно.
>Можно заливать твой отзыв на openreview
Доя этого статью хотя бы прочитать надо, а я пошел стандартным путем абстракт картинки результаты и что-то вообще не интересно копаться и тем более тестить.
Может ты меня разъебешь ща и я перейду на эту хуйню с трансформеров.
Аноним 07/01/21 Чтв 02:33:04 190329345
>>1902905
>https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.
>BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.
>GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.
>Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>Да. Кто еще не вкатился - тот дурачок.

>Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа
>[w1 w2 w3 0 0 0 0 0
>0 w1 w2 w3 0 0 0 0
>0 0 w1 w2 w3 0 0 0
>...и так далее...
>]
>То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

>А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где
>x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).
>То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

>То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.
То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.
>Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.
>>1902905

>Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету.
Можно поподробнее (или где читать) про это и про атеншн модуль? Спасибо
Аноним 07/01/21 Чтв 05:06:41 190333546
>>1903213
Звучмт как название русской пост-панк группы.
Аноним 07/01/21 Чтв 05:38:43 190333847
220px-Rosenblatt.jpg 13Кб, 220x244
220x244
>>1903293
> По сути это персептрон done right,
> , Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай
Ну то есть вы же пынямаете, что по-сути, все эти ололо мегагитлер трансформеры не очень далеко ушли от перцептрона и сетей Хопфилда, и что их придумывают только потому что вычислительные мощности позволяют. В 60х трансформеры были бы просто бесполезны, даже если бы кто-нибудь до них додумался. Как машины Больцмана в 80х, придумать их придумали, а толком применить смогли только в нулевых. Или как с неокогнитроном (по-сути, прообразом сверточных сетей) в те же 80-90е. Тогда оно физически не могло выстрелить.
Аноним 07/01/21 Чтв 05:48:13 190334148
>>1903338
Все это знают. Мощности + сейчас в этом занято на порядки больше людей. Они рандомно меняют код и находят методом тыка работающие методы. Те же трансформеры не вышли из сетей Хопфилда, а высосаны из пальца, протестированы, обнаружено что они круты, а потом уже за уши был притянут этот Хопфилд ради красивой статьи.
Аноним 07/01/21 Чтв 08:00:29 190335649
Аноним 07/01/21 Чтв 08:02:03 190335750
Аноним 07/01/21 Чтв 08:02:04 190335851
>>1903293
Аттеншен модуль - attention is all you need
Связь со свертками - On the Relationship between Self-Attention and Convolutional Layers
По первой статье можешь посмотреть разбор Kilcher'а на ютубе.
Аноним 07/01/21 Чтв 10:38:25 190339952
Аноним 07/01/21 Чтв 21:52:31 190403153
9778.png 30Кб, 512x487
512x487
Знатоки, подскажите, пожалуйста.
Есть датасет на котором использован XGBRegressor:
XGBRegressor(max_depth=8,
n_estimators=500,
min_child_weight=1000,
colsample_bytree=0.7,
subsample=0.7,
eta=0.3,
seed=0)
Что дало такую вот картинку. Она явно неудовлетворительна.
Как подбирать параметры, чтобы регрессия работала лучше?
Аноним 07/01/21 Чтв 22:31:36 190407154
Как блять устроиться на машоб работу если ты на 3 курсе?
Аноним 07/01/21 Чтв 22:41:16 190408955
>>1904031
Поменяй xbgoost на lightgbm (он быстрее и вроде как больше разных фишек).
>Как подбирать параметры?
RandomSearch + train-test-split/кросс-валидация.
Если нечего делать, то можешь попробовать latin hypercube sampling или вообще какой-нибудь hyperopt.
Ну и новые фичи погенерировать можешь, но для этого нужно смотреть на предметную области и сами признаки.
>>1904071
Так же, как и на любую другую работу?
Если не очень умный, то можешь отловить какую-нибудь летнюю школу от большой компании-галеры а ля сбер/тинькофф, пройти её и потом с большой вероятностью получишь оффер на мл-эникейщика.
Аноним 07/01/21 Чтв 22:55:05 190410056
>>1904089
>RandomSearch
Задаём диапазон и случайным образом выбираем набор параметров?
И сколько раз повторять случайный выбор?
Ещё вопрос вдогонку - для валидации и оценки точности используется eval_metric="rmse" и метод наименьших квадратов.
xgb train rmse: 0.9273652195391977
xgb validation rmse: 5.025476198882563
Может из-за этого валидационная ошибка быть такой большой?
Аноним 07/01/21 Чтв 23:08:35 190410857
>>1904100
>Задаём диапазон и случайным образом выбираем набор параметров?
Да. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html
>И сколько раз повторять случайный выбор?
Сколько хочешь. Можешь повторять до тех пор, пока результат не перестанет улучшаться (за последние k итераций).
>xgb train rmse: 0.9273652195391977
>xgb validation rmse: 5.025476198882563
Подозреваю, что у тебя или лик, или данные оооочень разные. Попробуй посмотреть значимость признаков в бустинге или какие-нибудь попарные корреляции.
Аноним 07/01/21 Чтв 23:14:14 190411258
5465.png 13Кб, 853x380
853x380
67567.png 23Кб, 550x231
550x231
>>1904108
>Сколько хочешь. Можешь повторять до тех пор, пока результат не перестанет улучшаться (за последние k итераций).
Вообще-то я задал диапазон для каждого из параметров, потом применил itertools.product() для получения всех возможных комбинаций, и вот уже несколько часов это всё перебирается.
Решение уровня /b, в общем.
> Попробуй посмотреть значимость признаков в бустинге или какие-нибудь попарные корреляции.
Как-то так.
Аноним 08/01/21 Птн 11:24:38 190432859
>>1904112
1. Скинь свой код
1.2 пытался ли ты подкрутить регуляризацилнные параметры?
1.3 кросс-валидирование делал?
2. Когда ты делаешь сплит? В каком соотношении?
3. Почему бустинговый алгоритм используешь? Линейные модельки пробовал? kNN тоже тестил? Простой MLPRegressor тестил?
4. Я тебе, если ты хочешь, пришлю Н2О AutoML скрипт для твоего Гугл куколдлаба, посмотришь перформанс различных моделек на твоём сете. Может линейные больше подойдут.

Аноним 08/01/21 Птн 12:07:34 190434060
>>1902905
> Да. Кто еще не вкатился - тот дурачок.
А уже пора выкатываться обратно. Трансформеры - помоечка из 2017, уже есть более эффективные перформеры.
Аноним 08/01/21 Птн 16:07:53 190459661
>>1904340
Читай Long Range Arena: A Benchmark for Efficient Transformers
Аноним 08/01/21 Птн 16:53:01 190467462
>>1904328
Почту можешь свою оставить?
Аноним 08/01/21 Птн 18:45:35 190478963
Анчоусы, вопрос. Хватит мат базы для начала в deeplearningbook`e?
Аноним 08/01/21 Птн 18:57:08 190480064
>>1904789
Все необходимое там есть. Но не лучшее изложение.
Аноним 08/01/21 Птн 19:10:40 190481265
Аноним 08/01/21 Птн 19:12:37 190481866
>>1904812
В /math лучше спроси. Тебе нужны учебники по линалу, матану, терверу, матстату для нулей.
Аноним 08/01/21 Птн 19:20:35 190482967
>>1904789
>deeplearning
>мат базы
Не лезь бля, оно тебя сожрёт, станешь вапникошизом. Лучше дрочи код и stack more layers
Аноним 08/01/21 Птн 19:27:33 190484468
диппавлов норм чуваки или хуйнёй занимаются?
Аноним 08/01/21 Птн 20:29:26 190493769
>>1904829
вапникошиз это кто?
Аноним 08/01/21 Птн 21:05:40 190497170
>>1904937
Это посттравматический синдром треда
Аноним 08/01/21 Птн 21:06:02 190497271
>>1904937
Борец с НУ ТУПЫМИ зумерами и битерлессоном, ты его ещё увидишь
Аноним 08/01/21 Птн 21:47:08 190500172
>>1904829
> stack more layers
Смотрел на ютубах того пшека(?), поясняющего за трансформеры, так вот:
- Во-первых, это манямнение >>1903341
> Они рандомно меняют код и находят методом тыка работающие методы. Те же трансформеры не вышли из сетей Хопфилда, а высосаны из пальца,
Есть былинная дрисня из-под коня, высосанная предыдущим оратором непонятно из чего. Там на самом деле все очень не рандомно сделано, и далеко не на пустом месте.
- Во-вторых, речь в конечном счёте все о тех же распределениях вероятностей и аппроксимации функций зависимости выхода от входа, что и 60 лет назад. Идентификация систем итд. Просто более эффективные методы для этого, использующие высокую скорость операций с матрицами на GPU, что позволяет эффективно считать то, от чего ещё несколько лет назад просто отказались бы как от неподьемной задачи. Закон Мура работает, в общем. Плюс, речь опять же о том, что все алгоритмы машобчика по-сути считают одно и то же, просто по-разному и в разных объемах.
Аноним 08/01/21 Птн 21:49:01 190500473
1284.png 220Кб, 289x381
289x381
Аноним 08/01/21 Птн 21:50:49 190500674
>>1904972
А как с биттерлессоном бороться то лол
Аноним 08/01/21 Птн 22:08:44 190503975
Проходили курс от стенфорда на курсере? Что скажете? Вроде дохуя народу хвалят.
Аноним 08/01/21 Птн 22:20:03 190505476
>>1905001
>все алгоритмы машобчика по-сути считают одно и то же
Да, ганы и свм по сути считают одно и то же. А что, кстати?
Аноним 08/01/21 Птн 22:26:17 190505977
Аноним 08/01/21 Птн 22:36:46 190506778
>>1904112
Расшарить данные нельзя?
>>1904328
>3. Почему бустинговый алгоритм используешь?
Так бустинг это же стандартный бейзлайн, на уровне случайного леса. Никакая существенная предобработка не нужна и всё сразу нормально будет работать.
>kNN тоже тестил? Простой MLPRegressor тестил?
Не представляю случай, когда кнн/млп-бейзлайн будет существенно лучше бустинга или линейной регрессии.
Аноним 08/01/21 Птн 22:37:37 190506879
Как правильно исследовать датасет до послания модели? Я сейчас считаю центральные моменты до 4 порядка. Допустим, вижу на каком-то признаке сильный перекос. Если он уж очень сильный, то можно посчитать это за выбросы и убрать такие прецеденты. Или если из 10к прецедентов 9990 принимают нулевое значение, а остальные 1, и тогда я этот признак вообще отбрасываю. Плюс, делаю PCA и верчу в трёх измерениях данные, просто чтобы убедиться в потенциальной сложности задачи классификации. Что ещё я могу применить?
Аноним 08/01/21 Птн 22:40:11 190506980
>>1905006
Вот так: заявляешь что это просто маняфантазии отдельно взятого шиза, наслаждаешься горением школьников
Аноним 08/01/21 Птн 22:43:52 190507481
>>1905068
Открой на кегле какой-нибудь кернел с EDA и посмотри.
https://www.kaggle.com/notebooks?searchQuery=eda
>Или если из 10к прецедентов 9990 принимают нулевое значение, а остальные 1, и тогда я этот признак вообще отбрасываю.
Зависит от данных. Если у тебя данные - огромные вектора из нулей и единиц, а y = int(sum(x) > 0), то тогда такое удалять нельзя.
А вообще, какие-нибудь леса-бустинги автоматически такое обработают.
Аноним 08/01/21 Птн 23:00:51 190509482
>>1905059
> o3bq
Это Отабек.
> 10
2010 года рождения.
Вот такие у нас эксперты уровня /pr
Аноним 08/01/21 Птн 23:44:05 190513383
Народ, а какой размер датасета для обучения гана нужен? Минимальный
Аноним 08/01/21 Птн 23:58:59 190514984
Аноним 09/01/21 Суб 00:14:06 190516885
>>1905069
А вот и сам вапникошиз пожаловал.
Неприятно осознавать, что с появлением ГПТ-3 высеры твоих любимых кокодемиков займут заслуженное место на свалке?
Аноним 09/01/21 Суб 00:31:57 190519286
>>1905059
Отправил
>>1905067
>Расшарить данные нельзя?
Теоретически, можно.
но может быть по почте?
Аноним 09/01/21 Суб 01:06:58 190521587
>>1905168
Осознавать это абсолютно всё равно ибо, как и всегда, это просто очередные манямечты троечников фантазёров
Аноним 09/01/21 Суб 01:58:41 190525888
Ваш прогноз: как скоро сделают нейроночку, которая пощелкает весь литкод? На входе текстовое описание, на выходе правильный код решения.
Ящитаю, < 5 лет.
Аноним 09/01/21 Суб 02:07:11 190525989
>>1905258
Проблема в неточности. Нейронка это тебе не строгая система типов, и не дедуктивная система логического вывода. Нет гарантий, что программа будет правильной.
Аноним 09/01/21 Суб 02:07:18 190526090
>>1905258
>Ящитаю, < 5 лет.
Лет 20 назад делали схожие прогнозы. Сейчас, мне кажется, уверенность в возможностях АИ приубавилась и сроки больше закладывают.
Аноним 09/01/21 Суб 02:12:28 190526391
>>1905258
Когда будут подбираться к сильному ии
Аноним 09/01/21 Суб 02:28:09 190526492
>>1905259
Так и описания неформальны. Как человек будет.
Критерий - прохождение встроенных тестов на литкоде. Для людей это норм, ну и тут тоже будет убедительно.
Аноним 09/01/21 Суб 02:30:54 190526593
>>1905260
Именно по тексту 20 лет назад никто не мог всерьез сказать про 5 лет. 20 лет назад с естественным языком все было плохо. По формальной спецификации генерировать - да, были надежды. Оказалось и это трудновато для классики.
Аноним 09/01/21 Суб 07:08:01 190533594
>>1905054
> Да, ганы и свм по сути считают одно и то же. А что, кстати?
Распределение вероятностей, максимизацию матожидания. Весь существующий машобчик это пляски с бубном вокруг https://en.m.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm#:~:text=In%20statistics%2C%20an%20expectation%E2%80%93maximization,depends%20on%20unobserved%20latent%20variables.
Аноним 09/01/21 Суб 08:55:15 190534795
>>1905265
> 20 лет назад с естественным языком все было плохо.
С естественным языком до 2013 все было плохо. А сейчас трансформеры уже порешали Winograd schema challenge, и по машинному переводу набирают 28 в той же метрике, по какой человек-переводчик оценивается на 30. И предложения парсить они могут сами по себе, за счёт аттеншена, без всякой узкоспециальной лингвистической хуйни, это на заметку местному свидетелю экспертных систем.
Аноним 09/01/21 Суб 11:12:07 190537496
>>1905347
Да мы поняли, что трясуны перемогают по всем фронтам, только в реальности ходят в обосранных шароварах.
Аноним 09/01/21 Суб 11:19:17 190537797
>>1905347
>Winograd schema challenge
Прооренькал с этих вопросиков, это они там анофору в однострочниках пбеждают?
Аноним 09/01/21 Суб 11:21:29 190537898
>>1905374
Разве что в твоей маняреальности.
Аноним 09/01/21 Суб 11:33:15 190538299
>>1902498
Это и есть битерлесон?
Аноним 09/01/21 Суб 13:01:09 1905410100
>>1905264
Но наврядли это будет использоваться где-то кроме фронт-энда. Во всех серьезных сверах нужна надежность и отказоустойчивость.
Аноним 09/01/21 Суб 13:06:10 1905416101
>>1905258
Лично мне похуй на такую постановку вопроса, потому что получение кем-то ачивки мало что решает. Правильный вопрос - когда это будет запускаться на пеке за $1000, чтобы частный бизнес мог рубить профиты и менять мир. В идеале вообще запуск на смартфоне.
И 5 лет тут это очень оптимистично. Надо менять архитектуру GPU так, чтобы терабайтные нейронки были нормой. Как - не знаю, видимо нужен прямой доступ к nvme, быстрый доступ к ram вплоть до 3D напыления на самом чипе, переход к аналоговым вычислениям, оптике, и подобные йобы.
Аноним 09/01/21 Суб 13:15:17 1905422102

>>1905416
> Правильный вопрос - когда это будет запускаться на пеке за $1000, чтобы частный бизнес мог рубить профиты и менять мир. В идеале вообще запуск на смартфоне.
Через несколько лет после того, как потеряет актуальность. Зачем тебе именно локальный запуск? Есть облачные сервисы, всякие там куколабы итд. Любому кабанчику этого за глаза хватит для начала, как минимум показать, что у него есть что-то способное изменить мир.
Аноним 09/01/21 Суб 14:45:22 1905487103
>>1905377
> Прооренькал с этих вопросиков, это они там анофору в однострочниках пбеждают?
За умного сойти решил что ли? Ну покажи ещё хоть один алгоритм, который может решить такую задачу для любой подобной фразы любого содержания с любым порядком слов и на любом языке.
Аноним 09/01/21 Суб 14:55:54 1905496104
>>1905335
>Распределение вероятностей
В svm нет вероятностей.
Аноним 09/01/21 Суб 14:57:44 1905500105
>>1905487
Алгоритм жопеншмульцера (1957, Zhopensmultser et al).
А нейронки могут на любом языке с любой фразой правильно ответить?
Аноним 09/01/21 Суб 15:11:08 1905511106
>>1905422
>Через несколько лет после того, как потеряет актуальность.
Актуальность в инновационном цикле у всех участников рынка разная.
Если вопрос научно актуален, значит твои инвестиции может поделить на ноль какое-то открытие одного из 10000 ученых. Или вообще на вопрос "а задача точно решаема?" ты отвечаешь бизнесмену - а хуй знает, давай въебем полгода и посмотрим.
А вот если в науке уже стагнация, то бизнес с одной стороны знает, что задача решаема, с другой - что технология не будет смыта на помоечку. В этот момент идет вал инвестиций и реальных продуктов. Например посмотри на задачу с распознаванием лиц - она сейчас заканчивает инновационный цикл.
>Зачем тебе именно локальный запуск?
Это показатель дешевизны и зрелости технологии. Облака нужны для сейклинга, сами по себе они чудес не совершают и дешевле чем локальный запуск не выходят, они выходят дороже, потому что главная фишка облаков - это аутсорс админской работы. Сервер с 8 GPU работает быстрее не в 8 раз, а в 4-6 раз, и стоит дороже чем 1 GPU не в 8 раз, а где-то в 30-100 раз. Поэтому когда что-то начинает помещаться в 1 пеку, возникает резкий фазовый переход в окупаемости и вале продуктов.
Вот это для меня интересно. А когда просто кто-то ачивку сделал, это хорошо, потому что другие мегакабаны начинают инвестиции в эту тему, но лично мне как слесарю и жителю дна этой экосистемы (ниже меня только уже конечные потребители и хорошо если это b2b), это чисто как футбол посмотреть с бегающими по траве миллионерами. Интересно, и пообсуждать за пивасом можно, но бесполезно.
Аноним 09/01/21 Суб 15:29:46 1905526107
>>1905496
> В svm нет вероятностей.
Распределение вероятностей не в SVM, а в датасете. Алгоритм машоба это распределение восстанавливает по тренировочным данным.
>>1905500
> Алгоритм жопеншмульцера (1957, Zhopensmultser et al).
Ясно, фиксируем слив чухомора.
Аноним 09/01/21 Суб 15:50:53 1905537108
>>1905526
>Алгоритм машоба это распределение восстанавливает по тренировочным данным.
СВМ не восстанавливает распределение.
Аноним 09/01/21 Суб 15:57:59 1905546109
>>1905487
>который может решить такую задачу
Кокую задачу, выбрать один из двух вариантов ответа?
Аноним 09/01/21 Суб 16:11:30 1905562110
зумер.jpg 36Кб, 511x407
511x407
1.png 180Кб, 701x539
701x539
>>1905537
> СВМ не восстанавливает распределение.
Это ведь зумер сказал, как же я мог не поверить. А у Вапника уже в самой первой главе общая задача машобчика ставится через восстановление плотности распределения. Но то такое, куда уж Вапнику в лаптях за паровозом...
>>1905546
Мозги купи.
Аноним 09/01/21 Суб 16:12:31 1905565111
>>1905562
А теперь ты находишь вероятности в выводе свм.
Аноним 09/01/21 Суб 16:13:45 1905570112
>>1905565
Ты че, вообще не понимаешь, о чем речь? А в этом треде ты что забыл?
Аноним 09/01/21 Суб 16:18:00 1905579113
>>1905570
Фиксирую слив шизика.
Аноним 09/01/21 Суб 17:22:46 1905636114
Как работает поиск по картинкам? Я могу еще понять индексирование/кэширование изображений с сайтов, но оно там все их перебирает и сравнивает с оригиналом? Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?
Аноним 09/01/21 Суб 17:56:54 1905682115
>>1905562
>. А у Вапника уже в самой первой главе общая задача машобчика ставится через восстановление плотности распределения.
Вообще-то нет.
Аноним 09/01/21 Суб 17:59:21 1905683116
>>1905636
>Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?
Да.
Ещё желательно быстро искать соседей, потому что наивно итерироваться по миллионам векторов размерности 1000 не очень хочется, поэтому всё кладётся в HNSW.
Аноним 09/01/21 Суб 19:17:35 1905742117
>>1905636
>Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?
Это как-то слишком общо звучит. У тебя есть йоба, которая для картинок выдает векторы, при чем она обучается так, чтобы для похожих картинок выдавались близкие векторы, а для разных - далекие. Обычно это нейронка.
И есть библиотека для k nearest neighbor поиска, типа вышеупомянутого HNSW. Он бывает точный - основанный как правило на чем-то типа kd-tree, бывает приближенный, основанный на разного рода locality sensitive hash и прочем.
Аноним 09/01/21 Суб 19:34:22 1905766118
>>1905562
>куда уж Вапнику в лаптях за паровозом...
Так и есть. Вапник и его подсосы оптимизируют телегу на конной тяге, когда уже есть железная дорога ГПТ-3
Аноним 09/01/21 Суб 20:19:28 1905854119
>>1905636
Это же обычная задача динамического программирования, есть хэш-таблица с фичами, по ней и ищет.
Аноним 09/01/21 Суб 20:29:04 1905869120
>>1905766
Проблема не в том, что книга вапника из 90-х устарела, а в том, что вапникошиз ссылается на вапника там, где вапник пишет совершенно другое. То есть когда ты видишь, что-то типа "вапник говорил" в треде, можешь быть уверен, что нихуя подобного не было, за редким исключением.
Аноним 09/01/21 Суб 21:02:09 1905927121
>>1905854
Как связано динамическое программирование и поиск в хэш-таблице?
Ну и на практике, если у тебя миллионы картинок, то ты не можешь себе позволить сравнивать с каждой.
Аноним 09/01/21 Суб 21:37:16 1906001122
>>1905416
Зделяют сервис, где, заплатив 5 баксов, кабанчик будет удовлетворять любую свою прихоть. Будь то сдвиг кнопки ОК на 5 пикселей влево, или фейсбук с красным оформлением. И это будет переворот - ничем больше пользоваться не будут. Динозавры, кодящие руками, просто вымрут. Тут даже хуже чем с какими-нибудь кузнецами: там ручная работа еще ценится, а на рукотворный код всем будет насрать.
Аноним 09/01/21 Суб 22:30:56 1906083123
>>1905742
а как обучить модель выдавать вектор по изображению? Вот щас ради интереса смотрю как делают распозновалки лиц и чо-то все кажется каким-то супер сложным, если по сути можно просто получать нейронкой вектор из лица и сравнивать расстояние с лицами из бдшки, короче хочу че-нить такое простое попробовать замутить, но не вдупляю пока, как лейблы получить для такого типо хеширования
Аноним 09/01/21 Суб 22:43:32 1906110124
>>1906083
Читай про triplet loss. Из чуть более старого можешь про siamese networks.
Минимизируем расстояние между лицами одного человека и максимизируем между лицами разных людей.
Аноним 09/01/21 Суб 22:44:48 1906111125
image.png 145Кб, 477x726
477x726
Это нейросеть?
Аноним 09/01/21 Суб 22:51:45 1906124126
>>1906001
Ага, а если что-то пойдёт не так кабанчик пойдёт качать туториалы по куче фреймворков и исправлять ошибки сетки.
Аноним 09/01/21 Суб 22:53:58 1906128127
>>1906001
Да, сейчас все будут сайты на ucoz делать и фронтэнд умрет.
Аноним 09/01/21 Суб 22:54:24 1906129128
Аноним 09/01/21 Суб 22:56:39 1906133129
Аноним 09/01/21 Суб 23:00:32 1906140130
>>1906133
Что из этого обучаться должно?
Аноним 09/01/21 Суб 23:06:46 1906143131
>>1906111
Зависит от определения.
Аноним 09/01/21 Суб 23:09:15 1906145132
>>1906133
Функции недифференцируемые
Аноним 09/01/21 Суб 23:10:45 1906146133
>>1906001
Так я и буду делать. Гуглам и фейсбукам такое неинтересно, много гемора с техподдержкой и мало профита
Аноним 09/01/21 Суб 23:15:22 1906150134
>>1906110
а если обучить автоенкодер а потом правую часть, которая восстанавливает лицо из вектора просто отрубить, будет работать?
Аноним 09/01/21 Суб 23:26:06 1906158135
>>1906150
Скорее всего будет работать хуево. Наверняка будут закодированы фичи в стиле "в какую сторону смотрит лицо" и "цвет шапки на голове", которые наоборот нужно игнорировать в данной задаче.
Лучше сразу обучать для нужной задачи.
Аноним 09/01/21 Суб 23:40:26 1906167136
>>1906145
Как и часть активационных функций нейронок
Аноним 10/01/21 Вск 00:43:09 1906236137
Аноним 10/01/21 Вск 00:48:11 1906238138
>>1906150
Можно обучить автоэнкодер, а внутри его латентного пространства обучить уже сетку попроще на triplet loss
За такими подходами будущее думаю
Аноним 10/01/21 Вск 00:52:22 1906240139
>>1906236
Я видимо обосрался. Если так то объясни пж как от них производные брать пж.
Функция Хевисайда
Relu
Elu
Например эти 3
Аноним 10/01/21 Вск 00:56:10 1906242140
Аноним 10/01/21 Вск 01:09:28 1906244141
>>1906240
>Функция Хевисайда
Блин, почему у вас такие смешные названия?
Аноним 10/01/21 Вск 01:17:45 1906249142
производная константы равна нулю, так и брать, и ваще при вводе функции дирака любая функция дифференцируема, в точке разрыва производная равна функции дирака с весовым коэффициентом равным разные значения до разрыва и после

функция дирака - производная функции хевисайда
Аноним 10/01/21 Вск 01:18:04 1906251143
Аноним 10/01/21 Вск 01:19:41 1906253144
Аноним 10/01/21 Вск 01:22:55 1906258145
>>1906240
Функция хевисайда как активация не используется. Производная- дельта функция, но она почти везде равна нулю, то есть никаких апдейтов градиента быть не может.
Производная relu - функция хевисайда. Слева от 0 нулевая, справа от 0 равна производной y=x, то есть 1. То есть у кусочно заданной функции просто кусками и считаешь.
У elu посчитай по школьным правилам.
Аноним 10/01/21 Вск 04:18:33 1906301146
16008753351330.jpg 70Кб, 592x532
592x532
>>1906244
> Блин, почему у вас такие смешные названия?
Аноним 10/01/21 Вск 04:19:48 1906302147
>>1905869
> вапник пишет совершенно другое.
>>1905682
> Вообще-то нет.
Ты читать не умеешь.
Аноним 10/01/21 Вск 06:56:45 1906335148
IMG202101101056[...].jpg 195Кб, 1080x809
1080x809
Хуесос
Аноним 10/01/21 Вск 07:01:30 1906337149
>>1906335
Если бизнес это перемещение кнопки ОК по веб-страничке заказчика, то он прав. Тут юпитер только помешает.
Аноним 10/01/21 Вск 09:27:46 1906349150
>>1906335
>>1906337
Для бизнеса важнее даже не матеша и кодинг, а понимание бизнес-процессов, маркетинг и софт-скиллы с помощью которых будешь доносить суть своей деятельности кабанчику.
Аноним 10/01/21 Вск 13:01:36 1906385151
>>1906240>>1906145
Гугли обобщенные производные или производные обобщенных функций.
Аноним 10/01/21 Вск 15:04:56 1906461152
image.png 18Кб, 533x479
533x479
Сап, вопрос нубский. Короче пик: дана последовательность из 5 символов нулей и единиц и соответствующие выводы (либо 0, либо 1). Как сделать нейросеть, предсказывающую output для таких последовательностей?
Аноним 10/01/21 Вск 15:24:51 1906490153
>>1906461
Это какой-то новый уровень оверкилла. Такое вообще на транзисторах собирается, даже без ЦПУ. Гугли карты Карно
Аноним 10/01/21 Вск 15:26:03 1906492154
>>1906461
Вообще на твоей картинке получается выход равен первому входу
Аноним 10/01/21 Вск 15:32:25 1906494155
>>1906490
>>1906492
Я в курсе, смысл в том чтобы сделать это на нейросетке.
Аноним 10/01/21 Вск 15:52:07 1906510156
>>1906494
Гуглишь neural network classification языкпрограммированиянейм и вперед
Аноним 10/01/21 Вск 16:37:26 1906551157
>>1906349
Кого ебёт чего там бизнесу важно. Gpt-4 уже скоро на дворе, бизнес отменяется, бизнес не нужен.
Аноним 10/01/21 Вск 16:47:03 1906560158
Аноним 10/01/21 Вск 17:37:56 1906636159
GPT-3 это конечно круто, но эта хуйня с закрытым сугубо коммерческим доступом.
Насколько реально сделать так, чтобы нейросетка вроде GPT-3 работала в системе с распределенными вычислениями? Типа как в майнинг пулах майнят btc
Аноним 10/01/21 Вск 17:44:34 1906648160
>>1906636
> Насколько реально сделать так, чтобы нейросетка вроде GPT-3 работала в системе с распределенными вычислениями? Типа как в майнинг пулах майнят btc
Какбе абсолютно реально. Она изначально задумывалась легко асинхронизируемой. Думаю использовать распределенные вычисления для ИИ-сервисов поддерживаемые исключительно пользователями (не корпорациями / государством) - единственно верный выбор.
Аноним 10/01/21 Вск 17:50:49 1906657161
>>1906636
Смысл, она на средней пеке из 2020 должна заработать.
Там вся проблема в том, что она в ram целиком не влезет и надо постоянно подгружать веса с nvme
Аноним 10/01/21 Вск 17:55:26 1906662162
>>1906648
Бля, а в какие сроки реально освоить как устроена та же GPT-2? Насколько я помню, ее код есть в открытом доступе, а от третьей версии она ничем не отличается.
Прогать умею, питон умею, математика на очень высоком левеле (даже core math кто знает тот поймет), о нейросетках ничего не знаю
Аноним 10/01/21 Вск 17:56:10 1906665163
>>1906662
ничем не отличается кроме объема скормленных данных*
Аноним 10/01/21 Вск 18:00:41 1906674164
>>1906657
> Смысл, она на средней пеке из 2020 должна заработать.
Неа. К тому же в мире юзеров есть и смартфоны.
Аноним 10/01/21 Вск 19:08:17 1906745165
>>1906636
> GPT-3 это конечно круто, но эта хуйня с закрытым сугубо коммерческим доступом.
Ну они же пишут, а вдруг тираристы икстримисты будут использовать, если доступ открыть. Ты дяде напиши, а он решит, давать тебе доступ, али вдруг ты слишком белый, нидайбох в соцсетях про Трампа что-то хорошее спизданул, или там all lives matter. Это дело-то такое. А если нахуй пошлют, так это их дело, частная компания. Не нравится - не ешь, сам создавай.
Аноним 10/01/21 Вск 19:21:23 1906755166
>>1906560
> June 11, 2020
Ну как там революция бизнеса?
Аноним 10/01/21 Вск 19:43:52 1906774167
>>1906244
Учу математику только из-за смешного
Аноним 10/01/21 Вск 19:45:56 1906777168
>>1906774
У тебя многочлен видно.
Аноним 10/01/21 Вск 19:52:36 1906786169
>>1906777
Да это у меня ещё вялый пучок
Аноним 10/01/21 Вск 21:38:54 1906869170
>>1906674
>Неа. К тому же в мире юзеров есть и смартфоны.
Смартфоны нужны только для звонков.
Аноним 10/01/21 Вск 21:43:05 1906871171
>>1906869
Не быть тебе маркетологом, а уж тем более бизнесменом.
Аноним 10/01/21 Вск 23:20:51 1906929172
Я правильно понимаю что жопэтэ это дефолтная рекуррентка но тупо с дохуя параметрами обученная на половине тырнета? Если так не понимаю чо за дроч вокруг нее, какие задачи это вообще может решить?
Аноним 10/01/21 Вск 23:32:51 1906934173
>>1906929
> Я правильно понимаю что жопэтэ это дефолтная рекуррентка
В том то и дело, что никаких RNNв ней нет. Чистый Transformer
Аноним 10/01/21 Вск 23:36:11 1906935174
Аноны, есть задача. Делаю рогалик. Писать генераторы лень. Есть быстрый алгоритм, который генерировал бы контент по примерам? Данные имеют низкую размерность.
Аноним 10/01/21 Вск 23:51:44 1906945175
>>1906934
Ну ок архитектуру не угадал, смысл у нее то какой? Выполнять работу гугла, но в 99999 раз медленнее??
Аноним 10/01/21 Вск 23:59:24 1906948176
>>1906945
> Ну ок архитектуру не угадал, смысл у нее то какой?
Генерировать текст, код, изображения, отвечать на вопросы, исправлять ошибки в тексте, играть в игры, да что-угодно.
Аноним 11/01/21 Пнд 00:06:43 1906952177
>>1906948
на счет играть в игры не понял, все остальное делает гугл, на котором и обучена модель
Аноним 11/01/21 Пнд 00:07:46 1906953178
>>1906952
> все остальное делает гугл
Гугл не может тебе код генерировать и изображения.
Аноним 11/01/21 Пнд 00:13:13 1906957179
image.png 326Кб, 623x1280
623x1280
image.png 340Кб, 623x1280
623x1280
>>1906952
>на счет играть в игры не понял
Пикрелейтед, > - мои реплики, все остальное генерит сетка. Я еще добавил фразу про кислоту, дальше все тоже сгенерировано. Это реально текстовая РПГ в которой можно вообще что угодно, я убегал из тюрьмы через канализацию, меня травили школьники в классе, я разыгрывал диалоги с историческими персонажами (довольно шизоидные, но тем не менее).
Аноним 11/01/21 Пнд 00:17:19 1906962180
>>1906929
Вообще, открой статью про gpt-3. Там вся суть статьи в том, какие она задачи может решать.
Как сейчас применять это всё в бизнесе - другой вопрос. Но это r&d, от них и не требуется.
Потенциально - всякие умные чатботы, вопросно-ответные системы, создание выжимок из текстов.
Аноним 11/01/21 Пнд 00:17:31 1906963181
>>1906957
Только у нее не хватает памяти. Все твои действия забудутся через десять реплик.
Аноним 11/01/21 Пнд 00:17:36 1906964182
image.png 348Кб, 623x1280
623x1280
image.png 383Кб, 623x1280
623x1280
image.png 275Кб, 623x1280
623x1280
Забыл приложить в прошлом посте третий пик.

На втором пике я написал только первое предложение и добавил Lenin: , на втором я просто написал два ника - vova и nagibator666, а она родила этот пиздец.
Короче, когда к GPT-3 прикрутят DALL-E это будет полный пиздец
Аноним 11/01/21 Пнд 00:32:05 1906970183
>>1906963
Каждый раз возникает этот душнила. Нормально там с памятью все, около 4-6 кб только контекст, а еще можно создавать постоянную область, куда копипастить важные вещи типа имени твоих тиммейтов. Но так как суть рпг это постоянные путешествия, особо это не напрягает.
Вообще ощущения очень странные, потому что GPT-3 умудряется сделать осмысленный текст из любого действия, которое ты ему напишешь. Ну то есть напишешь "убей стражника помидором", и оно сука возьмет и распишет, как это произошло. Эта хуйня не троллируема, в отличие от GM из мяса.
Аноним 11/01/21 Пнд 00:34:12 1906971184
>>1906929
>Если так не понимаю чо за дроч вокруг нее, какие задачи это вообще может решить?
Смысл в zero shot learning, она по примерам описанным на естественном языке способна решать задачи, это максимально человечное поведение, которое кто-либо видел. То есть ты пишешь что-то вроде

Текст статьи:
[дальше статья длиной в несколько килобайт]
Ее краткое содержание:

И она дописывает ее краткое содержание сразу после двоеточия.
Аноним 11/01/21 Пнд 01:19:30 1906982185
>>1906970
>Нормально там с памятью все, около 4-6 кб только контекст
Это вообще ни о чем.
>а еще можно создавать постоянную область, куда копипастить важные вещи типа имени твоих тиммейтов
А еще можно писать текстовый квест руками, без всяких ГПТ, как делали деды. Это все костыли, не имеющие отношения к самой архитектуре. Нормальной памяти у ГПТ нет. Вместо большого контекста можно было бы периодически файнтюнить, но и этого не просходит. В результате все твои действия быстро забудутся.
>Но так как суть рпг это постоянные путешествия, особо это не напрягает.
Только в прежние места уже не вернешься.
Аноним 11/01/21 Пнд 01:25:20 1906983186
>>1906982
Можно дохуя чего делать, главное не быть душнилой типа тебя
Аноним 11/01/21 Пнд 01:26:06 1906984187
16038355373492.jpg 70Кб, 592x532
592x532
>>1906983
>Можно дохуя чего делать, главное не быть душнилой типа тебя
Аноним 11/01/21 Пнд 01:28:47 1906985188
>>1906964
>>1906957
Блядь! Я наконец-то понял, как играть в это по нормальной схеме. В поле "Remember" нужно указывать ИИ, как вести игру.
К примеру:
"Когда игрок пишет 'осмотреться' детально опиши локацию вокруг него. Никогда не действуй за игрока. Просто описывай, что происходит после его действий. Игрок живет в мире похожий на 16 век. Все города здесь называются в Европейском стиле по типу 'Пасро', 'Вайтран', 'Рубинхейген'. Создавай походие имена."

И знаете что? Это работает! ИИ действительно делает всё так, как я объяснил. Он создает названия по типу "Хельген", он не пытается дейтсвовать за игрока, а всегда пишет в конце "Что ты будешь делать дальше?". Надо лишь объяснить, как правильно играть, и он перестанет нести бред.

По-моему Дивный Новый Мир с ИИ совесем близко.
Аноним 11/01/21 Пнд 01:43:02 1906991189
>>1906964
затестил, конеш потенциал бомбический, но эльфийка которая попросила побить гоблина который на нее напал, через пару реплик забыла про него как я понял
Аноним 11/01/21 Пнд 01:44:35 1906994190
>>1906991
алсо мне доставила что я написал эльфийке привет на эльфийском из драгон ейджа и она поняла что это значит
Аноним 11/01/21 Пнд 01:51:01 1906997191
>>1906985
Однако 1000 символов в Remember это мало как-то. Прямо очень мало.
Аноним 11/01/21 Пнд 02:56:56 1907017192
>>1906985
Ты только учти что бесплатная версия там gpt2, а gpt3 еще круче лал
Аноним 11/01/21 Пнд 06:47:48 1907038193
Вообщем, навались. Нужно написать на Р, простенькую рекомендашку. Данные:Списки клиентов и списки книг которые они купили, так-же вся фин стата типа валовый оборот и доход клиента и прочее. У книг - нету рейтига, просто есть факт того что ей покупали. Посоветуйте пожалуйста в какую сторому смотреть\искать. Ожидаемый эффект от такой модели, анализ истории покупок клиента и формирования списка рекомендации, да, КЕП. Модель заказали контентщики, сами не понимая что ждут на выходе, по-этому, по сути, могу впихнуть любую рабочую идею.
Аноним 11/01/21 Пнд 07:41:29 1907044194
>>1907038
Очевидная коллаборативная фильтрация
Аноним 11/01/21 Пнд 07:54:06 1907045195
>>1907044
>коллаборативная фильтрация
Збс, то что нужно, буду гуглить варианты.
Аноним 11/01/21 Пнд 07:59:40 1907047196
>>1907044
Правда токо нужно придумать что вместо оцено подсунуть.
Аноним 11/01/21 Пнд 08:54:25 1907054197
>>1907047
кокококой-нибудь imdb для книг и оттуда оценки спиздить
Аноним 11/01/21 Пнд 09:29:34 1907057198
>>1907047
Купил книгу - 1, не купил 0.
Аноним 11/01/21 Пнд 10:20:57 1907066199
>>1907054
Такого говна на имдб точно нет, "1542 рецепта голубцов с говном для самых маленьких"
Аноним 11/01/21 Пнд 10:25:28 1907068200
>>1907038
google "svd in recommender systems"

А, пардон, у нас тут храм горьких невыученных уроков.
Хуй тебе, короче.
Аноним 11/01/21 Пнд 13:37:54 1907234201
>>1907038
>Посоветуйте пожалуйста в какую сторому смотреть\искать
https://cs.stanford.edu/~srijan/teaching/cse6240/spring2020/slides/22-deep-recsys.pdf
Это не самый cutting edge, но для интродакшена сойдет, там описывается как от дидовских методов перейти к нормальным и почему они лучше дидовских.
Для cutting edge нужно рассматривать историю как историю, то есть последовательность событий, когда ты и сезонность начнёшь учитывать, и много другое. Но у тебя вряд ли достаточно данных.

Еще можешь https://github.com/Microsoft/Recommenders почитать, но там очень горько, осторожнее

Алсо датасеты можно пиздить с помощью парсинга крупных магазинов и для мелкого кабанчикобизнеса это скорее всего будет эффективнее.
Аноним 11/01/21 Пнд 13:50:54 1907244202
>>1907234
В состоянии ли тут DL выиграть, если очевидно, данных маловато?
Аноним 11/01/21 Пнд 14:11:09 1907260203
>>1906935
Да, пишешь, "гпт, хочу рогалик такой то и такой-то". Хоп, и вот тебе полный код рогалика, ничё писать не надо.
Аноним 11/01/21 Пнд 14:15:52 1907265204
>>1907244
Моих телепатических скиллов тут мало, нужно объединить усилия треда, чтобы совершить астральную атаку на датасет и запустить AstralML
Аноним 11/01/21 Пнд 15:21:21 1907406205
>>1907260
GPT не запустится на компьютере юзера. А еще GPT очень много весит.
Аноним 11/01/21 Пнд 15:41:21 1907447206
>>1906935
Без машоба - https://robertheaton.com/2018/12/17/wavefunction-collapse-algorithm/
С машобом можешь хоть char-rnn взять из статьи карпатого (https://karpathy.github.io/2015/05/21/rnn-effectiveness/ https://medium.com/@ageitgey/machine-learning-is-fun-part-2-a26a10b68df3#.cvhzo63n0), можешь взять мелкий стек трансформеров с такой же целью, можешь VAE попробовать.
Скорость это вопрос архитектуры.
Аноним 11/01/21 Пнд 16:33:21 1907507207
>>1907447
Спасибо, анон. Мне главное, чтобы генеративный алгоритм смог хорошо улавливать закономерности в данных. Трансформеры это вещь конечно, надо попробовать какой-нибудь линейный. Но сначала надо попробовать
> Без машоба - https://robertheaton.com/2018/12/17/wavefunction-collapse-algorithm/
Аноним 11/01/21 Пнд 17:24:36 1907573208
>>1906662
Бамп
Как быстро можно полностью понять, как устроены gpt, если знаешь матан?
Аноним 11/01/21 Пнд 17:50:46 1907588209
>>1907573
MLP, rnn, lstm, seq2seq, seq2seq with attention, scaled dot product attention, multi head self attention, transformer, дальше читаешь пейпер по gpt2 (language models are что-то там by openai)
За неделю можно управиться на уровне "по верхам", читая оригинальные пейперы, разборы индусов в бложиках и посмотрев Килхера
Аноним 11/01/21 Пнд 18:06:28 1907597210
>>1907588
А в целом в ML (DS?) за сколько можно вкатиться, если ты действующий прогер с хорошим мат. бэкграундом?
Аноним 11/01/21 Пнд 18:20:55 1907602211
>>1907597
Примерно как перекатиться с фронтэнда на написание драйверов. Кто-то за месяц выйдет на джуна и за полгода на автономного мидла, а кому-то годы нужны, чтобы узнать, что такое dvc
Аноним 11/01/21 Пнд 18:35:44 1907610212
>>1907602
в машоб джуна за месяц? да ты ебу дал
Аноним 11/01/21 Пнд 18:44:29 1907613213
>>1907610
Если ты прогер с мат. бэкграундом, то сколько ты хочешь, год слесарьплов учиться импортить?
Аноним 11/01/21 Пнд 19:15:24 1907636214
>>1907613
Тогда я похоже немного переоцениваю машоб-специалистов
Аноним 11/01/21 Пнд 19:20:13 1907650215
>>1907636
Скорее ты недооцениваешь программистов
Аноним 11/01/21 Пнд 19:48:56 1907703216
как засунуть транфсформер в бустинк
Аноним 11/01/21 Пнд 20:43:06 1907788217
>>1907703
Пальцем разрабатывай
Аноним 11/01/21 Пнд 23:01:31 1907892218
Аноним 12/01/21 Втр 05:47:42 1908044219
>>1907892
Репортнул за самопиар.
Аноним 12/01/21 Втр 09:29:49 1908070220
Анон, объясни дурачку:

Чем кардинально отличается PyTorch/Keras от TensorFlow?

Какие преимущества одного над другим?
Аноним 12/01/21 Втр 12:15:14 1908150221
CBuXkJ0WAAEs2KC.jpg 48Кб, 604x453
604x453
>>1908070
> Какие преимущества одного над другим?
Что нравится, то и используй. Вряд ли что-то можно сделать одним из них, чего нельзя другим.
Аноним 12/01/21 Втр 15:05:34 1908281222
А можно ли тренировать нейросеть на сразу множестве компьютерах, связанных только интернетом (распределенная система)?
Аноним 12/01/21 Втр 15:34:05 1908292223
>>1908070
Если спрашиваешь, используй pytorch
Tf - очень плохая политика api, там зоопарк и постоянные deprecated ворнинги при обновлении. Keras это официальный api для tf2.0.
Pytorch прост и понятен.

Надо в faq добавить
Аноним 12/01/21 Втр 15:35:53 1908293224
>>1908281
Со стандартным бэкпропегейшеном нет, слишком много данных нужно гонять между нодами в последовательном режиме. Если 400 гбит канал имеется, можно подумать
Аноним 12/01/21 Втр 16:36:46 1908319225
>>1908292
pytorch довольно старые, по меркам индустрии, архитектуры только содержит же? (Читал где-то в прошлых тредах)
Аноним 12/01/21 Втр 16:50:12 1908323226
>>1908319
Наоборот, это стандарт, если чего-то нет в пайторче, значит скорее всего это лютая хуита, не стоящая внимания
Аноним 12/01/21 Втр 17:06:48 1908332227
>>1908319
Вайд-резнет - стандартная архитектура, подходит для всего.
Вот в керасе проблемы с зоопарком, хоть они и недавно эффишентнеты добавили, но обучать их тяжело и на гпу они ложатся плохо.
Ну и все реализации новых sota штук первым делом выходят на пайторче.
Аноним 12/01/21 Втр 18:39:58 1908433228
unnamed.jpg 96Кб, 512x473
512x473
>>1908319
кароч пайторч для норм пасанов, TF для петушил
Аноним 12/01/21 Втр 18:56:43 1908455229
>>1908293
А как теоретически можно было бы эту проблему решить или вот вообще никак по-твоему? Если все наши ноды обладают пропускным каналом не больше 1-10 Гбит/с.
Аноним 12/01/21 Втр 18:56:55 1908456230
>>1908332
А что это за sota-то? Архитектуры на острие науки типо?
Аноним 12/01/21 Втр 19:22:17 1908473231
>>1908455
Никак, используй ноды для поиска гиперпараметров, но обучай каждую сетку отдельно.
Теоретические - локальные и биологически правдоподобные альтернативы бэкпропагейшену, но они все говно настолько, что проще обучать маленькую архитектуру локально, что большую, но так.
Можешь https://cs.stanford.edu/~matei/papers/2019/sysml_parallelism_flexflow.pdf почитать для общего развития
Аноним 12/01/21 Втр 20:31:15 1908556232
А трансформеры хорошо работают на малом количестве данных? Или как lstm выдают кашу из символов?
Аноним 12/01/21 Втр 20:36:25 1908559233
>>1908556
Как и любая нейронка, плохо. Но предобученные работают очень хорошо, обычно можно даже не файнтюнить и сразу доставать фичи.
Аноним 12/01/21 Втр 20:42:35 1908565234
>>1908559
Тогда мне остается использовать только марковские цепи с запоминанием контекста для моей задачи.
Аноним 12/01/21 Втр 21:04:12 1908584235
>>1908556
> А трансформеры хорошо работают на малом количестве данных?
А ты их с нуля решил обучить? Миллионер дохуя, собственный суперкомпьютер имеешь?
Аноним 12/01/21 Втр 21:24:09 1908611236
>>1908584
> А ты их с нуля решил обучить?
У меня есть игра. Но естественно, фантазия и у меня конечная, по этому я хочу добавить в игру процедурно-генерируемый контент на основе уже существующего.
Аноним 12/01/21 Втр 22:10:05 1908660237
>>1908556
Получше чем lstm, но чудес не бывает. Претрейни на неразмеченных
Аноним 13/01/21 Срд 00:53:48 1908776238
>>1908611
Dwarf Fortress: генерит бесконечные варианты развития событий и сюжетов, будучи написанной на сях.
Зумер на дваче: не знает как прогать и потому хочет впихнуть нейросетку в любую вещь которая требует навыка.
Аноним 13/01/21 Срд 01:00:22 1908780239
>>1908776
Но ты же понимаешь, что чисто физически невозможно охватить любую хотелку игрока, типа "лизнуть елку", или "сказать Джейку 'пошел нахуй'". Даже будь ты трижды Тарном Адемсом.
Аноним 13/01/21 Срд 01:14:05 1908784240
>>1908776
Ни в коем случае не пишите ничего нового, просто сидите на дваче и нудите.
Аноним 13/01/21 Срд 01:55:50 1908801241
Аноним 13/01/21 Срд 02:31:26 1908808242
>>1908801
Так AI Dungeon на английском. К тому же он не без минусов (а их много).
Выглядит очень сыро.
Аноним 13/01/21 Срд 04:16:30 1908834243
Green elephant [...].png 186Кб, 600x339
600x339
В чём разница между Alpha Go\Zero и генетическим алгоритмом с памятью?

Правильно ли я понимаю, что Alpha Zero - это генетический алгоритм с большим объёмом памяти и не более того?

В этом случае ему нужно крайне малое число действий для манёвра, те же шахматы или шашки, иначе база данных быстро заполнится мусором.
Боты в CS тоже могут быстро вынести всех противников на карте, и там нет мл даже, зато громких выкриков "ИИ ПОБЕДИЛ ЧЕЛОВЕКА В CS - НОВАЯ ЭРА НАЧАЛАСЬ!" как с шахматами слышно не было.


Аноним 13/01/21 Срд 05:24:27 1908849244
>>1908834
>генетический алгоритм

Я хотел сказать "перебор с записью результатов в память".
Аноним 13/01/21 Срд 05:53:07 1908853245
>>1908834
> Правильно ли я понимаю, что Alpha Zero - это генетический алгоритм с большим объёмом памяти и не более того?
Неправильно. Там же написано, что использовали авторы, зачем что-то додумывать? Ты зумер?
Аноним 13/01/21 Срд 07:17:13 1908862246
>>1908834
Хуево быть тобой, конечно.
Аноним 13/01/21 Срд 09:54:30 1908886247
Какие можно сделать проекты по RL, чтобы дед-препод сказал малацца? Что-то сложнее перевернутого маятника, но проще vizdoom'а.
Аноним 13/01/21 Срд 13:36:16 1908967248
>>1908886
камень ножницы бумага
Аноним 13/01/21 Срд 13:44:08 1908971249
>>1908886
Крестики-нолики в бесконечномерном пространстве.
Аноним 13/01/21 Срд 13:58:07 1908976250
>>1908967
>сложнее перевернутого маятника
>>1908971
>проще vizdoom'а
Аноним 13/01/21 Срд 14:23:09 1908985251
Машоб-спецы, а какой по вашему мнению следующий этап у архитектуры gpt-3?

Я слышал, что некст левел будет когда openai прикрутят к нейронке какие-то "ациклические графы", но хз что это значит в контексте машоба. Проясните, хули
Аноним 13/01/21 Срд 14:27:00 1908987252
>>1908985
Трансформеры поменяют на лонг-/ре-/перформеры, для реальных задач контекст можно будет считать бесконечным.
Аноним 13/01/21 Срд 14:49:08 1908999253
>>1908808
>Так AI Dungeon на английском
Лингва франка всего мира.
>К тому же он не без минусов (а их много)
Назови один.
>Выглядит очень сыро.
Сперва добейся.
Аноним 13/01/21 Срд 15:18:34 1909029254
>>1908987
А можно ли аккуратно перевести обученную gpt-like нейросеть да новую архитектуру, не обучать все с нуля?
Аноним 13/01/21 Срд 15:20:13 1909032255
>>1909029
На перформеры можно
Аноним 13/01/21 Срд 16:09:42 1909076256
>>1909032
>перформеры
нет таких нейросетей дебич
Аноним 13/01/21 Срд 17:55:23 1909156257
>>1909032
Спасибо, нагуглил статью от гугла про него. А можно перформер уже сейчас сделать?
Аноним 13/01/21 Срд 18:31:02 1909194258
>>1908999
> Назови один.
- Зависим от сторонних серверов, а запускать локально непосильно для среднего игрока.
- Несет бред. Логика это не про AI Dungeon.
- Плохо взаимодействует со стейтом мира (его вообще нет).
Аноним 13/01/21 Срд 18:33:05 1909197259
>>1909194
Эта игра работает на GPT-2, чел. Ты собрался заделывать GPT в соло?
Аноним 13/01/21 Срд 18:37:30 1909200260
>>1909197
> Ты собрался заделывать GPT в соло?
Нет. У меня нет желания создавать языковую модель на все случаи жизни. Я создаю игру в определенном созданным мною сеттинге, но с генеративным контентом и большой интерактивностью. Генеративные нейросети это олин из инструментов. Но, как я понял, нейросети плохо подходят для того чтобы быстро усваивать паттерны в данных.
Аноним 13/01/21 Срд 19:28:22 1909265261
Так чтобы научить gpt генерировать мир нужно сначала скормить ей дохуя миров, а для этого генерацию всё равно придётся сначала написать.
Аноним 13/01/21 Срд 22:35:33 1909420262
обучение нейросети генетическими алгоритмами имеет право на жизнь? насколько я понимаю, точной математической оценки временной сложности стандартных алгоритмов обучения или генетических нет, но чет вторыми редко пользуются.
Аноним 13/01/21 Срд 23:00:06 1909432263
>>1909194
1) Это плюс а не минус.
2) А ты уверен, что для тебя это минус?
3) Она взаимодействует хуже вручную написанных диалогов. Вам бы текстовые квесты писать, батенька. Попробуй сделать сам что-то, чтоббы оно хотя бы пыталось сделать этот параметр на нужном тебе уровне. Сейчас есть уже куча смешивающих фичи изображений споособов, наверняка можно использовать их подходы для текста. Всего-то делов собрать датасет (на самом деле это самое сложное для обучения сетки. Теоретиков много, а практиков- днём с огнём не найти)
Аноним 13/01/21 Срд 23:10:38 1909444264
Подскажите материалы по анализу данных, если я не знаю, что я ищу. Есть ли примерчики когда берут кучу данных, с нихуя их обрабатывают и учат что там можно накопать? С меня нихуя
Аноним 13/01/21 Срд 23:12:14 1909447265
>>1909420
Генетические алгоритмы - эвристика. Ждем, пока местный шизик сошлётся на жопеншмульцера, чтобы это опровергнуть.
Аноним 14/01/21 Чтв 01:41:04 1909578266
16104826215542.jpg 44Кб, 552x690
552x690
>>1909432
> А ты уверен, что для тебя это минус?
Знаешь ли, постоянно нажимать кнопку "reset" (читай: заниматься черрипикингом), только потому что ИИ несет бред, и в итоге останавливаться на более-менее адекватном варианте, сложно назвать приятной игрой. Это еще я не говорю, про то что ИИ действует и говорит за игрока. Даже я, когда только начинал DM'ить не позволял себе такой ахуелости.

У меня вообще нет ни одного варианта как сделать IF'ки с помощью ML/AI. Ролеплей - ИИ-полная задача в смысле нам нужен интеллект, соответсвующий человеческому. .
Ты либо большую часть игры создаешь сам, разбавляя её процедурщиной (игра получится ограниченой, но в тоже время нересурсотребовательной) , либо сваливаешь все на языковую модель (технически в игре ты сможешь всё на что хватит тебе фантазии, но игра может быть очень некотроллируемой во многих местах + оверхед по ресурсам).

Честно говоря, все языковые модели, какие бы они не были, не подходят для текстовых квестов (здесь нужен иной подход, какой - хуй знает). В данном случае Марковские цепи и GPT индетичны. Что то просто следующее слово предсказывает, что то. А результат всё равно не удвлетворительный.
Аноним 14/01/21 Чтв 01:50:02 1909582267
>>1909420
> обучение нейросети генетическими алгоритмами имеет право на жизнь?
Предобучение генетическим --> обучение подкреплением.

Правда... нахуя? Подкрепление куда эффективней, чем генетические алгоритмы. Почему оно так, надеюсь, объяснять не надо.
Аноним 14/01/21 Чтв 02:28:13 1909602268
>>1909578
>в смысле нам нужен интеллект, соответсвующий человеческому. .
Не нужен, почитай битерлесон пожалуйста
>В данном случае Марковские цепи и GPT индетичны.
Нет же!!
Аноним 14/01/21 Чтв 04:44:08 1909638269
>>1909582
нада. я просто слегка тупенький мимокрок, который играясь с генетическими вспомнил про нейронки.
обучение подкреплением действительно очень похоже на генетические алгоритмы: и там и там цель подобрать такие параметры (веса, гены), при которых некая функция будет максимальна. неужели здвиг всех весов на некое милипизрическое значение в зависимости от выходной ошибки на каждом шаге прям в овер 9000 эффективнее, чем постоянные рандомное скрещивания лучших на данным момент параметров?
Аноним 14/01/21 Чтв 06:51:40 1909663270
>>1909638
> и там и там цель подобрать такие параметры (веса, гены), при которых некая функция будет максимальна
Ты только что любую оптимизацию
>неужели здвиг всех весов на некое милипизрическое значение в зависимости от выходной ошибки на каждом шаге прям в овер 9000 эффективнее, чем постоянные рандомное скрещивания лучших на данным момент параметров?
Генетический алгоритм чуть лучше случайного перебора по своей логике. По сути это случайный перебор, у которого область поиска постоянно сокращается по определенным правилам.
Когда у тебя 200 параметров и 1000 особей - это одно. А когда параметров у тебя миллионы, то и особей нужны ну хотя бы тоже миллионы, что это хоть как-то работало. И это уже неэффективно.
Аноним 14/01/21 Чтв 06:57:13 1909665271
>>1909663
> Генетический алгоритм чуть лучше случайного перебора по своей логике. По сути это случайный перебор,
Это абсолютно не так. Даже если не лезть в матчасть, а просто сравнить время работы генетического алгоритма и перебора. На одной и той же задаче, на которой grammatical evolution с генетическим алгоритмом сходится за несколько секунд, перебор висел минут 15, пока я просто процесс не прибил. Разница по времени там буквально на порядки.
Аноним 14/01/21 Чтв 06:58:42 1909666272
>>1909665
Как же вы блядь любите гринтекстить так, как ваш синдром дефицита внимания вам велел. Попробуй еще
Аноним 14/01/21 Чтв 07:12:10 1909667273
>>1909665
Есть какое-то теоретическое обоснование?
Аноним 14/01/21 Чтв 07:12:11 1909668274
>>1909665
Если у нас нейронка, то все гены - float'ы.
Берем набор особей. Это набор точек в пространстве.
Далее мутация - это это сменение точки в случайном направлении.
Кроссовер - это ты из 2-х точек получаешь одну, которая, в зависимости от правил этого кроссовера, будет где-то на кубике вписанном между этими двумя точками.
То есть мутация обеспечивает тебе случайный поиск, селекция и кроссовер - сужение границ поиска. В итоге все сходится.
Но чтобы оно сходилось, у тебя изначально должны быть хорошие шансы оказаться рядом каким-то хорошим минимумом. Для этого особей должно быть достаточно много, и как много зависит от размерности твоей задачи, и я не вижу причин, чтобы зависимость не была экспоненциальной.
grammatical evolution - какая там у тебя размерность, 1000 есть хотя бы? А небольшая нейронка имеет в 1000 раз больше параметров, и сама поверхность хуже для ГА, если прикинуть.
Аноним 14/01/21 Чтв 07:42:11 1909672275
>>1909668
> Но чтобы оно сходилось, у тебя изначально должны быть хорошие шансы оказаться рядом каким-то хорошим минимумом.
Сходиться оно в любом случае будет. Тут зумера не любят теорем Жопеншмуклера, а я все же сошлюсь на теорему схем Холланда, доказанную им в 1975. С практической точки зрения, опять же, генетические алгоритмы хорошо сходятся и не застревают в локальных минимумах даже специальной хуйни типа функции Растригина. Да, все это плохо работает на многомерных данных, но я не вижу причин, почему ГА нельзя распараллелить и состыковать из отдельных алгоритмов, решающих задачу низкой размерности, теорему Колмогорова-Арнольда никто не отменял.
Аноним 14/01/21 Чтв 09:37:30 1909690276
Аноним 14/01/21 Чтв 12:22:09 1909763277
>>1909638
Вот смотри:
Алгоритм с подкреплением ведет поиск "осознанно". Он накладывает на поиск вариантов евристики.
Генетический алгоритм всё делает рандомно. Еврестики подбираются тоже случайным образом.
Генетический алгоритм будет дольше обучается, чем подкрепление.

Вот самое лучшее сочетание предобучение авторегрессией -> обучение подкреплением.
К примеру, задача генерации музыки.
Мы даем нейронке изначальные знания, в виде базы данных музыкальеых произведений. Затем, когда она генерирует музыку, подкрепляем лучшие результаты работы алгоритма, а откровенно плохие варианты - откидываем.

Такой подход можно применить задач генерации текста и музыки, ибо там требуется некоторый абстрактный "смысл", который можно вывести, накладывая на алгоритм ограничения вручную.
Аноним 14/01/21 Чтв 12:25:27 1909767278
>>1909602
> Не нужен, почитай битерлесон пожалуйста
Начнем с того, что увеличение данных для GPT не улучшит его работу.
> Нет же!!
GPT = Марковские цепи со знанием контекста и вниманием. Change my mind.
Аноним 14/01/21 Чтв 12:26:59 1909768279
>>1909763
> Затем, когда она генерирует музыку, подкрепляем лучшие результаты работы алгоритма, а откровенно плохие варианты - откидываем.
Вручную что ли? Ну биттерлессон же, мань. Ну че ты.
Аноним 14/01/21 Чтв 12:32:03 1909772280
>>1909768
> Вручную что ли?
Естессна.
К примеру у тебя есть музыкальный сервис, которые фокусируется на генеративной AI-музыке.
Генериреутся она через (VQ)VAE.
Однако, даже если данных будет достаточно, не каждый вариант будет хорошим - это факт.
Но, внимание, у пользователей есть кнопки лайк и дизлайк. Именно пользователи будут дообучать нейросеть подкреплением.
Через некоторое время, алгоритм будет делать музыку не хуже человека.
Аноним 14/01/21 Чтв 12:32:13 1909773281
>>1909763
> Алгоритм с подкреплением ведет поиск "осознанно". Он накладывает на поиск вариантов евристики.
> Генетический алгоритм всё делает рандомно. Еврестики подбираются тоже случайным образом.
Ты не понимаешь принципов работы ни ГА ни RL. При этом пытаешься спорить. Могу предположить, что ты зумер.
Аноним 14/01/21 Чтв 12:44:22 1909782282
>>1909767
>Начнем с того, что увеличение данных для GPT не улучшит его работу.
Так ты весов тоже накинь
>GPT = Марковские цепи со знанием контекста и вниманием. Change my mind.
Можно с таким же успехом написать что-то типа "GPT - функция". Смысл в твоей интерпретации какой, даже если она верна, хотя скорее всего она не верна?
Аноним 14/01/21 Чтв 13:51:26 1909812283
abcdf.png 156Кб, 1098x468
1098x468
Попробовал сделать на питорче нейросеть, которая преобразует русский спич с текст, но чего-то не получается. Сделал её из другой своей RNNки, которая определяла последовательность рукописного текста.
Может, вы увидите какую-то грубую ошибку и что там не так? https://pastebin.com/bb6kviKM

По обучению, получается так, что вывод заполняется blank label (maxr на картинке). А loss потихоньку спускается к нулю, а потом к отрицательным значениям.
Аноним 14/01/21 Чтв 14:29:32 1909833284
Реинфорсмент точно так же перебирает все варианты, просто после какого-то количества траев он чаще выбирает выигрышные в прошлом
Аноним 14/01/21 Чтв 14:44:09 1909837285
>>1909833
Во-первых, рл - это большая область с кучей разных задач и алгоритмов. Во-вторых, где в каком-нибудь REINFORCE есть "перебор всех вариантов"? Там напрямую максимизируется матожидание награды, никакого перебора всех вариантов там нет. Изначальная околослучайная стратегия - это не перебор вариантов.
Аноним 14/01/21 Чтв 16:30:03 1909918286
Чтобы научить GPT-3 что-то делать, ему надо дать несколько примеров. Допустим, для того чтобы он переводил — 10 примеров фраз на русском и английском.

А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3? По одной нашей команде, чтобы бы не пришлось предоставлять ему какие-то примеры для работы вообще? Или это бессмысленно и должен быть какой-то ввод извне, типа в этом суть?
Аноним 14/01/21 Чтв 18:23:36 1910002287
>>1909918
> А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3?
Будет переобучение отрицательными (некорекктными) данными. Улучшение результата не будет.
Аноним 14/01/21 Чтв 19:48:43 1910083288
Подскажите, книжонки в оп посте для вкатывания актуальные?
Аноним 14/01/21 Чтв 20:10:48 1910098289
>>1910083
За остальные не поясню, но Бишоп не для вкатывания, а для deep dive. Всё актуально, кроме части про нейронки.
Аноним 14/01/21 Чтв 20:19:14 1910101290
>>1910098
>Что почитать для вкатывания?
>http://www.deeplearningbook.org/
>Николенко "Глубокое обучение" - на русском, есть примеры, но >меньше охват материала
>Франсуа Шолле - Глубокое обучение на Python
А где тут бишоп?
Аноним 14/01/21 Чтв 20:43:08 1910115291
>>1910101
А, в глаза ебусь, увидел в шапке только дедовские книги.
Почему-то для вкатывания один диплернинх. В классический машоб я бы советовал вкатываться с курса от одс, а в DL - со стенфордского cs231n. Если нужно будет погружаться глубже, то тогда узконаправленно читать нужную инфу.
Если из предложенных книг выбирать, то там +- одно и то же. После любой из них всё равно придется догонять то, что было после 17 года придумано.
Аноним 14/01/21 Чтв 21:32:50 1910177292
>>1907068
>>1907057
Тут норм, просто как дверь.
>>1907234
Буду раскуривать-гуглить.
Ппц я отсталый, посоны
Аноним 14/01/21 Чтв 22:21:28 1910222293
Чего вы там "учите" в диплёрнинге-то? Как градиентный спуск работает что-ли? Так же как и для перецептрона классического, матешки в мл на самом деле самый минимум.
Аноним 14/01/21 Чтв 22:34:12 1910236294
Аноним 14/01/21 Чтв 23:13:02 1910261295
>>1910236
ну это смотря какого человека
не могу удержаться, извините
Аноним 14/01/21 Чтв 23:23:31 1910272296
Аноним 14/01/21 Чтв 23:28:28 1910276297
>>1910222
Соглы, можно в orange модельку накликать вообще без математики. Значит математика не нужна, доказано.
Аноним 15/01/21 Птн 00:56:09 1910357298
>>1910276
Ну вот градиентный спуск и есть математика которая там нужна, сколько нужно времени чтоб освоить как думаешь?
Аноним 15/01/21 Птн 01:16:52 1910367299
Как GPT понимает, когда перестать генерировать текст?
Аноним 15/01/21 Птн 01:54:28 1910387300
>>1909194
Оно и не будет взаимодействовать с миром нормально до тех пор, пока мир не будет являть собой мысле-образ, как ты, перед тем, как написать/сделать что-то, представляешь это в голове. Эта штука так не может, да и не сумеет.
Аноним 15/01/21 Птн 02:18:03 1910404301
>>1910387
> мысле-образ,
И тут ты такой с определением "мысле-образа". Ах да, ты ж просто зумер...
Аноним 15/01/21 Птн 02:34:52 1910411302
>>1910404
Ты еще попроси определения слова куча сена дать. Я ебу что-ли, для кого-то куча - 1 кг, для другого - тонна.
Вопрос в том, что животные (большинство из них) действую по схеме:
стимул -> реакция
А учеловека:
раздражитель -> мысль -> действие
Я уж не говорю о том, что эта цепочка может начаться вовсе без раздражителя.

Или ты из тех, кто отрицает наличие свободы воли и образного мышления?
Аноним 15/01/21 Птн 02:38:57 1910412303
>>1910404
Любая из существующих нейросетей - черный ящик с хорошей эвристикой. Человек действует несколько иначе. Ты вот как считаешь, откуда у человека сознание? Мне кажется, что это следствие необходимости создания инструментов и социального взаимодействия.
Аноним 15/01/21 Птн 04:23:26 1910420304
>>1910412
>Любая из существующих нейросетей - черный ящик с хорошей эвристикой. Человек действует несколько иначе.
Пруфца бы
Аноним 15/01/21 Птн 05:17:55 1910430305
>>1910412
>>1910411
>>1910387
И типа кто-то кроме зумерошизика спутает это с осмысленной человеческой речью. Реально же не лучше марковских цепей из нулевых, более менее семантически корректный бред генерировать может, но не более. Конкретно этот анон с порфирьевичем (который на гпт2 с прибамбасами) развлекается видимо.
Аноним 15/01/21 Птн 05:48:18 1910433306
>>1910430
Ну давай, укажи на бред. Где конкретно я не прав, в чем?
Аноним 15/01/21 Птн 06:44:30 1910446307
>>1910433
> Ну давай, укажи на бред Где конкретно я не прав, в чем? Ну порфирьич, рожай
Dieu lui sera- sera, mais je suis si dans le monde, ench
Аноним 15/01/21 Птн 08:42:20 1910458308
>>1910236
>Проделав теоретические вычисления, международная группа ученых под руководством команды исследователей из Института Макса Планка (Германия) показала, что появись такой ИИ, управлять им мы точно не сможем.
Содомит, прекрати. Слово ученый уже зашкварилось как и слово либерал.
Аноним 15/01/21 Птн 16:38:13 1910770309
Аноним 15/01/21 Птн 16:49:38 1910782310
Аноним 15/01/21 Птн 21:05:56 1911121311
>>1910782
>быдло
Это с чего же?
Аноним 15/01/21 Птн 21:30:31 1911155312
>>1911121
Институт науки не уважаешь, вас таких в пробирке тьмы и невежества выводят. А если вас просвещать, за такое в тематике банят
Аноним 15/01/21 Птн 21:38:56 1911165313
>>1909812
А CTCLoss вообще может быть отрицательным? Я с pytorch'ем на вы, но мне кажется в training loop какая-то ебань, сама сетка как сетка, работать будет вряд ли, потому что слишком простая, но хоть как-то обучаться должна
Аноним 15/01/21 Птн 21:39:44 1911166314
Аноним 15/01/21 Птн 21:41:06 1911167315
>>1909918
>А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3?
Можно. Вот так: дай ему 10 примеров, о выдаст тебе еще 10. Кек
Аноним 15/01/21 Птн 22:02:58 1911207316
>>1910115
>Почему-то для вкатывания один диплернинх
Есть ссылка на CS229. Впрочем, надо добавить курсы отдельно
Аноним 15/01/21 Птн 22:03:55 1911210317
>>1911155
>Институт науки не уважаешь, вас таких в пробирке тьмы и невежества выводят. А если вас просвещать, за такое в тематике банят
Нормальная наука есть только в крупных коммерческих фирмах. Остальные ученые в говне моченые ничем кроме попила грантов не занимаются.
Аноним 15/01/21 Птн 22:10:10 1911225318
>>1911155
>Институт науки
У меня к ним есть вопрос, когда они перестанут жечь динозавров в ДВС или хотя бы поднимут КПД больше 40% ?
Аноним 15/01/21 Птн 22:24:54 1911245319
>>1911210
Ну если под наукой подразумевать брутфорс по подбору моделек на куче данных и мощностей то да. Наукой же как изучением тайн природы (в классическом смысле этого слова т.е.) кабанчики не интересуются.
Аноним 15/01/21 Птн 22:30:27 1911250320
>>1911210
Фундаментальной наукой как раз занимаются только на уровне гос. финансирования, капитал заинтересован только в short outcomes.
Аноним 15/01/21 Птн 22:34:46 1911256321
>>1911250
Комми, газуй отсюда
Аноним 15/01/21 Птн 22:46:14 1911267322
>>1911210
>Остальные >ничем
>>1911250
>только

Вот оно мышление быдла - предельное упрощение сложности мира, чтобы в мозг влезало
Аноним 15/01/21 Птн 23:14:57 1911305323
>>1911245
>Наукой же как изучением тайн природы (в классическом смысле этого слова т.е.) кабанчики не интересуются.
В современной науке основной фокус это не изобретение нового, а публикация как можно большего количества пейперов низкого качества. Поэтому от большинства исследований пользы даже меньше, чем от кабанчиков, которые трясут ящик чтобы решить задачи бизнеса. Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов. Остальные просто паразитируют на грантах.
Аноним 16/01/21 Суб 00:01:26 1911335324
>>1911305
>а публикация как можно большего количества пейперов
Перестань, это Болонская система где требуют публиковаться
>Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов
Не делают, они вам пытаются скормить
>Остальные просто паразитируют на грантах.
В это и есть смысл современной науки
Аноним 16/01/21 Суб 00:35:50 1911354325
>>1911305
>Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов
Инновации делают ученые, которые там работают, и гугл, фейсбук и прочие их не в пробирке выращивают. Инновационная экономика - система комплексная и частично не работает, нужно и обучать ученых, и отбирать их, и давать им финансирование, и чтобы они делились знаниями как можно раньше, а не пытались зажопить ноу-хау.
Вытащишь что-то, работать не будет.
Аноним 16/01/21 Суб 00:57:52 1911370326
А насколько реально расширить память GPT-3, сколько там, всего 2-3 кб? Или с ее трансформерной архитектурой это прямо-таки анрил?
Аноним 16/01/21 Суб 01:32:31 1911390327
>>1911354
>нужно и обучать ученых, и отбирать их, и давать им финансирование
А можно просто выучить наконец битерлессон и забить на этих дармоедов.
Аноним 16/01/21 Суб 02:00:52 1911407328
>>1911390
Richard S. Sutton
Distinguished Research Scientist, DeepMind Alberta
Professor, Department of Computing Science, University of Alberta
Principal Investigator, Reinforcement Learning and Artificial Intelligence Lab
Chief Scientific Advisor, Alberta Machine Intelligence Institute (Amii)
Senior Fellow, CIFAR
Аноним 16/01/21 Суб 04:18:13 1911467329
В машобе есть фриланс?
Аноним 16/01/21 Суб 06:25:08 1911479330
>>1911467
Валом, обычно мелкошерстые конторы берут подфитить модели которые написал бывший их саентист перед тем как свалил.
Держать такое рыло на полную ставку им не выгодно.
Аноним 16/01/21 Суб 07:52:53 1911489331
>>1911407
>Professor, Department of Computing Science, University of Alberta
>Principal Investigator, Reinforcement Learning and Artificial Intelligence Lab
>Chief Scientific Advisor, Alberta Machine Intelligence Institute (Amii)
>Senior Fellow, CIFAR
Пиздец у него титул, взоржал.

Профессор, почетный член всех академий, любимый муж и папочка, исследователь всяких исследований, заведуюйщий двухкомнатной лабораторией с четермя стульями, очень умный, консультант по щам и просто хороший человек
Аноним 16/01/21 Суб 08:37:27 1911494332
>>1911479
Где это? На апворке?
Аноним 16/01/21 Суб 08:41:33 1911495333
>>1911489
У обезьяны-эникейщика подгорело
Аноним 16/01/21 Суб 09:42:19 1911504334
>>1911225
когда изобретут то, что будет дешевле динозавров или когда динозавры кончатся или когда жечь динозавров станет опасно для жизни
Аноним 16/01/21 Суб 09:58:23 1911510335
>>1911489
>Пиздец у него титул, взоржал.
>>1911495
>У обезьяны-эникейщика подгорело
При этом такой профессор получает меньше, чем типичная веб-макака в индустрии.
Аноним 16/01/21 Суб 10:06:13 1911512336
Аноним 16/01/21 Суб 10:21:32 1911515337
15982164124121.png 115Кб, 482x400
482x400
>>1911512
>Вот это пожар
Но ведь пожар как раз у наукопетушни, которая потратила всю свою жизнь чтобы зарабатывать как вчерашний студент.
Аноним 16/01/21 Суб 10:40:04 1911522338
>>1911510
> При этом такой профессор получает меньше, чем типичная веб-макака в индустрии.
Смотря где. Пару лет назад постили зарплаты в Японии, среднестатистический профессор там получает в пересчёте на нашу псевдовалюту около 900к₽. Очень сомнительно, что такой доход имеет вебмакака, даже в той же Японии. Если ты про Блинолопатию, то да, тут и дворник гурбангулбердымужамеджон в москваюрте больше профессора в регионах имеет.
Аноним 16/01/21 Суб 11:06:00 1911526339
>>1911510
Недавно читал что много челов в openai и deepmind получают около 1кк зеленых в год. макаки столько никогда не будут получать
Аноним 16/01/21 Суб 12:23:58 1911584340
>>1911522
>в пересчёте на нашу псевдовалюту около 900к₽.
Мань, плез, сколько у него остается на руках и сколько он тратит на хоромы в два квадратных метра в пездоглазии
Аноним 16/01/21 Суб 12:24:57 1911587341
>>1911526
>получают около 1кк зеленых в год
За что?
Аноним 16/01/21 Суб 12:27:12 1911592342
>>1911510
>такой профессор
Кокой прохфесор? Обычное ноунеймговно которому нужно публиковаться, что бы бабосы не урезали
Аноним 16/01/21 Суб 12:33:16 1911602343
6744salary.jpeg 55Кб, 580x546
580x546
Аноним 16/01/21 Суб 13:24:16 1911669344
>>1911592
Саттон - ноунеймоговно, держи в курсе.
Аноним 16/01/21 Суб 13:40:39 1911694345
Аноним 16/01/21 Суб 14:39:56 1911730346
>>1911694
Придумал битерлессон, великий учёный
Аноним 16/01/21 Суб 16:59:21 1911938347
А как можно посмотреть параметры GPT-2, например, получить все значения слоя аттеншенов на каждом шаге?
Аноним 16/01/21 Суб 17:08:07 1911957348
Калькулус с несколькими переменными необходим для понимания архитектуры GPT?
Аноним 16/01/21 Суб 17:13:02 1911964349
Ну всё, пизда, набежало гптшников которые не в курсе что такое градиентный спуск. Не с ютуба ли?
Аноним 16/01/21 Суб 17:17:23 1911975350
>>1911669
>Саттон - ноунеймоговно
Представься, пидор не-ноунеймговно
Аноним 16/01/21 Суб 18:14:38 1912028351
>>1911964
Я скоро напишу свой gpt
Аноним 16/01/21 Суб 18:48:33 1912046352
Почему вычисления готовой нейросети такие нетребовательные к ресурсам? Та же GPT-3 вполне будет работать на игровом компьютере
Аноним 16/01/21 Суб 21:27:48 1912182353
>>1912046
>Та же GPT-3 вполне будет работать на игровом компьютере
Не будет. Даже GPT-2 с трудом запускается на 11Гб видеопамяти, а у GPT-3 на два порядка больше параметров.
Аноним 16/01/21 Суб 21:34:27 1912187354
>>1912046
Потому что это всего лишь перемножение матриц, для которых давно разработаны очень быстро работающие алгоритмы
Аноним 16/01/21 Суб 22:49:47 1912239355
>>1911526
>Недавно читал что много челов в openai и deepmind получают около 1кк зеленых в год. макаки столько никогда не будут получать
Макаки-лиды в долине получают столько же.

К тому же это все коммерческие компании. Я же говорил про профессоров, которые работают в университетах и имеют титул длиннее, чем их история работы. Такие получают максимум тысяч 150, и то к самому концу карьеры, проработав всю жизнь за зарплату автомеханика.
Аноним 16/01/21 Суб 23:42:33 1912265356
>>1912239
>>1912239
Вообще, долина по сути уникальное место, касаемо зарплат. Допустим, сравним зарплаты того же тим лида и assistant professor(аналог нашего доцента). Да, во время phd зп разработчика будет выше, чем у аспиранта. Для сравнения взял бостон, где расположен MIT. Наверное в других универах зп профессоров пониже, но лень сидеть смотреть. Так вот, согласно glassdoor зарплата профессора оказалась выше(111к+24к бонусов) против team leader(104к). Так что все не так однозначно. Плюсом так же к профессии профессора идет более менее гибкий и свободный график. Возможно мог ошибиться когда смотрел зп в glassdoor, но пока вот так.
Аноним 17/01/21 Вск 00:00:24 1912278357
>>1912265
>против team leader(104к)
Там какая-то фигня с данными. У обычных фулл-стек макак написано 111к не включая бонусы, что похоже на правду. У лидов должно быть минимум 150.
>Да, во время phd зп разработчика будет выше, чем у аспиранта
>Так что все не так однозначно. Плюсом так же к профессии профессора идет более менее гибкий и свободный график. Возможно мог ошибиться когда смотрел зп в glassdoor, но пока вот так.
Чтобы стать профессором надо получить пхд, а это минимум пять лет за зарплату в 3 раза меньше зарплаты джуна. После этого пойдешь еще лет пять въебывать постдоком за зарплату все еще меньше зарплаты джуна. Наконец, если повезет, годам к 35 наконец станешь профессором с зарплатой 100+. Гибкий в академии ничего не значит, поскольку все зависит от твоих достижений в науке. Ты либо работаешь с утра до ночи, либо остаешься вечным постдоком или вообще вылетаешь.
Аноним 17/01/21 Вск 00:24:10 1912294358
Идея на миллиард.
ИИ, который переводит мангу. Данных много, в том числе, можно синтезировать (нужны лишь пары изображений (с текстом оригинал-перевод) в разных шрифтах).
Переводить будет и SFX'ы.

Использовать можно (нужно) GAN.
Аноним 17/01/21 Вск 00:26:52 1912297359
>>1912294
Конечно с качеством самого первода могут быть проблемы, но вот с чисто механическими действиями обработки страниц манги GAN должен справиться. Скорее всего потребуется гибридная архитектура.
Аноним 17/01/21 Вск 00:45:39 1912310360
>>1912294
Было в треде год назад
Аноним 17/01/21 Вск 02:21:38 1912354361
А как обучать сетку (вернее её энкодер часть) сразу на нескольких задачах? Типа если на изображениях то каждую эпоху отфигачивать верхную денс сетку оставляя старую реснет голову, добавлять с нуля инициализированныйи денс слой и продолжать обучать на новой задаче? Это можно удобоваримо в керасе или торче сделать?
Аноним 17/01/21 Вск 02:35:17 1912362362
>>1912354
В керасе model.layers[index].weights хранит веса в виде списка numpy массивов, ты можешь создать две модели, одну проинициализированную с нуля, вторую с загруженными весами и скопировать что угодно из чего угодно. Это полезно знать чтобы оно не было для тебя какой-то магией. Веса - это просто массивы.
Альтернативно https://stackoverflow.com/questions/40496069/reset-weights-in-keras-layer смотри ответ def reset_weights.
В этом коде тебе нужно вместо for layer in model.layers написать for layer in model.layers[-5:] или еще как откусить хвост (более правильно указать слои по имени)
Аноним 17/01/21 Вск 04:29:42 1912401363
>>1912354
> каждую эпоху отфигачивать верхную денс сетку оставляя старую реснет голову
Это не заметил, я думал ты просто про файнтюнинг спрашиваешь. Тут ты просто делаешь 3 модели с shared weights

inp = Input(...)
x = Resnet(... inp ... )
a = Conv1D()(x)
b = Conv1D()(x)
modela = Model(inputs=inp, outputs=a)
modelb = Model(inputs=inp, outputs=b)

И далее ты либо делаешь кастомный луп с помощью train_on_batch, либо, что более правильно, делаешь кастомный луп с помощью tf.function, потому что у train_on_batch течет память азазаза гугол что ты делаешь прекрати.
Если хочешь обучать одновременно, то model = Model(inputs=inp, outputs=[a,b,c]) и ебешься весами у лоссов.

В пайторче аналогично - создаешь класс Net, в коноструктор которого передаешь другю модель, должно заработать
Аноним 17/01/21 Вск 15:55:14 1912816364
>>1912294
чо-то не верится что какой-то ган за один проход потянет такое, если бы мне сказали такое я бы обучил детектор облачков с текстом, например йолу, результат йолы бы переводил в текст какой-нить моделькой, хз как это щас делается, но видел делается нормально, текст переводил бы гугл транслейтом и заменял тупо, чо говно или норм пайплайн?
Аноним 17/01/21 Вск 16:20:37 1912861365
Антоны, есть ли сейчас модель обьединяющая сверточную сетку с трансформером?
Я еще в прошлом году видел эту модель и подозревал, что с ней что-то не так, в итоге ее авторы и признали это сами. https://github.com/fengxinjie/Transformer-OCR
Аноним 17/01/21 Вск 16:22:41 1912865366
>>1912294
>Идея на миллиард
Долларов и человекочасов. Если ты подразумевал end-to-end.
Аноним 17/01/21 Вск 16:22:48 1912866367
>>1912861
Или что сейчас вообще популярно в машобе
Аноним 17/01/21 Вск 16:52:33 1912882368
Аноним 17/01/21 Вск 17:02:02 1912897369
где можно почитать как правильно слои ставить, например налинейную регрессию?
А то я рандомно кидаю
linear(1,300)
ReLU
linear(300,200)
ReLU или CELU
linear(200,200)
CELU
Linear(200,1)

плюс накидываю дальше скрытых, пока ошибка не начнет уменьшаться


Аноним 17/01/21 Вск 17:15:01 1912910370
>>1912897
>linear(1,300)
Почему у тебя всего один признак во входных данных?
Вообще, для полносвязных сетей ничего качественно лучше linear-relu-linear-relu-linear не придумали, просто размеры скрытых слоёв можно поменять.
А если ты про свёрточные нейросети, то просто открывай какой-нибудь keras.applications или pytorch zoo, бери рандомную модельку и читай про неё.
Аноним 17/01/21 Вск 17:18:02 1912916371
>>1912910
>Почему у тебя всего один признак во входных данных?
x->месяц работы
y->доход из скважины
прост тренируюс
Аноним 17/01/21 Вск 17:31:00 1912926372
>>1912916
Для такой хуйни просто сделай всяких фичей а ля x, x^2, sqrt(x), log(x) и обучи на них обычную линейную регрессию.
Аноним 17/01/21 Вск 18:41:57 1912980373
>>1912926
нде, тупо стакать relu и линейную регрессию (увеличивая кол-во нейронов) + залогорифмировать X_train оказалось лучшим результатом
Аноним 17/01/21 Вск 18:45:37 1912989374
>>1912816
>>1912865
> чо-то не верится что какой-то ган за один проход
Он сможет по крайней мере клинить и переводить SFX. Но, просто датасет придётся клинить. Либо вручную, либо используя исплользуя другую нейронку, которая будет детектить границы облачков.

Насчет перевода - да скорее всего по-требуется другая нейросеть.
Есть еще проблемы с тем, что если переводить с японского - то здесь пиздец как нужно понимать контекст, исторический бекграунд, и надо уметь делать копмромиссы перевода, ибо что можно сказать в одном языке, невозможно сказать в другом без заимствований.
С английским попроще, ибо он, внезапно, ближе к русскому, чем тот же японский.
Аноним 17/01/21 Вск 21:03:01 1913334375
multi-worker в tf позволяет тренить нейросеть в распределенной системе, в которой компьютеры соединены интернетом, а не локальной сетью?

вообще, не могу поверить что такая тренировка невозможна и что так еще никто не делал. был же даже проект, в котором добровольцы тренили какую-то нейросеть, название не могу вспомнить
Аноним 17/01/21 Вск 21:33:54 1913418376
>>1913334
> multi-worker в tf позволяет тренить нейросеть в распределенной системе, в которой компьютеры соединены интернетом, а не локальной сетью?
Не думаю, что tf долбоебы делали. TF модульный вроде. Бери и меняй.
Аноним 17/01/21 Вск 22:15:01 1913478377
Аноним 17/01/21 Вск 23:01:48 1913521378
>>1913334
Бля, ну был же уже такой вопрос. Интернет по пропускной способности такой дикий ботлнек, что смысла в этом ноль
Аноним 17/01/21 Вск 23:28:29 1913579379
Что почитать про компьютерную графику? На русском желательно, но можно и на мириканском, если на великом могучем совсем ничего нет.
Аноним 17/01/21 Вск 23:45:46 1913607380
>>1913579
Ашихмин. Шиффман. Блументаль (эта новая, в 2020 выпущена). Томмаси.
Аноним 18/01/21 Пнд 00:00:25 1913618381
Аноним 18/01/21 Пнд 00:03:44 1913622382
>>1913607
> Блументаль
Вот этот особенно. Гугл вообще ничего не находит.
Аноним 18/01/21 Пнд 04:38:22 1913801383
Очевидно же, что взрывное развитие нейроночек уже приводит к результатам, немыслимым даже пару лет назад, dall-e как пример. Уже сейчас нейроночка может нарисовать нормальную картину по самому ебанутому описанию типа "капибара сидит на жопе ровно в поле на рассвете" или "кресло в виде авокадо", тогда как ещё в прошлом году максимум нейроночек была генерация всратых котов, которых не существует итд. Ясно, что такими темпами гпт 7-8 уже сможет генерировать кинцо, анимцо, игоры по текстовому описанию, например, сама сможет снять экранизацию по тексту книги. Или писать говнокод не хуже среднего индуса. А гпт 9 сможет написать код гпт10 и здраститя Скайнет. Это же изменит вообще все, ещё Лем писал, что политический строй определяется существующими технологиями. Я к тому, что все это в ближайшее время могут просто зарегулировать, может быть уже в этом году. Гпт3 уже доступна только с разрешения дяди.
Аноним 18/01/21 Пнд 04:44:22 1913802384
>>1913801
>немыслимым даже пару лет назад
Немыслимым кому? Пиздец ты футуролог, конечно.
>Я к тому
Да-да, твоим прогнозам можно верить
Аноним 18/01/21 Пнд 05:06:07 1913804385
>>1913802
> Да-да, твоим прогнозам можно верить
Не надо верить, можешь просто дать ссылку на свободные исходники гпт3.
Аноним 18/01/21 Пнд 05:59:00 1913812386
Двачане, вкатываюсь в академический матан, но хоть какие-то деньги иметь надо, так что решил взять себе что-то из ит сферы связанное с метаном, чтобы качались обе сферы параллельно. Прогать умею, матешу знаю. Прошёл пару курсиков, послушал лекции, занял призовые в 3-ех хакатонах в сфере машоба, но что-то чувствую, что ничего дальше 2-3 курса вузика тут из матана не видно. Это максимум необходимый машобу? Мат анализ и линал с основами дискретки? Никакой более сложный мат аппарат не нужен? Если не нужен, то мб знаете сферу в ит где нужен. Заранее спасиб
Аноним 18/01/21 Пнд 11:22:00 1913932387
>>1913804
GPT-3 недоступна не по приказу госорганов, а по решению её же разработчиков (не непосредственно людей, а компании). Ты тоже, знаешь ли, можешь на своем гитхабе private репозиторий создать и твои state of the art cutting-edge разработки в сфере вывода надписи "Hello world!" не будут доступны человечеству, и ты на это имеешь полное право и мое личное благословение.
Аноним 18/01/21 Пнд 11:26:33 1913937388
>>1913932
нахуя тогда в названии хуярить приставку Open?
Аноним 18/01/21 Пнд 11:29:11 1913941389
Аноним 18/01/21 Пнд 11:30:32 1913944390
>>1913932
> GPT-3 недоступна не по приказу госорганов, а по решению её же разработчиков (не непосредственно людей, а компании)
Так-то и Трампа везде заблокировали частные компании, которые никому ничего не должны. Главное результат, а не формулировка. А что там на самом деле было, народу знать не обязательно, правда своя инициатива, или Брина / Маска вызвали куданада и пояснили что к чему.
Аноним 18/01/21 Пнд 12:04:14 1913968391
15164260120210.jpg 119Кб, 1000x581
1000x581
Аноним 18/01/21 Пнд 14:13:15 1914032392
>>1913622
В девичестве Жопеншмульцер
Аноним 18/01/21 Пнд 14:17:25 1914038393
>>1913801
>может нарисовать нормальную картину по самому ебанутому описанию типа "капибара сидит на жопе ровно в поле на рассвете" или "кресло в виде авокадо"
Напоминаю, что дали нам несколько черипикнутых примеров а не модельку так что как ты там оценил может или не может хуй знает. Вообще, судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё. Может и гпт3 это гпт2 тупо с нанятым штатом китайцев которые полуавтоматически правят ошибки.
Аноним 18/01/21 Пнд 14:38:14 1914072394
>>1914038
> Напоминаю, что дали нам несколько черипикнутых примеров
Это я понимаю. И все равно, даже такие результаты это конкретный шаг вперёд по сравнению с тем что было до.
> судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё. Может и гпт3 это гпт2 тупо с нанятым штатом китайцев которые полуавтоматически правят ошибки.
Маловероятно, что это наебалово. Так или иначе, в паблик они свои поделия вылаживают, изначально и гпт2 с 1558м параметров жопили, а потом все равно выложили.
Аноним 18/01/21 Пнд 15:42:50 1914130395
Js вообще может составить конкуренцию петухону? Или брать кресты и не выёбываться? Помогите, хочу создать ии но не знаю с чего начать.
Аноним 18/01/21 Пнд 16:34:56 1914164396
>>1913521
И что, вообще никак? А если очень хочется? Даже ценой увеличения времени тренировки на 1-2 порядка.

Что будет, если, допустим, одна нода тренирует сеть N с, затем передаеет второй и так далее?
Аноним 18/01/21 Пнд 16:44:10 1914166397
>>1914130
> Js вообще может составить конкуренцию петухону?
В ML нет.
> Или брать кресты и не выёбываться?
И сидеть без библиотек...
Аноним 18/01/21 Пнд 16:55:40 1914179398
>>1914166
>И сидеть без библиотек...
Толсто
Аноним 18/01/21 Пнд 19:01:55 1914371399
Подскажите, если мне интересна не классификация датасетов на кэгл, а AI в плане агентов, выбора решений, игр в игры, поиска оптимальных стратегий - то куда копать? Что читать? Есть ли курсы сейчас норм? Спасибо.
Аноним 18/01/21 Пнд 19:16:43 1914399400
>>1914371
>AI в плане агентов, выбора решений, игр в игры, поиска оптимальных стратегий
пошёл нахуй, вапникошиз
тряси ящик и не выебывайся
Аноним 18/01/21 Пнд 19:36:18 1914419401
>>1914371
Теория игор, теория принятия решений, обучение с подкреплением. Можешь, например, из этого плейлиста накатить лекции 1-11, 13-15 для начала - это записи лекций MIT, курс "MIT 6.034 Artificial Intelligence"
https://www.youtube.com/playlist?list=PLUl4u3cNGP63gFHB6xb-kVBiQHYe_4hSi
Аноним 18/01/21 Пнд 19:39:32 1914425402
>>1914419
>теория игр
позорный фикс
Аноним 18/01/21 Пнд 19:49:36 1914437403
Аноним 18/01/21 Пнд 21:09:24 1914548404
Аноним 18/01/21 Пнд 22:27:09 1914602405
27.jpg 123Кб, 808x819
808x819
image001.gif 10Кб, 461x285
461x285
Пацаны, есть облако точек, результаты лабораторных исследований. Проницаемость образца горной породы и соответствующее ей значение пористости. Есть какие-нибудь алгоритмы для нахождения зависимости пористости и проницаемости? На сколько их рационально использовать вместо регрессии?
Аноним 19/01/21 Втр 01:08:53 1914707406
Аноним 19/01/21 Втр 01:11:27 1914712407
>>1914602
Всм значения? Ну у тебя они довольно сильно кореллируют. Одно из другого полноценно ты не получишь. Ибо данных не хватает. В целом нужны ещё какие-то признаки. Или обучай регрессию на этом и получай точность около коэффициента корелляции
Аноним 19/01/21 Втр 01:17:18 1914714408
>>1913812
>то мб знаете сферу в ит где нужен
В Мак Дональдсе
Аноним 19/01/21 Втр 01:35:31 1914725409
>>1912989
Чувак, забей.
Ни одна нейросеть на данный момент не умеет нормально переводить с японского, вообще ни одна.
Я тебе даже больше скажу, почти все переводы с японского содержат кучу ошибок, а их делают люди, даже в переводе классики люди путали субъекта.
Аноним 19/01/21 Втр 02:20:18 1914743410
>>1912294
>ИИ, который переводит мангу.
Я занимался этим пару лет назад, но дело заглохло из-за отсутствия времени и данных. А недавно сообразил, что датасет можно разметить практически автоматически, используя переведенную и не переведенную мангу. Дальше либо тренировать йоло, либо при помощи классики распознавать потенциальный текст и тренировать нейронку-классификатор, которая будет определять, является ли предложенный регион текстом. Ну а все остальное делается при помощи тессеракта и гугл транслейта. Главный подводный - это сам перевод. Гугл очень плохо переводит японский.
Аноним 19/01/21 Втр 02:22:56 1914746411
>>1914743
> Гугл очень ужасно переводит японский.
Пофиксил тебя
Аноним 19/01/21 Втр 02:30:47 1914750412
>>1914746
Но скоро будет гпт4, ей можно будет просто написать "переведи мне на японский войну и мир но добавь немного яоя" и в ответе будет полный перевод лучше чем у профессиональных переводчиков с вкраплениями яоя лучше чем у профессиональных дрочил.
Аноним 19/01/21 Втр 04:00:43 1914759413
>>1914750
потом говоришь а теперь прочитай мне это голосом бориса репетура и дрочи мой хуй я знаю ты любишь отсасывать и она как начинает наяривать а ты такой о боже кажется битерлесон победил
Аноним 19/01/21 Втр 08:01:33 1914793414
>>1914750
А инференс будет стоить $10 за токен
Аноним 19/01/21 Втр 09:17:08 1914807415
Screenshot317.jpg 114Кб, 803x772
803x772
Аноним 19/01/21 Втр 10:15:30 1914864416
>>1914807
Попрошу не троллить, я нуфаг.
Аноним 19/01/21 Втр 10:49:36 1914892417
>>1914864
Че там в вашей нефтянке? Жирно платят любым дебилам имитирующим датасаенс?
Аноним 19/01/21 Втр 11:00:23 1914900418
362847a5f07be70[...].jpg 41Кб, 500x500
500x500
Аноним 19/01/21 Втр 13:17:34 1915107419
>>1914807
Потому что надо не корреляции и прочие средние с отклонениями считать а гамалогии и баркоды
Аноним 19/01/21 Втр 13:27:24 1915119420
>>1914419
Спасибо, милчеловек
Аноним 19/01/21 Втр 14:33:05 1915178421
>>1915107
>с отклонениями считать а гамалогии

кстати, как анон обычно вычисляет упомянутые гомологии? каков ваш любимый фреймворк для них?
Аноним 19/01/21 Втр 15:15:09 1915224422
>>1914892
>Жирно платят любым дебилам имитирующим датасаенс?
Хз, моя непосредственная работа вообще к датасайнсу отношения не имеет. Это скорее в рамках хобби.
Аноним 19/01/21 Втр 16:19:37 1915277423
Предложите свой алгоритм для обучения нейросети в distributed system из компьютеров, соединенных только по интернету.
Аноним 19/01/21 Втр 16:45:35 1915295424
>>1912926
Ананосы напомните зачем мы это вседелаем?
x, x^2, sqrt(x), log(x) - вот это вот
Аноним 19/01/21 Втр 16:52:27 1915298425
>>1914130
ML на всяких js и сишарпах нужен не для того чтобы составлять конкуренцию петухону, а для того чтобы можно по-быстрому встроить ml в своё легаси или вебговно, если кабанчику захочется побольше бабок под модную тему стрясти с заказчиков, и при этом не приходилось ебаться с разворачиванием контейнеров и дёргать петухон только для того чтобы модельку заинференсить. Плюсы нужны для встраивания уже разработанных моделей в готовый продукт. Так что бери питон и не выёбывайся, всё остальное не про "создавание ии" а про унылые будни обычной промышленной разработки.
Аноним 19/01/21 Втр 16:56:14 1915301426
>>1915295
Потому что зависимость какая-то есть, но какая мы не знаем поэтому наваливаем всех функций что есть и смотрим что получится, это мл для тебя. Только я бы лучше бустинги обучал на этом вместо линейных регрессий, современные библиотеки данных требуют не сильно больше, а всяких неприятностей с корреляцией признаков и прочих капризных требований к данным таких нет.
Аноним 19/01/21 Втр 17:00:58 1915306427
>>1913932
>на своем гитхабе private репозиторий
Если ты владелец серверов гитхаба, то да. Умиляют такие завяления. Инфа залитая куда-то там уже не твоя и не private.
Аноним 19/01/21 Втр 18:24:03 1915428428
IMG202101191822[...].jpg 289Кб, 1076x1829
1076x1829
>>1915301
Так они и обучают. В числе прочих линейных регрессиц.
Кто ж виноват что не знаешь где книги на русском взять.
Аноним 19/01/21 Втр 18:36:05 1915440429
>>1914038
>Напоминаю, что дали нам несколько черипикнутых примеров
Там их сотни и никто их не черрипикал
>Вообще, судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё.
Тупорылые конспирологи и в ML пробрались
Аноним 19/01/21 Втр 18:46:41 1915449430
>>1915440
>никто их не черрипикал
Ты свечку держал видимо? Как будто сотня это много
>Тупорылые конспирологи и в ML пробрались
"Это всё конспирология!" - любимая кричалка идиотов.
Аноним 19/01/21 Втр 19:22:49 1915513431
>>1915428
Кто "они", шизик? Я про конкретный совет анона говорил.
Аноним 19/01/21 Втр 19:32:38 1915521432
>>1914164
>И что, вообще никак?
Смысла мало. Ты же не мелкие сетки хочешь тренировать, а большие, а таким нужны гигабиты в любом случае, будешь ли ты обмениваться градиентами (как принято сейчас - на всех машинах одна и та же модель, через которую гонятся батчи, а затем ошибка усредняется по всем воркерам и веса апдейтятся) или данными (то что приходит в голову первым - но бэкпроп последовательный алгоритм и хер что выйдет при подходе влоб), в любом случае нужно будет обмениваться большим количеством инфы.

>А если очень хочется?
Пиздуй в науку и исследуй. Потенциально я вижу два решения
1. Локальные альтернативы бэкпропу, то есть каждый слой/набор слоев живет на пеке и в асинхронном режиме отправляет/получает данные, модифицируя у себя веса
2. Модели с бэкпропом, но с conditional computation. То есть у тебя архитектура состоит из сотен параллельных ветвей и роутера, который направляет данные. Соответственно все, что после роутера, можно распараллелить на разные машины. Можно эту хуитку настекать, добавить p2p механизм обмена данными от роутера и тому подобное.

И там и там если утилизацию GPU в 10% получишь, будет неплохо.
Аноним 20/01/21 Срд 15:02:36 1916280433
Средняя ошибка аппроксимации в 17% норм или говно?
Аноним 20/01/21 Срд 15:58:36 1916328434
Очередной обывательский вопрос:
хватит ли исходных данных чтобы генеративную нейросеть обучить стилю группы Король и Шут сочинять тексты на заданную тематику или хотя бы просто с наличием ключевых слов?
Аноним 20/01/21 Срд 16:10:30 1916340435
>>1916328
>стилю группы Король и Шут
У этих говнарей какой то стиль?
Аноним 20/01/21 Срд 16:55:16 1916386436
16082175755410s.jpg 5Кб, 200x200
200x200
Вапникошиз уже совсем с цепи сорвался, на обычных мимокроков снихуя кидается. Как же непечот ему от битерлессона.
Аноним 20/01/21 Срд 17:41:13 1916443437
>>1916340
А вдруг есть? вот я и хочу посмотреть на это
Аноним 20/01/21 Срд 18:31:07 1916483438
>>1914743
тессеракт ужасен в распознавании манги.
Я серьезно, гугл доки лучше справляются, кек
Аноним 20/01/21 Срд 19:08:21 1916515439
>>1916483
>тессеракт ужасен в распознавании манги.
Ты бы для начала прочитал пейпер по тессеракту - он предназначен исключительно для распознавания текста без картинок. Поэтому нужно распознавать не всю страницу, а вырезанные регионы с текстом, тогда точность будет достаточно хорошая по крайней мере лучше, чем точность перевода с японского.
Аноним 20/01/21 Срд 23:06:49 1916737440
>>1916515
Лол, я читал и тестил тессеракт и даже делал базу для выделения участков текста в манге.
Он ужасен просто, киндл, а ты 100% будешь работать с киндл форматом он тянет плохо.
В итоге мне стало лень и я использовал гугл док как нейронку для себя, у нее точность распознавания отличная
Аноним 20/01/21 Срд 23:10:31 1916739441
>>1916737
Все равно даже с моделью, которая лучше, чем гугловская ты едва ли осилишь даже сбор настолько же огромной базы, чтобы сделать лучше, чем может гугл док.
Аноним 20/01/21 Срд 23:21:56 1916741442
>>1916739
Также стоит рассматривать препроцессинг, текст может идти в совершенно рандомном шрифте, с совершенно рандомным наклоном + еще есть фуригана, которую ты не можешь просто так удалять, почему я объясню чуть ниже.
Распознавание японского - это челлендж, в этом языке 2 слоговые азбуки, + как минимум 5к кандзи нужные, чтобы читать мангу, не смотря в словарь, еще есть кюдзитай формы.
Также японцы могут использовать кастомное чтение кандзи, также в качестве литературного приема японцы могут использовать другое чтение кандзи, чтобы получить другое значение слова или же смешанное значение слова, поэтому фуригану просто так при препроцессинге вырезать нельзя.
В самом японском всевозможное число котоваз, разговорных и письменных сокращений и всего прочего, что делает перевод более веселым.
Аноним 20/01/21 Срд 23:24:01 1916742443
image.png 9Кб, 53x156
53x156
>>1916737
>Он ужасен просто
Ты скорее всего его неправильно настроил. У тессеракта куча параметров, которые сильно влияют на качество распознавания. Ну и распознавать нужно куски текста как на пикриле, чтобы ничего кроме текста не было. Ну и не забыть добавить пустого пространства по бокам.
>киндл форматом
Какой еще нахуй киндл? Картинки жпег или пнг.
>В итоге мне стало лень и я использовал гугл док как нейронку для себя, у нее точность распознавания отличная
С гуглом сложно конкурировать, но у него анальная привязка к аккаунту и лимит на количество запросов.
Аноним 20/01/21 Срд 23:33:40 1916746444
>>1916741
Перевод - это отдельная тема. Вообще, не обязательно переводить извлеченный текст гугл транслейтом - можно просто подсоединить онлайн-словарь, чтобы смотреть значение незнакомых слов. Будет некий аналог парсера визуальных новелл, только для манги.
Аноним 21/01/21 Чтв 00:04:15 1916756445
>>1916741
>Распознавание японского - это челлендж
Сейчас бы тратить время на островных обезьян окультуренных китайцами. Страна без языка, истории и культуры, ох вейт...
Аноним 21/01/21 Чтв 00:05:32 1916758446
>>1916756
> ох вейт
Щеня вмерла?
Аноним 21/01/21 Чтв 00:22:35 1916762447