Вкатывальщик в Дата сайнс/аналитику/автоматику хочет послушать советов мудрых (скорее всего хуйца сосну как обычно).
1. Зачем вообще нужны любые статистические библиотеки на питончик кроме Сайпай? Панды и прочая фигня? В сайпае есть все что я знаю, например, там только распределения Леви три функции.
2. Насколько на собесах будут ебать с собственно знанием синтаксиса Питона? Если я обосрусь и не вспомню с нуля как сортируется лист, а как словарь и скажу ХРу что посмотрю в документации - это прямо дико огромный минус к шансам, синтаксис должен от зубов отскакивать?
3. СТОИТ ЛИ ВЫУЧИТЬ ХОТЬ ПРИМЕРНО СИНТАКСИС КРЕСТОВ И ЯВЫ На этот вопрос почему-то никто не отвечает когда его задаю.
4. Стоит ли размахивать своим знанием английского как плюсом? Я несколько лет проработал переводчиков, в тч в сфере теории айти и новуки, но это не будет выглядеть как будто я с порога говорю что коммуникабельный, неконфликтный и прочую хуйню?
5. Самое главное. Как должен выглядеть мой пет-проджект на ДС? У веберов и пр понятно - сайт какой нить, а у меня? Прожку по рассчету многомерного матричного анализа сделать? Или что вообще? Это дело одного вечера, да и сейчас есть калькуляторы, которые чуть ли не отсасывают за 300 рублей, куды тама мне.
Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26? Софт скиллы если что норм, знание статистики норм, потому что математика искренне интересует, сил работать переводчиком нет уже, меня тошнит, это худшая наверное из требующих мозга работ, абсолютно не творческая и требующая постоянного напряжения. После 10 часов день заканчивается же факто, я выжат как лимон и ничего не хочу в жизни.
Да, дурак, погнался в 18 за лёгкими деньгами, благо родители дрочили с английским с 8 лет, но сейчас я уверен что не хочу нихуя переводить на заказ больше, или я кого-то убью нахуй скоро.
>Дата сайнс/аналитику/автоматику
Это ведь ненужная параша. Ты в макдаке будешь работать
Мне это интерсно, в отличии от веба хуеба и геймдева, хотел даже в магу на автоматика поступить, но резко у родителей кончились деньги, пришлось дропать и работать.
А я довольно слоу кстати, не тупой прям, но слоу, и не могу одновременно учиться, работать и не выглядеть как труп, да при этом ещё и без личной жизни.
Ну камон, мне интересны в жизни философия, матан и психология. Психологом я быть не могу, долгая истрия, я ппофнепригоден, мне знанием Ницше, Аристотеля, Квайна и Карнапа зарабатывать?
Сам я тимлид, в команде есть один аналитик, так что отвечу на то, на что смогу
1. Тут хз
2. "Как сортировать" - это не синтаксис. На какие-то нетривиальные вещи обычно пофиг, но странно, если человек хотя бы с опытом в пет-проджектах путается в сортировке и обычном синтаксисе, потому что с практикой такое быстро запоминается.
3. Может стать плюсом. Наш аналитик не коммитит код на C++, но иногда ему бывает нужно внести какие-то изменения в наш код для проверок своих гипотез. Быстрее будет, если он сможет это сделать сам, а не привлекать кого-то ещё.
4. Размахивать вряд ли, просто указать, что уровень хороший - можно
5. Хз, извини
Если шарить будешь, то долго ходить не придётся. Не такой у тебя возраст, чтобы из-за него отказали. Если будет видно, что ты шаришь (с учётом того, сколько ты этим занимаешься), и есть перспектива, то на возраст относительно пофиг. Просто обычно ничем не уступающий тебе студент будет готов работать больше, и за меньшие деньги, ибо у него ни ипотеки, ни личинок, например.
2. Я чутка обосрался, дело в том, что сортировка листа и словаря производится очень похожими методами, ну грубо говоря, название функций отличается на 2 буквы.
Я не считаю нужным запоминать мелочь, я запоминаю типа "у листа и словаря есть сортировка, у словаря она сильно кастомная". И думаю что все другое посмотрю по делу. Это фейловая стратегия или норм?
3. Сяп. Я именно про кресты и думал.
4. Ну всм тащить с собой резюме и пр?
Спасибо, анончик. Можешь реувестировать чо нить, все равно бампать а ты время потратил.
Абу благословил этот пост.
Ну блин кароч по поводу сортировки.
Лист сортируется функцией Х.sorted(A), а дикс - sorted(X, A)
Я это прям так наизусть заранее не помню, как и сотни таких вещей, например я знаю что есть функция для вызова тест сьюта из описания функции, но в душе не ебу как она выглядит.
Вооот. И я нинаю это прям дикий косяк или нет? Если просят ирл то не напишу точно с ходу.
2. У листа есть метод `sort`, который его по месту сортирует. `sorted` - это свободная функция, которая принимает любой итерируемый объект, а возвращает список. Что понимается под сортировкой дикта, не оч понятно. В питоне 2 - это хешмап, в нём нет порядка, в питоне 3 стандартный dict аналогичен OrderedDict, в котором порядок есть, но какой-то отдельной сортировки для него нет. Ты можешь представить дикт как последовательность пар (ключ, значение), отсортировать их, а затем преобразовать в новый словарь.
Это всё скорее базовые знания, чем мелочь, кмк.
4. Расписывать на целый абзац не надо, упомянуть стоит.
Язык учи, какой хочешь. Есть вакансии под си, большинство под питон. В питоне хорошо знать генераторы/декораторы/стандартные либы и важно (!) какой-то фреймворк: пайторч или тф.
Пандас нужен просто, чтобы вертеть данные. Огромную часть времени ты будешь рассматривать датасеты и чистить их, для этого он помогает.
Пет прожекты простые - возьми задачи классификации, кластеризации, генерации, регрессии, и реши лучшим способом, которым умеешь. Советую лгбуст, деревянные методы и нейронки. Это используется и работает.
На английский всем похуй. Ну в смысле, все должны владеть как-нибудь. Где-то б1 достаточно. Можешь вскользь упомянуть.
Вообще не ебу, что за распределение Леви) Учился на математика-статистика, не встречал.
Могу ещё что-то ответить
Нет, для словаря есть сорт таки. Отдельно по аргументу сорта (который может апеллировать и к кею и к карго).
И я не знаком с П2. Think like a computer scientist книга говорит, что суть словря в том, что он не отсортрован, а поэтому быстрее листа. Я верно понял?
Та на целый абзац суть в том, что я по айти и работал. Меня собсна препод из вуза и подбил в статистику пойти.
Например, у меня есть готовый текст чем обычный кореллчционный метод хуже интегрального в анализе типа траффика. Такое да, но это ближе к теме, не?
>2. Насколько на собесах будут ебать с собственно знанием синтаксиса Питона? Если я обосрусь и не вспомню с нуля как сортируется лист, а как словарь и скажу ХРу что посмотрю в документации - это прямо дико огромный минус к шансам, синтаксис должен от зубов отскакивать?
Если ты идёшь на джуна и не знаешь какой-то базовой хуйни или не сможешь на листочке написать, как обратить строку - скорее всего нахуй послан будешь. Но вообще от конторы зависит, мб и простят, если ты в каком-то другом домене покажешь знания, которые им нужны.
>3. СТОИТ ЛИ ВЫУЧИТЬ ХОТЬ ПРИМЕРНО СИНТАКСИС КРЕСТОВ И ЯВЫ На этот вопрос почему-то никто не отвечает когда его задаю.
"Примерно выучить синтаксис" != уметь писать код энивей. Если позиция не требует - не понимаю, нахуя тебе это. Учи лучше те инструменты, которые нужны будут в работе.
>4. Стоит ли размахивать своим знанием английского как плюсом? Я несколько лет проработал переводчиков, в тч в сфере теории айти и новуки, но это не будет выглядеть как будто я с порога говорю что коммуникабельный, неконфликтный и прочую хуйню?
Скорее всего, если не пойдёшь в говноконторы, которые на внутренний рынок работает, про английский у тебя спросят (а то и интервью проведут). Напиши в резюме уровень владения да и всё. А "я коммуникабельный и неконфликтный" говорить не надо, это пиздец кринж + появится впечатление, что у тебя по делу сказать нечего. Наличие софт скиллов подразумевается само собой, 2020-й на дворе.
>Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26?
Как повезёт. Можешь найти стажёрскую позицию и на ней поработать за еду и опыт полгода. Может, возьмут джуном и в авральном режиме научишься. Хуёво, что 26, конечно.
> Панды и прочая фигня
Панда - это скорее что-то больше похожее на работу с базами данных, а не с чистой статистикой. Удобнее обращаться с реальными данными, а не с числами.
> собесах будут ебать с собственно знанием синтаксиса Питона
Синтаксис питона можно неиронично выучить за пару дней. Лучше сделай это прямо сейчас, оно несложно. Стандартную либу неплохо бы знать, но никто в здравом уме не ожидает что ты будешь помнить сигнатуры функций наизусть.
> Если я обосрусь и не вспомню с нуля как сортируется лист
Это уже не синтаксис, а алгоритмы. Их лучше тоже знать, но вот их уже за пару дней не выучишь.
> Стоит ли размахивать своим знанием английского как плюсом?
Стоит об этом написать одно слово в резюме (Языки: Русский, Английский), размахивать этим не стоит. Сейчас знание английского переходит в разряд "опытного пользователя ПК".
> 5. Самое главное. Как должен выглядеть мой пет-проджект на ДС?
Суть пет проджектов не в том, чтобы написать о нем в резюме (можно и не писать), а в том, чтобы научиться пользоваться инструментами и вообще хоть что-то понимать в целевой области. Если сделал проект и понял, что ты теперь всё знаешь - то норм.
Забыл сюда. Зарешай какой-нибудь kaggle. Это крутой проект
Пандас - маст хев, без него не могу представить как я бы работал с ебанной тучей спредшитов, которые на тебя клиент вываливает. Очень полезно для проверки качества данных, гипотез, зависимостей и т.д. Особенно важно что это дает возможность автоматизировать проверки, сделать тесты, а не кликать в экселе каждый раз.
Так же удобно делать аналитику по базе данных, если на sql сложно извернуться. Странно что ты SQL не упомянул, я бы ожидал это как обязательный скилл. Без супер опыта, но джойны, группировки, вложенные запросы - маст хев.
Английский - всегда плюс, можешь смело говорить.
Суть скорости словаря по отношеню к листу в том, что в листе поиск идёт по перебору и занимает О(n), а в словаре доступ идёт сразу по ключу с использованием хеша и занимает O(1)
Двачер, искал информацию по проверке гипотез, чтобы на коленке проверять, но нашёл только p критерий. Расскажешь чем пользуешься?
Привет! Спасибо большое что ответил.
Мне офк больше нравится пайтон. Потому что я по натуре не айтшник, и ебаться с оптимизацией не мое. С другой стороны, я понимаю, что есть всякие переборы молекул в химии, которые очень сильно зависят от оптимизации, и заняться этим некому кроме таких как я. Кроме дико крупных фирм, где есть математик-оптимист на отдельной должности.
Ну просто зачем вертеть данные в какой-то примитивной базе, не лучше использовать хорошую базу для учёных сходу?
Ну это ты оче обще написал... Мб конкрктнее про пет чутка? Буду благодарен.
Распределением Леви называется вероятеостное распределение с толстым И тяжёлым хвостом, в своём максимуме сближающимся с экспоненциаоьным. Интерсно, если я дам такой ответ, это плюс или минус?
Абу благословил этот пост.
>3. СТОИТ ЛИ ВЫУЧИТЬ ХОТЬ ПРИМЕРНО СИНТАКСИС КРЕСТОВ И ЯВЫ На этот вопрос почему-то никто не отвечает когда его задаю.
ЗАЧЕМ
Покеж сорт, интересно даже.
В книге как-то телега впереди лошади. В реализации использован hash-map, который предоставляет быстрый доступ (O(1)), но элементы в нём не упорядочены как следствие реализации. В OrderedDict / python 3 dict просто параллельно запоминается порядок, в котором ключи были вставлены.
Зайди на kaggle, возьми какой-нибудь датасет на интересующую тему, почисти данные, построй пайплайн, визуализируй данные, построй разные модельки, посравнивай, добавь комментариев с рассуждениями. Думаю, этого будет достаточно для начала
Обратить легко. Тайп лист лист слайс лист тайп стринг. Слайс самый быстрый способ.
Но я имел в виду задрачиваеие всего массива функций
Ну я имел в виду просто поверхностно ознакомиться чтобы примерно понимать что написано.
Совсем хуево, или терпимо?
для молекул есть rdkit api под питон. сама библиотека на с++. много с чем так
про базы - так никогда не бывает. данные в 99% из говна, или не подходят под вход модели, или ещё что-то.
про пет я там добавил - зарешай kaggle, хотя бы учебный. там можно выбрать как классификацию, так и регрессию. предоставь jupyter notebook с решением задачи от и до: вот я верчу данные, вот я запускаю, вот я считаю метрики.
про распределение я посмотреть могу) ответ нормальный. я просто про то, что это какая-то нишевая вещь, может сложиться впечатление неадеквата, если будешь прям на неё напирать
общий совет - не парься сильно. если хочешь, то тебя возьмут в хорошее место. постарайся наладить контакт с интервьюером.
ну я про другие гипотезы, я больше аналитик чем дс. Клиент тебе дает данные в 20 спредшитах по 100т строк и надо проверять правильность отношений, зависимостей, 1:1, 1:n, n:m, уникальность и т.д. Искать скрытые зависимости (клиент забыл сказать)
>и надо проверять правильность отношений, зависимостей, 1:1, 1:n, n:m, уникальность и т.д.
да у вас КОНСТРЕЙНТ
Ну панда это стандартная библиотека для бд да. На мой вкус, очень бедная.
Да вот я имел в виду, ожидают ли от меня знания сигнатур чтобы я их ручкой на бумаге написал?
А если спросят что я писал вообще? Что предъявить лучше? Если реального опыта нет?
зависит от того кем ты работать идешь. какой уровень позиции, какой уровень компании. в общем случае от тебя ожидается что ты владеещь инструментами и владеешь предметной областью. то есть а) какие есть методы решения тех задач, котороые тебе дадут б) как их применить на том стеке что у всех.
Пандас дико бедный. На мой вкус.
С скл не знаком, следующая книжка лежит Learning QSL Alan Beaulieu. Не люблю говорить о том о чем только слышал. Не было времени ксл выучить пока.
>>233127215
Ет само собой понятно. Но перебор ключей идёт обычной биекцией.
>в листе поиск идёт по перебору
где вы такие листы берете
Хм, чем он бедный? Я не троллю, интересно мнение
Да я хз какой ответ от тебя будут ждать, я собеседования не провожу, с потолка пример взял. Фейлить на собеседованиях тоже полезный опыт, кстати. Интервьюеры часто тебе разжёвывают вкратце то, на что ты не ответил или объясняют, чем плох твой ответ с их точки зрения. И это может помочь в следующий раз. А может и не помочь, лол.
Ещё слышал, что некоторые ребята гуглят список типовых вопросов на собедование на грейд_нейм ЯП_нейм и иногда попадаются такие вопросы.
>поиск в листе?
Кто в здравом уме будет искать что-то в листе? Ну если он гарантированно не больше десятка элементов?
1. Дата саенс/аналитика в 2к20 без дип лернинга нахуй никому не нужна.
2. Что scipy, что pandas - тормознутое и неудобное говнище. Я не знаю какой дегенерат (кроме даунов-кеглеров) всерьез это юзает в продакшне.
3. УЧИ БЛЯТЬ КРЕСТЫ/ЯВУ/СИСЯРП - ЭТО ОХУЕННЫЙ ПЛЮС, простой порт какой-нибудь хуитки с поделия гвидона на нормальный язык может дать 10-100x ускорения (наблюдал много раз лично). Представляешь, как охуенно, если ты, дегенерат, сам это сделать не можешь.
мимо-сеньор-нейросетевик
если в L1 влезает, то еще ничего, но тут ведь питон.
Эзхх надо лезть в книгу. Если правда интерсно, то напиши ещё раз, я залезу и скопирую.
Книга очень специфическая, я, читая после неё, обнаружил там много элементом например из низкого уровня (понимание деревьев как хранилища для алгоритмов) и пр. Но хорошая мне кажется все равно.
>>233127595
Спасибо, учёл кеггл.
>>233127673
Ох, спасибо. Нет, это не ниша, нам на парах про неё говорили. В зависимости от аргумента она даёт от нормального распределения до экспоненты.
Спасибо в общем. Ты няша.
Про базы имел в виду, что Сайпай содержит буквально все нужные функции что я знаю.
>2. Что scipy, что pandas - тормознутое и неудобное говнище. Я не знаю какой дегенерат (кроме даунов-кеглеров) всерьез это юзает в продакшне.
>мимо-сеньор-нейросетевик-велосипедист
Первый кегледаун порвался вместе со своим жупитером.
открываю сорсы scipy, вижу биндинги к фортрану, ну да, тормозное говнище.
просто иди нахуй
Промазал, я вообще не дата сатанист, лул.
> 2к20
> фортран
Ты щас рофлишь или ало? На дворе 2к21 почти, слышал такое слово КУДА блять? Откуда вы дегенераты лезете. Ну сделал ты лабу2 на кегле, и что теперь?
Кароч, лучше задрочить. Спасибо за ответ.
>>233128094
Нууу сравни просто.
https://docs.scipy.org/doc/scipy/reference/stats.html
Ну рил.
>>233128233
Это очень оригинальные ребята, потому за задрочить 100+ вопросов, смысла терминов в которых не понимаешь это нелёгкая задача.
Лол, как будто это ему помогает. Про пандас я вообще молчу просто, как то раз один челик решил записать цсвшку на сто тыщ записей угадай сколько пандас по секундомеру показал?
> я вообще не в теме
> что-то пизжу за scipy
Ок. Держи в курсе.
Держу. Очеивдно же, что человек не может иметь ни малейшего представления о том, с чем не работает.
а этот челик куда-то опаздывал?
Да, я знаю про оптимизацию, но ссу в неё вкатваться, я тупой как мне кажется. Ну по сравнению с математиками офк.
Сайпай вроде как всякие физики химики разрабатывали для себя офк они не особо в математике шарят и пишут от балды.
Чел, пандас это херня для датафреймов, всё. Scipy это поделие, претендующее на умеющее все по матану. И умеет это всё оно одинаково хуёво по сравнению со спец либами заточенными под одну задачу. Как ты вообще сравниваешь БД и калькулятор, наркоман ебаный?
они-то как раз шарят, потому что им, в отличие от "математиков", надо чтобы работало.
Не, ну если ты любишь передергивать по 10 раз на дню, то да, ты никуда не опаздываешь, дегенерат. потом такие жалуются, почему у них батарейка на телефоне садится за полчаса
>Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26?
Чел блять, лучше не лезь.
Да, интересно.
Химики понятия не имею как оптимизировать. Это реальная, блять, проблема, у меня есть пара знакомых биологов протеины считают, которые спрашивают меня, как накодить так, чтобы оно считалось день, а не месяц, потому что у них некому. Пользоваться надо нормальными либами.
Анон, у меня ноль опыта и я работаю с задачками из учебника по статистике, у меня нет понятия что работает хорошо и что плохо, я не успел посмотреть все функции даже в панде, не говоря о том, что я понятия не имею что влияет на ароизводмтельность питона что нет (ну знаю базу что тупл быстрее листа в 10 раз).
>>233128916
Эммм. Работать может что угодно. Только некоторые методы работы будут работать миллионы лет. Совершенно верно и выдавая промежуточный результат.
Поч.
шад
Текс, ну вот со стака примеры.
x = {1: 2, 3: 4, 4: 3, 2: 1, 0: 0}
{k: v for k, v in sorted(x.items(), key=lambda item: item[1])}
{0: 0, 2: 1, 1: 2, 4: 3, 3: 4}
Офк надо отдельно для ключа и для карго записывать. Обрати внимание на после in в условии, там сортед иной формы чем для листа. Я об этом говорил.
Спасибо, но блять что-то там ужасы про поступление пишут, я уже старый и вообще гуманитарий.
людей, которые закладываются на порядок чего-либо в словаре, я в школе из рогатки расстреливал.
Если честно, я не уверен, что ты занимаешься тем чем хотел "с детства", потому что у меня нет знакомых, кроме одной подруги, которые занимаются тем, чем хотели в детстве..
И то, эта подруга хотела стать энтомологом, а стала онкологом-теоретиком.
Человек развивается плюс минус к 20, и интерсы тоже.
Так это как раз то, что я написал.
x.items() вернёт тебе итератор по парам (ключ, значение), именно их ты и сортируешь. А затем из них создаёшь новый дикт.
sorted здесь не иной формы, он ровно такой же, но вернёт он - отсортированный список пар. Чтобы сделать из него дикт, и нужна конструкция с in.
{k: v for k, v in [(0, 0), (2, 1), (1, 2), (4, 3), (3, 4)]}
Анон блин я говорил, прокатят ли меня на хуях если я скажу скажем что сортировка в листе это функция операнда аргумент а не операнда функция аргумент?
В этом смысл вопроса был.
Понел, принел, протупил. Сейчас по книжке чекнул - реально я затупил прост.