Суп программач, решил создать тред потому как тема довольно обширная. А именно - парсеры текста, xml/html/json и всего такого. Суть такова - хочу написать граббер и парсер сайтов, например новостных. Естественно, ни о каком api речи не идет, только чистое получени html кода, вычленение из него нужных частей и проверка на нужные слова. И вот в чем проблемы:1) Многие сайты выдают контент после пролиствыния вниз, как пример тот же сосач - новые треды подгружаются по мере скрола. Можно ли как-то скачать документ полностью?2) Сайтов много, соответственно много и текста. Когда писал прототип на питоне он просто захлебывался в попытках отыскать необходимые куски текста. Соответственно надо что-то производительное. Уже думал на использованием баз данных, но не знаю поможет ли. По идее, что-то вроде Apache Tika. 3)Парсер собственно xml. Из него надо вычленять куски текста, которые представляют собой не элементы меню а осмысленные предложения. Думаю, можно использовать регэкспы, но это довольно медленно.Ну и в целом парсеров тред, наверное первый на этой доске.
Даже бампану пожалуй.
>>1039531Анус себе бампани, пес.
>>1039539Бампану и анус, в чем проблема.
Используй "Parser combinator" библиотеки.
>>1039448 (OP)В твоем случае Golang пожалуй будет самым лучшим решениемНачни с этого, после задавай свои вопросыhttps://max107.ru/11-gid43-parser
У кого какие идеи? Я думаю, что лучше парсера Grab сейчас нету
>>1039448 (OP)Сосач при пролистывании страницы высирает json по запросу. Это я узнал за 30 секунд методом тыка. На любой язык можно найти целый зоопарк парсеров json, которые за тебя написали заботливые красноглазики, так что не знаю, в чем, ебать, проблема. Все, иди нахуй.я в другом городе за мат извени