Главная Настройка Mobile Контакты NSFW Каталог Пожертвования Купить пасскод Pics Adult Pics API Архив Реквест доски Каталог стикеров Реклама
Доски


[Ответить в тред] Ответить в тред

Check this out!


[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 7 | 1 | 5
Назад Вниз Каталог Обновить

Суп программач, решил создать тред потому как Парсеров тред 06/08/17 Вск 21:24:37  1039448  
14280725908710.jpg (46Кб, 604x462)
Суп программач, решил создать тред потому как тема довольно обширная. А именно - парсеры текста, xml/html/json и всего такого. Суть такова - хочу написать граббер и парсер сайтов, например новостных. Естественно, ни о каком api речи не идет, только чистое получени html кода, вычленение из него нужных частей и проверка на нужные слова. И вот в чем проблемы:

1) Многие сайты выдают контент после пролиствыния вниз, как пример тот же сосач - новые треды подгружаются по мере скрола. Можно ли как-то скачать документ полностью?

2) Сайтов много, соответственно много и текста. Когда писал прототип на питоне он просто захлебывался в попытках отыскать необходимые куски текста. Соответственно надо что-то производительное. Уже думал на использованием баз данных, но не знаю поможет ли. По идее, что-то вроде Apache Tika.

3)Парсер собственно xml. Из него надо вычленять куски текста, которые представляют собой не элементы меню а осмысленные предложения. Думаю, можно использовать регэкспы, но это довольно медленно.

Ну и в целом парсеров тред, наверное первый на этой доске.
Аноним 06/08/17 Вск 21:58:29  1039531
Даже бампану пожалуй.
Аноним 06/08/17 Вск 22:05:13  1039539
>>1039531
Анус себе бампани, пес.
Аноним 06/08/17 Вск 22:07:10  1039542
>>1039539
Бампану и анус, в чем проблема.
Аноним 06/08/17 Вск 22:13:27  1039550
Используй "Parser combinator" библиотеки.
Аноним 07/08/17 Пнд 06:10:10  1039816
>>1039448 (OP)
В твоем случае Golang пожалуй будет самым лучшим решением
Начни с этого, после задавай свои вопросы

https://max107.ru/11-gid43-parser
Аноним 07/08/17 Пнд 16:48:03  1040067
У кого какие идеи? Я думаю, что лучше парсера Grab сейчас нету
Аноним 09/08/17 Срд 03:15:05  1041146
>>1039448 (OP)
Сосач при пролистывании страницы высирает json по запросу. Это я узнал за 30 секунд методом тыка. На любой язык можно найти целый зоопарк парсеров json, которые за тебя написали заботливые красноглазики, так что не знаю, в чем, ебать, проблема.

Все, иди нахуй.
я в другом городе за мат извени

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 7 | 1 | 5
Назад Вверх Каталог Обновить

Топ тредов
Избранное