[Ответить в тред] Ответить в тред


[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 265 | 31 | 51
Назад Вниз Каталог Обновить

Аноним 14/06/17 Срд 20:18:09  155138553  
html-parser.png (71Кб, 313x262)
1497212356662.jpg (728Кб, 2048x1536)
В тред призываются двачеспециалисты по парсингу ссылок с сайтов.

Нужно вытянуть почти с каждой страницы сайта ссылку, например, на .doc документ (она одна на каждой странице) и положить все найденные ссылки в .txt

Страниц около 200к. Как вытянуть эти ссылки относительно быстро и без "жертв"?

Сам я не программист, хз как это осуществить.
Аноним 14/06/17 Срд 20:21:25  155138782
14849270300150.webm (7853Кб, 480x360, 00:02:08)
бамп
Аноним 14/06/17 Срд 20:23:13  155138917
14949295840740.jpg (153Кб, 800x1066)
бамп
Аноним 14/06/17 Срд 20:23:42  155138961
14949297656530.jpg (101Кб, 1280x853)
бамп
Аноним 14/06/17 Срд 20:26:45  155139151
14965670711770.webm (4154Кб, 640x360, 00:00:35)
бамп
Аноним 14/06/17 Срд 20:27:17  155139184
picachooJ0ND98t[...].gif (2042Кб, 480x360)
бамп
Аноним 14/06/17 Срд 20:27:23  155139192
>>155138553 (OP)
Python c библиотекой Beautiful Soup
Аноним 14/06/17 Срд 20:28:16  155139254
>>155138553 (OP)
Гугли регулярные выражения.
Аноним 14/06/17 Срд 20:28:22  155139263
>>155139192
спасибо за совет, но я не программист жи

есть что-нибудь готовое в формате *.еxe?
Аноним 14/06/17 Срд 20:30:02  155139368
14969492746930.webm (20424Кб, 810x1440, 00:00:28)
>>155139254
>Гугли регулярные выражения.
В курсе что это, но через какую программу поиск осуществлять и выкачивать ссылки?
Аноним 14/06/17 Срд 20:31:36  155139470
14969486987310.webm (20085Кб, 1080x1920, 00:00:35)
бамп вопросу
Аноним 14/06/17 Срд 20:32:15  155139527
скажи что за сайт - я сделаю
Аноним 14/06/17 Срд 20:33:06  155139589
>>155139368
сажи буряткопидару
после этого поста тред для меня сдох, иди нахуй
мимопогромист
Аноним 14/06/17 Срд 20:33:27  155139615
>>155139589
отклеилось
Аноним 14/06/17 Срд 20:41:49  155140357
>>155139527
лол, это не особо законно

лучше объясни как это сделать, желательно на пальцах, ибо я, еще раз напомню не коддер
Аноним 14/06/17 Срд 20:43:12  155140472
14856213847961.webm (8348Кб, 1280x674, 00:00:08)
>>155139589
на тебе не Бурятку

бурятко-хейтер
Аноним 14/06/17 Срд 20:43:59  155140540
14955510015460.webm (9300Кб, 640x480, 00:02:13)
бампец
Аноним 14/06/17 Срд 20:45:17  155140658
>>155140472
Похожа на Лесли.
Аноним 14/06/17 Срд 20:45:44  155140702
14960659127430.webm (10237Кб, 1280x720, 00:01:53)
грибо-бамп
Аноним 14/06/17 Срд 20:46:37  155140780
wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt

Это для линуксобогов. У тебя наверняка Windows, поэтому с консолечкой пердолься там сам. Все остальные советы в треде — хуйня.
Аноним 14/06/17 Срд 20:48:03  155140876
>>155140357
а тебе не похуй законно это или нет? не ты-же будешь делать
Аноним 14/06/17 Срд 20:48:34  155140920
>>155140780
Хороший ответ.
Аноним 14/06/17 Срд 20:48:41  155140930
>>155139192
>>155139254
>>155139527

анонасы, так че, нету ли готового варианта в формате *.exe для нуба?
Аноним 14/06/17 Срд 20:48:56  155140950
>>155139263
т.е. тебе просто нужно проверить есть ли на сайте ссылка кончающаяся на .doc?
Аноним 14/06/17 Срд 20:49:13  155140977
>>155138553 (OP)
animelover228@mail.ru
пиши
3 тысячи рублей
Аноним 14/06/17 Срд 20:49:28  155140997
>>155139192
Анон, а че такое "Красивый суп"? Всм для чего?
Аноним 14/06/17 Срд 20:50:22  155141060
>>155140977
иди нахуй. я сделаю бесплатно
Аноним 14/06/17 Срд 20:50:26  155141069
>>155140977
проиграл че то

мимо-не-оп
Аноним 14/06/17 Срд 20:50:42  155141082
>>155141060
а в чем профит тебе?
Аноним 14/06/17 Срд 20:50:54  155141101
>>155138553 (OP)
Нанять программера, очевидно
Аноним 14/06/17 Срд 20:51:02  155141110
>>155140780
а можно поподробней? на виртуалке на линксе это будет работать?
Аноним 14/06/17 Срд 20:51:18  155141122
>>155141082
хочу помочь
Аноним 14/06/17 Срд 20:52:01  155141172
>>155141069
Это вообще то называется "web scraping" и очень востребованно на всяких фриланс-площадках, так что бесплатно я это говно точно не сделаю
Аноним 14/06/17 Срд 20:52:07  155141181
>>155141122
зачем? Ты не получишь абсолютно никакой выгоды, а признание будет краткосрочным и от одного человека.
Аноним 14/06/17 Срд 20:52:11  155141189
>>155140876
ебанаврот, сорян, но я должен это сам сделать
файлы слишком много стоят :(
Аноним 14/06/17 Срд 20:52:27  155141214
>>155141110
просто запиши линукс на флешку и запусти в лайф режиме
Аноним 14/06/17 Срд 20:52:44  155141247
>>155141110
Нужно будет только wget установить, он обычно не идет в дефолтной поставке. А так — да, конечно.
Аноним 14/06/17 Срд 20:53:09  155141277
>>155141172
>web scraping
Вот сейчас заинтересовал. Есть что-то в интернетах по поводу этой темы? ну там что это такое, что делает в широком смысле и т.д.
Аноним 14/06/17 Срд 20:53:12  155141280
chrisratzdev@gmail.com
ща говорить не могу, внезапно надо уходить, черкани сюда
Аноним 14/06/17 Срд 20:53:34  155141303
>>155141181
Он карма-йог, а ты ленивое быдло.
Аноним 14/06/17 Срд 20:53:40  155141312
>>155141280
даун ,иди на хуй,чмо
Аноним 14/06/17 Срд 20:53:42  155141316
>>155141189
ну тогда иди нахуй.. хочешь помочь, а он еще и выебывается
Аноним 14/06/17 Срд 20:54:05  155141348
>>155140950
неа
вот смотри, на каждой странице есть ссылка примерно такого вида site.com/123465436.doc

мне нужно прошарить каждую страницу, чтобы всех их собрать в файл txt
Аноним 14/06/17 Срд 20:54:08  155141355
>>155141189
Но ведь то что тебе тут сделают, может спиздить твои файлы и ты начнешь сушить сухари, так нахуя ты сюда пришел?
Аноним 14/06/17 Срд 20:56:24  155141551
>>155141303
>карма-йог
Тоесть желание делать что-то без признания, материальной выгоды и только с надеждой что когда нибудь зачтется это так называется?

>ленивое быдло
мой левел кодинга наверное не достаточен, хотя я и не уверен. Но попытаться бы мог конечно. Когда то два раза писал прогу для себя что бы пиздить пики с двача. Ох прогером я себя чувствовал)) Но да сейчас это смешно звучит
Аноним 14/06/17 Срд 20:57:45  155141684
>>155141348
Ну так я примерно так же и сказал...
Ладно вопрос два, ссылки на страницы уже готовы, или программа должна сама искать все доступные ссылки?
Аноним 14/06/17 Срд 20:57:54  155141699
14948539099481.webm (2350Кб, 854x480, 00:00:27)
>>155141355
я тут не вешаю свою пробему на других, а задаю вопрос как это сделать, просек?

конечно, большое спасибо за безвозмездную помощь, но мне нужна помощь в виде совета
Аноним 14/06/17 Срд 20:58:51  155141792
>>155141699
Ну тебе дали пару готовых вариантов, а насчет парсеров, хз врядли что то еще насоветуют..
Аноним 14/06/17 Срд 20:59:57  155141902
>>155138553 (OP)
Типичное задание для фриланс-биржи.
Аноним 14/06/17 Срд 21:00:30  155141949
>>155140357
Сканирование сайтов в интернет не может быть "незаконным". Сайты созданы для того, что бы их html-код считывали, загружали и пр.
Аноним 14/06/17 Срд 21:01:21  155142019
>>155141684
Ссылки не готовы, нужно, чтобы парсер искал и проверял каждую страницу, как-то так
Аноним 14/06/17 Срд 21:01:33  155142034
>>155141277
"Вкатиться" решил, рачишко?
Аноним 14/06/17 Срд 21:01:42  155142045
>>155138553 (OP)
Очевидным вгетом, ну. Ну проще простого же, ну.
К.О.
Аноним 14/06/17 Срд 21:01:59  155142065
import requests, bs4
f = open('file.txt', 'a')
for i in range(200):
....r=requests.get('http://example.com/page.php?p='+str(i+1))
....soup = bs4.BeautifulSoup(r.text, 'html.parser')
....z=soup.find('a', {'id': 'document'})
....f.write(z['href'])
f.close()


вроде того, перепиши под свой случай
Аноним 14/06/17 Срд 21:02:16  155142086
>>155141949
там фигня в том, что админ сайта по ошибке допустил фейл и в коде сайта стала доступна инфа, которая стоит денег..
Аноним 14/06/17 Срд 21:02:47  155142129
>>155142034
Нет, просто интересно.
Не думаю что я применю это знание когда нибудь.
Аноним 14/06/17 Срд 21:02:48  155142130
>>155141312
охуел что ли
Аноним 14/06/17 Срд 21:02:59  155142149
>>155142065
это для вгета или для чего?
Аноним 14/06/17 Срд 21:03:13  155142164
>>155142045
Дауны советую вгеты, хотя не понимают, что 200 тысяч страниц программа будет майнить овердохуя долго.
Пиши на animelover228@mail.ru
Я заюзаю python, подрублю пару своих выделенных впсок на асинхронных корутинах и быстренько тебе всё соберу.
Стоить работа будет 3 к рублей.
Аноним 14/06/17 Срд 21:03:34  155142193
>>155142129
Окей
https://en.wikipedia.org/wiki/Web_scraping
Аноним 14/06/17 Срд 21:03:45  155142208
>>155142149
для питона
Аноним 14/06/17 Срд 21:03:55  155142226
>>155142086
так пусть админ и напишет парсер, ибо нахуй он нужен
Аноним 14/06/17 Срд 21:04:34  155142278
>>155142164
сорямба, я не доверю тебе это качать, те файлы слишком дорогИ
Аноним 14/06/17 Срд 21:05:43  155142376
>>155142226
ты не понял, сайт чужой

я пытаюсь спиздить от туда инфу, которая сейчас находится в отрытом доступе

хотя на самом деле это очень даже законно, поэтому уже не парюсь
Аноним 14/06/17 Срд 21:05:55  155142388
>>155142193
Спасибо.
Аноним 14/06/17 Срд 21:06:08  155142401
>>155142278
Пфффф, я занимаюсь бд у всяких американцев, храню и админю их огромные массивы данных с кучей конфиденциальной инфы. Они мне доверяют, а какой то чел с двача нет? Нахуй мне нужны там твои документы, пусть там даже паспорта или кредитки. Я слишком честный человек, чтобы использовать это всё в корыстных целях
Аноним 14/06/17 Срд 21:08:06  155142517
14843982189653.webm (3799Кб, 1280x720, 00:00:41)
>>155142401
Блин, я польщен, что ты предлагаешь свою помощь, пускай даже платно.

Но меня интересует совет, т.к. я собираюсь все сделать сам.
Аноним 14/06/17 Срд 21:08:32  155142549
>>155142376
тоесть ты хочешь спиздить 200к файлов... Охуенное конечно ты нашел место что бы совета спросить, но судить не мне. Найди фриланс чела и дай задание написать прогу.
Аноним 14/06/17 Срд 21:08:59  155142587
>>155142517
>сам
>не зная кодинга
Хм...
Аноним 14/06/17 Срд 21:09:09  155142594
Начни с Pascal ABC
Аноним 14/06/17 Срд 21:09:50  155142640
Но мне теперь даже интересно будет такое написать. Такому нубу как я. Спасибо оп, пойду писать ее.
Аноним 14/06/17 Срд 21:09:56  155142650
>>155142549
Спасибо за совет, но я продолжу спрашивать здесь..
Аноним 14/06/17 Срд 21:10:23  155142676
>>155142517
Если боишься за свои данные, я тебе тупо могу написать скрипт, ты запустишь его на своей стороне. Мне же тупо сбросишь пример .html страницы твоего сайта с указанием того, что ты хочешь запарсить.
Аноним 14/06/17 Срд 21:10:25  155142678
>>155142587
все верно, я быстро учусь

вот например, нашел видос
https://www.youtube.com/watch?v=3hgkiDAaSQs
Аноним 14/06/17 Срд 21:11:22  155142745
>>155142676
Еще раз спасибо, но я не готов платить 3к
Аноним 14/06/17 Срд 21:11:30  155142754
regex-html.png (505Кб, 700x979)
>>155140780
>http.+doc
А оно точно правильно выдерет? А если на document.doc наткнется?
Аноним 14/06/17 Срд 21:11:48  155142778
>>155142517
Так тебе же ответили, берешь питон и beautifulsoup. Хотя, тебе лучше взять grab ибо под него есть документация на русском и в гугле туча примеров. http://docs.grablib.org/ru/latest/
Аноним 14/06/17 Срд 21:13:02  155142864
>>155140780
>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt
слушай, а что если сами ссылки находятся именно в коде страницы, а не открыто "на странице"

будет работать?
Аноним 14/06/17 Срд 21:13:23  155142893
>>155142678
сори, я человек спокойный, но ты меня бесишь.
Аноним 14/06/17 Срд 21:14:07  155142946
>>155142893
взаимно, выйди из треда
Аноним 14/06/17 Срд 21:14:33  155142974
>>155142864
благо>>155142778
>http://docs.grablib.org/ru/latest/
спасибо, буду изучать
Аноним 14/06/17 Срд 21:14:35  155142977
>>155142754
Ты обосрался. Если у тебя на странице будет слово http - прорва текста - doc, то он у тебя выдернет этот текст
Аноним 14/06/17 Срд 21:14:53  155143000
>>155142893
нет. Тут попутно много чего интересного рассказывают. Приходится терпеть ОПа питуха
Аноним 14/06/17 Срд 21:15:42  155143050
>>155142864
Если ты имеешь ввиду, что ссылка на документ генерируется в браузере жс скриптом, то работать не будет. И в таком случае тебе придется брать селениум, кстати, ты ведь и так его можешь взять, в фаерфоксе под него есть плагин с гуем. Можешь там наебенить скриптик для парсинга.
Аноним 14/06/17 Срд 21:16:02  155143067
>>155142977
Плюсик же вроде ленивый квантификатор а не жадный.
Аноним 14/06/17 Срд 21:16:25  155143091
>>155141949
> не может
Может. В Европке за NMAP можно сесть. Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например. Советую тебе не умничать насчет вещей, о которых совсем не знаешь.
Аноним 14/06/17 Срд 21:18:27  155143216
>>155143091
>Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например.
Слишком геморно и затратно, только если ОП реально таким образом кому-то сильно поднасрет. а так хоть обпарсись.
Аноним 14/06/17 Срд 21:18:42  155143234
>>155143050
нет, имею в виду, что на самой странице ссылки нету, а когда заходишь в код страницы, она лежит между

<script><object><param>

причем, ссылка на тот самый файл прямая
Аноним 14/06/17 Срд 21:19:23  155143282
>>155142164
> Дауны
Тот, про кого ты это сказал я, парсит половину интернетов с 2011 года. Ты же, ньюфажина, создашь заметную нагрузку на сервис своими асинхронными корутинами и с непростительно большой вероятностью спалишься.
Аноним 14/06/17 Срд 21:19:40  155143300
>>155138553 (OP)
Обязательно все?
Аноним 14/06/17 Срд 21:19:59  155143326
>>155143234
SELENIUM гугли
Аноним 14/06/17 Срд 21:20:08  155143339
>>155143216
>>155143091
то, что я пытаюсь сделать вполне законно, файлы в открытом досупе, не пугайте "мачираторов"
Аноним 14/06/17 Срд 21:21:12  155143407
>>155142864
Будет, если не на стороне клиента джаваскриптом генерится.
Аноним 14/06/17 Срд 21:21:32  155143431
>>155138553 (OP)
Если тебе неизвестны все ссылки, то тут тупо нужен перебор, ибо кроме сервера никто не знает их.
Аноним 14/06/17 Срд 21:21:34  155143435
Тут два путя. Первый - брать питон, брать парсер, оптимизированый на быструю работу, если ссылок много и делать. Это просто должно быть. Второй вариант - брать готовое решение. Есть много тулз для этого, они как правило связанны с иб. Например, skipfish, кажется, умеет так, как тебе нужно. Он точно справится быстро, так как специально написан для большого объема данных. Есть еще goofile. Он, кажется, на питоне написан. Задаешь ему сайт и список расширений, которые нужно искать, он выдает все ссылки.

Кстати, еще вариант, что-то с wget запилить. Это, кстати, самое простое. Читай доки по нему и юзай.
Аноним 14/06/17 Срд 21:22:47  155143503
>>155143435
>>155143326

большое спасибо, годнота
Аноним 14/06/17 Срд 21:23:27  155143550
>>155143431
поиск ссылок на мэйнпейдже переход на них и с них на остальные, каждый раз сверяясь нет ли одинаковых страниц, что бы не переходить на них дважды.
Аноним 14/06/17 Срд 21:25:03  155143656
>>155143339
Мочерне похуй на твои дела.

>>155143216
Я увидел, что человек конкретно ошибается, и решил его поправить. Может, оно ему когда-нибудь поможет избежать суда даже. Не первый раз встречаю человека, который пытается смотреть на законы через призму какой-то своей логики.
Аноним 14/06/17 Срд 21:27:02  155143785
>>155143326
Selenium - годно, но, для данной задачи, излишне. Если бы оп имел опыт работы с ним - то да, запилил бы без проблем. Но разбираться в фреймворке чтобы решить одну, конкретную задачу - такое себе.
Аноним 14/06/17 Срд 21:27:23  155143805
>>155138553 (OP)
webbez
Аноним 14/06/17 Срд 21:29:20  155143939
>>155143785
Так если как говорит ОП, ссылки жс скриптом генерятся, чем ты их еще кроме селениума выдергивать будешь?
Аноним 14/06/17 Срд 21:30:31  155144004
…regex-infection wil​l devour your HT​ML parser, application and existence for all time like Visual Basic only worse he comes he comes do not fi​ght he comes, hi​s unholy radiance destro҉ying all enlightenment, HTML tags leaking from yo​ur eyes like liq​uid pain, the song of regular exp​ression parsing will exti​nguish the voices of mor​tal man from the sp​here I can see it can you see it it is beautiful t​he final snuffing of the lie​s of Man ALL IS LOST ALL I​S LOST the pony he comes he comes he comes the ich​or permeates all MY FACE MY FACE ᵒh god no NO NOOO​O NΘ stop the an​*​gles are n​ot real ZALGΌ IS҉ TOƝȳ THE PO​NY HE COMES
Аноним 14/06/17 Срд 21:30:36  155144009
>>155143939
не генерятся ссылки никакие, уже лежит прямая ссылка в коде сайта между скрипт/скрипт

Аноним 14/06/17 Срд 21:31:46  155144086
>>155144009
Так ты страничку wget-ом дерни, и проверь, есть ли они в хтмл коде.
Аноним 14/06/17 Срд 21:32:41  155144127
нашел интересный видеогайд по вгету

https://www.youtube.com/watch?v=k9qTgrIqM-k

ща буду разбираться, вроде это самое простое
Аноним 14/06/17 Срд 21:33:39  155144177
>>155144086
могу сразу сказать, что при сохранении страницы та самая ссылка на нужный файл остается прямой
Аноним 14/06/17 Срд 21:35:03  155144247
ахтунг!

кстати, если у сайта посещаемость под 8к уников в день, нет ли у них защиты?
Аноним 14/06/17 Срд 21:36:05  155144306
>>155143091
Совсем ебанутый.
>за NMAP можно сесть
Орнул с этого. А за Земляную Обезьяну, случайно, нельзя сесть, умалишённый?
Аноним 14/06/17 Срд 21:36:22  155144320
>>155144086
Тред не читал, не знал, что там жс задействован. Если так, то да, селеиум или типо того придется юзать. Но если они уже есть сгенереные, то выберать что-то из этого >>155143435
Аноним 14/06/17 Срд 21:38:18  155144425
>>155144127
Видеогайды - хуйня. Есть доки, их и читай. И нахуй тебе весь сайт качать?
Аноним 14/06/17 Срд 21:39:04  155144470
>>155138553 (OP)
напиши почту, я с тобой свяжусь
интересно такое написать
мимо_программис
Аноним 14/06/17 Срд 21:39:38  155144498
>>155144320
не задействован там джаваскрипт, уже 3-й раза распинаюсь

там всего лишь нужныую прямую ссылку засунули между <скрипт>link </скрипт>
Аноним 14/06/17 Срд 21:40:21  155144534
>>155144470
moladosa()gmail.ком
Аноним 14/06/17 Срд 21:45:10  155144777
>>155144306
https://nmap.org/book/legal-issues.html
Аноним 14/06/17 Срд 21:45:30  155144794
>>155144425
мне не надо весь сайт качать, нужно только скачать прямые ссылки почти с каждой страницы сайта в txt

через вгет пытаюсь сейчас хотябы сайт скачать..
Аноним 14/06/17 Срд 21:47:14  155144909
>>155143550
Могут быть что-то вроде промо-страниц, на которые никто не ссылается.
Аноним 14/06/17 Срд 21:48:12  155144971
>>155138553 (OP)
Орнул с разводящих ОПа-лоха на бабки за простейшую задачу.
Аноним 14/06/17 Срд 21:49:05  155145021
>>155144971
>>155144909
Найдешь такую страницу, 300кк программист?
Аноним 14/06/17 Срд 21:52:04  155145223
node.js+phantom.js+casper.js
Все пишется в течении 15 минут.
Аноним 14/06/17 Срд 21:52:53  155145290
>>155145223
вгет не варик?
Аноним 14/06/17 Срд 22:00:56  155145823
>>155144777
Еще раз орнул!
Покупаем кувалду и хуярим скобы в своём доме - всё OK.
Надеваем на хуй лоли, берем кувалду и вламываемся в полицейский участок, размахивая кувалдой - арестовывают.
>ко-ко-ко за кувалду можно сесть
Аноним 14/06/17 Срд 22:03:03  155145978
>>155145823
перестань тут это обсуждать, ок?

у нас тут другой насущный вопрос, как спарсить файлы с 200к страниц
Аноним 14/06/17 Срд 22:05:24  155146116
>>155145978
уже миллиард способов дали
иди ебись
хочешь skacat_vse.exe - плати деньги
Аноним 14/06/17 Срд 22:07:00  155146215
>>155146116
я не слепой, но еще один способ не помешает, сечешь?

Аноним 14/06/17 Срд 22:11:45  155146522
>>155145823
Рад, что веселю тебя. Прости, но я не вижу смысла спорить с твоей принципиальной позицией. Можешь считать, что сразил меня своим гениальным сравнением.
Аноним 14/06/17 Срд 22:11:59  155146534
аноны, почему вгет выдает ошибку Permission denied, когда я выполняю скрипт через командную строку?

wget -r -k -l 10 -p -E -nc http://site.com/



папку в переменных средах указал, но сайт качать отказывается
Аноним 14/06/17 Срд 22:15:48  155146794
>>155146215
не секу
НО В РОТ ТЕБЕ НАДАЮ, ХАЛЯВЩИК ЕБУЧИЙ, ПИЗДУЙ ДЕЛАТЬ БЛЯДИНА ЕБАНАЯ, ЕЩЕ ЕМУ СКИДЫВАТЬ НУЖНО, ОХУЕВШАЯ РУСНЯ
Аноним 14/06/17 Срд 22:17:21  155146876
>>155146794
а зря..
лол, ну у тебя и бомбануло
Аноним 14/06/17 Срд 22:19:09  155147008
>>155146534
Лол, нахуя ты ключей-то наворотил столько?
Аноним 14/06/17 Срд 22:21:35  155147167
>>155147008
хз, тут так парниша объяснял, у него вроде пашет

https://www.youtube.com/watch?v=k9qTgrIqM-k
Аноним 14/06/17 Срд 22:22:48  155147264
1. Python
2. Beautiful Soup
3. ???
4. Профит
Аноним 14/06/17 Срд 22:28:59  155147636
>>155141247
Как это не идет? На центосе идет
Аноним 14/06/17 Срд 22:30:30  155147729
>>155138553 (OP)
curl
/thread
Аноним 14/06/17 Срд 22:31:21  155147786
>>155141247
вот скачал вгет, пытаюсь скачать сайт, но выскакивает хуйня в виде Bad file descriptor

Аноним 14/06/17 Срд 22:33:22  155147915
>>155147729
>curl
спасибо за годноту, но слажнавата жи

рукожопу некоддеру дофига с этим разбираться
Аноним 14/06/17 Срд 22:34:18  155147977
>>155147636
Вот нахуй ты этот вопрос задал, скажи? По-твоему, во всех дистрибутивах всё так, как в том, который знаком тебе? Там ещё и sudo искаропки, да?
Аноним 14/06/17 Срд 22:34:21  155147981
>>155147915
Лол, тот же вгет, только в профиль. aira2c еще туда же. Отличия есть, но вкатываться одинаково.
Аноним 14/06/17 Срд 22:34:37  155147997
>>155147981
aria2c*
Аноним 14/06/17 Срд 22:35:46  155148082
>>155147977
Ты там на чем таком спартанском сидишь-то? На дебиане штоле?
мимоарчешкольник
Аноним 14/06/17 Срд 22:36:09  155148101
>>155138553 (OP)
import re

links='\n'.join([_ for _ in re.findall(r'href="([^"]+?)"',page) if re.findall(r'\.doc$',_)])

f1=open('results.txt','wb');f1.write(links);f1.close()
Аноним 14/06/17 Срд 22:38:26  155148250
>>155148101
пиздец синтаксис. это шо, питон?
Аноним 14/06/17 Срд 22:42:09  155148518
>>155148082
> спартанском
Оно спартанское, если тебе пятнадцать лет и ты сидишь в /s/. Если это часть твоей работы, то тебе тяжело понять логику тех, кто подобные вопросы задает.
Аноним 14/06/17 Срд 23:05:03  155150236
пользуясь случаем неутонувшего треда спрошу,

в чем может быть проблема такой ошибки в wget?

... ошибка: Bad file descriptor.
Аноним 14/06/17 Срд 23:09:09  155150543
>>155150236
Плохое описание файла.
Аноним 14/06/17 Срд 23:10:07  155150620
>>155150236
что за команду юзаешь?
Аноним 14/06/17 Срд 23:13:42  155150882
>>155150620
wget -r -k -l 10 -p -E -nc http://site.com/
Аноним 14/06/17 Срд 23:13:42  155150883
>>155150236
Ты ведь под Виндой пытаешься это все провернуть?
Аноним 14/06/17 Срд 23:14:13  155150916
>>155150883
да, все верно, через командную строку ввожу команду
Аноним 14/06/17 Срд 23:15:12  155150992
2017-06-15-0114[...].png (60Кб, 505x525)
>>155150882
Че-то качает вроде.
Аноним 14/06/17 Срд 23:15:40  155151019
>>155150916
Проблема здесь в том, что, кроме тебя, такие вещи делают три с половиной инвалида в мире. Поэтому когда сталкиваешься с проблемой, в ответ на свои просьбы о помощи можешь не ждать чего-то отличного от «ну хуй знает, у меня всё работает».
Аноним 14/06/17 Срд 23:19:39  155151300
1.jpg (79Кб, 1186x714)
>>155150992
вот такая фигня вылетает

вгет устанавливал по адресу C:\Program Files (x86)\GnuWin32\bin
Аноним 14/06/17 Срд 23:21:40  155151437
>>155151300
попробуй форсировать айпив4
припиши -4
Аноним 14/06/17 Срд 23:22:13  155151468
>>155151300
-4 добавь во флаги.
Аноним 14/06/17 Срд 23:23:33  155151571
oekaki.png (7Кб, 400x400)
ееее, заработало

нужно было юзать эту команду wget -r -k -l 10 -p -nc --no-check-certificate

плюс вырубить файервол
Аноним 14/06/17 Срд 23:24:58  155151665
>>155151019
>>155150916
И да, я действительно не люблю Windows в том числе и по религиозным соображениям, но это боль, обоснованная определенным жизненным опытом.

Разрабатывали мы одну софтину, которая собиралась под различные платформы. Сначала виндовые сборки успешно собирались на линуксе с MinGW, но потом по ряду причин пришлось сборку перенести на Винду. Бля-я-я-я, какая же это анальная боль была. Сначала попробуй установи, потом попробуй запустить так, чтобы конфиги подцепились и переменные окружения были видны, а потом попробуй добиться желаемого результата ещё. Подводные камни на каждом шаге, решений проблем Гугл не знает. Короче, не рекомендую лишний раз пытаться что-то из швабодного мирка завести под Виндой без необходимости. Избегайте этого максимально.
Аноним 14/06/17 Срд 23:26:54  155151785
>>155151665
к сожалению с линуксом у нас не сложилось

драйверов на видеокарту не нашлось и в целом слишком сложная штука, не хватает нужных програм, приходится с костылями использовать, что очень не удобно
Аноним 14/06/17 Срд 23:30:01  155151973
>>155148101
Школьники до сих пор парсят HTML регэкспами, вместо DOM и XPath?
Аноним 14/06/17 Срд 23:31:17  155152049
>>155140930
Есть готовый вариант за 20к. Будешь брать?
Аноним 14/06/17 Срд 23:34:22  155152288
>>155152049

читай внимательней тред, я уже нашел решение
качаю вгетом все 200к страниц, потом вытаскиваю нужные ссылки

win
Аноним 14/06/17 Срд 23:37:38  155152526
>>155143282
ну скорей всего он это делает через платные проксики
Аноним 14/06/17 Срд 23:51:09  155153487
Screenshot20170[...].png (37Кб, 626x328)
>>155151973
Нешкольник не знает наверняка, корректный ли там документ, но заранее выебывается? Сколько же вас тут умных, я хуею просто. Когда нужно быстренько на коленке слабать, регулярки — выбор успешного человека. Когда делаешь что-то всерьез и надолго, то делаешь как на пике, плачешь и тратишь часы на отлов всех возможных подводных камней на миллионах URL, но это потому что затраты окупаются.
Аноним 14/06/17 Срд 23:53:45  155153663
>>155138553 (OP)
Конкретный пример со скринами покажи, как всё выглядит.
Аноним 14/06/17 Срд 23:56:16  155153838
>>155153663
Вот в таком виде лежит ссылка на файл ch1_131108.doc

<script type="text/template" id="tret">
<object id="1" classid="1" codebase="http://www.site.com" width="1" height="1">
<param name="src" value="https://www.site.com/temp/ch1_131108.doc" />
</object>
</script>

нужно выдергнуть эту ссылку в файл

страниц около 200к
Аноним 14/06/17 Срд 23:58:40  155154016
>>155153838
пока что тупо качаю страницы юзая вгет через командную строку:

wget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf -nc --no-check-certificate http://site.com
Аноним 15/06/17 Чтв 00:00:01  155154100
>>155153838
Скорее всего нужные ОПу данные приходят json-ом , но я не уверен.

Если б был доступ к этому сайту, можно было бы сказать точно.
Аноним 15/06/17 Чтв 00:02:03  155154224
>>155154100
нет, там не json

там все безумно просто устроено <скрипт> та самая прямая ссылка </скрипт>
Аноним 15/06/17 Чтв 00:02:38  155154267
14919418881480.jpeg (135Кб, 691x960)
>>155154016
Эээ... А ты точно тот анон, которому были нужны файлы с расширением .doc ?
Аноним 15/06/17 Чтв 00:03:17  155154302
>>155151665
>>155151785
Нейроночки на питончике поди хотели потеребить?
Аноним 15/06/17 Чтв 00:03:29  155154327
>>155154267
О, "Красная Бурда". Спасибо, анончик.
Аноним 15/06/17 Чтв 00:05:32  155154460
>>155153838
Ищи параметр по имени, бери его значение и переходи к следующему. Это будет долго, но я хз, как можно ещё сделать.
Аноним 15/06/17 Чтв 00:05:40  155154466
KA6u0sTsKAA.jpg (74Кб, 800x800)
>>155154267
да, тот

но конечно там файлы не с расширением doc, а другим, более ценным (для меня)
Аноним 15/06/17 Чтв 00:12:11  155154902
Короче не знаю, поможет ли мой способ, но тут все просто и справится даже ребенок.

1. Сохраняешь хтмл файл внутри которого ссылка на нужный документ.
2. Выключаешь доступ в инет
3. Открываешь файл в браузере(смотри чтоб не подтянулся кеш, лучше очистить лишний раз) и ищешь эту ссылку

Далее:
Если ссылка есть, нам повезло и можно использовать питоновский grab или bs.

Грабом не сложно будет найти нужный тег и извлечь значение параметра value.

Если же нужных данных нет, надо атаковать страницу seleniumом. Лучше использовать Selenium вместе с Chrome, быстрее будет.

Такие дела. Отпишись как получилось, интересно.
Аноним 15/06/17 Чтв 00:14:38  155155061
>>155154902
вроде писал, что страниц выходит около 200 000

пока что качаю их на комп, потом парсить буду на наличие ссылок с нужными файлами (анон подсказал)

вроде норм идея?
Аноним 15/06/17 Чтв 00:14:59  155155083
Пиши в телегу @fiuhd, договоримся по цене, сделаю.
Аноним 15/06/17 Чтв 00:15:40  155155125
>>155154902
не ответил по поводу ссылки
ссылка всегда есть (если мы нужную страницу скачали), хоть просто сохранить как, хоть через вгет
Аноним 15/06/17 Чтв 00:16:20  155155159
>>155155083
не, спс
я не доверю скачивать, слишком рискованно
Аноним 15/06/17 Чтв 00:16:25  155155164
>>155155061
Вся проблема в том, что возможно ты делаешь ненужную работу. Есть вероятность, что ты спарсил страницы без нужного тебе кода.

Это можно проверить открыв уже скачанный хтмл в текстовом редакторе и поискав ссылку.
Аноним 15/06/17 Чтв 00:17:31  155155240
>>155155164
Я же написал, что все норм скачивается, ссылки остаются
Аноним 15/06/17 Чтв 00:17:34  155155243
>>155155061
>пока что качаю их на комп
>вроде норм идея?
Нет.
Аноним 15/06/17 Чтв 00:18:30  155155301
>>155148082
Так в арче судо нету
Аноним 15/06/17 Чтв 00:18:40  155155310
>>155155243
прост проблема в том, что те самые прямые ссылки лежат в коде, которые не видно на страницах
их вроде просто так не вылудишь
Аноним 15/06/17 Чтв 00:19:05  155155337
>>155155159
Ну как бы мне абсолютно похуй что у тебя там лежит (хоть ядерные коды, блять). Ты мне заплатишь приемлемую сумму, я для тебя выкачаю ссылки. Джаст бизнес.
Аноним 15/06/17 Чтв 00:19:25  155155359
>>155138553 (OP)
Оп, гугли Screaming Frog SEO Spider. Ключ также гуглится. Парсит в несколько потоков, работает с регулярками, делает экспорт. Можешь не благодарить.
Аноним 15/06/17 Чтв 00:19:44  155155379
Ты может быть уже это все знаешь, но как бы это...

При скачивании данных через Wget не выполняются скрипты на странице, которые могут быть необходимы для того, чтобы там появилась нужная тебе ссылка.
Аноним 15/06/17 Чтв 00:20:13  155155402
>>155155310
Хоть бы скинул фрагмент кода с ссылкой.
Аноним 15/06/17 Чтв 00:20:34  155155423
А так ты будешь просто мозги анонам и в первую очередь себе ебать. Ну в общем смотри сам.

>>155155337-кун
Аноним 15/06/17 Чтв 00:21:10  155155460
>>155155379
блин, я же писал выше.. хотя тут дофига постов уже..

лан, еще раз. там не генерится ссылка, она по умолчанию стоит на странице
Аноним 15/06/17 Чтв 00:21:19  155155470
>>155155359
>Screaming Frog SEO Spider
500 url limit
Аноним 15/06/17 Чтв 00:21:43  155155497
Я такие вещи на работе пишу :(
Аноним 15/06/17 Чтв 00:22:22  155155538
>>155155460
>там не генерится ссылка, она по умолчанию стоит на странице

Тогда нет смысла качать все себе на винт, можно качать одни доки.
Аноним 15/06/17 Чтв 00:22:31  155155550
-toWHEebh4.jpg (48Кб, 500x656)
>>155155402


вот, уже скидывал
>>155153838


Вот в таком виде лежит ссылка на файл ch1_131108.doc

<script type="text/template" id="tret">
<object id="1" classid="1" codebase="http://www.site.com" width="1" height="1">
<param name="src" value="https://www.site.com/temp/ch1_131108.doc" />
</object>
</script>

нужно выдергнуть эту ссылку в файл

страниц около 200к
Аноним 15/06/17 Чтв 00:23:24  155155607
>>155155550
тебе регекс дали же омг
>>155140780
>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt
Аноним 15/06/17 Чтв 00:23:25  155155610
>>155155538
дык вот как выдергнуть через вгет?

кодить то я не умею

файлы там с рендомным названием, просто так через доунлоад мастер не скачаешь
Аноним 15/06/17 Чтв 00:23:30  155155618
>>155155470
Гугли ключ
Аноним 15/06/17 Чтв 00:23:56  155155641
14973049692770.png (188Кб, 500x388)
>>155155610
Тебе вишмастер щас скину
Аноним 15/06/17 Чтв 00:25:13  155155719
>>155155641
Не кидай
Аноним 15/06/17 Чтв 00:25:33  155155739
>>155155607
>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt
можешь пояснить что означает каждая команда?

чтобы понятно было, если не сложно
Аноним 15/06/17 Чтв 00:26:27  155155789
>>155155550
... и будет там

fileUrl = g.get.document('//param[value]')
Аноним 15/06/17 Чтв 00:26:46  155155806
>>155155359
спасибос!
Аноним 15/06/17 Чтв 00:27:26  155155851
>>155155789
ок, сейчас проверю что скачалось, специально..
Аноним 15/06/17 Чтв 00:28:05  155155888
doghelmet.jpeg (52Кб, 460x528)
Кстати, откуда у него под виндой wget ?
Аноним 15/06/17 Чтв 00:29:17  155155962
>>155155888
через командную строку жи, все просто

оп
Аноним 15/06/17 Чтв 00:29:51  155155995
>value="https://www.site.com/temp/ch1_131108.doc"

ch1_131108 - похоже на дату.
Аноним 15/06/17 Чтв 00:31:25  155156130
>>155155301
Так поставь и настрой, удобно же, ебана.
Аноним 15/06/17 Чтв 00:31:49  155156157
>>155155995
это я придумал название, не обращай внимание
Аноним 15/06/17 Чтв 00:32:09  155156185
>>155155888
Скачал и поставил, очевидно.
Аноним 15/06/17 Чтв 00:34:05  155156300
ананы, как через вгет качать страницы только из этой дериктории?

www.site.com\ui\ID_09\
Аноним 15/06/17 Чтв 00:36:27  155156440
>>155156300
А что , директория отдает список файлов?
Аноним 15/06/17 Чтв 00:37:40  155156513
>>155138553 (OP)
>Как вытянуть эти ссылки относительно быстро и красивый суп+лэхэмэлэ
Аноним 15/06/17 Чтв 00:39:06  155156600
>>155156440
не не, прост чтобы страницы выкачивались только если они находятся по этому пути www.site.com\ui\ID_09\page.html

чтобы остальные пропускались
Аноним 15/06/17 Чтв 00:39:37  155156635
>>155155739
Вот ты конченый, честное слово. Конченый просто. Я тебе, по сути, ещё в начале треда дал готовую команду, а ты до сих пор не разобрался.

-r — рекурсивно обойти сайт;
--spider — в режиме паука, то есть не загружать файлы, а просто собирать URLы, как ты и просил;
-l1 — слишком далеко не уходить вглубь сайта, настроить под себя;
-t1 — количество попыток при сетевых сбоях всяких, тоже настроить под себя;
-A doc — через запятую форматы интересующих файлов;
2>&1 — перенаправление stderr в stdout, потому что wget пишет в stderr всё;

Через вертикальные черточки пишутся конвейерные команды (как-то так это будет на русском, наверное, я не ебу). То есть вывод первой команды идет на ввод второй. И так далее.

grep — отсеиваем все лишнее из вывода wget
-Eio — включить режим регистронезависимых (i) регулярок (E, можно было воспользоваться алиасом egrep) и выводить только подходящие подстроки (o)

tee docs.txt — клонировать вывод из терминала в файл, чтобы ты и вживую мог прогресс наблюдать, и одновременно это в файл сохранялось.

Ты какой-то дегенерат, честное слово. Анон выше где-то выебывался, что wget будет тебе все ссылки вечность скачивать. Увы, к данному моменту ты бы уже раза три успел все выкачать. Тут бутылочное горлышко — не wget, а твоя, анон, голова.

>>155156300
Запрети подниматься в родительские каталоги. --no-parent или -np.
Аноним 15/06/17 Чтв 00:39:51  155156652
сделаю за пару сотен
Аноним 15/06/17 Чтв 00:42:27  155156813
>>155156635
не злись, я нуб, ща попробую..

как дерикторию вот эту указать, чтобы все остальные обходил? www.site.com\ui\ID_09\
Аноним 15/06/17 Чтв 00:43:22  155156856
>>155156813
Иди нахуй. Ответил за того анона.
>>155156635
Не благодари.
Аноним 15/06/17 Чтв 00:45:46  155156981
>>155156856
не работает, пишет
"grep" не является внутренней или внешней
командой, исполняемой программой или пакетным файлом.
Аноним 15/06/17 Чтв 00:46:25  155157010
>>155156813
Ты, вполне возможно, обосрешься и отсеешь не то, что нужно отсеять, потому что ты не понимаешь, как это работает. Двести, двести, ёбаный ты в рот, постов, а ты нихуя еще не сделал. Либо вкидывай ссылку на сайт в тред, чтобы я тебе дал полностью готовую команду и объяснил, что к чему, либо дальше жди советов долбоебов с их Питонами, крякнутыми мокрописьками и деловыми предложениями, раз ты такой отбитый.

>>155156856
А все равно поблагодарю.
Аноним 15/06/17 Чтв 00:47:27  155157062
>>155156981
ДА ТЫ ШО?
Линукс нашевели где-нибудь сначала, на виртуалке или на живой флешке с убунтой какой-нибудь.
Аноним 15/06/17 Чтв 00:47:28  155157067
5143890-feat1.jpg (27Кб, 600x315)
>>155156981
Аноним 15/06/17 Чтв 00:49:18  155157157
>>155157062
да ну, я заебусь его устанавливать, пускай даже на виртуалку

спасибо и на этом за помощь
Аноним 15/06/17 Чтв 00:52:22  155157303
>>155157157
> заебусь его устанавливать
Охуеть, далее-далее-готово прощелкать в убунте. Тебе же им не пользоваться полноценно, а так, консольку получить. В винду та команда все равно не пролезет, даже если ты grep и tee поставишь. Плюс почти наверняка получишь кодировкопроблемы в виндовой консольке.
Аноним 15/06/17 Чтв 00:54:00  155157376
cNy0Ueh0Rz8.jpg (44Кб, 403x604)
>>155156635
кстати, с такой командой файлы doc не скачиваются

причем причина очень простая, они не на странице находятся, а в коде скрипта

я об этом писал в первых постах, но ты видимо проигнорил

ОП
Аноним 15/06/17 Чтв 01:03:23  155157820
>>155152288
Не забудь велосипед изобрести.
Аноним 15/06/17 Чтв 01:04:21  155157865
>>155157820
Ты о чем? Я же сказал, что не пашет. Нужные файлы твоя команда не выдергивает(
Аноним 15/06/17 Чтв 01:05:41  155157918
58Cw1hkVLxk.jpg (21Кб, 500x334)
можно ли в вгете увеличить скорость скачивания?

а то выходит около 100 страниц в минуту, маловато

с дерикториями уже разобрался -I
Аноним 15/06/17 Чтв 01:06:57  155157978
>>155157918
бастрофикс *директориями
Аноним 15/06/17 Чтв 01:08:01  155158019
нахуй вы помогаете этой тупой школоте?
Аноним 15/06/17 Чтв 01:08:18  155158030
>>155142946
Щас забаню, усек?
Аноним 15/06/17 Чтв 01:09:24  155158079
>>155158030
Мамку свою забань, шкет

>>155158019
нет ты
Аноним 15/06/17 Чтв 01:15:36  155158355
>>155156635
Мимокрок, палящий ресурс, которым пользуешься раз в год, когда мимокрокодишь мимо треда в /б
https://explainshell.com/explain?cmd=wget+-r+--spider+-l1+-t1+-A+doc+http%3A%2F%2Fexample.com%2F+2%3E%261+%7C+grep+-Eio+http.%2Bdoc+%7C+tee+docs.txt
Аноним 15/06/17 Чтв 01:20:16  155158565
>>155158355
спс
а он точно найдет в теле скрипта ссылку?
Аноним 15/06/17 Чтв 01:21:32  155158612
>>155158565
иди нахуй тупая шлюха
Аноним 15/06/17 Чтв 01:22:56  155158679
>>155158565
>а он точно найдет в теле скрипта ссылку?
>
ты даун?
Аноним 15/06/17 Чтв 01:24:36  155158755
fi8n9dPCq18.jpg (27Кб, 400x443)
>>155158612
не твоя личная, лол
пшел от сюда, холоп
Аноним 15/06/17 Чтв 01:25:10  155158779
>>155158679
сверху уже писал, что нуб
зачем снова задавать похожие вопросы?
Аноним 15/06/17 Чтв 01:25:15  155158782
>>155158755
соси хуй быдло
Аноним 15/06/17 Чтв 01:25:48  155158804
>>155158565
Не, антош, он просто поясняет с вертушки в щщи юниксовские команды. Ничего больше :3
Аноним 15/06/17 Чтв 01:27:10  155158861
>>155158804
хех, я уж решил он решил помочь скачать
Аноним 15/06/17 Чтв 01:27:52  155158897
>>155158782
напИсали ему в ротик, а он просит добавки
ух какой шалунишка
Аноним 15/06/17 Чтв 01:29:00  155158947
>>155158861
ебать ты сука тупой
Аноним 15/06/17 Чтв 01:29:51  155158982
>>155158947
двачую. уже давно разжевали что и как
Аноним 15/06/17 Чтв 01:29:56  155158990
4xG2aBHe40c.jpg (65Кб, 500x750)
всего выходит 140000 нужных страниц
скачалось уже 1400
эх
Аноним 15/06/17 Чтв 01:31:06  155159030
>>155158947
а еще я не умею ремонтировать унитазы
ух блять тупизна!1

элитко роток открыло
Аноним 15/06/17 Чтв 01:33:12  155159109
>>155157157
Зачем устанавливать для этого линукс? Cygwin же есть
Аноним 15/06/17 Чтв 01:34:34  155159163
>>155159109
да блять тупой он... отбитый полностью...
Аноним 15/06/17 Чтв 01:35:10  155159189
>>155158990
запусти программу еще один раз, чтобы было в два потока
wget автоматически будет собирать сайты, но быстрее
Аноним 15/06/17 Чтв 01:36:47  155159258
jjtPV1SqKko.jpg (120Кб, 1200x800)
>>155159109
>Cygwin
тут анончик выше советовал линукс навернуть, я в этом не разбираюсь

но к сожалению даже с линуксом греп работать не будет

он не вытаскивает файлы из кода скрипта страницы

>>155159189
фига се, это просто вин
ща попробую
благодарю за совет
Аноним 15/06/17 Чтв 01:37:17  155159280
test
Аноним 15/06/17 Чтв 01:39:36  155159369
>>155159258
максимум можно вроде-бы 8 потоков качать
Аноним 15/06/17 Чтв 01:40:24  155159408
>>155159369
ну это если винда хр. а если 7 или 10, то лимита нет
Аноним 15/06/17 Чтв 01:43:10  155159503
>>155159369
врубил вторую cmd, пишет что страница уже имеется и перестает скачивать

код команды вот такой
wget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf,pdf,JPG,PNG -nc -I re,ID_co --no-check-certificate https://www.site.com/
Аноним 15/06/17 Чтв 01:49:02  155159726
>>155159503
-nc удали
Аноним 15/06/17 Чтв 01:49:14  155159735
>>155159503
"-nc" нужно убрать
Аноним 15/06/17 Чтв 01:50:24  155159769
>>155157918
да норм, за два дня все качнешь. а то начнешь дудосить, тебя и закроют.
Аноним 15/06/17 Чтв 01:52:42  155159838
>>155139192
Двачую за Пайтон.
Аноним 15/06/17 Чтв 01:52:53  155159841
>>155159735
>>155159726
>-nc
файлы тупо заменяться будут, какой смысл убирать?

>>155159769
тоже к этому склоняюсь

но потом-то в любом случае прийдется дудоснуть 140к файлов:)
Аноним 15/06/17 Чтв 01:57:38  155159978
>>155159841
что-бы качать не в один поток. читай маны нуб)
Аноним 15/06/17 Чтв 01:58:51  155160013
>>155159978
уже курю)
Аноним 15/06/17 Чтв 01:59:13  155160026
>>155160013
;)
Аноним 15/06/17 Чтв 02:09:55  155160369
Хацкеры, помню в Винду 10 вшивали консольку с поддержкой убунты, ето так?
Аноним 15/06/17 Чтв 02:11:12  155160402
222.jpg (289Кб, 1366x768)
AtkOrNCwvbo.jpg (46Кб, 394x700)
получилось в 2 потока, значит и в 10 выйдет

вот такая фигня для нескольких окон
wget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf,pdf,JPG,PNG -N -I po,ID_co --no-check-certificate https://www.site.com/


еще раз спасибо всем, кто помог
Аноним 15/06/17 Чтв 02:12:33  155160438
Кто уже наконецто сдиванонит что ОП там парсит ?
Аноним 15/06/17 Чтв 02:15:55  155160524
>>155160369
https://xakep.ru/2016/07/01/windows-subsystem-for-linux/
https://xakep.ru/2017/02/03/wsl-in-colors/
Аноним 15/06/17 Чтв 02:16:53  155160552
14969491775170.webm (2898Кб, 1280x720, 00:00:16)
>>155160438
азаза

ОП
Аноним 15/06/17 Чтв 02:28:30  155160859
>>155160524
Спасибо, анон-хуй <3
Аноним 15/06/17 Чтв 02:47:58  155161410
>>155160402
Это можно восстановить. Только всем лень
Аноним 15/06/17 Чтв 02:51:31  155161508
>>155161410
Ты о чем?

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 265 | 31 | 51
Назад Вверх Каталог Обновить

Топ тредов
Избранное