В тред призываются двачеспециалисты по парсингу ссылок с сайтов.Нужно вытянуть почти с каждой страницы сайта ссылку, например, на .doc документ (она одна на каждой странице) и положить все найденные ссылки в .txtСтраниц около 200к. Как вытянуть эти ссылки относительно быстро и без "жертв"?Сам я не программист, хз как это осуществить.
бамп
>>155138553 (OP)Python c библиотекой Beautiful Soup
>>155138553 (OP)Гугли регулярные выражения.
>>155139192спасибо за совет, но я не программист жиесть что-нибудь готовое в формате *.еxe?
>>155139254>Гугли регулярные выражения.В курсе что это, но через какую программу поиск осуществлять и выкачивать ссылки?
бамп вопросу
скажи что за сайт - я сделаю
>>155139368сажи буряткопидарупосле этого поста тред для меня сдох, иди нахуймимопогромист
>>155139589отклеилось
>>155139527лол, это не особо законнолучше объясни как это сделать, желательно на пальцах, ибо я, еще раз напомню не коддер
>>155139589на тебе не Буряткубурятко-хейтер
бампец
>>155140472Похожа на Лесли.
грибо-бамп
wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txtЭто для линуксобогов. У тебя наверняка Windows, поэтому с консолечкой пердолься там сам. Все остальные советы в треде — хуйня.
>>155140357а тебе не похуй законно это или нет? не ты-же будешь делать
>>155140780Хороший ответ.
>>155139192>>155139254>>155139527анонасы, так че, нету ли готового варианта в формате *.exe для нуба?
>>155139263т.е. тебе просто нужно проверить есть ли на сайте ссылка кончающаяся на .doc?
>>155138553 (OP)animelover228@mail.ruпиши3 тысячи рублей
>>155139192Анон, а че такое "Красивый суп"? Всм для чего?
>>155140977иди нахуй. я сделаю бесплатно
>>155140977проиграл че томимо-не-оп
>>155141060а в чем профит тебе?
>>155138553 (OP)Нанять программера, очевидно
>>155140780а можно поподробней? на виртуалке на линксе это будет работать?
>>155141082хочу помочь
>>155141069Это вообще то называется "web scraping" и очень востребованно на всяких фриланс-площадках, так что бесплатно я это говно точно не сделаю
>>155141122зачем? Ты не получишь абсолютно никакой выгоды, а признание будет краткосрочным и от одного человека.
>>155140876ебанаврот, сорян, но я должен это сам сделатьфайлы слишком много стоят :(
>>155141110просто запиши линукс на флешку и запусти в лайф режиме
>>155141110Нужно будет только wget установить, он обычно не идет в дефолтной поставке. А так — да, конечно.
>>155141172>web scrapingВот сейчас заинтересовал. Есть что-то в интернетах по поводу этой темы? ну там что это такое, что делает в широком смысле и т.д.
chrisratzdev@gmail.comща говорить не могу, внезапно надо уходить, черкани сюда
>>155141181Он карма-йог, а ты ленивое быдло.
>>155141280даун ,иди на хуй,чмо
>>155141189ну тогда иди нахуй.. хочешь помочь, а он еще и выебывается
>>155140950неавот смотри, на каждой странице есть ссылка примерно такого вида site.com/123465436.docмне нужно прошарить каждую страницу, чтобы всех их собрать в файл txt
>>155141189Но ведь то что тебе тут сделают, может спиздить твои файлы и ты начнешь сушить сухари, так нахуя ты сюда пришел?
>>155141303>карма-йогТоесть желание делать что-то без признания, материальной выгоды и только с надеждой что когда нибудь зачтется это так называется?>ленивое быдломой левел кодинга наверное не достаточен, хотя я и не уверен. Но попытаться бы мог конечно. Когда то два раза писал прогу для себя что бы пиздить пики с двача. Ох прогером я себя чувствовал)) Но да сейчас это смешно звучит
>>155141348Ну так я примерно так же и сказал...Ладно вопрос два, ссылки на страницы уже готовы, или программа должна сама искать все доступные ссылки?
>>155141355я тут не вешаю свою пробему на других, а задаю вопрос как это сделать, просек?конечно, большое спасибо за безвозмездную помощь, но мне нужна помощь в виде совета
>>155141699Ну тебе дали пару готовых вариантов, а насчет парсеров, хз врядли что то еще насоветуют..
>>155138553 (OP)Типичное задание для фриланс-биржи.
>>155140357Сканирование сайтов в интернет не может быть "незаконным". Сайты созданы для того, что бы их html-код считывали, загружали и пр.
>>155141684Ссылки не готовы, нужно, чтобы парсер искал и проверял каждую страницу, как-то так
>>155141277"Вкатиться" решил, рачишко?
>>155138553 (OP)Очевидным вгетом, ну. Ну проще простого же, ну.К.О.
import requests, bs4f = open('file.txt', 'a')for i in range(200):....r=requests.get('http://example.com/page.php?p='+str(i+1))....soup = bs4.BeautifulSoup(r.text, 'html.parser')....z=soup.find('a', {'id': 'document'})....f.write(z['href'])f.close()вроде того, перепиши под свой случай
>>155141949там фигня в том, что админ сайта по ошибке допустил фейл и в коде сайта стала доступна инфа, которая стоит денег..
>>155142034Нет, просто интересно.Не думаю что я применю это знание когда нибудь.
>>155141312охуел что ли
>>155142065это для вгета или для чего?
>>155142045Дауны советую вгеты, хотя не понимают, что 200 тысяч страниц программа будет майнить овердохуя долго.Пиши на animelover228@mail.ruЯ заюзаю python, подрублю пару своих выделенных впсок на асинхронных корутинах и быстренько тебе всё соберу.Стоить работа будет 3 к рублей.
>>155142129Окейhttps://en.wikipedia.org/wiki/Web_scraping
>>155142149для питона
>>155142086так пусть админ и напишет парсер, ибо нахуй он нужен
>>155142164сорямба, я не доверю тебе это качать, те файлы слишком дорогИ
>>155142226ты не понял, сайт чужойя пытаюсь спиздить от туда инфу, которая сейчас находится в отрытом доступехотя на самом деле это очень даже законно, поэтому уже не парюсь
>>155142193Спасибо.
>>155142278Пфффф, я занимаюсь бд у всяких американцев, храню и админю их огромные массивы данных с кучей конфиденциальной инфы. Они мне доверяют, а какой то чел с двача нет? Нахуй мне нужны там твои документы, пусть там даже паспорта или кредитки. Я слишком честный человек, чтобы использовать это всё в корыстных целях
>>155142401Блин, я польщен, что ты предлагаешь свою помощь, пускай даже платно.Но меня интересует совет, т.к. я собираюсь все сделать сам.
>>155142376тоесть ты хочешь спиздить 200к файлов... Охуенное конечно ты нашел место что бы совета спросить, но судить не мне. Найди фриланс чела и дай задание написать прогу.
>>155142517>сам>не зная кодингаХм...
Начни с Pascal ABC
Но мне теперь даже интересно будет такое написать. Такому нубу как я. Спасибо оп, пойду писать ее.
>>155142549Спасибо за совет, но я продолжу спрашивать здесь..
>>155142517Если боишься за свои данные, я тебе тупо могу написать скрипт, ты запустишь его на своей стороне. Мне же тупо сбросишь пример .html страницы твоего сайта с указанием того, что ты хочешь запарсить.
>>155142587все верно, я быстро учусьвот например, нашел видосhttps://www.youtube.com/watch?v=3hgkiDAaSQs
>>155142676Еще раз спасибо, но я не готов платить 3к
>>155140780>http.+docА оно точно правильно выдерет? А если на document.doc наткнется?
>>155142517Так тебе же ответили, берешь питон и beautifulsoup. Хотя, тебе лучше взять grab ибо под него есть документация на русском и в гугле туча примеров. http://docs.grablib.org/ru/latest/
>>155140780>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txtслушай, а что если сами ссылки находятся именно в коде страницы, а не открыто "на странице"будет работать?
>>155142678сори, я человек спокойный, но ты меня бесишь.
>>155142893взаимно, выйди из треда
>>155142864благо>>155142778>http://docs.grablib.org/ru/latest/спасибо, буду изучать
>>155142754Ты обосрался. Если у тебя на странице будет слово http - прорва текста - doc, то он у тебя выдернет этот текст
>>155142893нет. Тут попутно много чего интересного рассказывают. Приходится терпеть ОПа питуха
>>155142864Если ты имеешь ввиду, что ссылка на документ генерируется в браузере жс скриптом, то работать не будет. И в таком случае тебе придется брать селениум, кстати, ты ведь и так его можешь взять, в фаерфоксе под него есть плагин с гуем. Можешь там наебенить скриптик для парсинга.
>>155142977Плюсик же вроде ленивый квантификатор а не жадный.
>>155141949> не можетМожет. В Европке за NMAP можно сесть. Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например. Советую тебе не умничать насчет вещей, о которых совсем не знаешь.
>>155143091>Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например.Слишком геморно и затратно, только если ОП реально таким образом кому-то сильно поднасрет. а так хоть обпарсись.
>>155143050нет, имею в виду, что на самой странице ссылки нету, а когда заходишь в код страницы, она лежит между<script><object><param>причем, ссылка на тот самый файл прямая
>>155142164> ДауныТот, про кого ты это сказал я, парсит половину интернетов с 2011 года. Ты же, ньюфажина, создашь заметную нагрузку на сервис своими асинхронными корутинами и с непростительно большой вероятностью спалишься.
>>155138553 (OP)Обязательно все?
>>155143234SELENIUM гугли
>>155143216>>155143091то, что я пытаюсь сделать вполне законно, файлы в открытом досупе, не пугайте "мачираторов"
>>155142864Будет, если не на стороне клиента джаваскриптом генерится.
>>155138553 (OP)Если тебе неизвестны все ссылки, то тут тупо нужен перебор, ибо кроме сервера никто не знает их.
Тут два путя. Первый - брать питон, брать парсер, оптимизированый на быструю работу, если ссылок много и делать. Это просто должно быть. Второй вариант - брать готовое решение. Есть много тулз для этого, они как правило связанны с иб. Например, skipfish, кажется, умеет так, как тебе нужно. Он точно справится быстро, так как специально написан для большого объема данных. Есть еще goofile. Он, кажется, на питоне написан. Задаешь ему сайт и список расширений, которые нужно искать, он выдает все ссылки.Кстати, еще вариант, что-то с wget запилить. Это, кстати, самое простое. Читай доки по нему и юзай.
>>155143435>>155143326большое спасибо, годнота
>>155143431поиск ссылок на мэйнпейдже переход на них и с них на остальные, каждый раз сверяясь нет ли одинаковых страниц, что бы не переходить на них дважды.
>>155143339Мочерне похуй на твои дела.>>155143216Я увидел, что человек конкретно ошибается, и решил его поправить. Может, оно ему когда-нибудь поможет избежать суда даже. Не первый раз встречаю человека, который пытается смотреть на законы через призму какой-то своей логики.
>>155143326Selenium - годно, но, для данной задачи, излишне. Если бы оп имел опыт работы с ним - то да, запилил бы без проблем. Но разбираться в фреймворке чтобы решить одну, конкретную задачу - такое себе.
>>155138553 (OP)webbez
>>155143785Так если как говорит ОП, ссылки жс скриптом генерятся, чем ты их еще кроме селениума выдергивать будешь?
…regex-infection will devour your HTML parser, application and existence for all time like Visual Basic only worse he comes he comes do not fight he comes, his unholy radiance destro҉ying all enlightenment, HTML tags leaking from your eyes like liquid pain, the song of regular expression parsing will extinguish the voices of mortal man from the sphere I can see it can you see it it is beautiful the final snuffing of the lies of Man ALL IS LOST ALL IS LOST the pony he comes he comes he comes the ichor permeates all MY FACE MY FACE ᵒh god no NO NOOOO NΘ stop the an*gles are not real ZALGΌ IS҉ TOƝȳ THE PONY HE COMES
>>155143939не генерятся ссылки никакие, уже лежит прямая ссылка в коде сайта между скрипт/скрипт
>>155144009Так ты страничку wget-ом дерни, и проверь, есть ли они в хтмл коде.
нашел интересный видеогайд по вгетуhttps://www.youtube.com/watch?v=k9qTgrIqM-kща буду разбираться, вроде это самое простое
>>155144086могу сразу сказать, что при сохранении страницы та самая ссылка на нужный файл остается прямой
ахтунг!кстати, если у сайта посещаемость под 8к уников в день, нет ли у них защиты?
>>155143091Совсем ебанутый.>за NMAP можно сестьОрнул с этого. А за Земляную Обезьяну, случайно, нельзя сесть, умалишённый?
>>155144086Тред не читал, не знал, что там жс задействован. Если так, то да, селеиум или типо того придется юзать. Но если они уже есть сгенереные, то выберать что-то из этого >>155143435
>>155144127Видеогайды - хуйня. Есть доки, их и читай. И нахуй тебе весь сайт качать?
>>155138553 (OP)напиши почту, я с тобой свяжусьинтересно такое написатьмимо_программис
>>155144320не задействован там джаваскрипт, уже 3-й раза распинаюсьтам всего лишь нужныую прямую ссылку засунули между <скрипт>link </скрипт>
>>155144470moladosa()gmail.ком
>>155144306https://nmap.org/book/legal-issues.html
>>155144425мне не надо весь сайт качать, нужно только скачать прямые ссылки почти с каждой страницы сайта в txtчерез вгет пытаюсь сейчас хотябы сайт скачать..
>>155143550Могут быть что-то вроде промо-страниц, на которые никто не ссылается.
>>155138553 (OP)Орнул с разводящих ОПа-лоха на бабки за простейшую задачу.
>>155144971>>155144909Найдешь такую страницу, 300кк программист?
node.js+phantom.js+casper.jsВсе пишется в течении 15 минут.
>>155145223вгет не варик?
>>155144777Еще раз орнул!Покупаем кувалду и хуярим скобы в своём доме - всё OK. Надеваем на хуй лоли, берем кувалду и вламываемся в полицейский участок, размахивая кувалдой - арестовывают. >ко-ко-ко за кувалду можно сесть
>>155145823перестань тут это обсуждать, ок?у нас тут другой насущный вопрос, как спарсить файлы с 200к страниц
>>155145978уже миллиард способов далииди ебисьхочешь skacat_vse.exe - плати деньги
>>155146116я не слепой, но еще один способ не помешает, сечешь?
>>155145823Рад, что веселю тебя. Прости, но я не вижу смысла спорить с твоей принципиальной позицией. Можешь считать, что сразил меня своим гениальным сравнением.
аноны, почему вгет выдает ошибку Permission denied, когда я выполняю скрипт через командную строку?wget -r -k -l 10 -p -E -nc http://site.com/папку в переменных средах указал, но сайт качать отказывается
>>155146215не секуНО В РОТ ТЕБЕ НАДАЮ, ХАЛЯВЩИК ЕБУЧИЙ, ПИЗДУЙ ДЕЛАТЬ БЛЯДИНА ЕБАНАЯ, ЕЩЕ ЕМУ СКИДЫВАТЬ НУЖНО, ОХУЕВШАЯ РУСНЯ
>>155146794а зря..лол, ну у тебя и бомбануло
>>155146534Лол, нахуя ты ключей-то наворотил столько?
>>155147008хз, тут так парниша объяснял, у него вроде пашетhttps://www.youtube.com/watch?v=k9qTgrIqM-k
1. Python2. Beautiful Soup3. ???4. Профит
>>155141247Как это не идет? На центосе идет
>>155138553 (OP)curl/thread
>>155141247вот скачал вгет, пытаюсь скачать сайт, но выскакивает хуйня в виде Bad file descriptor
>>155147729>curlспасибо за годноту, но слажнавата жирукожопу некоддеру дофига с этим разбираться
>>155147636Вот нахуй ты этот вопрос задал, скажи? По-твоему, во всех дистрибутивах всё так, как в том, который знаком тебе? Там ещё и sudo искаропки, да?
>>155147915Лол, тот же вгет, только в профиль. aira2c еще туда же. Отличия есть, но вкатываться одинаково.
>>155147981aria2c*
>>155147977Ты там на чем таком спартанском сидишь-то? На дебиане штоле?мимоарчешкольник
>>155138553 (OP)import relinks='\n'.join([_ for _ in re.findall(r'href="([^"]+?)"',page) if re.findall(r'\.doc$',_)])f1=open('results.txt','wb');f1.write(links);f1.close()
>>155148101пиздец синтаксис. это шо, питон?
>>155148082> спартанскомОно спартанское, если тебе пятнадцать лет и ты сидишь в /s/. Если это часть твоей работы, то тебе тяжело понять логику тех, кто подобные вопросы задает.
пользуясь случаем неутонувшего треда спрошу,в чем может быть проблема такой ошибки в wget?... ошибка: Bad file descriptor.
>>155150236Плохое описание файла.
>>155150236что за команду юзаешь?
>>155150620wget -r -k -l 10 -p -E -nc http://site.com/
>>155150236Ты ведь под Виндой пытаешься это все провернуть?
>>155150883да, все верно, через командную строку ввожу команду
>>155150882Че-то качает вроде.
>>155150916Проблема здесь в том, что, кроме тебя, такие вещи делают три с половиной инвалида в мире. Поэтому когда сталкиваешься с проблемой, в ответ на свои просьбы о помощи можешь не ждать чего-то отличного от «ну хуй знает, у меня всё работает».
>>155150992вот такая фигня вылетаетвгет устанавливал по адресу C:\Program Files (x86)\GnuWin32\bin
>>155151300попробуй форсировать айпив4припиши -4
>>155151300-4 добавь во флаги.
ееее, заработалонужно было юзать эту команду wget -r -k -l 10 -p -nc --no-check-certificateплюс вырубить файервол
>>155151019>>155150916И да, я действительно не люблю Windows в том числе и по религиозным соображениям, но это боль, обоснованная определенным жизненным опытом.Разрабатывали мы одну софтину, которая собиралась под различные платформы. Сначала виндовые сборки успешно собирались на линуксе с MinGW, но потом по ряду причин пришлось сборку перенести на Винду. Бля-я-я-я, какая же это анальная боль была. Сначала попробуй установи, потом попробуй запустить так, чтобы конфиги подцепились и переменные окружения были видны, а потом попробуй добиться желаемого результата ещё. Подводные камни на каждом шаге, решений проблем Гугл не знает. Короче, не рекомендую лишний раз пытаться что-то из швабодного мирка завести под Виндой без необходимости. Избегайте этого максимально.
>>155151665к сожалению с линуксом у нас не сложилосьдрайверов на видеокарту не нашлось и в целом слишком сложная штука, не хватает нужных програм, приходится с костылями использовать, что очень не удобно
>>155148101Школьники до сих пор парсят HTML регэкспами, вместо DOM и XPath?
>>155140930Есть готовый вариант за 20к. Будешь брать?
>>155152049читай внимательней тред, я уже нашел решениекачаю вгетом все 200к страниц, потом вытаскиваю нужные ссылкиwin
>>155143282ну скорей всего он это делает через платные проксики
>>155151973Нешкольник не знает наверняка, корректный ли там документ, но заранее выебывается? Сколько же вас тут умных, я хуею просто. Когда нужно быстренько на коленке слабать, регулярки — выбор успешного человека. Когда делаешь что-то всерьез и надолго, то делаешь как на пике, плачешь и тратишь часы на отлов всех возможных подводных камней на миллионах URL, но это потому что затраты окупаются.
>>155138553 (OP)Конкретный пример со скринами покажи, как всё выглядит.
>>155153663Вот в таком виде лежит ссылка на файл ch1_131108.doc<script type="text/template" id="tret"><object id="1" classid="1" codebase="http://www.site.com" width="1" height="1"><param name="src" value="https://www.site.com/temp/ch1_131108.doc" /></object></script>нужно выдергнуть эту ссылку в файлстраниц около 200к
>>155153838пока что тупо качаю страницы юзая вгет через командную строку: wget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf -nc --no-check-certificate http://site.com
>>155153838Скорее всего нужные ОПу данные приходят json-ом , но я не уверен.Если б был доступ к этому сайту, можно было бы сказать точно.
>>155154100нет, там не jsonтам все безумно просто устроено <скрипт> та самая прямая ссылка </скрипт>
>>155154016Эээ... А ты точно тот анон, которому были нужны файлы с расширением .doc ?
>>155151665>>155151785Нейроночки на питончике поди хотели потеребить?
>>155154267О, "Красная Бурда". Спасибо, анончик.
>>155153838Ищи параметр по имени, бери его значение и переходи к следующему. Это будет долго, но я хз, как можно ещё сделать.
>>155154267да, тотно конечно там файлы не с расширением doc, а другим, более ценным (для меня)
Короче не знаю, поможет ли мой способ, но тут все просто и справится даже ребенок.1. Сохраняешь хтмл файл внутри которого ссылка на нужный документ.2. Выключаешь доступ в инет3. Открываешь файл в браузере(смотри чтоб не подтянулся кеш, лучше очистить лишний раз) и ищешь эту ссылкуДалее:Если ссылка есть, нам повезло и можно использовать питоновский grab или bs.Грабом не сложно будет найти нужный тег и извлечь значение параметра value.Если же нужных данных нет, надо атаковать страницу seleniumом. Лучше использовать Selenium вместе с Chrome, быстрее будет.Такие дела. Отпишись как получилось, интересно.
>>155154902вроде писал, что страниц выходит около 200 000пока что качаю их на комп, потом парсить буду на наличие ссылок с нужными файлами (анон подсказал)вроде норм идея?
Пиши в телегу @fiuhd, договоримся по цене, сделаю.
>>155154902не ответил по поводу ссылкиссылка всегда есть (если мы нужную страницу скачали), хоть просто сохранить как, хоть через вгет
>>155155083не, спся не доверю скачивать, слишком рискованно
>>155155061Вся проблема в том, что возможно ты делаешь ненужную работу. Есть вероятность, что ты спарсил страницы без нужного тебе кода.Это можно проверить открыв уже скачанный хтмл в текстовом редакторе и поискав ссылку.
>>155155164Я же написал, что все норм скачивается, ссылки остаются
>>155155061>пока что качаю их на комп>вроде норм идея?Нет.
>>155148082Так в арче судо нету
>>155155243прост проблема в том, что те самые прямые ссылки лежат в коде, которые не видно на страницахих вроде просто так не вылудишь
>>155155159Ну как бы мне абсолютно похуй что у тебя там лежит (хоть ядерные коды, блять). Ты мне заплатишь приемлемую сумму, я для тебя выкачаю ссылки. Джаст бизнес.
>>155138553 (OP)Оп, гугли Screaming Frog SEO Spider. Ключ также гуглится. Парсит в несколько потоков, работает с регулярками, делает экспорт. Можешь не благодарить.
Ты может быть уже это все знаешь, но как бы это... При скачивании данных через Wget не выполняются скрипты на странице, которые могут быть необходимы для того, чтобы там появилась нужная тебе ссылка.
>>155155310Хоть бы скинул фрагмент кода с ссылкой.
А так ты будешь просто мозги анонам и в первую очередь себе ебать. Ну в общем смотри сам.>>155155337-кун
>>155155379блин, я же писал выше.. хотя тут дофига постов уже..лан, еще раз. там не генерится ссылка, она по умолчанию стоит на странице
>>155155359>Screaming Frog SEO Spider500 url limit
Я такие вещи на работе пишу :(
>>155155460>там не генерится ссылка, она по умолчанию стоит на страницеТогда нет смысла качать все себе на винт, можно качать одни доки.
>>155155402вот, уже скидывал>>155153838Вот в таком виде лежит ссылка на файл ch1_131108.doc<script type="text/template" id="tret"><object id="1" classid="1" codebase="http://www.site.com" width="1" height="1"><param name="src" value="https://www.site.com/temp/ch1_131108.doc" /></object></script>нужно выдергнуть эту ссылку в файлстраниц около 200к
>>155155550тебе регекс дали же омг>>155140780>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt
>>155155538дык вот как выдергнуть через вгет?кодить то я не умеюфайлы там с рендомным названием, просто так через доунлоад мастер не скачаешь
>>155155470Гугли ключ
>>155155610Тебе вишмастер щас скину
>>155155641Не кидай
>>155155607>wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txtможешь пояснить что означает каждая команда?чтобы понятно было, если не сложно
>>155155550... и будет там fileUrl = g.get.document('//param[value]')
>>155155359спасибос!
>>155155789ок, сейчас проверю что скачалось, специально..
Кстати, откуда у него под виндой wget ?
>>155155888через командную строку жи, все простооп
>value="https://www.site.com/temp/ch1_131108.doc" ch1_131108 - похоже на дату.
>>155155301Так поставь и настрой, удобно же, ебана.
>>155155995это я придумал название, не обращай внимание
>>155155888Скачал и поставил, очевидно.
ананы, как через вгет качать страницы только из этой дериктории?www.site.com\ui\ID_09\
>>155156300А что , директория отдает список файлов?
>>155138553 (OP)>Как вытянуть эти ссылки относительно быстро и красивый суп+лэхэмэлэ
>>155156440не не, прост чтобы страницы выкачивались только если они находятся по этому пути www.site.com\ui\ID_09\page.htmlчтобы остальные пропускались
>>155155739Вот ты конченый, честное слово. Конченый просто. Я тебе, по сути, ещё в начале треда дал готовую команду, а ты до сих пор не разобрался.-r — рекурсивно обойти сайт;--spider — в режиме паука, то есть не загружать файлы, а просто собирать URLы, как ты и просил;-l1 — слишком далеко не уходить вглубь сайта, настроить под себя;-t1 — количество попыток при сетевых сбоях всяких, тоже настроить под себя;-A doc — через запятую форматы интересующих файлов;2>&1 — перенаправление stderr в stdout, потому что wget пишет в stderr всё;Через вертикальные черточки пишутся конвейерные команды (как-то так это будет на русском, наверное, я не ебу). То есть вывод первой команды идет на ввод второй. И так далее.grep — отсеиваем все лишнее из вывода wget-Eio — включить режим регистронезависимых (i) регулярок (E, можно было воспользоваться алиасом egrep) и выводить только подходящие подстроки (o)tee docs.txt — клонировать вывод из терминала в файл, чтобы ты и вживую мог прогресс наблюдать, и одновременно это в файл сохранялось.Ты какой-то дегенерат, честное слово. Анон выше где-то выебывался, что wget будет тебе все ссылки вечность скачивать. Увы, к данному моменту ты бы уже раза три успел все выкачать. Тут бутылочное горлышко — не wget, а твоя, анон, голова.>>155156300Запрети подниматься в родительские каталоги. --no-parent или -np.
сделаю за пару сотен
>>155156635не злись, я нуб, ща попробую..как дерикторию вот эту указать, чтобы все остальные обходил? www.site.com\ui\ID_09\
>>155156813Иди нахуй. Ответил за того анона.>>155156635Не благодари.
>>155156856не работает, пишет"grep" не является внутренней или внешнейкомандой, исполняемой программой или пакетным файлом.
>>155156813Ты, вполне возможно, обосрешься и отсеешь не то, что нужно отсеять, потому что ты не понимаешь, как это работает. Двести, двести, ёбаный ты в рот, постов, а ты нихуя еще не сделал. Либо вкидывай ссылку на сайт в тред, чтобы я тебе дал полностью готовую команду и объяснил, что к чему, либо дальше жди советов долбоебов с их Питонами, крякнутыми мокрописьками и деловыми предложениями, раз ты такой отбитый.>>155156856А все равно поблагодарю.
>>155156981ДА ТЫ ШО?Линукс нашевели где-нибудь сначала, на виртуалке или на живой флешке с убунтой какой-нибудь.
>>155156981
>>155157062да ну, я заебусь его устанавливать, пускай даже на виртуалкуспасибо и на этом за помощь
>>155157157> заебусь его устанавливатьОхуеть, далее-далее-готово прощелкать в убунте. Тебе же им не пользоваться полноценно, а так, консольку получить. В винду та команда все равно не пролезет, даже если ты grep и tee поставишь. Плюс почти наверняка получишь кодировкопроблемы в виндовой консольке.
>>155156635кстати, с такой командой файлы doc не скачиваютсяпричем причина очень простая, они не на странице находятся, а в коде скриптая об этом писал в первых постах, но ты видимо проигнорилОП
>>155152288Не забудь велосипед изобрести.
>>155157820Ты о чем? Я же сказал, что не пашет. Нужные файлы твоя команда не выдергивает(
можно ли в вгете увеличить скорость скачивания?а то выходит около 100 страниц в минуту, маловатос дерикториями уже разобрался -I
>>155157918бастрофикс *директориями
нахуй вы помогаете этой тупой школоте?
>>155142946Щас забаню, усек?
>>155158030Мамку свою забань, шкет>>155158019нет ты
>>155156635Мимокрок, палящий ресурс, которым пользуешься раз в год, когда мимокрокодишь мимо треда в /бhttps://explainshell.com/explain?cmd=wget+-r+--spider+-l1+-t1+-A+doc+http%3A%2F%2Fexample.com%2F+2%3E%261+%7C+grep+-Eio+http.%2Bdoc+%7C+tee+docs.txt
>>155158355спса он точно найдет в теле скрипта ссылку?
>>155158565иди нахуй тупая шлюха
>>155158565>а он точно найдет в теле скрипта ссылку?>ты даун?
>>155158612не твоя личная, лолпшел от сюда, холоп
>>155158679сверху уже писал, что нубзачем снова задавать похожие вопросы?
>>155158755соси хуй быдло
>>155158565Не, антош, он просто поясняет с вертушки в щщи юниксовские команды. Ничего больше :3
>>155158804хех, я уж решил он решил помочь скачать
>>155158782напИсали ему в ротик, а он просит добавкиух какой шалунишка
>>155158861ебать ты сука тупой
>>155158947двачую. уже давно разжевали что и как
всего выходит 140000 нужных страницскачалось уже 1400эх
>>155158947а еще я не умею ремонтировать унитазыух блять тупизна!1элитко роток открыло
>>155157157Зачем устанавливать для этого линукс? Cygwin же есть
>>155159109да блять тупой он... отбитый полностью...
>>155158990запусти программу еще один раз, чтобы было в два потокаwget автоматически будет собирать сайты, но быстрее
>>155159109>Cygwinтут анончик выше советовал линукс навернуть, я в этом не разбираюсьно к сожалению даже с линуксом греп работать не будетон не вытаскивает файлы из кода скрипта страницы>>155159189фига се, это просто винща попробуюблагодарю за совет
test
>>155159258максимум можно вроде-бы 8 потоков качать
>>155159369ну это если винда хр. а если 7 или 10, то лимита нет
>>155159369врубил вторую cmd, пишет что страница уже имеется и перестает скачиватькод команды вот такойwget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf,pdf,JPG,PNG -nc -I re,ID_co --no-check-certificate https://www.site.com/
>>155159503-nc удали
>>155159503"-nc" нужно убрать
>>155157918да норм, за два дня все качнешь. а то начнешь дудосить, тебя и закроют.
>>155139192Двачую за Пайтон.
>>155159735>>155159726>-ncфайлы тупо заменяться будут, какой смысл убирать?>>155159769тоже к этому склоняюсьно потом-то в любом случае прийдется дудоснуть 140к файлов:)
>>155159841что-бы качать не в один поток. читай маны нуб)
>>155159978уже курю)
>>155160013;)
Хацкеры, помню в Винду 10 вшивали консольку с поддержкой убунты, ето так?
получилось в 2 потока, значит и в 10 выйдетвот такая фигня для нескольких оконwget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf,pdf,JPG,PNG -N -I po,ID_co --no-check-certificate https://www.site.com/еще раз спасибо всем, кто помог
Кто уже наконецто сдиванонит что ОП там парсит ?
>>155160369https://xakep.ru/2016/07/01/windows-subsystem-for-linux/https://xakep.ru/2017/02/03/wsl-in-colors/
>>155160438азазаОП
>>155160524Спасибо, анон-хуй <3
>>155160402Это можно восстановить. Только всем лень
>>155161410Ты о чем?