Суп, ночной. В общем тема такая. Я давно искал цель в жизни и, кажется, ее обрел. Я должен скачать весь интернет. Хотя бы рунет + доткомы. Самый главный вопрос к вам - сколько мне потребуется места? Сейчас у меня есть три террабайтника. А также реквестирую способы наиболее безопасного хранения интернета, ведь говорят, что HDD живет не долго. Возможно стоит записать на блюрей? Вся надежда на тебя, анон.На трипле будет правильная цифра в гигабайтах, необходимая для выкачивания всего интернета.
Бамп ничем
Олдфагобамп
>>141095981 (OP)Около 20 петабайт
Бамп ничем №2
>>141095981 (OP)Не сможешь скачать даже ВК без картинок. Я как-то примерно этим занимался для научной работы в универе.
>>141096219И сколько там выходит?
>>141096274Было ЖОСКА, ежжи. Это было ещё когда они API только выкатили. Там было в районе 100кк пользователей, что ли, а я с нескольких сотен фейков (рейтлимит там был что-то вроде трёх запросов в секунду с одного аккаунта, что ли, поэтому для параллельного выкачивания нужно было много акков взять) работал. Я там дисков на 20 ТБ насобирал (ой, блядь, только не спрашивай, сколько мне пришлось на всё это времени проебать), но использовано было чуть меньше. Я особо не считал, где-то у меня диски как блочные девайсы использовались, где-то ФС были, где-то валялись промежуточные результаты вычислений, так что объемы данных я на глазок прикидывал и на глазок же остановил выкачивание ВК, скажем так. Но ты должен понимать, что я сохранял на дисках только ту информацию, которая мне нужна была. Ты ставишь себе целью как минимум весь текст скачать. Я тебе скажу, что это невозможно, если ты не ФСБ и не хочешь помочь населению закэшировать всю переписку.
>>141096219Вообще-то он может записать массу снимков страниц, но обьемы коллосальные требуются.Алсо, не думаю, что там петабайт набереться.waybackmachine.org - то что собираеться сделать ОП
>>141096914> страницЯ тебе хоть сейчас минимальные снимки страниц соберу скриптом, написанным в свободное от дел время. Там у кого-то утечка недавно большая всплыла… У Яху? Не суть. Там что-то около двухсот миллионов пар логин:пароль. Всё это весит 2 ГБ. Если вот просто выкачать информацию о профилях 200кк людей, вот так на глазок будет уже 20-30 ГБ. Если ещё решишь индексировать это, то ещё процентов пятнадцать-двадцать накидывай смело.Если ещё решишь выкачивать и стену, то трёх терабайт тебе точно не хватит. Если комментарии к записям на стене, то вообще пиздец. Если ещё и паблики со всеми обсуждениями, то ад. Я говорю про один только ВК, если ты не забыл. У ОПа задача скачивать не выборочно, а полностью, поэтому он не сможет выбирать, скачивать ему там всю хуйню с пабликов или нет. Если это ему реально интересно, пускай начинает по служебной лестнице в ФСБ подниматься — лет через сорок сможет реализовать свои задумки.
не забудь сохранить моего кота! он тоже часть рунета
>>141095981 (OP)А что, интересная идейка. Можно сделать слепок быдла.ком + википедии там всякие.
>>141095981 (OP)Достаточно скачать википедию и несколько других вики. Остальное в интернете - мусор.