Симбиоз или разлука анонимного и "верифицированного" интернета
Много лет я наблюдал как была "горстка" людей, которые не представляли себе интернет анонимным (у них сначала логин в соцсеть, а потом в остальное инет).
Поднять этот вопрос сподвигла эта тема
У меня чисто практический вопрос. Много информации проходит по "закрытым группам" соцсетях на которые, чтобы подписаться нужна регистрация в этой хормячей сети. Можно конечно сказать, что "тупые хомяки ниче путного не напишут и на онионах всегда интереснее", но все-таки это далеко не всегда так.
Уже сегодня для регистрации в соцсетях нужна "левая симка" или другие извраты и некоторые пусть введут другие средства авторизации (например с использованием тех мобилок с дактилосканером) пусть в локальных масштабах.
Верификация бывает по айпишникам (некоторые сайты), по номерам сотовых (те же соцсети и куча других ресурсов), бумажная (всякие аукционы, биржи и прочее).
Что делать анонам?
1 Что-то конечно оседает в кэшах поисковиков. Есть ли серверы, которые при поиске игнорируют фильтры типа robots.txt?
2 Какие есть способы обхода верификации в частности в соцсетях? А так же интересует во всех местах, где оная требуется (типа той дырки позволяющей посмотреть любые фотки вконтакте без регистрации, думаю таких способов множество или как оформления ебай-аккаунтов на "дропов" и т.п.)
комментариев: 1079 документов: 58 редакций: 59
Не сидеть в соц.сетях.
комментариев: 1079 документов: 58 редакций: 59
Проблема этого ресурса, что отсутствует модерирование в отношении таких как ты.
При таком попустительстве к назойливым троллям типа рессы, скоро возможно придётся другой ресурс искать.
Мне неизвестно ничего кроме вебархива и поисковиков. Последние, как мне казалось, ни на какие robots.txt не реагируют и индексируют всё, до чего дотянутся. Однако, есть методики забана сетевых пауков-индексаторов, и администраторы некоторых сайтов этим пользуются (не знаю уж, насколько успешно).
Всё сводится либо к этому[создать], либо к аутсорсингу «этого» [1], [2], [3].
Скорей всего, это не дырка, а запланированная возможность. Многие закрывают просмотр фотографий от незарегистрированных пользователей, и тогда этот трюк не помогает.
Да, мне тоже было бы приятно, поддерживаю. На языке бизнеса: есть понятие «надо сделать». Есть вопрос и есть ответ. Обсуждение на тему «зачем» не всегда плодотворно.
комментариев: 11558 документов: 1036 редакций: 4118
Это не так, все большие поисковики соблюдают правила robots.txt.
А вот это точно бесполезное занятие: контроля надёжности таких механизмов нет, гарантий, что при изменении протокола работы паука он не обойдёт их — тоже.
комментариев: 9796 документов: 488 редакций: 5664
Реально не ходят по ссылкам из этого файла или ходят тайно, чтобы складировать результаты поиска в закрытые базы гэбэ?
robots.txt придумали чтобы облегчить работу ботам и не гонять их по служебным или зацикливающимся ссылкам. Заодно и бесполезную нагрузку на сервер уменьшить. Это не средство ограничения доступа.
Не могу ничего утверждать, но косвенные признаки и просто мои личные соображения говорят о том, что поисковики, тем более большие, складируют, как сказал unknown, всё, что плохо лежит. Думаю, индексируется ВСЁ, что робот может индексировать, а в выдаче уже отдаётся только тот контент, который соответствует указаным правилам robots.txt
Что может быть проще рядового эксперимента? Пилим сайт, делаем роботс.тхт, кормим им поисковики, разрешая доступ к сайту только им, смотрим логи. Играем ключевиками и текстами, смотрим, на все ли тексты реакция пауков одинакова.
Если силовые ведомства США устами своих сотрудников выдают ответ на вопрос "почему вы шпионите?" в духе "потому что я могу", то почему то же самое не может себе позволить всякий бинг с гуглом?
Вопрос не в том, тайно ходят или открыто, а в том, соблюдают ли правила корпорации. Они (роботы гугла, яху и др.) могут ходить др. агентами и с других адресов по тем урлам, которые в роботс.тхт disallow.
комментариев: 11558 документов: 1036 редакций: 4118
А об этом никто не говорил. Просто надо определиться, какая преследуется цель. Если вопрос в том, чтобы что-то не попало в поисковую выдачу, есть смысл использовать стандартный механизм в виде robots.txt: если мы исходим из того, что поисковик будет играть по правилам, то преимущества стандартного подхода очевидны; если же мы ожидаем, что поисковик будет хитрить, то и любые нестандартные способы вычленить роботов из числа обычных пользователей будут ненадёжны. А вот если требуется, чтобы данные не утекли в тайные базы, то надо закрывать эти данные за общей для всех аутентификацией (если уж вводим такой риск в модель угрозы, то что помешает роботу прикинуться обычным пользователем?). В общем, ad hoc-методы не прокатывают в любом случае.
В докладе Рамбама [1] упоминался, кажется, и софт и конкретные фирмы, которые его производят, и прочие коммерческие БД для детективов.