Симбиоз или разлука анонимного и "верифицированного" интернета

Много лет я наблюдал как была "горстка" людей, которые не представляли себе интернет анонимным (у них сначала логин в соцсеть, а потом в остальное инет).
Поднять этот вопрос сподвигла эта тема^[link1]

> Все это наводит на мысль, что проводится борьба с анонимным доступом к определенному пулу ресурсов.

> Возникает вопрос, как с этим бороться.

У меня чисто практический вопрос. Много информации проходит по "закрытым группам" соцсетях на которые, чтобы подписаться нужна регистрация в этой хормячей сети. Можно конечно сказать, что "тупые хомяки ниче путного не напишут и на онионах всегда интереснее", но все-таки это далеко не всегда так.
Уже сегодня для регистрации в соцсетях нужна "левая симка" или другие извраты и некоторые пусть введут другие средства авторизации (например с использованием тех мобилок с дактилосканером) пусть в локальных масштабах.
Верификация бывает по айпишникам (некоторые сайты), по номерам сотовых (те же соцсети и куча других ресурсов), бумажная (всякие аукционы, биржи и прочее).
Что делать анонам?
1 Что-то конечно оседает в кэшах поисковиков. Есть ли серверы, которые при поиске игнорируют фильтры типа robots.txt?
2 Какие есть способы обхода верификации в частности в соцсетях? А так же интересует во всех местах, где оная требуется (типа той дырки позволяющей посмотреть любые фотки вконтакте без регистрации, думаю таких способов множество или как оформления ебай-аккаунтов на "дропов" и т.п.)

Комментарии

— ressa (18/02/2015 22:58)

>>Что делать анонам?

Не сидеть в соц.сетях.

— Гость (19/02/2015 01:02)
ressa, для Вас оставили одну тему^[link2] где Вы можете отвечать "по существу" гоняя трафик сайта в общении со своими виртуалками, но в иных местах, мне было бы приятно, если бы Вы отвечали по существу без кавычек или просто молчали. Спасибо!

— ressa (19/02/2015 01:53)
Я тебе ответил по существу. Остальные мои действия на этом ресурсе регулирует администратор и модератор.

— Гость (19/02/2015 07:01)

Остальные мои действия на этом ресурсе регулирует администратор и модератор

Проблема этого ресурса, что отсутствует модерирование в отношении таких как ты.

При таком попустительстве к назойливым троллям типа рессы, скоро возможно придётся другой ресурс искать.

— Гость (20/02/2015 15:20)
http://torbookdjwhjnju4.onion/ – была такая чудесная сеть TorBook, типа FaceBook-а. жалко, сейчас закрылась и навсегда.

— Гость (21/02/2015 18:17)

> Что-то конечно оседает в кэшах поисковиков. Есть ли серверы, которые при поиске игнорируют фильтры типа robots.txt?

Мне неизвестно ничего кроме вебархива и поисковиков. Последние, как мне казалось, ни на какие robots.txt не реагируют и индексируют всё, до чего дотянутся. Однако, есть методики забана сетевых пауков-индексаторов, и администраторы некоторых сайтов этим пользуются (не знаю уж, насколько успешно).

> Какие есть способы обхода верификации в частности в соцсетях?

Всё сводится либо к этому, либо к аутсорсингу «этого» [1]^[link3], [2]^[link4], [3]^[link5].

> типа той дырки позволяющей посмотреть любые фотки вконтакте без регистрации

Скорей всего, это^[link6] не дырка, а запланированная возможность. Многие закрывают просмотр фотографий от незарегистрированных пользователей, и тогда этот трюк не помогает.

> но в иных местах, мне было бы приятно, если бы Вы отвечали по существу без кавычек или просто молчали. Спасибо!

Да, мне тоже было бы приятно, поддерживаю. На языке бизнеса: есть понятие «надо сделать». Есть вопрос и есть ответ. Обсуждение на тему «зачем» не всегда плодотворно.

— SATtva (23/02/2015 12:18)

> Последние, как мне казалось, ни на какие robots.txt не реагируют и индексируют всё, до чего дотянутся.

Это не так, все большие поисковики соблюдают правила robots.txt.

> Однако, есть методики забана сетевых пауков-индексаторов, и администраторы некоторых сайтов этим пользуются (не знаю уж, насколько успешно).

А вот это точно бесполезное занятие: контроля надёжности таких механизмов нет, гарантий, что при изменении протокола работы паука он не обойдёт их — тоже.

— unknown (23/02/2015 17:57)

>все большие поисковики соблюдают правила robots.txt.

Реально не ходят по ссылкам из этого файла или ходят тайно, чтобы складировать результаты поиска в закрытые базы гэбэ?

— Гость (23/02/2015 21:53)
Как можно ходить тайно, если все запросы фиксируются в логах веб-сервера?

robots.txt придумали чтобы облегчить работу ботам и не гонять их по служебным или зацикливающимся ссылкам. Заодно и бесполезную нагрузку на сервер уменьшить. Это не средство ограничения доступа.

— Гость (23/02/2015 22:10)

> Это не так, все большие поисковики соблюдают правила robots.txt.

Не могу ничего утверждать, но косвенные признаки и просто мои личные соображения говорят о том, что поисковики, тем более большие, складируют, как сказал unknown, всё, что плохо лежит. Думаю, индексируется ВСЁ, что робот может индексировать, а в выдаче уже отдаётся только тот контент, который соответствует указаным правилам robots.txt
Что может быть проще рядового эксперимента? Пилим сайт, делаем роботс.тхт, кормим им поисковики, разрешая доступ к сайту только им, смотрим логи. Играем ключевиками и текстами, смотрим, на все ли тексты реакция пауков одинакова.

Если силовые ведомства США устами своих сотрудников выдают ответ на вопрос "почему вы шпионите?" в духе "потому что я могу", то почему то же самое не может себе позволить всякий бинг с гуглом?

> Как можно ходить тайно, если все запросы фиксируются в логах веб-сервера?

Вопрос не в том, тайно ходят или открыто, а в том, соблюдают ли правила корпорации. Они (роботы гугла, яху и др.) могут ходить др. агентами и с других адресов по тем урлам, которые в роботс.тхт disallow.

— SATtva (23/02/2015 22:20, исправлен 23/02/2015 22:20)

>Реально не ходят по ссылкам из этого файла или ходят тайно, чтобы складировать результаты поиска в закрытые базы гэбэ?

А об этом никто не говорил. Просто надо определиться, какая преследуется цель. Если вопрос в том, чтобы что-то не попало в поисковую выдачу, есть смысл использовать стандартный механизм в виде robots.txt: если мы исходим из того, что поисковик будет играть по правилам, то преимущества стандартного подхода очевидны; если же мы ожидаем, что поисковик будет хитрить, то и любые нестандартные способы вычленить роботов из числа обычных пользователей будут ненадёжны. А вот если требуется, чтобы данные не утекли в тайные базы, то надо закрывать эти данные за общей для всех аутентификацией (если уж вводим такой риск в модель угрозы, то что помешает роботу прикинуться обычным пользователем?). В общем, ad hoc-методы не прокатывают в любом случае.

— Гость (24/02/2015 22:36)
Так много разговоров про утечку персональных данных © из социальных сетей. А где взять инструменты позволяющие проводить глубокий поиск в социальных сетях с анализом контента? Ашманов (кажется имевший или имеющий отношение к Рамблеру) хвастался как они анализировали трафик в соцсетях, изучали статистику и прочее. Но ЧЕМ???

— Гость (26/02/2015 01:10)

> А где взять инструменты позволяющие проводить глубокий поиск в социальных сетях с анализом контента?

В докладе Рамбама [1]^[link7] упоминался, кажется, и софт и конкретные фирмы, которые его производят, и прочие коммерческие БД для детективов.

— Гость (26/02/2015 05:22)
Раньше LinkedIn можно было свободно просматривать под Tor'ом и без регистрации, а теперь всё^[link8]. Давайте посокрушаемся. Обсуждение по ссылке на тему того, как у обычных людей анонимность рвёт шаблон, показательна.

Ссылки

^[link1] https://www.pgpru.com/forum/anonimnostjvinternet/atakanaotkazobsluzhivanijatorklientov

^[link2] https://www.pgpru.com/forum/offtopik/kompjjuterdljasekretnogointernetaiibdljarossijjskoukrainskojjdruzhby

^[link3] http://www.pgpru.com/forum/prakticheskajabezopasnostj/anonimnoepolucheniesms

^[link4] http://www.pgpru.com/forum/anonimnostjvinternet/obhodregistraciiposms

^[link5] http://www.pgpru.com/comment72589

^[link6] http://www.pgpru.com/comment64996

^[link7] http://www.pgpru.com/forum/anonimnostjvinternet/anonimnostinet

^[link8] http://community.linkedin.com/questions/160220/how-can-i-view-profiles-anonymously.html

openPGP в России

Симбиоз или разлука анонимного и "верифицированного" интернета