Симбиоз или разлука анонимного и "верифицированного" интернета

Много лет я наблюдал как была "горстка" людей, которые не представляли себе интернет анонимным (у них сначала логин в соцсеть, а потом в остальное инет).
Поднять этот вопрос сподвигла эта тема

> Все это наводит на мысль, что проводится борьба с анонимным доступом к определенному пулу ресурсов.

> Возникает вопрос, как с этим бороться.

У меня чисто практический вопрос. Много информации проходит по "закрытым группам" соцсетях на которые, чтобы подписаться нужна регистрация в этой хормячей сети. Можно конечно сказать, что "тупые хомяки ниче путного не напишут и на онионах всегда интереснее", но все-таки это далеко не всегда так.
Уже сегодня для регистрации в соцсетях нужна "левая симка" или другие извраты и некоторые пусть введут другие средства авторизации (например с использованием тех мобилок с дактилосканером) пусть в локальных масштабах.
Верификация бывает по айпишникам (некоторые сайты), по номерам сотовых (те же соцсети и куча других ресурсов), бумажная (всякие аукционы, биржи и прочее).
Что делать анонам?
1 Что-то конечно оседает в кэшах поисковиков. Есть ли серверы, которые при поиске игнорируют фильтры типа robots.txt?
2 Какие есть способы обхода верификации в частности в соцсетях? А так же интересует во всех местах, где оная требуется (типа той дырки позволяющей посмотреть любые фотки вконтакте без регистрации, думаю таких способов множество или как оформления ебай-аккаунтов на "дропов" и т.п.)

Комментарии

—	ressa (18/02/2015 22:58) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

>>Что делать анонам?

Не сидеть в соц.сетях.

—	*Гость* (19/02/2015 01:02) <#>

ressa, для Вас оставили одну тему где Вы можете отвечать "по существу" гоняя трафик сайта в общении со своими виртуалками, но в иных местах, мне было бы приятно, если бы Вы отвечали по существу без кавычек или просто молчали. Спасибо!

—	ressa (19/02/2015 01:53) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

Я тебе ответил по существу. Остальные мои действия на этом ресурсе регулирует администратор и модератор.

—	*Гость* (19/02/2015 07:01) <#>

Остальные мои действия на этом ресурсе регулирует администратор и модератор

Проблема этого ресурса, что отсутствует модерирование в отношении таких как ты.

При таком попустительстве к назойливым троллям типа рессы, скоро возможно придётся другой ресурс искать.

—	*Гость* (20/02/2015 15:20) <#>

http://torbookdjwhjnju4.onion/ – была такая чудесная сеть TorBook, типа FaceBook-а. жалко, сейчас закрылась и навсегда.

—	*Гость* (21/02/2015 18:17) <#>

> Что-то конечно оседает в кэшах поисковиков. Есть ли серверы, которые при поиске игнорируют фильтры типа robots.txt?

Мне неизвестно ничего кроме вебархива и поисковиков. Последние, как мне казалось, ни на какие robots.txt не реагируют и индексируют всё, до чего дотянутся. Однако, есть методики забана сетевых пауков-индексаторов, и администраторы некоторых сайтов этим пользуются (не знаю уж, насколько успешно).

> Какие есть способы обхода верификации в частности в соцсетях?

Всё сводится либо к этому[создать], либо к аутсорсингу «этого» [1], [2], [3].

> типа той дырки позволяющей посмотреть любые фотки вконтакте без регистрации

Скорей всего, это не дырка, а запланированная возможность. Многие закрывают просмотр фотографий от незарегистрированных пользователей, и тогда этот трюк не помогает.

> но в иных местах, мне было бы приятно, если бы Вы отвечали по существу без кавычек или просто молчали. Спасибо!

Да, мне тоже было бы приятно, поддерживаю. На языке бизнеса: есть понятие «надо сделать». Есть вопрос и есть ответ. Обсуждение на тему «зачем» не всегда плодотворно.

—	SATtva (23/02/2015 12:18) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

> Последние, как мне казалось, ни на какие robots.txt не реагируют и индексируют всё, до чего дотянутся.

Это не так, все большие поисковики соблюдают правила robots.txt.

> Однако, есть методики забана сетевых пауков-индексаторов, и администраторы некоторых сайтов этим пользуются (не знаю уж, насколько успешно).

А вот это точно бесполезное занятие: контроля надёжности таких механизмов нет, гарантий, что при изменении протокола работы паука он не обойдёт их — тоже.

—	unknown (23/02/2015 17:57) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

>все большие поисковики соблюдают правила robots.txt.

Реально не ходят по ссылкам из этого файла или ходят тайно, чтобы складировать результаты поиска в закрытые базы гэбэ?

—	*Гость* (23/02/2015 21:53) <#>

Как можно ходить тайно, если все запросы фиксируются в логах веб-сервера?

robots.txt придумали чтобы облегчить работу ботам и не гонять их по служебным или зацикливающимся ссылкам. Заодно и бесполезную нагрузку на сервер уменьшить. Это не средство ограничения доступа.

—	*Гость* (23/02/2015 22:10) <#>

> Это не так, все большие поисковики соблюдают правила robots.txt.

Не могу ничего утверждать, но косвенные признаки и просто мои личные соображения говорят о том, что поисковики, тем более большие, складируют, как сказал unknown, всё, что плохо лежит. Думаю, индексируется ВСЁ, что робот может индексировать, а в выдаче уже отдаётся только тот контент, который соответствует указаным правилам robots.txt
Что может быть проще рядового эксперимента? Пилим сайт, делаем роботс.тхт, кормим им поисковики, разрешая доступ к сайту только им, смотрим логи. Играем ключевиками и текстами, смотрим, на все ли тексты реакция пауков одинакова.

Если силовые ведомства США устами своих сотрудников выдают ответ на вопрос "почему вы шпионите?" в духе "потому что я могу", то почему то же самое не может себе позволить всякий бинг с гуглом?

> Как можно ходить тайно, если все запросы фиксируются в логах веб-сервера?

Вопрос не в том, тайно ходят или открыто, а в том, соблюдают ли правила корпорации. Они (роботы гугла, яху и др.) могут ходить др. агентами и с других адресов по тем урлам, которые в роботс.тхт disallow.

—	SATtva (23/02/2015 22:20, исправлен 23/02/2015 22:20) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

>Реально не ходят по ссылкам из этого файла или ходят тайно, чтобы складировать результаты поиска в закрытые базы гэбэ?

А об этом никто не говорил. Просто надо определиться, какая преследуется цель. Если вопрос в том, чтобы что-то не попало в поисковую выдачу, есть смысл использовать стандартный механизм в виде robots.txt: если мы исходим из того, что поисковик будет играть по правилам, то преимущества стандартного подхода очевидны; если же мы ожидаем, что поисковик будет хитрить, то и любые нестандартные способы вычленить роботов из числа обычных пользователей будут ненадёжны. А вот если требуется, чтобы данные не утекли в тайные базы, то надо закрывать эти данные за общей для всех аутентификацией (если уж вводим такой риск в модель угрозы, то что помешает роботу прикинуться обычным пользователем?). В общем, ad hoc-методы не прокатывают в любом случае.

—	*Гость* (24/02/2015 22:36) <#>

Так много разговоров про утечку персональных данных © из социальных сетей. А где взять инструменты позволяющие проводить глубокий поиск в социальных сетях с анализом контента? Ашманов (кажется имевший или имеющий отношение к Рамблеру) хвастался как они анализировали трафик в соцсетях, изучали статистику и прочее. Но ЧЕМ???

—	*Гость* (26/02/2015 01:10) <#>

> А где взять инструменты позволяющие проводить глубокий поиск в социальных сетях с анализом контента?

В докладе Рамбама [1] упоминался, кажется, и софт и конкретные фирмы, которые его производят, и прочие коммерческие БД для детективов.

—	*Гость* (26/02/2015 05:22) <#>

Раньше LinkedIn можно было свободно просматривать под Tor'ом и без регистрации, а теперь всё. Давайте посокрушаемся. Обсуждение по ссылке на тему того, как у обычных людей анонимность рвёт шаблон, показательна.

Ваша оценка документа [показать результаты]