openPGP в России / Новости / 2010 / Потенциальные возможности пассивного анализа трафика Tor

28.12 // Потенциальные возможности пассивного анализа трафика Tor

На конференции Chaos Computer Club Congress в Берлине, исследователи из института Регенсбурга представили новые предупреждения о недостаточной защите анонимности пользователей, которую предоставляет сеть Tor.

Подробности их атаки неизвестны. По общему описанию можно понять, что раскрыть трафик пользователя как открытую книгу невозможно. Однако, если атакующий является провайдером пользователя, точкой беспроводного доступа или иной сетевой структурой, сотрудничающей с правоохранительными органами, то атака на раскрытие анонимности становится возможной.

Как сообщил Доминик Херрман, исследователь из Регенсбурга по вопросам профилирования и атак на основе статистических отпечатков, разработчики озабочены данной проблемой и пытаются предпринять контрмеры, что однако будет досточно сложноосуществимым.

Tor всего-лишь средство маскировки в сети, но не средство сокрытия самого факта коммуникации. Он пытается противостоять анализу трафика, чтобы зная циркулирующие в сети незашифрованные заголовки, наблюдатель в определённых случаях не мог делать заключения о личности, местоположении, профессии, социальных связях пользователя.

Для сокрытия этой информации Tor пропускает сообщения через множество промежуточных узлов добровольцев, каждый из которых знает предыдущий и последующий шаг в цепочке.
После установления цепочки, сам по себе никакой скомпрометированный узел теоретически не может связать данные о пути с передаваемой информацией.

По последним измерениям в сети Tor, сеть используют от 100000 до 300000 пользователей в день.

Херманн и его помощники утверждают, что потенциальный злоумышленник, прослушивающий конечный участок, наиболее близкий к сети пользователя, может строить предположения о том, к каким ресурсам он обращается.

Атакующий (например провайдер интернета, проинструктированный правоохранительными органами) создаёт список сайтов, которые прослушиваемый пользователь потенциально может посещать. Затем они (представители прослушивающей стороны) сами запускают Tor и создают список отпечатков этих сайтов (вероятно подразумеваются образцы статистического распределения объёма по времени для шифрованного трафика).

Путём перехвата Tor-соединений пользователя и сравнения их с базой данных отпечатков сайтов в автоматическом режиме группе Хермана удалось достичь 50-60% распознаваемости. Как он отмечает — это конечно недостаточно для судебного доказательства, но весьма некомфортно, для тех, кто ожидает для себя высокой степени приватности.

На успех прослушивающей стороны влияют много факторов — путь до сетевого ресурса, его наполненность контентом, специфичность. Так, сайты, которые копируют наиболее популярные ресурсы (например сервисы Google) будут распознаваться значительно хуже. Кроме того, пользователь может скачивать несколько сайтов одновременно, что резко снижает шансы атакующего.

Исследователи не пытаются разубедить пользователей отказаться от использования Tor, который всё равно остаётся одним из лучших средств достижения анонимности в сети (это вероятно означает, что и другие анонимные сети будут подвержены схожим атакам).

Можно отметить, что исследования такого рода не новы, публиковались ранее и находились в поле внимания разработчиков проекта Tor. Предложенные разработчиками варианты защиты оказались пока теоретически интересными, но непрактичными. Кроме того, по предыдущим исследованиям, Tor лучше других систем анонимного доступа справлялся с атаками на основе статистических отпечатков.

Из приведёной заметки неясно, как исследователям удалось получить высокий результат и в чём заключается принципиальная новизна их работы. Можно предположить, что база отпечатков составляется непосредственно у провайдера или в сети пользователя, что даёт больше точности или используются улучшенные методы сравнения, но более конкретные выводы можно будет делать после публикации работы и комментариев разработчиков проекта Tor.

Источник: Arstechnica

На страницу: 1, 2 След.

Комментарии [скрыть комментарии/форму]

—	*Гость* (29/12/2010 07:05) <#>

группе Хермана удалось достичь 50-60% распознаваемости

Что такое процент распознаваемости? Допустим распознаваемость = 50%, т.е. с вероятностью 1/2 получается правильный ответ на вопрос "посещает ли пользователь сайт X (или один из списка)". Генератор случайных чисел будет давать похожую вероятность, не так ли? Или имеется в виду, что пользователь посещает множество ресурсов, и из них лишь малая толика — в списке провайдера, и тогда с вероятностью 1/2 пров благополучно отлавливает посещение этих сайтов? Какая-то вопиющая желтизна. Я правильнор понимаю, что нужно написать метрику разницы между полученным отпечатком сайта и образцом нужного сайта в базе, и сравнивать по "расстоянию" между ними? Тогда про каждый сайт будет ответ "с вероятностью такой-то он является таким-то", и на выходе будет распределение вместо одного числа 50-60%.

—	unknown (29/12/2010 09:22, исправлен 29/12/2010 09:53) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

>Какая-то вопиющая желтизна

Пока другого источника нет. А так замечания верные, ничего по сути там не объяснено, можно трактовать как угодно, плюс не сказано сколько "false positive". Но судя по предыдущим работам (где больше изучался не Tor, а некий абстрактный VPN) может (должно?) быть похоже именно на тот вариант, который вы сказали.

В рассылке or-talk Ник и Роджер (разработчики Tor) сами теряются в догадках. По видео с презентации мало что понятно, а опубликованной работы нет. Авторы с ними не связывались. Материалы, на которые они ссылаются, есть в списке публикаций http://freehaven.net/ и разработчикам известны. Про пассивный fingerprinting разработчики знали с 2002 года, также как и то, что он улучшался за всё это время.

P.S. Вот у нас кто-то в форуме большие сканы картинок с задачами по криптографии размещал. Так при просмотре этих страниц через Tor, графический паттерн трафика получался очень характерный. И почему-то чисто визуально резко непохожий на просмотр других картинок аналогичного размера. Если его сравнить с образцом, то можно уверенно показать, что пользователь смотрит в интернете именно это (если провайдер заведомо хочет именно это и проверить).

—	*Гость* (29/12/2010 12:22) <#>

Так при просмотре этих страниц через Tor, графический паттерн трафика получался очень характерный.

Вы использовали какой-то софт для этих целей на своём PC? Откуда такие данные?

—	unknown (29/12/2010 13:20, исправлен 29/12/2010 13:33) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Ну даже на
таких примитивных прогах заметно или там, сенсорах KDE. В Linux это читается из /proc/net/dev

Можете сами сдампить трафик и более подробно разобрать по пакетикам и хоть в гнуплоте его рассматривать, если не нужен реалтайм.

Чисто визуально при просмотре заглавных страниц разных сайтов или каких-то специфических видах сетевой активности паттерн заметен. Возможности для статистической обработки есть, что давно не секрет. Разработчики спорят, насколько это применимо за пределами лабораторных экспериментов и также пока недоумевают, за счёт чего могли особо продвинуться докладчики.

—	unknown (29/12/2010 13:40) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

вот интересное сообщение в рассылке по статистической обработке 3.5 миллионов статей в википедии. Даже увеличение размеров ячейки в два раза существенно не снижает объём информации, получаемой наблюдающим. А если ещё учесть более точные предположения и учёт перехода по ссылкам...

—	фыва (29/12/2010 16:13) <#>

а может принудительно внедрять мусор на "последней миле" ?
Причём необязательно сглаживающий, ИМХО достаточно небольших характерных "вбросов", чтобы паттерн активности был случайным.

—	unknown (29/12/2010 16:27) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Многие предполагаемые фичи разработчики внедрять не торопятся, т.к. не всегда известно, как точно они могут повлиять на анонимность. И вот это предлагали и над таким думали, всё это требует сложных теоретических изысканий и даже если они успешны, то не всегда может быть реализовано на практике без существенного ущерба для пользовательских качеств сети.

—	Гость (29/12/2010 19:19) <#>

Что если наблюдаемый юзает несколько соединений тор одновременно?

—	unknown (30/12/2010 10:00, исправлен 30/12/2010 10:01) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Если он для этого запускает разных Tor-клиентов, то и цепочки будут построены разные. Следовательно, их можно рассортировать на отдельные сеансы по заголовкам SSL-сессий.

Если через одно соединение смотреть одновременно несколько разных сайтов, то это снижает успех атаки, что указано в новости. Что не указано и к данной новости имеет косвенное отношение — это то, что так потенциально увеличиваются возможности для атак, построенных на других принципах и моделях угрозы (разделение и профилирование).

По пересказу в рассылке длинной презентации с ютуба, Tor'у там уделена лишь часть доклада. Разглядели и поняли там примерно следующее (пересказ пересказа пересмотра, где на видео заметен всего один слайд, дополненный домыслами и интерпретациями):

Атакующий ставит у себя такой же браузер, ОС и набор программ, как у прослушиваемого.
В течении примерно двух недель делает примерно 2000 запросов к интересующему сайту в разное время суток, при разной нагрузке сети и т.д. После этого получается столь качественный статистический отпечаток сайта, что он существенно не зависит даже от смены на нём графического контента (только от структуры страниц?).
После того как база данных с ограниченным (заведомо небольшим) числом сайтов наполнена, можно делать перехват трафика пользователя и делать заключение о том, что данный паттерн из перехваченного шифрованного трафика совпадает с данным статистическим образцом из базы с такой-то вероятностью.

Без применения пункта 2 и неких улучшенных алгоритмов самообучения по наполнению базы, якобы вероятность была не больше 3%.

Работа вроде-бы основана на кандидатской Андрея Панченко, которую обещают опубликовать.

—	*Гость* (30/12/2010 11:29) <#>

Публиковать или демонстрировать практические результаты раньше чем публикуют кандидатскую, это обычная практика?

—	unknown (30/12/2010 13:01) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Ну если это не официальная конфа, а так просто, сборище хакеров, то можно :)

—	*Гость* (30/12/2010 15:00) <#>

Ну даже на таких примитивных прогах заметно или там, сенсорах KDE.

Это что, чарт сетевой загрузки сети на интерфейсе по типу gkrellm?

В течении примерно двух недель делает примерно 2000 запросов к интересующему сайту в разное время суток, при разной нагрузке сети и т.д. После этого получается столь качественный статистический отпечаток сайта, что он существенно не зависит даже от смены на нём графического контента (только от структуры страниц?).

Для скрытых сервисов оно тоже работает?

Атакующий ставит у себя такой же браузер, ОС и набор программ, как у прослушиваемого.

Почему это так важно? Firefox с torbutton под разными ОС будет работать по-разному? На Дебиане не так, как на Убунту?

—	unknown (30/12/2010 15:30, исправлен 30/12/2010 15:32) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Типа того.
М.б., но вообще все вопросы к авторам. Или будем гадать по чужим пересказам, не имея ни внятной работы, ни данных.
См. п. 2.

—	*Гость* (04/01/2011 18:41) <#>

Ну и нафига нам реалтайм? Назад, к mixminion! :)

—	*Гость* (27/03/2011 16:43) <#>

более конкретные выводы можно будет делать после публикации работы и комментариев разработчиков проекта Tor.

Работа была опубликована? Если да, то можно ли добавить что-то интересное к уже известному после её публикации?

Работа вроде-бы основана на кандидатской Андрея Панченко, которую обещают опубликовать.

Аналогичные вышеприведённым вопросы...

На страницу: 1, 2 След.

Ваша оценка документа [показать результаты]