openPGP в России / Новости / 2010 / Потенциальные возможности пассивного анализа трафика Tor

28.12 // Потенциальные возможности пассивного анализа трафика Tor

На конференции Chaos Computer Club Congress в Берлине, исследователи из института Регенсбурга представили новые предупреждения о недостаточной защите анонимности пользователей, которую предоставляет сеть Tor.

Подробности их атаки неизвестны. По общему описанию можно понять, что раскрыть трафик пользователя как открытую книгу невозможно. Однако, если атакующий является провайдером пользователя, точкой беспроводного доступа или иной сетевой структурой, сотрудничающей с правоохранительными органами, то атака на раскрытие анонимности становится возможной.

Как сообщил Доминик Херрман, исследователь из Регенсбурга по вопросам профилирования и атак на основе статистических отпечатков, разработчики озабочены данной проблемой и пытаются предпринять контрмеры, что однако будет досточно сложноосуществимым.

Tor всего-лишь средство маскировки в сети, но не средство сокрытия самого факта коммуникации. Он пытается противостоять анализу трафика, чтобы зная циркулирующие в сети незашифрованные заголовки, наблюдатель в определённых случаях не мог делать заключения о личности, местоположении, профессии, социальных связях пользователя.

Для сокрытия этой информации Tor пропускает сообщения через множество промежуточных узлов добровольцев, каждый из которых знает предыдущий и последующий шаг в цепочке.
После установления цепочки, сам по себе никакой скомпрометированный узел теоретически не может связать данные о пути с передаваемой информацией.

По последним измерениям в сети Tor, сеть используют от 100000 до 300000 пользователей в день.

Херманн и его помощники утверждают, что потенциальный злоумышленник, прослушивающий конечный участок, наиболее близкий к сети пользователя, может строить предположения о том, к каким ресурсам он обращается.

Атакующий (например провайдер интернета, проинструктированный правоохранительными органами) создаёт список сайтов, которые прослушиваемый пользователь потенциально может посещать. Затем они (представители прослушивающей стороны) сами запускают Tor и создают список отпечатков этих сайтов (вероятно подразумеваются образцы статистического распределения объёма по времени для шифрованного трафика).

Путём перехвата Tor-соединений пользователя и сравнения их с базой данных отпечатков сайтов в автоматическом режиме группе Хермана удалось достичь 50-60% распознаваемости. Как он отмечает — это конечно недостаточно для судебного доказательства, но весьма некомфортно, для тех, кто ожидает для себя высокой степени приватности.

На успех прослушивающей стороны влияют много факторов — путь до сетевого ресурса, его наполненность контентом, специфичность. Так, сайты, которые копируют наиболее популярные ресурсы (например сервисы Google) будут распознаваться значительно хуже. Кроме того, пользователь может скачивать несколько сайтов одновременно, что резко снижает шансы атакующего.

Исследователи не пытаются разубедить пользователей отказаться от использования Tor, который всё равно остаётся одним из лучших средств достижения анонимности в сети (это вероятно означает, что и другие анонимные сети будут подвержены схожим атакам).

Можно отметить, что исследования такого рода не новы, публиковались ранее и находились в поле внимания разработчиков проекта Tor. Предложенные разработчиками варианты защиты оказались пока теоретически интересными, но непрактичными. Кроме того, по предыдущим исследованиям, Tor лучше других систем анонимного доступа справлялся с атаками на основе статистических отпечатков.

Из приведёной заметки неясно, как исследователям удалось получить высокий результат и в чём заключается принципиальная новизна их работы. Можно предположить, что база отпечатков составляется непосредственно у провайдера или в сети пользователя, что даёт больше точности или используются улучшенные методы сравнения, но более конкретные выводы можно будет делать после публикации работы и комментариев разработчиков проекта Tor.

Источник: Arstechnica

На страницу: 1, 2 След.

Комментарии [скрыть комментарии/форму]

—	unknown (27/03/2011 17:00, исправлен 27/03/2011 17:05) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Никаких следов публикации пока нет. Если только это не оно. Но если бы там было что-то громкое — было бы уже известно.
[off]Таки теперь в работах стали исследовать I2P. Это радует.
[/off]

—	unknown (12/11/2013 11:40) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Эпичная критика опубликована торпроджектом в лице Майка Перри в ответ на многочисленные публикации о фингерпринтинге шифрованного трафика применительно к Tor.

Там много чего интересного, но сил на перевод в новости этого всего нет, можем обсудить тезисно.

Основной вывод, который пытается обосновать Майк: работы по фингерпринтингу очень сильно притянуты к искусственным лабораторным моделям. В реальном мире будет очень низкий процент распознавания и очень высокий процент ложного срабатывания. Это фундаментальная проблема, нерешённая в IDS (системах обнаружения вторжений). Распознавать можно только страницы с фиксированными элементами и есть масса прочих факторов, которые делают бесполезными такие атаки в реальном мире.

Простейшее зашумливание, рэндомизация и морфинг трафика вроде как адекватно помогает и даже заодно немного полезно против end-to-end атак. Но у торпроджекта это пока не в приоритете, т.к. причин для паники нет.

—	*Гость* (19/11/2013 13:07) <#>

> Эпичная критика опубликована торпроджектом в лице Майка Перри в ответ на многочисленные публикации о фингерпринтинге шифрованного трафика применительно к Tor.

> можем обсудить тезисно.

The "closed world" scenario, and the "open world" scenario. In the "closed world" scenario, the only traffic patterns the classifier ever sees are for web pages that it has already been trained on, and it typically must successfully label all of them. This is meant to simulate situations where users only use Tor for viewing a small set of censored web pages and nothing else.

for the same world size and classifier technique, every work that examined both the open and closed worlds reports much higher accuracy rates for the open world than for the closed world. This is due to the higher hypothesis space complexity involved in labeling every page in the closed world, as opposed to labeling only a very small subset of censored targets in the open world.

Кажется, будто здесь противоречие, но ключевые слова, видать — «for the same world size», т.е., при том же размере общего пула сайтов проще вычлений трафик принадлежащий нескольким из них, чем расклассифицировать каждый из сайтов в пуле.

Unlike end-to-end timing correlation, the adversary does not get to benefit from information derived from repeated visits (except in narrow, contrived scenarios that we will address in our literature review below).

ll the adversary knows from frequent, multiple matches is that the user is frequently visiting one (or likely multiple) sites that have a classifier match for the target site (either true or false positive). In other words, there is little reason to believe a-priori that an adversary's target site is any more likely to cause repeated visits than any other sites that also happen to have false positive matches for it.

Идея как бы понятна, почему Майк так считает, но оно и да и нет одновременно. То, что зашумлённая статистика окажется бесполезной при повторении событий, мне кажется сомнительным. Из теории статистики следует, что если два события разные, и есть возможность многократно их наблюдать, то в пределе бесконечного числа повторений они различимы сколь угодно хорошо (в случае классического мира и классической статистики).

Beyond this, each page actually also has at least 8 different common traffic patterns consisting of the combination of the following common browser configurations: Cached vs non-cached; Javascript enabled vs disabled; adblocked vs non-adblocked. In each of these combinations, different component resources are loaded for a given page. In fact, the cached vs non-cached property is not just binary: arbitrary combinations of content elements on any given page may be cached by the browser from a previous visit to a related resource. What's more, in Tor Browser, either restarting the browser or using the "New Identity" button causes all of this caching state to be reset.

Гипотетически всё так. Создать идеальный классификатор, который будет работать против любой категории и любых наперёд незаданных сайтов, действительно не получается. А на практике всё проще: мало кто часто меняет личну или хотя бы трёт куки, адблок на TBB не ставят, скрипты у многих отключены (особенно это касается HS, зачем они там?).

Меня ещё поразило, что там не упоминают такую очевидную вещь, как то, что guard и ISP различают трафик разных пользователей. Им не нужно детектировать сайты по всем цепочкам, им нужно проверять гипотезы только в отношении конкретных клиентов. Ни один клиент физически не сможет регулярно посещать тысячи сайтов. Ни одна у аудитории тема не представлена тысячами сайтов (и даже сотнями). Разброс, как всегда, очень мал: есть несколько (обычно 2-3) топовых сайта, трафик к которым составляет 90%, оставшиеся 9% занимают ещё десяток второстепенных сайтов, а тысячи остальных делят 1 процент.

Если им нужно рассклассифицировать пользователя не по сайтам, а по категориям, то достаточно проверить, что он ходит на популярные сайты в этой теме. У каждого популярного сайта есть своя специфика, и обычно он непохож на другие (у pgpru.com даже движок собственный). Ниже они сами в этом признаются:

It is possible that some types of pages (especially those on video sites, file locker sites, and sites with very large content elements) may make natural false posties rare, especially when classified among smaller, more typical pages. For instance, it is unlikely to be possible to generate false positives when the classifier needs only to distinguish between pages from Wikipedia versus Youtube, but it is likely that generic large content and video downloads can be obfuscated such that it is hard to recognize the specific video or download site with minimal relative overhead.

Т.е. имеются сторонние неубиваемые признаки. Если кто-то качает, то это будет видно по трафику. Если кто-то сливает что-то в сеть, это тоже будет видно по трафику. Если кто-то скачивает множество файлов с сети вручную (pdf-файлы, фотографии, что-нибудь ещё), это отражается на всплесках в трафике. Всё это будет иметь уникальную картину, которая резко отличается от чтения, например, текстовых сайтов или форумов. Классификатор в этих случаях разве что поставит окончательную точку при том, что предварительный анализ и так уже будет однозначно указывать на тип трафика.

Instead of merely picking the target pages that were easiest to classify (such as video sites)

Если клиент попал на сайт, он может бродить по нему часами. Или бродить по нескольким (2,3,5) сайтам часами. Все страницы засчитываются в одну. Классифицировать именно веб-сайты было бы проще, но и характерных страниц ведь хватает. Например, та же hidden wiki чем не характерна? Почти статическая, почти не меняется, её вес известен заранее.

You cannot claim that all defenses are broken forever if a classifier is only able to somewhat correctly classify 500 pages or less (and only 128 pages in their defense studies!), even in a closed world.

А много и не нужно:

скажем, есть 15 сайтов с противоправным контентом и услугами, а есть 85 сайтов нейтральных. ТОП-3 сайта, или вообще любые три или любой один из противоправных сайтов имеет в разы больше посетитетелей, чем 85 нейтральных вместе взятых.

Достаточно надёжно распознавать 10 сайтов, по парочке из каждой категории. Это даст информацию о том, что делают в Tor 90% его клиентов.

Last year, we discovered serious issues with the HTTP Pipeline randomization defense that were introduced during the transition from Firefox 4 to Firefox 10, and that other issues may have been present in the Firefox 4 version as well. These issues were corrected during the transition to Firefox 17, and the pipeline randomization defense was vastly improved, but the authors still chose to evaluate the broken version, despite our offers for assistance. Moreover, like previous work, an analysis of the actual prevalence of server-side pipelining support and request combination and reordering was not performed.

Кстати, да, как там поживает pipelining, что нового? Может ли быть такое, что сайт его намеренно не поддерживает? Что тогда?

Unlike Panchenko's work, the types of sites chosen as censored targets were fixed, not varied. This makes it hard to evaluate the effects of types of sites with either very distinct or more typical traffic patterns on the accuracy of their classifier.

В реальном мире на больших временах их всех можно округлённо считать fixed. Есть какой-нибудь условный SR, и надо найти всех, кто ходит на SR. SR существовал годами. Полный fixed. Те, кому не нравится SR, пусть придумают более политкорректный пример.

The brief summary is this: as the number and/or complexity of classification categories increases while reliable feature information does not, the classifier eventually runs out of descriptive feature information

Ссылка ведёт на

It is a core concept in Vapnik–Chervonenkis theory, and was originally defined by Vladimir Vapnik and Alexey Chervonenkis.

Оба из СССР, оба эмигранты, оба сейчас в CS... «уехали все, кто хоть что-то знал и умел».

I've thought for years that Mike Perry is the pseudonym of a team of best-in-field academics.

Тоже так подумал во время чтения статьи. На самом деле, часть выкладок — это почти дословный копипаст того, что ему кто-то добровольно сообщил в рассылке. Возможно, текст готовили студенты, а Майк его только озвучил, отредактировав. Самостоятельное внимательное прочитение нескольких работ и доскональное их понимание отнимает много времени, вряд ли у Майка его столько было.

Не обошлось без срача с авторами критикуемых работ:

Mike only told me in private communication – after we'd finished the paper – that the old defense was broken, lacking proof or evidence. I estimated that, given my rather limited infrastructure, if I were to apply the new defense, collect a whole new data set with it, and measure it again, it would take around three weeks. What if Mike then told me this one was still broken and he fixed it again? Isn't the burden of proof on Mike Perry to show that this new defense is now much more effective against the WF attacks of the day? I feel that this evidence is necessary for any claim that the old implementation is more "broken" than the current one.

Подробно отвечать на пост он не стал, ограничившись демагогией:

With perhaps one exception, I believe my points in the blog post still withstand your responses above.

А посторонней публике разобраться, кто из них и в чём прав / не прав, будет проблематично.

TorBrowser при заходе на многие вполне нейтральные сайты тут же начинает есть 100% процессора без каких-либо видимых причин. Ссылка в этом посте на страницу http://traces.cs.umass.edu/index.php/Network/Network — яркий пример такого рода. В ранних версиях TorBrowser'а такого не было. С чего бы это? Даже рестарт цепочек не помогал. Через какой-то длительный промежуток времени проблема самоисправляется, и Torbrowser более не ест процессор, но причина так и остаётся неясной. Это эксплоиты от АНБ?

—	unknown (19/11/2013 14:20) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

TorBrowser при заходе на многие вполне нейтральные сайты тут же начинает есть 100% процессора без каких-либо видимых причин.

На это вроде уже жаловались и связали с версией текущего FF-ESR, на котором построен TBB. Отчасти проблема может усугубляться заплатками в самом TBB, которые ограничивают выполнение скриптов, на что движок FF реагирует не вполне адекватно.

—	*Гость* (19/11/2013 15:24) <#>

> Отчасти проблема может усугубляться заплатками в самом TBB, которые ограничивают выполнение скриптов, на что движок FF реагирует не вполне адекватно.

Во всех случаях скрипты были полностью отключены через настройки firefox.

—	unknown (19/11/2013 15:52) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Тогда надо проверять на FF-ESR той же версии, на которой собран TBB.

По поводу комментариев к Майку. Он, вполне возможно, не договаривает, по причине, что тем кто «в теме и так всё понятно, а остальным бесполезно». Например, когда он говорит о статистике, он считает само собой разумеющимися не свойства идеального статистического различителя, который при бесконечных затратах времени сможет выделить сигнал из сколь угодно сильного шума, а применительно к Tor, где заложены какие-то ограничения, сколько можно реально такой статистики успеть собрать и т.д.

Т.е. он критикует работы за излишнюю абстрактность и якобы непереносимость их моделей на реальный Tor, сам при этом досконально не раскрывая, в чём именно это заключается.

На страницу: 1, 2 След.

Ваша оценка документа [показать результаты]