28.12 // Потенциальные возможности пассивного анализа трафика Tor
На конференции Chaos Computer Club Congress в Берлине, исследователи из института Регенсбурга представили новые предупреждения о недостаточной защите анонимности пользователей, которую предоставляет сеть Tor.
Подробности их атаки неизвестны. По общему описанию можно понять, что раскрыть трафик пользователя как открытую книгу невозможно. Однако, если атакующий является провайдером пользователя, точкой беспроводного доступа или иной сетевой структурой, сотрудничающей с правоохранительными органами, то атака на раскрытие анонимности становится возможной.
Как сообщил Доминик Херрман, исследователь из Регенсбурга по вопросам профилирования и атак на основе статистических отпечатков, разработчики озабочены данной проблемой и пытаются предпринять контрмеры, что однако будет досточно сложноосуществимым.
Tor всего-лишь средство маскировки в сети, но не средство сокрытия самого факта коммуникации. Он пытается противостоять анализу трафика, чтобы зная циркулирующие в сети незашифрованные заголовки, наблюдатель в определённых случаях не мог делать заключения о личности, местоположении, профессии, социальных связях пользователя.
Для сокрытия этой информации Tor пропускает сообщения через множество промежуточных узлов добровольцев, каждый из которых знает предыдущий и последующий шаг в цепочке.
После установления цепочки, сам по себе никакой скомпрометированный узел теоретически не может связать данные о пути с передаваемой информацией.
По последним измерениям в сети Tor, сеть используют от 100000 до 300000 пользователей в день.
Херманн и его помощники утверждают, что потенциальный злоумышленник, прослушивающий конечный участок, наиболее близкий к сети пользователя, может строить предположения о том, к каким ресурсам он обращается.
Атакующий (например провайдер интернета, проинструктированный правоохранительными органами) создаёт список сайтов, которые прослушиваемый пользователь потенциально может посещать. Затем они (представители прослушивающей стороны) сами запускают Tor и создают список отпечатков этих сайтов (вероятно подразумеваются образцы статистического распределения объёма по времени для шифрованного трафика).
Путём перехвата Tor-соединений пользователя и сравнения их с базой данных отпечатков сайтов в автоматическом режиме группе Хермана удалось достичь 50-60% распознаваемости. Как он отмечает — это конечно недостаточно для судебного доказательства, но весьма некомфортно, для тех, кто ожидает для себя высокой степени приватности.
На успех прослушивающей стороны влияют много факторов — путь до сетевого ресурса, его наполненность контентом, специфичность. Так, сайты, которые копируют наиболее популярные ресурсы (например сервисы Google) будут распознаваться значительно хуже. Кроме того, пользователь может скачивать несколько сайтов одновременно, что резко снижает шансы атакующего.
Исследователи не пытаются разубедить пользователей отказаться от использования Tor, который всё равно остаётся одним из лучших средств достижения анонимности в сети (это вероятно означает, что и другие анонимные сети будут подвержены схожим атакам).
Можно отметить, что исследования такого рода не новы, публиковались ранее и находились в поле внимания разработчиков проекта Tor. Предложенные разработчиками варианты защиты оказались пока теоретически интересными, но непрактичными. Кроме того, по предыдущим исследованиям, Tor лучше других систем анонимного доступа справлялся с атаками на основе статистических отпечатков.
Из приведёной заметки неясно, как исследователям удалось получить высокий результат и в чём заключается принципиальная новизна их работы. Можно предположить, что база отпечатков составляется непосредственно у провайдера или в сети пользователя, что даёт больше точности или используются улучшенные методы сравнения, но более конкретные выводы можно будет делать после публикации работы и комментариев разработчиков проекта Tor.
Источник: Arstechnica
комментариев: 9796 документов: 488 редакций: 5664
Никаких следов публикации пока нет. Если только это не оно. Но если бы там было что-то громкое — было бы уже известно.
[off]Таки теперь в работах стали исследовать I2P. Это радует.
[/off]
комментариев: 9796 документов: 488 редакций: 5664
Там много чего интересного, но сил на перевод в новости этого всего нет, можем обсудить тезисно.
Основной вывод, который пытается обосновать Майк: работы по фингерпринтингу очень сильно притянуты к искусственным лабораторным моделям. В реальном мире будет очень низкий процент распознавания и очень высокий процент ложного срабатывания. Это фундаментальная проблема, нерешённая в IDS (системах обнаружения вторжений). Распознавать можно только страницы с фиксированными элементами и есть масса прочих факторов, которые делают бесполезными такие атаки в реальном мире.
Простейшее зашумливание, рэндомизация и морфинг трафика вроде как адекватно помогает и даже заодно немного полезно против end-to-end атак. Но у торпроджекта это пока не в приоритете, т.к. причин для паники нет.
Кажется, будто здесь противоречие, но ключевые слова, видать — «for the same world size», т.е., при том же размере общего пула сайтов проще вычлений трафик принадлежащий нескольким из них, чем расклассифицировать каждый из сайтов в пуле.
Идея как бы понятна, почему Майк так считает, но оно и да и нет одновременно. То, что зашумлённая статистика окажется бесполезной при повторении событий, мне кажется сомнительным. Из теории статистики следует, что если два события разные, и есть возможность многократно их наблюдать, то в пределе бесконечного числа повторений они различимы сколь угодно хорошо (в случае классического мира и классической статистики).
Гипотетически всё так. Создать идеальный классификатор, который будет работать против любой категории и любых наперёд незаданных сайтов, действительно не получается. А на практике всё проще: мало кто часто меняет личну или хотя бы трёт куки, адблок на TBB не ставят, скрипты у многих отключены (особенно это касается HS, зачем они там?).
Меня ещё поразило, что там не упоминают такую очевидную вещь, как то, что guard и ISP различают трафик разных пользователей. Им не нужно детектировать сайты по всем цепочкам, им нужно проверять гипотезы только в отношении конкретных клиентов. Ни один клиент физически не сможет регулярно посещать тысячи сайтов. Ни одна у аудитории тема не представлена тысячами сайтов (и даже сотнями). Разброс, как всегда, очень мал: есть несколько (обычно 2-3) топовых сайта, трафик к которым составляет 90%, оставшиеся 9% занимают ещё десяток второстепенных сайтов, а тысячи остальных делят 1 процент.
Если им нужно рассклассифицировать пользователя не по сайтам, а по категориям, то достаточно проверить, что он ходит на популярные сайты в этой теме. У каждого популярного сайта есть своя специфика, и обычно он непохож на другие (у pgpru.com даже движок собственный). Ниже они сами в этом признаются:
Т.е. имеются сторонние неубиваемые признаки. Если кто-то качает, то это будет видно по трафику. Если кто-то сливает что-то в сеть, это тоже будет видно по трафику. Если кто-то скачивает множество файлов с сети вручную (pdf-файлы, фотографии, что-нибудь ещё), это отражается на всплесках в трафике. Всё это будет иметь уникальную картину, которая резко отличается от чтения, например, текстовых сайтов или форумов. Классификатор в этих случаях разве что поставит окончательную точку при том, что предварительный анализ и так уже будет однозначно указывать на тип трафика.
Если клиент попал на сайт, он может бродить по нему часами. Или бродить по нескольким (2,3,5) сайтам часами. Все страницы засчитываются в одну. Классифицировать именно веб-сайты было бы проще, но и характерных страниц ведь хватает. Например, та же hidden wiki чем не характерна? Почти статическая, почти не меняется, её вес известен заранее.
А много и не нужно:
Достаточно надёжно распознавать 10 сайтов, по парочке из каждой категории. Это даст информацию о том, что делают в Tor 90% его клиентов.
Кстати, да, как там поживает pipelining, что нового? Может ли быть такое, что сайт его намеренно не поддерживает? Что тогда?
В реальном мире на больших временах их всех можно округлённо считать fixed. Есть какой-нибудь условный SR, и надо найти всех, кто ходит на SR. SR существовал годами. Полный fixed. Те, кому не нравится SR, пусть придумают более политкорректный пример.
Ссылка ведёт на
Оба из СССР, оба эмигранты, оба сейчас в CS... «уехали все, кто хоть что-то знал и умел».
Тоже так подумал во время чтения статьи. На самом деле, часть выкладок — это почти дословный копипаст того, что ему кто-то добровольно сообщил в рассылке. Возможно, текст готовили студенты, а Майк его только озвучил, отредактировав. Самостоятельное внимательное прочитение нескольких работ и доскональное их понимание отнимает много времени, вряд ли у Майка его столько было.
Не обошлось без срача с авторами критикуемых работ:
Подробно отвечать на пост он не стал, ограничившись демагогией:
А посторонней публике разобраться, кто из них и в чём прав / не прав, будет проблематично.
TorBrowser при заходе на многие вполне нейтральные сайты тут же начинает есть 100% процессора без каких-либо видимых причин. Ссылка в этом посте на страницу http://traces.cs.umass.edu/index.php/Network/Network — яркий пример такого рода. В ранних версиях TorBrowser'а такого не было. С чего бы это? Даже рестарт цепочек не помогал. Через какой-то длительный промежуток времени проблема самоисправляется, и Torbrowser более не ест процессор, но причина так и остаётся неясной. Это эксплоиты от АНБ?
комментариев: 9796 документов: 488 редакций: 5664
На это вроде уже жаловались и связали с версией текущего FF-ESR, на котором построен TBB. Отчасти проблема может усугубляться заплатками в самом TBB, которые ограничивают выполнение скриптов, на что движок FF реагирует не вполне адекватно.
Во всех случаях скрипты были полностью отключены через настройки firefox.
комментариев: 9796 документов: 488 редакций: 5664
По поводу комментариев к Майку. Он, вполне возможно, не договаривает, по причине, что тем кто «в теме и так всё понятно, а остальным бесполезно». Например, когда он говорит о статистике, он считает само собой разумеющимися не свойства идеального статистического различителя, который при бесконечных затратах времени сможет выделить сигнал из сколь угодно сильного шума, а применительно к Tor, где заложены какие-то ограничения, сколько можно реально такой статистики успеть собрать и т.д.
Т.е. он критикует работы за излишнюю абстрактность и якобы непереносимость их моделей на реальный Tor, сам при этом досконально не раскрывая, в чём именно это заключается.