openPGP в России / Новости / 2015 / Конвергентность анонимности: как смешаться с толпой?

14.04 // Конвергентность анонимности: как смешаться с толпой?

В традиционных моделях анонимности часто используются такие понятия как k-анонимность, t-приближённость, ε-дифференциальная приватность. Все эти понятия происходят от описания анонимности в моделях базы данных с предопределённым множеством известных анонимов/псевдонимов. Но в реальном мире часто приходиться иметь дело с неизвестными анонимами. И здесь такие определения могут быть малополезными и дающими неверные оценки анонимности.

В пользовательско-центричной приватности обычно имеется множество нечётких общедоступных сведений о пользователе, рассеянных по интернету, сопоставляя которые можно попытаться выделить его среди анонимов. Пользователи оставляют о себе информацию, не задумываясь о её общедоступности, перераспространении, постоянной сохранности и связываемости. Связывание информации может повредить пользователю потерей репутации (работа, страховка), возможностью угроз и преследований в отношении персональной безопасности (определение времени и места нахождения). Важно не только содержание информации, но и её привязка ко времени (время простановки оценок, написания коментариев). Важен и контекст использования информации: например, пользователь может не скрывать своей принадлежности к религиозной конфессии, но пытаться скрыть это в политических дискуссиях. Одна и таже информация может быть как безобидной, так и скрываемой в разных обстоятельствах, что плохо согласуется с предопределёнными статичными формальными множествами анонимов в традиционных моделях.

У пользователя есть две основные стратегии сокрытия информации о себе: не публиковать потенциально компрометирующей информации, ограничивая себя только самой безобидной во всех мыслимых контекстах (самоцензура) или публиковать часть информации анонимно или псевдонимно. При попытке деанонимизировать пользователя традиционными способами не учитываются обстоятельства отсутствия чёткой структуры деанонимизирующих данных, сложность их различения, выявления их среди повсеместной информации и возможность переориентирования методик на индивидуальную, а не групповую приватность. В связи с этим, пользователь-аноним может ошибочно считать себя невыявляемым, а его преследователь не иметь формальной методики деанонимизации.

На это обратили внимание исследователи Michael Backes, Pascal Berrang, Praveen Manoharan Центр IT-безопасности, приватности и подотчётности Саарского университета, Институт програмных систем имени Макса Планка, Германия. Они попытались разобраться в пользовательско-центричных моделях приватности, разработать методики сопоставления данных об известных лицах и псевдонимах и разработать новые методы оценки приватности и анонимности в рамках модели угрозы открытой сети.

Используя статистические модели дивергентности Куллбэка-Либлера и Дженсона-Шеннона, исследователям удалось создать классификаторы нечётких множеств, а также способы оценки их близости (конвергентности) и связываемости. Была построена юниграмм-модель работы с фрагментами текстов с возможностями их классификации как по языковым особенностям, так и по ключевой семантике (хобби, взгляды, местоположение, упоминаемые темы, веб-ссылки). Загрузив 40 миллионов анонимных коментариев с популярного сервиса Reddit, исследователи смогли выделить множество уникальных пользователей, особенно тех, кто делал много коментариев: порядка 38000 пользователей. Для обработки такого массива информации потребовались сравнительно большие вычислительные ресурсы: 6 недель вычислений над базой данных размером 60GB, четыре 64-ядерных сервера Dell Poweredge.

Модель конвергентной анонимности, предложенная исследователями, показывает не только практическую применимость, но и ставит вопросы о необходимости возможного смешения с толпой до степени неразличаемости по всем возможным признакам для достижения пользователем индивидуальной приватности и анонимности.

Источник: ArXiV.org: Cryptography and Security

Много комментариев (10) [показать комментарии/форму]

Ваша оценка документа [показать результаты]