openPGP в России / Новости / 2015 / Конвергентность анонимности: как смешаться с толпой?

14.04 // Конвергентность анонимности: как смешаться с толпой?

В традиционных моделях анонимности часто используются такие понятия как k-анонимность, t-приближённость, ε-дифференциальная приватность. Все эти понятия происходят от описания анонимности в моделях базы данных с предопределённым множеством известных анонимов/псевдонимов. Но в реальном мире часто приходиться иметь дело с неизвестными анонимами. И здесь такие определения могут быть малополезными и дающими неверные оценки анонимности.

В пользовательско-центричной приватности обычно имеется множество нечётких общедоступных сведений о пользователе, рассеянных по интернету, сопоставляя которые можно попытаться выделить его среди анонимов. Пользователи оставляют о себе информацию, не задумываясь о её общедоступности, перераспространении, постоянной сохранности и связываемости. Связывание информации может повредить пользователю потерей репутации (работа, страховка), возможностью угроз и преследований в отношении персональной безопасности (определение времени и места нахождения). Важно не только содержание информации, но и её привязка ко времени (время простановки оценок, написания коментариев). Важен и контекст использования информации: например, пользователь может не скрывать своей принадлежности к религиозной конфессии, но пытаться скрыть это в политических дискуссиях. Одна и таже информация может быть как безобидной, так и скрываемой в разных обстоятельствах, что плохо согласуется с предопределёнными статичными формальными множествами анонимов в традиционных моделях.

У пользователя есть две основные стратегии сокрытия информации о себе: не публиковать потенциально компрометирующей информации, ограничивая себя только самой безобидной во всех мыслимых контекстах (самоцензура) или публиковать часть информации анонимно или псевдонимно. При попытке деанонимизировать пользователя традиционными способами не учитываются обстоятельства отсутствия чёткой структуры деанонимизирующих данных, сложность их различения, выявления их среди повсеместной информации и возможность переориентирования методик на индивидуальную, а не групповую приватность. В связи с этим, пользователь-аноним может ошибочно считать себя невыявляемым, а его преследователь не иметь формальной методики деанонимизации.

На это обратили внимание исследователи Michael Backes, Pascal Berrang, Praveen Manoharan Центр IT-безопасности, приватности и подотчётности Саарского университета, Институт програмных систем имени Макса Планка, Германия. Они попытались разобраться в пользовательско-центричных моделях приватности, разработать методики сопоставления данных об известных лицах и псевдонимах и разработать новые методы оценки приватности и анонимности в рамках модели угрозы открытой сети.

Используя статистические модели дивергентности Куллбэка-Либлера и Дженсона-Шеннона, исследователям удалось создать классификаторы нечётких множеств, а также способы оценки их близости (конвергентности) и связываемости. Была построена юниграмм-модель работы с фрагментами текстов с возможностями их классификации как по языковым особенностям, так и по ключевой семантике (хобби, взгляды, местоположение, упоминаемые темы, веб-ссылки). Загрузив 40 миллионов анонимных коментариев с популярного сервиса Reddit, исследователи смогли выделить множество уникальных пользователей, особенно тех, кто делал много коментариев: порядка 38000 пользователей. Для обработки такого массива информации потребовались сравнительно большие вычислительные ресурсы: 6 недель вычислений над базой данных размером 60GB, четыре 64-ядерных сервера Dell Poweredge.

Модель конвергентной анонимности, предложенная исследователями, показывает не только практическую применимость, но и ставит вопросы о необходимости возможного смешения с толпой до степени неразличаемости по всем возможным признакам для достижения пользователем индивидуальной приватности и анонимности.

Источник: ArXiV.org: Cryptography and Security

Комментарии [скрыть комментарии/форму]

—	ressa (14/04/2015 14:16, исправлен 14/04/2015 14:19) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

unknown, как лично ты смешаешься с толпой, если пишешь не только на PGPru? Ну по тексту спалят тебя, а дальше по знаниям/навыкам/увлечениям – достаточно будет музыки, программирования, математики и физики.
Мне кажется, что все куда проще, если человек в сети не публичный. Не сидит в соц.сетях, не публикуется и тд.
Вот тебе лично куда сложнее с толпой слиться, потому, что пулл навыков/увлечений сужен.
Поэтому конечно выгоднее быть Романом, как, к примеру и SATtva'е – Владом. Чтобы сразу было понятно – первый безобидный математик из Питера, второй не менее безобидный юный регулировщик ДД из Томска. То есть по сути и "искать никого не нужно", "всё обо всех известно", "ждем новых указаний". А так как запретной деятельности и нет – то и указаний не будет, соответственно индивидуальная разработка даже в общем формате не нужна.
Мне, допустим, куда проще – у нас пол-страны бездарей, которые пишут ни о чем. Тогда да – я с толпой и смешался. Эти, пишущие ни о чем – и так как на ладони – на любой новостной или аналитический сайт зайдешь, где противостояние мнений идет – там их ФИО из соц.сетей видны. Остается ждать на сколько изменится общий угол совпадения "их" взглядов с "общепринятыми".
Единственная соц.сеть на которой я несколько лет назад зарегистрировался, и то благо не под своим ФИО – это linkedin. Повелся на уговоры что там сидят умные люди и тд. Во-первых, я даже не успел понять ее сути, когда увидел корреляцию связей с более, чем 300 людьми, бегло пролистав – увидел знакомые рожи и ФИО – и это только по указанию моего профиля деятельности. Бредятина дикая – удалился сразу же. Остается только догадываться – что могут сделать более "властьимущие" структуры, которые еще и обладают текстовым анализатором.
Если не выкладывать добровольно информацию о себе – никто ничего не узнает.
Но бывает, что человеку необходимо это делать, по роду деятельности – тогда нужно просто "за базаром следить" жестче.
Или писать на английском в гуглотранслейт и потом от туда копировать русский, который похуже моего будет)) Либо размазывать речь сетевым слэнгом, что вполне себе даст возможность быть одним из большинства.

—	unknown (14/04/2015 14:57) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Вкратце, да — чем содержательнее тексты, уникальнее затрагиваемые темы, специфичнее термины и пр., тем меньше шансов остаться анонимным. Более того, можно по текстам выделять связи общающихся, группы по интересам — если они обсуждали что-то нестандартное.

—	*Гость* (14/04/2015 15:23) <#>

> Мне кажется, что все куда проще, если человек в сети не публичный. Не сидит в соц.сетях, не публикуется и тд.

Я хоть теперь и вношу поправку, что то, что unknown говорит на публику обобщённо, не совпадает с тем, что он думает на самом деле, но всё же эта его фраза имеет некоторый смысл:

если это действительно рабочий даже в узких кругах «проект», то личность такого анонима или заведомо известна, или он бесполезен вместе со своим проектом.

Её можно даже обобщить до «если человек хотя бы в узких кругах что-то из себя представляет, то его личность известна; иначе он бесполезен». И вот это тоже на ту же тему:

человек, которому нечего скрывать, имеет как меньше вреда, так и меньше пользы для общества.

> Единственная соц.сеть на которой я несколько лет назад зарегистрировался, и то благо не под своим ФИО – это linkedin.

Зачем там регаться под чужим ФИО? Это же сеть профессиональных контактов. Тебя бы не смутило сотрудничество с человеком, который потом заявит "а, я забыл сказать, если что, это не мои настоящие ФИО"?

> Во-первых, я даже не успел понять ее сути, когда увидел корреляцию связей с более, чем 300 людьми, бегло пролистав – увидел знакомые рожи и ФИО – и это только по указанию моего профиля деятельности. Бредятина дикая – удалился сразу же.

Наоборот, это хорошо же. Сеть сама за тебя сделала работу по поиску релевантных для тебя людей, дала выборку.

> Остается только догадываться – что могут сделать более "властьимущие" структуры, которые еще и обладают текстовым анализатором.

Основной их инструмент – не анализатор, а инсайд. Из публичных источников ты будешь по крупицам собирать информацию, долго и нудно, да и без гарантий, а там можно сразу черпать всё почти из первоисточников целыми корытами: телефонные звонки, телефонные разговоры, данные биллинга и местоположения, содержимое почтовых ящиков, содержимое разговоров и ящиков твоих коллег с инфой о тебе и т.д.

> Или писать на английском в гуглотранслейт и потом от туда копировать русский, который похуже моего будет))

Не поможет.

> Модель конвергентной анонимности, предложенная исследователями, показывает не только практическую применимость, но и ставит вопросы о необходимости возможного смешения с толпой до степени неразличаемости по всем возможным признакам для достижения пользователем индивидуальной приватности и анонимности.

Одни люди работают всю жизнь на то, чтобы заработать публичную репутацию и известность, прославиться. Другие – на то, чтобы слиться с толпой. Но распространена ещё и третья категория, которая хочет достичь этих обеих целей одновременно: чтоб и репутация была, и известность, и, чуть что, полная анонимность уровня "сказать ничего про человека нельзя". Это напоминает попытки изобрести ружьё, которое полностью подконтрольно им владеющему, но не будет стрелять, если тебе вдруг однажды это захочется (и бэкдор иметь и гарантии невзламываемости одновременно).

—	unknown (14/04/2015 15:40) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

В работе сама модель интересна, что они это формализовали и оно даже работает. Ну и интересно, что вот это всё во многом действительно устарело и ограничено. Т.е. если анализируется не только факт отправки какого-то сообщения, но и его свойства и строятся связи с информацией в окружающей среде, то можно классифицировать, профилировать и деанонимизировать тех, кто ранее формально считался защищённым в анонимном множестве.

Интуитивно это всё было и раньше понятно, но они претендуют на то, что это теперь изложено явно и правильно формализовано. Можно строить всё более совершенные алгоритмы для деанонимизации на основе нечёткой информации. Хотя, гугл и Блафдейл чем-то таким наверное и занимаются.

—	ressa (14/04/2015 17:15) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

> Зачем там регаться под чужим ФИО? Это же сеть профессиональных контактов. Тебя бы не смутило сотрудничество с человеком, который потом заявит "а, я забыл сказать, если что, это не мои настоящие ФИО"?

Посмотреть. Я никогда не регистрировался в соц.сетях и было интересно посмотреть. Остальное было чистой воды правда – отсюда, видимо и "круг знакомств" расшарился.

> Наоборот, это хорошо же. Сеть сама за тебя сделала работу по поиску релевантных для тебя людей, дала выборку.

Да, вот только меня всегда смущает, когда что-то за меня делается) И там не просто релевантные – там знакомые.
К тому же сама идея сети какая-то бредовая. Сидеть френдить всех и трещать о чем-то, читая новости. Может в узких кругах продуктивно, мне показалось бредом.

> Основной их инструмент – не анализатор, а инсайд.

Инсайд не везде есть. В научных кругах, в государственных, в оборонке и тд. В частных коммерческих структурах – нет. Думаю, они не будут вербовать сотрудников, для сливания инфы) А все СОРМы и закладки – да, если считать инсайдом – полностью согласен.

> Не поможет.

Мне кажется, что как-нибудь да можно. Замену слов, синонимы и тд. Технологии сейчас позволяют. Вон для того же Python'а как много либ всяких текстово-словарных.

—	*Гость* (14/04/2015 17:55) <#>

В частных коммерческих структурах – нет. Думаю, они не будут вербовать сотрудников, для сливания инфы)

Никто не вербует, своих засылают. Например, CEO компании N становится бывший сотрудник компании M, кризис в компании X усиливается, убыточность растет, акции падают, компания M покупает компанию N. Все совпадения случайны :)

—	ressa (14/04/2015 18:17) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

> Например, CEO компании N становится бывший сотрудник компании M, кризис в компании X усиливается, убыточность растет, акции падают, компания M покупает компанию N.

Ну это ты больше о рейдерстве и около greenmail'овских потугах. Не те, о ком мы говорим засылают же.
Хотя черт знает.. Начну рассуждать, сам же мой пост и сотрешь.. В общем опять же – согласен. Про "тех" – это как раз РН и прочие. Ладно перестану флудить, с вами интересно, но не вам со мной))

—	*Гость* (14/04/2015 18:44) <#>

> К тому же сама идея сети какая-то бредовая. Сидеть френдить всех и трещать о чем-то, читая новости. Может в узких кругах продуктивно, мне показалось бредом.

Я ~~не колол себе линкедин~~ не пользовался линкедином, не в курсе. Мне всегда казалось, что это просто способ выставить своё резюме и общаться с теми, кто им заинтересовался (или самому подбирать себе других). Да, вроде там есть connections. Наверно, их и "френдят".

> Инсайд не везде есть. В научных кругах, в государственных, в оборонке и тд. В частных коммерческих структурах – нет.

Частные коммерческие могут раскошелиться на покупку как анализаторов баз данных, так и на сами данные, тут обо всём этом было в докладе, причём расписано в красках.

—	ressa (14/04/2015 18:49) профиль/связь <#> комментариев: 1079 документов: 58 редакций: 59

> Мне всегда казалось, что это просто способ выставить своё резюме и общаться с теми, кто им заинтересовался

Поверь, если бы я знал, что это реально резюмевыставлялка – да мне оно нафиг вдвойне не нужно было бы в таком случае.
Мне же расписали – что там по ключевым навыкам и партнеры прилетают и на мировые рынки выйти можно и тд. Бредятина в общем.

—	*Гость* (14/04/2015 18:53) <#>

>> Основной их инструмент – не анализатор, а инсайд.

> Инсайд не везде есть.

Сейчас все БД коммерческие. Телефонные звонки и информация о биллинге в руках коммерческих компаний, детализация инфы о соединениях с интернетом — тоже, скидочные карточки в магазинах — тем более. Никто эту информацию серьёзно не охраняет, а она имеет ценность для детективных расследований, ОРМ и много чего ещё. Сами же админы и сотрудники могут потихоньку сливать всё это в паблик и приторговывать базами данных, до которых дотянутся. Обычному юзеру неинтересно всем этим заниматься, а крупная компании, которая ведёт свою "конкурентную разведку", проверяет персонал и т.д. может содержать целый отдел, который только таким шпионажем и будет заниматься, благо деньги на это есть, а кадры тоже найдутся. Многие нанимают людей из органов, как и для охраны.

Ваша оценка документа [показать результаты]