openPGP в России / Новости / 2013 / Стилометрическое выслеживание авторста анонимных сообщений в сети

20.02 // Стилометрическое выслеживание авторства анонимных сообщений в сети

В течении столетий подверждение авторства пьес Шекспира, Илиады и Одиссеи Гомера были под вопросом.

Сегодня науку, называемую стилометрией, можно использовать для борьбы с хакерами, троллями и создателями вредоносных программ, встречающихся в интернете.

В то же время стилометрия — анализ уникального стиля личных текстов, также может быть использована работодателями для поиска информаторов, заявляющих о злоупотреблениях компании, а также жалобщиков и несогласных.

"Ваш стиль письма делает вашу интернет-анонимность труднодстижимой", говорит американский исследователь, разработавший онлайн-средство анализа стиля текстов.

Исследователи из университета Drexel (Филадельфия) изучали утечки переговоров и данные сотен анонимных пользователей подпольных сетевых форумов.

Они смогли идентифицировать 80% пользователей с применением стилометрического анализа, сопоставляющего стиль письма авторов.

"Большинство людей не беспокоятся о том, насколько чувствителен может быть их стиль письма", говорит Сэдия Эфроз (исследователь и кандидат компьютерных наук).

Результаты этих исследований важны для всех, кто не хочет быть выслеженным по своему стилю письма. "Я прочла множество анонимных сообщений... по поводу весьма конфиденциальных тем (таких как нелегальное употребление наркотиков или конфиденциальная информация о заключённых), что может поставить пишущих в опасное положение, если их личности станут известными", сказала она.

"Люди делятся весьма конфиденциальной информацией, думая, что они анонимны"

В этом также заключены возможности для правоохранительных и государственных агентств в использовании таких техник для расследований на рынке краденного, сетевого мошенничества и средств взлома, хотя для достижения результата потребуется и большой объём данных.

Для проведения анализа требуется минимум 5000 слов, значительно увеличивая список потенциальных целей в американском исследовании. "Золотым стандартом" исследования стали 6500 слов, что было представлено на докладе 29C3 Chaos Communication Congress в декабре в Германии.

Прятки за множеством анонимных аккаунтов больше невозможны, даже если авторы используют различные IP-адреса и кодированные языки, такие как leetspeak, заявляет Afroz.

Выбор слов, структура предложений, синтаксис, пунктуация — всё выявляется.

Австралийский эксперт в области лингвистики Alexis Antonia из университета Ньюкастловского центра компьютерных методов в области литературы и лингвистики отмечает, что особенности характера бессознательно накладывают отпечаток на стиль речи.

"Относительная частота употребления функциональных слов помогает разделить тексты множества авторов".

При применении к подпольному сетевому общению такие находки позволяют идентифицировать создателей вредоносных программ и ботнетов, на основании утечек их переговоров, которые "общедоступны", по заявлению Afroz.

Для измерения приватности и безопасности исследователи создали две программы с открытым исходным кодом — одна из них Jstylo — распознаёт стиль пользователя. Вторая — Anonymouth — используется для "анонимизации" письма путём предоставлению пользователю специфических предложений по смене стиля.

Обе программы свободно доступны в сети.

Источник: Sydney Morning Herald
Источник: Проект JStylo-Anonymouth
Источник: file "Use Fewer Instances of the Letter "i": Toward Writing Style
Источник: file Слайды
Источник: Видео доклада

На страницу: 1, 2, 3, 4 След.

Комментарии [скрыть комментарии/форму]

—	*Гость* (20/02/2013 13:26) <#>

Сейчас всю бригаду найдем и пометим. Надо бы в движок сайта встроить.

—	*Гость* (20/02/2013 13:56) <#>

А как Вы встроите, если русский язык она не распознает?

—	unknown (20/02/2013 14:15) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

В работе пишут, что хитрости с гуглотранслейтом не помогают анонимам замаскироваться.

—	*Гость* (20/02/2013 15:12) <#>

Слабо вериться пока во все это. Пока практических расчетов не будет – проку от этого всего ноль.
Как сейчас русскоязычных троллей отловить? Да никак.. Сидят и троллят.

—	*Гость* (20/02/2013 17:06) <#>

Баян, уже более десяти назад была пачка исследований в этой сфере.
С тех пор, достопочтенные параноики уже успели выработать у себя привычку мимикрировать под чью-то конкретную манеру изложения. Или же подстраиваться под лексикон и грамматические конструкции, что приняты у большинства посетителей какого-то форума/канала.

—	unknown (20/02/2013 17:43) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

>уже более десяти назад

Задолго до изобретения компьютеров тогда уж, будет ещё точнее.

Новизна работы в автоматизации и ещё каких-то специфичных статистическо-лингвистических тонкостях. Там в статье даже лучше чем на слайдах показан отпечаток текста, чтобы эту статистику визуально было видно.

Ну и обещают вычисление с 80-90% точности одного пользователя среди десятков-сотен тысяч.

—	*Гость* (20/02/2013 17:51) <#>

Да херня все это! Уникальность и достоверность данного текста – будет максимум наравне с недоказуемыми прихологическими тестами. Или как заеженное "по Фрейду" в духе "приснилась шляпа – фаллический символ – недостаток секса" такая фигня и будет.

—	unknown (20/02/2013 17:56) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Он не имеет никакого отношения к психологии. Тупо статистика грамматических форм и разных лингвистических оборотов.

Ну если есть, кто разбирается в лингвистике, то может покритиковать.

—	*Гость* (20/02/2013 19:28) <#>

>Ну и обещают вычисление с 80-90% точности одного пользователя среди десятков-сотен тысяч.

>Ну если есть, кто разбирается в лингвистике, то может покритиковать.

Тема не новая.
Правда, цифры оптимистичнее, чем есть на самом деле. Получается, что из 100 попыток профилировать одного пользователя из сотен тысяч, 80-90 окажутся успешными. Хорошая новость для желтой прессы.
Это сопоставимо с лабораторными атаками на модель какой-нибудь анонимной сети. Т. е. очень мало общего с реальностью.
Иногда читаешь в нете чьи-то посты, и кажется, что это ты написал. А иногда читаешь свое сообщение и только спустя время дойдет, что это ты же его и написал.
К тому же, чем человек неграмотнее, тем проще его профилировать по текстам, которые он составляет и оставляет. Чем пользователь искушеннее в вопросах сохранения анонимности, тем сложнее его профилировать.
Сетевая культура и сленг, пасты, мимикрия и короткие сообщения также затрудняют профилирование. Что может быть проще? Профилировать пользователей настоящего форума приведенными выше прогами. 60к сообщений. Есть из чего выбрать.

Впрочем, даже на этом форуме легко профилировать некоторых пользователей:) В то же время один пользователь может писать от лица нескольких и определить это только по стилистике затруднительно.

>Слава анонимности — вас тут не разберёшь!

—	*Гость* (20/02/2013 20:55) <#>

Профилировать будут не один только стиль письма, но и стиль хождения по сайту, интересующие темы, время посещения, характеристики используемого браузера и т.д. – и для всего этого появятся автоматические унификаторы-анонимизаторы.

—	*Гость* (20/02/2013 21:12) <#>

> хитрости с гуглотранслейтом не помогают анонимам замаскироваться.

Можно переводить на английский, затем использовать Anonymouth и переводить обратно ;)
Но только надо учитывать, что при этом самому ~~большому брату~~ гуглотранслейту становится известна исходная форма.

—	*Гость* (20/02/2013 21:43) <#>

[offtop]И новость с пометкой молния. По последним данным британские ученые научились читать мысли на расстоянии до 1000 км со скоростью до 100 мыслеформ в секунду. Как передает источник, уже прочитаны мысли большинства россиян. Однако, при попытке считать мыслеформы в Госдуме, все попытки потерпели неудачу. Что характерно, в 8 из 10 случаев был обнаружен редирект в Кремль и Белый дом, уточняет неназванный источник, где все же прослеживается никое подобие мысли, хотя и очень слабое и с признаками шизофазической компоненты.[/offtop]

—	*Гость* (21/02/2013 00:07) <#>

[offtop]Вот что за мода – оскорблять собственный парламент, уменьшая его авторитетность. Это как рубить сук, на которых сидишь – другие то органы ещё менее выборные, и там обратная связь ещё слабее. [/offtop]

—	*Гость* (21/02/2013 02:30) <#>

> В работе пишут, что хитрости с гуглотранслейтом не помогают анонимам замаскироваться.

SATtva как знал. :)
Для тех, кто не читал: там как раз топик с аналогичным исследованием

> Там в статье даже лучше чем на слайдах показан отпечаток текста, чтобы эту статистику визуально было видно.

На которой странице?

> Уникальность и достоверность данного текста – будет максимум наравне с недоказуемыми прихологическими тестами.

Полиграф тоже недоказуем, а нервы людям треплет, да ещё и суд его признаёт. Вспомните хотя бы дело с кошкиным хвостом.

> Получается, что из 100 попыток профилировать одного пользователя из сотен тысяч, 80-90 окажутся успешными. Хорошая новость для желтой прессы. Это сопоставимо с лабораторными атаками на модель какой-нибудь анонимной сети. Т. е. очень мало общего с реальностью.

Не надо профилировать человека из всего человечества. Группа очерчена может быть заранее и совсем другими методами. Например, принадлежность к кругу регулярно постящих на этот форум.

> К тому же, чем человек неграмотнее, тем проще его профилировать по текстам, которые он составляет и оставляет.

Я бы сказал не так: человека тем проще профилировать, чем он сильнее отличается от среднестистической толпы, которая на целевом сайте постит. Например, мои посты резко выделяются грамотнстью, правильной расстановкой запятых и наличием мягкого знака в глаголах в надлежащих и только надлежащих местах. Считайте, что сейчас писать грамотно — форма социопатии.

> Впрочем, даже на этом форуме легко профилировать некоторых пользователей:)

Даже на этот форум многие пишут не под Tor'ом, и им совершенно наплевать на то, что они вычислимы во многих своих постах. Легко профилировать тех, кто не скрывается.

> Профилировать будут не один только стиль письма, но и стиль хождения по сайту, интересующие темы, время посещения, характеристики используемого браузера и т.д. – и для всего этого появятся автоматические унификаторы-анонимизаторы.

Вот это очень правильное замечание. Даже порядок открытия ссылок при заходе на сайт играет роль. Мало кто трёт куки после открытия каждой новой страницы, поэтому все хождения пользователя отслеживаются элементарно.

> Иногда читаешь в нете чьи-то посты, и кажется, что это ты написал. А иногда читаешь свое сообщение и только спустя время дойдет, что это ты же его и написал.

За всю жизнь видел только одного юзера, который писал очень похоже на меня, причём он со мной незнаком. И я этому удивлялся и мои знакомые, кто меня хорошо знает. Тем не менее, это скорее редкое исключение, чем правило. Все свои посты на этом форуме я распознаю практически моментально. Есть ещё такое понятие, как отпечаток группы. Язык и конструкция предложений не берётся с полотка, он формируется литературой, которую пользователь читает, кругом, в котором повседневно общается и т.д. Например, однокурсники одного факультета будут намного более похожи по своей речи друг на друга, чем на случайного прохожего с улицы. Есть профессиональный сленг, техницизмы и пр. Если на каком-то форуме преобладают гумманитарии, и среди них затешется один технарь, он будет как бельмо в глазу, аналогично и наоборот — гумманитарий на техническом форуме ~~(такие особенно бесят).~~

> Сейчас всю бригаду найдем и пометим. Надо бы в движок сайта встроить.

Бригадир подаёт голос. Бригадный site:pgpru.com и вот вам куча постов от этого тролля.

По поводу самой работы: интересные цитаты есть (стр. 12):

We asked participants to anonymize their pre-written writing samples. Anonymizing a pre-written text is more difficult than writing in a changed style from the start. Stylometry methods fail to attribute authorship when people write in a different style [4].

Вся методика авторов крутится вокруг этой мысли. Типа, если писать сразу с нуля в отличном стиле — это не трудно, трудно переделать уже готовый текст под иной стиль. Далее, стр. 14-16:

The Writeprints feature set is much larger than Basic-9, contains around 700 linguistic, content specific and structural features. Most of these features are very low level features, for example, frequencies of character uni-/bi-/tri-grams. Providing effective suggestions for such low level features is challenging. Changing existing documents by following those suggestions to hide author specific features is also very difficult. For this reason, none of the participants in our study were able to anonymize themselves using the Writeprints (Limited) features.
....
experiment shows that the core approach of Anonymouth works successfully to anonymize a document even against a robust feature set like Writeprints.

Да, такую низкоуровневую статистику трудно фиксить, если вообще возможно. :) Теперь по поводу слайдов, стр. 10:

These may be different: Tweets (short messages)

Не аналог анонимного форума, т.к. заранее понятно, что все твиты принадлежат одному лицу. Эффективно получаем один длинный текст, как и ранее. Стр. 66 слайдов:

A Gay Girl In Damascus blog:
Original author was a 40-year old American citizen, Thomas MacMaster.
Pretended to be a Syrian gay woman, Amina Arraf.
The author worked for at least 5 years to create a new style.
54.3% of the blog posts were atributed to Thomas (as himself)

Ё???ый стыд! И даже 5 лет не помогло.

Авторы ссылаются на вот это [unknown мог бы эту ссылку тоже в новость добавить] по поводу неэффективности машинного перевода на другие языки. Там же есть и ссылка на file

другие слайды. В частности, на стр. 28:

Translation Attacks
Common suggestion: run some text through a translator and back!
Limited testing show this to be ineffective.
Translation Test Setup:
Five Subjects, (88-98% base accuracy)
Single passage translated to/from German and Japanese.
Tested on Neural Network & Synonym
Methods 100% effectiveness in identifying true author.

Странно, что у них такой высокий rate получился. Может быть, это потому, что целевой язык был английский? Автоматические переводчики с другими языками работают намного хуже. Там же, стр. 29:

What you can do:
Important: These these methods failed, others might not.
Best: Try to imitate someone else.
Write less.

Pgpru намекает мне, что надо больше работать и меньше ~~торчать~~ писать простыни на этом форуме.

Замечания общего характера:

Методика работает, когда уже не только понятно, среди кого искать, но и имеется достаточное количество образцов всех авторов, среди которых ищут. Наверное, подразумевается, что образцы — длинные связные тексты, а не отрывочные короткие SMS-сообщения.
Методы, как мне показалось, нацелены больше под мимикрию под усреднённую группу других авторов (Anonymouth), чем под убирание личностных признаков. Программу надо обучать, т.е., на какой-то группе текстов, показывая ей пример того, что «точно не автор». Однако, было бы куда лучше ориентировать на некое «абстрактное среднее». Впрочем, это тоже дискуссионный вопрос. Если пишешь на какой-то форум, надо уметь растворяться среди типичных его представителей, а не среди абстрактной интернет-массы, так что анонимизация внутри выделенной группы со своим набором признаков тоже осмысленна.
Чем короче сообщения, тем хуже будет работать любая из предложенных методик.
Подумалось, что нужно писать сообщения на логическом языке программирования, где разные факты будут соединены временными и следственными стрелками, а переводить граф-структуру с такого языка на человеческий могли бы и автоматические программы. Особенно хорошо это подходит для канцелярских формальных текстов ~~типа этого~~.

—	SATtva (21/02/2013 08:25) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

SATtva как знал. :)

Догадывался.

Pgpru намекает мне, что надо больше работать и меньше ~~торчать~~ писать простыни на этом форуме.

Да, мало кто, кроме Вас, пишет столь обстоятельные посты. :)

На страницу: 1, 2, 3, 4 След.

Ваша оценка документа [показать результаты]