20.02 // Стилометрическое выслеживание авторства анонимных сообщений в сети
В течении столетий подверждение авторства пьес Шекспира, Илиады и Одиссеи Гомера были под вопросом.
Сегодня науку, называемую стилометрией, можно использовать для борьбы с хакерами, троллями и создателями вредоносных программ, встречающихся в интернете.
В то же время стилометрия — анализ уникального стиля личных текстов, также может быть использована работодателями для поиска информаторов, заявляющих о злоупотреблениях компании, а также жалобщиков и несогласных.
"Ваш стиль письма делает вашу интернет-анонимность труднодстижимой", говорит американский исследователь, разработавший онлайн-средство анализа стиля текстов.
Исследователи из университета Drexel (Филадельфия) изучали утечки переговоров и данные сотен анонимных пользователей подпольных сетевых форумов.
Они смогли идентифицировать 80% пользователей с применением стилометрического анализа, сопоставляющего стиль письма авторов.
"Большинство людей не беспокоятся о том, насколько чувствителен может быть их стиль письма", говорит Сэдия Эфроз (исследователь и кандидат компьютерных наук).
Результаты этих исследований важны для всех, кто не хочет быть выслеженным по своему стилю письма. "Я прочла множество анонимных сообщений... по поводу весьма конфиденциальных тем (таких как нелегальное употребление наркотиков или конфиденциальная информация о заключённых), что может поставить пишущих в опасное положение, если их личности станут известными", сказала она.
"Люди делятся весьма конфиденциальной информацией, думая, что они анонимны"
В этом также заключены возможности для правоохранительных и государственных агентств в использовании таких техник для расследований на рынке краденного, сетевого мошенничества и средств взлома, хотя для достижения результата потребуется и большой объём данных.
Для проведения анализа требуется минимум 5000 слов, значительно увеличивая список потенциальных целей в американском исследовании. "Золотым стандартом" исследования стали 6500 слов, что было представлено на докладе 29C3 Chaos Communication Congress в декабре в Германии.
Прятки за множеством анонимных аккаунтов больше невозможны, даже если авторы используют различные IP-адреса и кодированные языки, такие как leetspeak, заявляет Afroz.
Выбор слов, структура предложений, синтаксис, пунктуация — всё выявляется.
Австралийский эксперт в области лингвистики Alexis Antonia из университета Ньюкастловского центра компьютерных методов в области литературы и лингвистики отмечает, что особенности характера бессознательно накладывают отпечаток на стиль речи.
"Относительная частота употребления функциональных слов помогает разделить тексты множества авторов".
При применении к подпольному сетевому общению такие находки позволяют идентифицировать создателей вредоносных программ и ботнетов, на основании утечек их переговоров, которые "общедоступны", по заявлению Afroz.
Для измерения приватности и безопасности исследователи создали две программы с открытым исходным кодом — одна из них Jstylo — распознаёт стиль пользователя. Вторая — Anonymouth — используется для "анонимизации" письма путём предоставлению пользователю специфических предложений по смене стиля.
Обе программы свободно доступны в сети.
Источник: Sydney Morning Herald
Источник: Проект JStylo-Anonymouth
Источник: "Use Fewer Instances of the Letter "i": Toward Writing Style
Источник: Слайды
Источник: Видео доклада
комментариев: 9796 документов: 488 редакций: 5664
Как сейчас русскоязычных троллей отловить? Да никак.. Сидят и троллят.
С тех пор, достопочтенные параноики уже успели выработать у себя привычку мимикрировать под чью-то конкретную манеру изложения. Или же подстраиваться под лексикон и грамматические конструкции, что приняты у большинства посетителей какого-то форума/канала.
комментариев: 9796 документов: 488 редакций: 5664
Задолго до изобретения компьютеров тогда уж, будет ещё точнее.
Новизна работы в автоматизации и ещё каких-то специфичных статистическо-лингвистических тонкостях. Там в статье даже лучше чем на слайдах показан отпечаток текста, чтобы эту статистику визуально было видно.
Ну и обещают вычисление с 80-90% точности одного пользователя среди десятков-сотен тысяч.
комментариев: 9796 документов: 488 редакций: 5664
Ну если есть, кто разбирается в лингвистике, то может покритиковать.
Тема не новая.
Правда, цифры оптимистичнее, чем есть на самом деле. Получается, что из 100 попыток профилировать одного пользователя из сотен тысяч, 80-90 окажутся успешными. Хорошая новость для желтой прессы.
Это сопоставимо с лабораторными атаками на модель какой-нибудь анонимной сети. Т. е. очень мало общего с реальностью.
Иногда читаешь в нете чьи-то посты, и кажется, что это ты написал. А иногда читаешь свое сообщение и только спустя время дойдет, что это ты же его и написал.
К тому же, чем человек неграмотнее, тем проще его профилировать по текстам, которые он составляет и оставляет. Чем пользователь искушеннее в вопросах сохранения анонимности, тем сложнее его профилировать.
Сетевая культура и сленг, пасты, мимикрия и короткие сообщения также затрудняют профилирование. Что может быть проще? Профилировать пользователей настоящего форума приведенными выше прогами. 60к сообщений. Есть из чего выбрать.
Впрочем, даже на этом форуме легко профилировать некоторых пользователей:) В то же время один пользователь может писать от лица нескольких и определить это только по стилистике затруднительно.
Можно переводить на английский, затем использовать Anonymouth и переводить обратно ;)
Но только надо учитывать, что при этом самому
большому братугуглотранслейту становится известна исходная форма.SATtva как знал. :)
Для тех, кто не читал: там как раз топик с аналогичным исследованием
На которой странице?
Полиграф тоже недоказуем, а нервы людям треплет, да ещё и суд его признаёт. Вспомните хотя бы дело с кошкиным хвостом.
Не надо профилировать человека из всего человечества. Группа очерчена может быть заранее и совсем другими методами. Например, принадлежность к кругу регулярно постящих на этот форум.
Я бы сказал не так: человека тем проще профилировать, чем он сильнее отличается от среднестистической толпы, которая на целевом сайте постит. Например, мои посты резко выделяются грамотнстью, правильной расстановкой запятых и наличием мягкого знака в глаголах в надлежащих и только надлежащих местах. Считайте, что сейчас писать грамотно — форма социопатии.
Даже на этот форум многие пишут не под Tor'ом, и им совершенно наплевать на то, что они вычислимы во многих своих постах. Легко профилировать тех, кто не скрывается.
Вот это очень правильное замечание. Даже порядок открытия ссылок при заходе на сайт играет роль. Мало кто трёт куки после открытия каждой новой страницы, поэтому все хождения пользователя отслеживаются элементарно.
За всю жизнь видел только одного юзера, который писал очень похоже на меня, причём он со мной незнаком. И я этому удивлялся и мои знакомые, кто меня хорошо знает. Тем не менее, это скорее редкое исключение, чем правило. Все свои посты на этом форуме я распознаю практически моментально. Есть ещё такое понятие, как отпечаток группы. Язык и конструкция предложений не берётся с полотка, он формируется литературой, которую пользователь читает, кругом, в котором повседневно общается и т.д. Например, однокурсники одного факультета будут намного более похожи по своей речи друг на друга, чем на случайного прохожего с улицы. Есть профессиональный сленг, техницизмы и пр. Если на каком-то форуме преобладают гумманитарии, и среди них затешется один технарь, он будет как бельмо в глазу, аналогично и наоборот — гумманитарий на техническом форуме
(такие особенно бесят).Бригадир подаёт голос. Бригадный site:pgpru.com и вот вам куча постов от этого тролля.
По поводу самой работы: интересные цитаты есть (стр. 12):
Вся методика авторов крутится вокруг этой мысли. Типа, если писать сразу с нуля в отличном стиле — это не трудно, трудно переделать уже готовый текст под иной стиль. Далее, стр. 14-16:
Да, такую низкоуровневую статистику трудно фиксить, если вообще возможно. :) Теперь по поводу слайдов, стр. 10:
Не аналог анонимного форума, т.к. заранее понятно, что все твиты принадлежат одному лицу. Эффективно получаем один длинный текст, как и ранее. Стр. 66 слайдов:
Ё???ый стыд! И даже 5 лет не помогло.
Авторы ссылаются на вот это [unknown мог бы эту ссылку тоже в новость добавить] по поводу неэффективности машинного перевода на другие языки. Там же есть и ссылка на другие слайды. В частности, на стр. 28:
Странно, что у них такой высокий rate получился. Может быть, это потому, что целевой язык был английский? Автоматические переводчики с другими языками работают намного хуже. Там же, стр. 29:
Pgpru намекает мне, что надо больше работать и меньше
торчатьписать простыни на этом форуме.Замечания общего характера:
типа этого.комментариев: 11558 документов: 1036 редакций: 4118
Догадывался.
Да, мало кто, кроме Вас, пишет столь обстоятельные посты. :)