Лингвистический анализ


я тут сидел и мне моча в голову ударила. Ведь каждый человек индивидуален и говорит (пишет) как правило устойвивыми оборотами слов, т.е. использует одни и те же выражения.

Вот к примеру, он пишет на pgpru.com из-под Тора. Найти его в этом не представляется возможным. Однако, если сканировать базу сообщения ICQ (MRA), то можно составить "лингвистический портрет" всех пользователей. И тогда можно снизить множество "подозреваемых".

Это бред? =))

Комментарии
— SATtva (17/04/2011 12:55)   
Нет, не бред, обычная криминалистическая методика. В последнее время активно развиваются методы на стыке с датамайнингом.
Гость (19/09/2011 04:11)   
Вывод: пиши из под Тора на албанском, а из под обычных каналов как нормальный человек :-)
Гость (19/09/2011 18:30)   
Вариант – нанять "литературного негра" :)
Гость (19/09/2011 19:09)   
Было тут преложение использовать автоматический перевод в обе стороны. Для пущей надёжности дедать так до тех пор, пока не стабилизируется :-)
Гость (21/09/2011 11:27)   

Починил.
— _owl (22/09/2011 14:07)   
Интересно, существует ли методика (или готовая программа) "лингвистического обезличивания"? т.е. чтобы на вход можно было подать персонализированный текст, а на выходе получить такой текст, кототорый с одной стороны передает смысл исходного, а с другой – не пригоден для идентификации автора. автоперевод – простейший частный случай.
Гость (22/09/2011 17:02)   
Методика не нужна.
В ментовках сидят одни мудаки, они всё равно ничего не найдут.
а если нужно кого-то посадить, то притянут за уши любой текст.

"была назначена экспертиза, которая сравнила по стилю текст экстремистских комментариев и письмо обвиняемого следователю, где он заявлял о своей невиновности. Сравнение показало, что стиль якобы совпадает, на основании чего и было выдвинуто обвинение."
http://www.kasparov.ru/material.php?id=4E730A275A454
Гость (22/09/2011 21:15)   
Кроме прочего, использовать слова близкие к началу частотного словаря (используемые наиболее часто).
Гость (23/09/2011 13:13)   
Да, т.е. начать школоло и трололо — там точно низкочастотных слов не будет :)