id: Гость   вход   регистрация
текущее время 04:05 29/03/2024
Автор темы: Гость, тема открыта 30/10/2004 10:54 Печать
http://www.pgpru.com/Форум/ПрактическаяБезопасность/РазыскиваетсяАлгоритмРаспознаванияЗапрещенныхСлов
создать
просмотр
ссылки

Разыскивается алгоритм распознавания запрещенных слов


Нужен совет от компетентных людей.
Ситуация такая.


В соответствии с технологией обработки сообщений сидит человек (назовем его оператор) и распознает поступающие сообщения, в которых встречаются запрещенные слова (включая их склонения и т.д.) и словосочетания. Работа исключительно нудная и оператор становится невнимателен к концу дня. Хочется его разгрузить немного и заставить компьютер сразу ставить красные флажки для "запрещенных" сообщений. Все это можно реализовать только средствами MS Office.


Авторы сообщений могут умышленно или неумышленно допускать орфографические ошибки. Например, есть запрещенное словосочетание: Abdurahman ibn Singh. Автор может написать: Abu Rahman Sing или Abdu Ahman и т.д. В такой ситуации оператор наверняка распознАет эти ошибочные словосочетания, как запрещенные, а вот машина – нет.


На текущий момент реализован такой алгоритм. Исходное сообщение (это текстовые файлы на латинице до 10Кб) преобразуется к верхнему регистру, выбрасываются все знаки препинания, спецсимволы и пробелы – остается строка состоящая из заглавных букв и цифр. И уже полученная строка в лоб сравнивается с запрещенными словами. Это позволило выявить некоторые запрещенные слова, но далеко не все.


Я понимаю, что подобного рода системы сродни искусственному интеллекту и просто так в MSOffice их не реализуешь. Но может быть все же есть у кого-то ссылки на обсуждение этих проблем или статьи (по возможности практической направленности, так как у меня хоть и имеется почти математическое образование, но давно уже работаю в бизнесе и мозги малость притупились, могу не понять). Задача сугубо прикладная и должна быть решена на следующей неделе (типа выданы ценные указания программерам).


Заранее признателен!


 
Комментарии
— Гость (30/10/2004 10:57)   <#>
Да, и чтобы не пугать народ, скажу, что речь идет о коммерческой организации не имеющей никакого отношения к госструктурам. А все эти операции проводятся на основании действующих российских законов о противодействии легализации незаконных доходов и т.д. и предписаний КФМ РФ.
— SATtva (30/10/2004 14:59)   профиль/связь   <#>
комментариев: 11558   документов: 1036   редакций: 4118
Задача нетривиальная, и ближе к лексическому анализу текста, который реализован в современных антиспамовых фильтрах (вроде ашмановского Antispam, например). Для этой цели используются так называемые шинглы (контрольные суммы блоков текста, наподобие черепицы) и нечёткие сигнатуры.

Я по этой тематике не специалист. Может и кто-нибудь ещё выскажется, но я бы посоветовал обраться с этим же вопросом и в антиспамовые дискуссии.
— SATtva (30/10/2004 15:12)   профиль/связь   <#>
комментариев: 11558   документов: 1036   редакций: 4118
Да, вот ещё что (навели на мысль :))... Можно, наверное, и на алгоритме Байеса натренировать с помощью различных словоформ сигнальных фраз, а оператору потом останется только периодически пинать фильтр, если он пропускает сигнальную фразу или, наоборот, метит абсолютно невинную. В итоге можно добить точности свыше 90% по false negative-реакциям.

Теоретически такую задачу можно решить с помощью математической нейросети, но это больше именно область теории. (Тем паче, что всё это должно крутиться в среде MS Office.)

А вообще многое зависит от того, какой порог точности по несрабатываниям и ложным срабатываниям является для Вас критичным. Думаю, ложные срабатывания не так страшны — скорее, дополнительный повод для оператора разобраться с содержимым сообщения. А вот false negative, наверное, недопустимы, то есть вероятность ошибки нужна максимум 1 на 100 сигнальных сообщений.

Готовые системы контент-контроля существуют и в готовом виде от наших отечественных секьюрити-фирм. Интегрируются в MS Office и прочая, и прочая, только стоимость их несоизмерима велика в сравнении с поставленной задачей.
— unknown (31/10/2004 18:42)   профиль/связь   <#>
комментариев: 9796   документов: 488   редакций: 5664
Например, есть запрещенное словосочетание: Abdurahman ibn Singh.

Abdurahman ibn Singh. ?
Ах вот для чего провайдеры и почтовые службы так навязчиво предлагают проверять всю почту на спам и вирусы! Они, наверное, ищут Абдурахмана.
(в проходящих сообщениях)

Если бы вы задали вопрос в форуме "Политика и реальный мир" (посмотрев на список предлагаемых тем обсуждения), то можно было бы посоветовать вам поискать в Сети исходники программы altivor. Это был открытый проект, копирующий систему Carnivor – сниффер электронной почты (и возможно других протоколов связи) для ФБР, специально заточенный для сбора доказательств и поиска по ключевым словам с возможностью обрабатывать большое число сообщений.

Правда через некоторое время эти исходники стали недоступными. Но может у кого найдете. Я не знаю что там конкретно. Может оно Вам и не подойдет. Исходники под Unix.
— Гость (01/11/2004 13:13)   <#>
Спасибо за ответы! Примерно ясно направление поиска.

unknown, Адурахм ибн Сингх был придуман сходу в качестве примера и пострадал невинно :)

Реальные списки нваверное можно найти на сайте FATF http://www1.oecd.org/fatf/ и OFAC http://www.treas.gov/offices/enforcement/ofac/

Мы их правда получаем из другого места, но не суть...
Ваша оценка документа [показать результаты]
-3-2-1 0+1+2+3