openPGP в России / Новости / 2007 / Лингвистическая стеганография становится стойкой

04.12 // Лингвистическая стеганография становится более стойкой

В июле 2007 года прошла ECIW 2007 – шестая Европейская конференция по вопросам информационных войн и информационной безопасности. В ней приняли участие докладчики как из самой Европы, так и из различных стран НАТО, а также Израиля, Малазии и Китая.

Помимо обсуждения вопросов глобальной экономической безопасности, борьбы с терроризмом, психологических операций и пропаганды, современных методов защиты и уничтожения инфраструктуры в военных конфликтах, было рассмотрено несколько интересных докладов по криптографии и стеганографии.

К сожалению материалы конференции хотя и доступны, но только за отдельную плату в печатном виде или компакт-дисках и не могут быть размещены в Интернете без согласия авторов. Но один из интересных докладов находится в свободном доступе и заслуживает отдельного внимания.

Речь идёт о работе file Lexical Natural Language Steganography Systems with Human Interaction – "Стеганографические системы, основанные на лексически естественных языках, работающие при взаимодействии с человеком". Авторы: K. Wouters, B. Wyseur и B. Preneel из Электроинженерного Департамента Бельгийского Католического Университета – ESAT Katholieke Universiteit Leuven.

Стеганография, как искусство прятать информацию среди другой информации была известна с древних времён и первые стегосистемы работали в основном с текстами. Как отмечают в своей работе авторы, книга "Стеганография" Иоганна Тритемиуса, вышедшая в 1606 году вошла в список запрещённых книг Католической Церкви ("Index Librorum Prohibitorum"), так как производила впечатление искусства чёрной магии. Теперь, учёные из университета, который исторически носит имя католического, решили исправить эту несправедливость.

В наше время исследователи сосредоточились на стегосистемах, прячущих изображения в графических, звуковых и видеофайлах путём незаметной модификации изображения и способных передавать относительно большой объём информации.

Однако у таких систем есть один недостаток: пользователям сложно придумать предлог, по которому бы они могли регулярно обмениваться уникальными, ими самими произведёнными фотографиями или иными стегоконтейнерами.

Иное дело, если бы скрытые сообщения можно было встроить в сам текст. Однако практически все известные с далекого прошлого и до сегодняшнего момента стегосистемы такого рода нестойки. Примитивные алгоритмы, основаные на выборе определённых слов из текста, расстановке незначащих пробелов и т.д. могут быть если не вскрыты, то выявлены статистическим анализом или приводить к заметному искажению смыслового и стилистического характера текста.

Авторам данной работы удалось решить большинство проблем за счёт идеи сочетать машинный и ручной способ стеговставки, объединив его со стойкой криптографией и написать плагин к чат-программе для организации текстового стегоканала.

Они опирались на теорию лингвистической стеганографии из работ Bergmair и Katzenbeisser (2004) по проблемам машинного распознавания стеготекстов и использования кодов Хаффмана для противодействия статистическому стегоанализу.

Но в данной работе авторы пошли дальше. В качестве противника они предположили не только программу-детектор, но и подготовленного человека (например лингвиста), который пытается уловить все подозрительные и неестественные диалоги собеседников, которые бы указывали на наличие стегоканала.

В качестве среды для испытания протокола был выбран IRC-чат: в нём могут одновремено общаться большое число людей, а условные пользователи Алиса и Боб могут не отправлять сообщения непосредственно друг другу, а обращаться только к другим пользователям.
Это не позволит установить наличие прямого контакта между ними за один сеанс, кроме того они могут быть более анонимными используя чаты в сети tor.

Предполагается, что Алиса и Боб знают никнэймы и публичные ключи друг друга, а также чат-канал для связи. Когда они войдут в чат, Алиса отправит в локальную очередь секретное сообщение M, сообщающее о готовности передать его Бобу. Боб подтвердит готовность его принять. Используя протокол Диффи-Хэллмана они согласуют секретный ключ K, который будет использоваться для генерации подстановычных таблиц из слов-синонимов в заранее выбранном словаре. Также секретный ключ K будет использоваться для получения сеансового ключа S_k, используемого для зашифрования сообщения M. Шифрование производится с использованием потокового шифра (RC4) так что Боб может рашифровывать приходящее скрытое сообщение сразу же, байт за байтом.

Каждый раз, когда Алиса будет печатать текст, перед ней будет выскакивать окошко с таблицей синонимов, так что она сама сможет придать тексту естественный и грамматически правильный вид. Таким простым способом решается задача защиты и от машинного распознавания текста и от человека-наблюдателя.

Для передачи скрытого текста используется всего один бит на одно слово. В качестве словаря исследователи использовали английский словарь из OpenOffice. Из сеансового ключа, который был получен после согласования по Диффи-Хеллману получается гамма S, биты которой интерпретируются попарно: пары 0 ('00' в S), 1 ('11' в S) и NULL ('01' или '10' в S). NULL означает, что данное слово не передаёт ни одного бита и даёт пользователю возможность произвольной замены, что ещё более затрудняет анализ. После назначение битов словам используется детерминированный алгоритм, делающий распределение битов лучше как с точки зрения выбора синонимов, так и противодействия анализу. Данный алгоритм ещё не до конца разработан авторами, они надеются заменить примитивную модель, более адаптируемой.

Несмотря на хорошие таблицы распределений, авторам пришлось столкнуться с трудностями, например при слишком частом принуждении пользователя к выбору одного и того же синонима. Проблему удалось решить присвоением битов не одному слову, а наборам слов и использованием кодов Хафмана, что привело однако к ещё большему снижению пропускной способности стегоканала.

Ограничения данной системы связаны не только с низкой пропускной способностью, но и с тем, что статистический анализ способен выявить употребление синонимов, нехарактерных для речи данного человека (если его личность установлена). Кроме того, бездумный выбор некоторых синонимов может привести к грамматическим ошибкам и потребует дополнительной внимательности пользователя к исправлению получившегося текста.

Тем не менне данная система хорошо подходит для скрытой передачи коротких сообщений в чатах.

В качестве тестовой платформы была выбрана программа X-chat, был написан плагин для стеганографических функций, для криптографических вычислений использовалась библиотека OpenSSL.

В дальнейшем авторы планируют усилить стойкость своей системы путём использования корректируемых под индивидуальный стиль речи таблиц, кодов коррекции ошибок против активного атакующего и включить возможность использования опечаток и IRC-слэнга.

Данная работа была частично профинансирована Институтом Продвижения Инноваций в Науке и Технологии и Исследовательским Интердисциплинарным Институтом Широковещательных Технологий, основанном правительством Фландрии в 2004 году.

Источник: Katholieke Universiteit Leuven/ESAT

Много комментариев (16) [показать комментарии/форму]

Ваша оценка документа [показать результаты]