18.08 // MBEGA — оптимизированный стегоанализ изображений

Исследователи S.Geetha и Dr.N.Kamaraj с кафедры информационных технологий и кафедры проектирования электрических и электронных систем (Thiagarajar College of Engineering, Madurai — 625 015, Tamil Nadu, Индия) предложили оптимизированный комплексный метод стегоанализа для поиска стегоизображений в потоке сетевого трафика в своей работе "Optimized image steganalysys through feature selecting using MBEGA".

Данный алгоритм объединяет между собой множество различных техник для автоматизированного получения результата.
Каждая из четырёх известных техник ищет десятки статистических особенностей в изображении, по сравнению с усреднёнными образцами сетевого трафика или базами изображений. Затем производится обработка генетическим алгоритмом (GA), а для предотвращения долгой работы генетического алгоритма используются методы прерывания в алгоритме Markov Blanket-Embedded Genetic Algorithm (MBEGA).

Стеганография — это динамичное средство, имеющее долгую историю и возможность адаптации к новым уровням технологии. Стеганография (скрытое письмо) — это способ сокрытия изображения в непривлекающих внимание данных. Кроме отправителя и получателя никто не знает о факте существования такого собщения, посредством чего данные защищаются от неавторизованного и нежелательного просмотра. Стеганография включает цифровые стратегии сокрытия файла в некоторых видах мультимедиа данных: изображения, звук, видео; а также это могут быть заголовки TCP-пакетов.

Стеганография считается безопасной если стегоизображения не содержат никаких детектируемых артефактов после встраивания сообщения. Другими словами, множество стегоизображений должно иметь такие же статистические свойства, как и множество покрывающих изображений. Если существует алгоритм, который даёт ответ на вопрос о содержании в данном изображении скрытого сообщения, лучше чем случайное угадывание, то такая стегосистема считается взломанной.

Стеганография может провоцировать негативные эффекты с точки зрения персональной приватности, бизнес-активности и национальной безопасности. Криминальные элементы могут злоупотреблять этой техникой для планирования нелегальной активности. Например, коммерческие шпионы или предатели могут красть конфиденциальные торговые или технические сообщения и предоставлять их конкурентам посредством скрытых сообщений для получения выгоды. Террористы также могут планировать к использованию схожие техники для совместного проведения международных атак (таких как событие 911 в США) и предотвращать своё выслеживание. Также существуют возможности для скрытного распространения компьютерных вирусов и троянов. Эти мотивы служат авторам для разработки техник стегоанализа.

Стегоанализ включает в себя детектирование использования стеганографии внутри файла при незначительном знании (или полном его отсутствии) как отдельных параметров стегоалгоритма, так и даже стегоалгоритма в целом. Стегоалгоритмы часто оставляют следы своего использования в файлах. Знание этой особенности позволяет выявлять наличие секретных сообщений. Искусство стегоанализа играет важную роль в выборе свойств и характеристик для теста на скрытые сообщения, в то время как наука помогает создавать эти тесты.

Многие известные стегоаналитические техники разделяются на специфические (против конкретного алгоритма) и основанные на особенностях различий оригинальных и стегоизображений. Вторые схемы более приемлемы и интенсивнее изучаются. Основными проблемами остаются: снижение ложных позитивных срабатываний, автоматизация (исключение человека-стегоаналитика в выборе параметров), обработка больших массивов данных, стремление к обработки приемлемо большого потока данных в реальном времени.

Четыре использованные техники отбора данных в работе, основаны на следующих особенностях.

WAM особенности, 27 пунктов — изучение статистических свойств корреляций младшего значащего бита, включая вычисление остатков фильтра квази-Винера. Fisher Linear Discriminator (FLD) может использоваться для создания высокочувствительного детектора стеганографии младших значащих битов. Достигается аккуратность до 90% при нагрузке на младший значащий бит в 25% от максимума (0.25 бита на пиксел) и близкое к идеальному различение при заполнении 50%. Всего в методе WAM используется 27 таких особенностей.

IQM особенности: 19 особенностей (Метрика Минковского гамма=2, метрика Минковского 1, максимальная разница, разница по отсортированному максимуму, разница Шенакоски, кросскорреляция структурного контента, резкость передачи изображения, угловое среднее, угловое среднее отклонение, спектральная амплитуда, спектральная фаза, взвешенная спектральная дистанция, среднеблоковая спектральная амплитуда, среднеблоковая спектральная фаза, среднеблоковая взвешенная спектральная дистанция, нормализованное абсолютное значение ошибок(HVS), нормализованное среднеквадратическое значение ошибок (HVS), HVS-L2).

Особенности Фридриха, 23 пункта

Статистические особенности высших порядков, 72 пункта.

Для практической проверки использовалась база даных с 250 изображениями по категориям (животные, птицы, здания, лица; природа: цветы, фрукты, небо и облака). В изображениях были разные текстуры, цвета, яркость и интенсивность и они отличались по происхождению. Затем в изображения были внедрены стегоданные на 50% допустимой загрузки (0.5 бит/пиксел) посредством трёх самых популярных алгоритмов стеговнедрения: Cox, Digimac и PGS. Использовались програмы StegHide и S-Tools по причине их популярности, высокой загрузочной способности по отношению к стегоконтейнерам, свободной доступности и использованию для изображений.

Внедряя во все 250 изображений стегометки всеми методами было получено 1500 записей. Смесь из 150 содержащих стегометки и 150 чистых сообщений использовалась для самообучения системы. Оставшиеся 100 стегоотмеченных и 100 чистых сообщений использовались для теста, после того, как система прошла обучение. Для конечных исследований использовалось 1750 изображений.

Диапазон распознавания стегосообщений каждым из четырёх методов по-отдельности лежал в интервале 72-95% за несколько миллисекунд на файл. По сравнению с предыдущими работами, при использовании управляемого генетического анализа авторам удалось улучшить распознавание методом IQM, в то время как остальные три не показали существенного прироста.

Данная работа показывает существенный потенциал в вопросах стегодетектирования на основе комбинирования разных методов как параллельно, так и с совместной обработкой генетическими алгоритмами. Аналогичные методы по утверждению авторов могут быть разработаны и для стегоанализа других контейнеров информации, например звуковых.

Источник: Cryptography and Security Archive

Комментарии [скрыть комментарии/форму]

—	*Гость* (18/08/2010 21:19) <#>

Некогда уже обсуждался вопрос "шифрование vs архивация vs ГПСЧ" (/comment37647, /comment38758), из которого был сделан вывод, что любой статтест можно обмануть, и наоборот: непрохождение статтеста не влечёт за собой предсказуемость. Мне думается, что выводы будут теми же и в случае анализа на наличие скрытых сообщений в контейнерах. Странно, что не говорится об авторских выводах, т.е. "можно ли по их мнению сделать недетектируемую стеганографию?". Как я понимал положение дел — можно, но её пропускная способность будет неприемлемо низкой. Перефразируя, "написать стегоанализ под конкретные алгоритмы, да ещё и с высоким объёмом встраивания данных, не мудрено: среди {вырезано} мы все стегоаналитики, среди стегоаналитиков мы — {вырезано}."

—	unknown (19/08/2010 09:56, исправлен 19/08/2010 10:14) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

"шифрование vs архивация vs ГПСЧ" <...>
думается, что выводы будут теми же и в случае анализа на наличие скрытых сообщений в контейнерах.

В том обсуждении не рассмотрен ещё один аспект, специфичный именно для стегоанализа. Пусть в кодеке уже распакована архивирующая часть, идёт работа с raw-битами.

Рассмотрим обычное изображение (пример можно перенести на любой другой контейнер для стего). Можно условно разделить изображение на две части: с низкой энтропией и высокой. Чёткой границы не будет, будет некоторый градиент. Но для условной простоты представим, что есть чётко разграниченные части: A — неслучайная и B — случайная, шумовая. На самом деле здесь всё тоже условно. Случайная часть B не может до конца пройти статтесты, но мы будем считать её приемлемо случайной для практического использования. А для простоты примера, пусть она будет идеально случайной, неразличимой от идеализированной случайности и все мыслимые статтесты якобы проходит.

Часть B — это может быть наименьший значащий бит, или часть некоторой характеристики изображения (яркостная, спектральная), размазанная по группе битов. Вот казалось бы, если часть B неразличима от случайного шума, то её можно заменить шифрованным сообщением C (которое, при отсутствии служебных пакетов и заголовков, по определению от случайного шума неотличимо). А раз B — это случайный шум, то в исходном изображении и информации он никакой не несёт, его можно заменить на любой другой идеально случайный шум C.

Но что получается даже в такой идеализированной реальности? Если дать противнику только часть B — то он не сможет её различить от случайности (Random Oracles are Practical © ). Т. е., что B, что стойкий шифр C, что выход случайного оракула, противнику не понять, он не может создать различитель (при соблюдении условий идеализации в нашем примере).

А теперь дадим противнику всё изображение: он сможет выделить обе части A и B. И вот здесь выясняется, что B — неслучайна. Так как есть корреляции между А и B, сложные корреляции между соседними битами и фрагментами B и A, между какими-то осмысленными преобразованиями над группами битов f (A) и f (B) и т.д. Т.е. B не поменялось, но при рассмотрении её отдельно от A — она случайна, а совместно с A — нет. То есть вроде бы и шум, но связанный с изображением. Кажущийся парадокс "A и В".

При встраивании в изображение сообщения: B меняется на C. Но условия корреляции нарушаются или полностью не имитируются встраивающим алгоритмом. И противник может выявить наличие стегосообщения C. Достаточно натаскать самообучающуюся систему на реальных картинках и она будет отличать B от C.

Странно, что не говорится об авторских выводах, т.е. "можно ли по их мнению сделать недетектируемую стеганографию?". Как я понимал положение дел — можно, но её пропускная способность будет неприемлемо низкой.

Их эти выводы похоже не интересуют, возможно они только борьбой со стеганографией занимаются, вероятно отрабатывая бюджет по госзаказу. Метод MBEGA, который они продвигают, судя по работе, явно заточен не столько для теоретических разработок, сколько для внедрения в практику.

Естественно, сдвинуть границу, уменьшив доступную для встраивания данных часть B — это тривиальное решение. Да, когда B будет настолько малой, что корреляции приемлемо достоверно выявить невозможно, то будет практически недектируемая стеганография. А пропускная способность будет неприемлимо низкой. Разработка стегоалгоритмов всё-таки пытается идти по другому пути: усложнению алгоритмов встраивания, так чтобы учитывать связь A и B и минимально нарушать корреляции. Но с теоретическим обоснованием стойкости традиционно очень плохо и такая ситуация скорее всего будет сохраняться долго. Пока не видно, возможно ли это вообще как-то преодолеть.

Это к тому, что многие вообще не понимают элементарного парадокса "A и B" и считают стеганографию лёгким делом, думая что даже примитивные стегоалгоритмы могут быть такими же стойкими, как обычная криптография. При этом думают, что единственый метод стегоанализа — раздобыть исходный контейнер (что также тривиально, как украсть ключ шифрования), а никакие теоретические обоснования стойкости не нужны: "на картинке же не видно, что туда что-то встроили, а в отдельных битах заменили просто один шум на другой". А стеганография, будто-бы не распространена только по чьему-то злому умыслу, а не из-за объективно существующих научных проблем. Ещё эти стегопанки выступают против "чистой криптографии" и считают, что сокрытие канала за счёт стего — это круче.

написать стегоанализ под конкретные алгоритмы, да ещё и с высоким объёмом встраивания данных, не мудрено

Различитель между B и C принципиально несвязан с конкретным алгоритмом. Естестественно, чем он навороченнее, изощрённее и содержит большую батарею тестов, тем он обычно лучше. Но каждый отдельный тест покрывает сразу группу стегоалгоритмов, построенных на каком-то принципе и вызывающих определённые искажения в корреляциях. Эти стегоалгоритмы для встраивания сообщений могут быть неизвестными и даже принципиально новыми в какой-то части.

—	*Гость* (19/08/2010 10:59) <#>

пропускная способность будет неприемлимо низкой.

Для действительно серьёзных применений достаточно обеспечить скорость набора на клавиатуре.

Разработка стегоалгоритмов всё-таки пытается идти по другому пути

Почти все почему-то сосредотачиваются на том, как всунуть больше (в 10 Гб ещё 1 Гб), хотя очевидно, что требуется (пусть хотя-бы 1 Кб) надёжнее!
Вероятно, тут какой-то заговор, например имущих (грантодателей) против остальной массы населения :)

—	SATtva (19/08/2010 19:47) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

Для действительно серьёзных применений достаточно обеспечить скорость набора на клавиатуре.

Каждый keycode кодировать в отдельной картинке? :)

—	*Гость* (20/08/2010 08:49) <#>

Да, и серия таких картинок называется видеочат. :)

А ещё потрясающй ресурс для стего это торренты, поскольку имеют гигантскую массовость и траффик (включая служебный).

И где же стего-торрент-клиенты?

—	*Гость* (21/08/2010 01:12) <#>

Разработка стегоалгоритмов всё-таки пытается идти по другому пути: усложнению алгоритмов встраивания, так чтобы учитывать связь A и B и минимально нарушать корреляции. Но с теоретическим обоснованием стойкости традиционно очень плохо и такая ситуация скорее всего будет сохраняться долго. Пока не видно, возможно ли это вообще как-то преодолеть.

Думаю, что должны быть какие-то абстрактные, самые общие общие способы определения корреляций (взаимная информация?). Также, нужно корректное техничное определение ёмкости стегоконтейнера: тот объём необнаружимой информации, который можно встроить в контейнер с данными характеристиками. Предложенный же путь "усложнения алгоритмов встраивания", ИМХО, тупиковый, и как раз есть "безопасность через неясность". Т.е. нужен какой-то матаппарат, который бы позволил работать с сущностями и характеристиками информации вообще, "в целом", обеспечивая некие теоретические границы допустимого. Действительно, можно для начала взять идеализированный контейнер, и попытаться его полностью описать, хотя бы теоретически, обосновать для него стегоёмкость и недетектируемость, а после уже двигаться в сторону более реалистичных контейнеров, вплоть до реальных изображений/видео. И опять же, про разработанный метод стегоанализа: что теперь ждать? Что изобретатели стегоалгоритмов будут патчить свои алгоритмы до тех пор, пока они не начнут проходить этот новый тест? Получаем вместо теории стандартную борьбу щита и меча (игры в кошки и мышки?). Конечно, если исследователи не заинтересованы в развитии стегоанографии, а хотят лишь получить практический конкретный прикладной результат, то будут появляться статьи типа этой.
P.S.: unknown, спасибо за разъяснения. Очень понятно написали.

—	*Гость* (21/08/2010 12:30) <#>

нужен какой-то матаппарат

Матаппарат есть, только он unknown'у почему-то не нравится :)

—	Sean_Tidie (01/05/2011 18:55) <#>

Весьма странная задача поставлена исследователями. По-русски это называется чесать яй.. репу, по-испански – сражаться с ветряными мельницами, по-индуски – сто тысяч поклонов Вишну в тугих джинсах. Забыт напрочь принцип 'будь проще', и сам принцип стеганографии. Глупо анализировать весь сетевой трафик: нужна лишь та часть, где повышена угроза по применимости передаваемого файла в качестве контейнера и (или) по агентурной информации. Широта возможных контейнеров от простого текста до видеофайла превращает задачу в нерешаемую. Дело усугубляется множеством различных алгоритмов записи данных в рамках одного и того же контейнера. Возможность применения алгоритмов сжатия без потери данных и стойкость некоторых методов записи к потере данных при нарущении целостности контейнера добавляет ещё большую головную боль.
Частности:
Анализ по WAM особенности вообще бред: в BMP файле можно менять до 4-х битов(=> в т.ч. любой из них), не только самый младший. А даже если только его, то в алгоритме, не отличимом от обычной зашумленности.
PNG=(ZIP+BMP), о каком анализе в нем можно говорить?
Условия:
1.протокол передачи данных обеспечивает целостность данных(TCP, FTP... или UDF?), поврежденные данные никому не нужны.
2.стеганография обеспечивает суть-целостность контейнера, и сама нуждается в целостности контейнера, мертвого раба в парикмахерскую не понесут. Исключения сложны для реализации и больше соответствуют шифрованию, а не стеганографии в принципе.
3.стегоанализ в этих условиях равнозначен стучанию головой о стену прямо напротив открытой двери в попытке ее, эту дверь, открыть.
Выводы:
1. Считать стегоанализом исследование самой возможности использования стеганографии, т.е.,
анализировать саму ВОЗМОЖНОСТЬ (да – нет) использования носителя информации в качестве контейнера, а выделение скрытой информации отнести к разряду циркового искусства.
2. В случае такой возможности разрабатывать не алгоритмы СТЕГОАНАЛИЗа а методы СТЕГОДЕСТРУКЦИИ, применимые для данного конкретного контейнера.
Например: использовать алгоритмы сжатия с потерями для всего передаваемого контента или иные способы его повреждения, например изменение размера, где они применимы без значительного ущерба дальнейшему применению. В частности, использовать JPEG и его аналоги везде, где можно (а это практически везде) вместо BMP, TIFF, GIF, PNG и т. д. Проконтролировать EXIF область легче, чем весь битовый массив. Таким образом, придется и побрить всех рабов и выдать им слабительное.
3. Пока сохраняется необходимость в точных и целостных данных, стеганография непобедима.
4. Признать, что суть вопроса лежит в той же сфере, где находятся понятия добра и зла, свободы и несвободы, выбора и его отсутствия, при том, что для каждого они свои и определяются тем, что нам не подвластно. Нужен пример? Записать CD можно один только раз, только записать самих CD можно сколько угодно. Поздравляю индусов с очередной глупой работой. Все воробьи в саду застрелены, карьерный рост садовнику обеспечен.

—	unknown (02/05/2011 19:19) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

Глупо анализировать весь сетевой трафик: нужна лишь та часть, где повышена угроза по применимости передаваемого файла в качестве контейнера и (или) по агентурной информации.

Ну так можно для этого и применять.

Широта возможных контейнеров от простого текста до видеофайла превращает задачу в нерешаемую. Дело усугубляется множеством различных алгоритмов записи данных в рамках одного и того же контейнера.

Тут смешивается практический и теоретический подход. В теория стегосистема идеально стойкая, когда формат один и известен противнику, стегоалгоритм один и известен, адресаты A и B известны и т.д. Неизвестен ключ стегоалгоритма. Ну насчёт неизвестности алгоритма можно допустить некоторые вариации. Вопрос: с какой вероятностью в сообщении A-B содержится стеготекст? Нужно ответить чисто вычислительно, не врываясь в двери к A и B.

>протокол передачи данных обеспечивает целостность данных(TCP, FTP... или UDF?)

UDF? М.б. UDP?

стеганография обеспечивает суть-целостность контейнера, и сама нуждается в целостности контейнера, мертвого раба в парикмахерскую не понесут. Исключения сложны для реализации и больше соответствуют шифрованию, а не стеганографии в принципе.

Стеганография с криптографией используются совместно практически всегда — в стегокотейнер внедряется шифрованный текст. Можно использовать ещё и коды коррекции ошибок, неотличимые от случайных. на этом принципе построены цифровые знаки (ЦВЗ для DRM), стойкие к издевательствам над изображением наподобие изменения размера, зашумливани и т.д. Разумеется, это снижает и без того невысокую пропускную способность стегоканала.

В случае такой возможности разрабатывать не алгоритмы СТЕГОАНАЛИЗа а методы СТЕГОДЕСТРУКЦИИ, применимые для данного конкретного контейнера.

Т.е. портить передаваемые файлы? М.б. это в большинстве случаев наоборот не нужно, чтобы стороны не заподозрили, что за ними следят. А если дестроить именно для борьбы со стего, то при чрезывычайном положении проще выключить интернет и запретить публикацию кроссвордов в газетах.

Пока сохраняется необходимость в точных и целостных данных, стеганография непобедима.

Цель исследований выявить факт наличия (да, между опытом в лабораторных условиях и цирковым искусством бывает нечто общее), но не бороться с самим явлением путём уничтожения его цифровых носителей или внесения ограничений в среду распространения.

Поздравляю индусов с очередной глупой работой.

Хорошо выполненные работы ~~всегда~~ (когда-нибудь внезапно вдруг) бывают полезны (не касаясь качества конкретно этой), даже если они абсолютно абстрактны и бесконечно далеки от реальной жизни.

—	*Гость* (05/05/2011 12:41) <#>

The existence of secure steganography is equivalent to the existence of one-way functions.

тут

Ваша оценка документа [показать результаты]