18.08 // MBEGA — оптимизированный стегоанализ изображений
Исследователи S.Geetha и Dr.N.Kamaraj с кафедры информационных технологий и кафедры проектирования электрических и электронных систем (Thiagarajar College of Engineering, Madurai — 625 015, Tamil Nadu, Индия) предложили оптимизированный комплексный метод стегоанализа для поиска стегоизображений в потоке сетевого трафика в своей работе "Optimized image steganalysys through feature selecting using MBEGA".
Данный алгоритм объединяет между собой множество различных техник для автоматизированного получения результата.
Каждая из четырёх известных техник ищет десятки статистических особенностей в изображении, по сравнению с усреднёнными образцами сетевого трафика или базами изображений. Затем производится обработка генетическим алгоритмом (GA), а для предотвращения долгой работы генетического алгоритма используются методы прерывания в алгоритме Markov Blanket-Embedded Genetic Algorithm (MBEGA).
Стеганография — это динамичное средство, имеющее долгую историю и возможность адаптации к новым уровням технологии. Стеганография (скрытое письмо) — это способ сокрытия изображения в непривлекающих внимание данных. Кроме отправителя и получателя никто не знает о факте существования такого собщения, посредством чего данные защищаются от неавторизованного и нежелательного просмотра. Стеганография включает цифровые стратегии сокрытия файла в некоторых видах мультимедиа данных: изображения, звук, видео; а также это могут быть заголовки TCP-пакетов.
Стеганография считается безопасной если стегоизображения не содержат никаких детектируемых артефактов после встраивания сообщения. Другими словами, множество стегоизображений должно иметь такие же статистические свойства, как и множество покрывающих изображений. Если существует алгоритм, который даёт ответ на вопрос о содержании в данном изображении скрытого сообщения, лучше чем случайное угадывание, то такая стегосистема считается взломанной.
Стеганография может провоцировать негативные эффекты с точки зрения персональной приватности, бизнес-активности и национальной безопасности. Криминальные элементы могут злоупотреблять этой техникой для планирования нелегальной активности. Например, коммерческие шпионы или предатели могут красть конфиденциальные торговые или технические сообщения и предоставлять их конкурентам посредством скрытых сообщений для получения выгоды. Террористы также могут планировать к использованию схожие техники для совместного проведения международных атак (таких как событие 911 в США) и предотвращать своё выслеживание. Также существуют возможности для скрытного распространения компьютерных вирусов и троянов. Эти мотивы служат авторам для разработки техник стегоанализа.
Стегоанализ включает в себя детектирование использования стеганографии внутри файла при незначительном знании (или полном его отсутствии) как отдельных параметров стегоалгоритма, так и даже стегоалгоритма в целом. Стегоалгоритмы часто оставляют следы своего использования в файлах. Знание этой особенности позволяет выявлять наличие секретных сообщений. Искусство стегоанализа играет важную роль в выборе свойств и характеристик для теста на скрытые сообщения, в то время как наука помогает создавать эти тесты.
Многие известные стегоаналитические техники разделяются на специфические (против конкретного алгоритма) и основанные на особенностях различий оригинальных и стегоизображений. Вторые схемы более приемлемы и интенсивнее изучаются. Основными проблемами остаются: снижение ложных позитивных срабатываний, автоматизация (исключение человека-стегоаналитика в выборе параметров), обработка больших массивов данных, стремление к обработки приемлемо большого потока данных в реальном времени.
Четыре использованные техники отбора данных в работе, основаны на следующих особенностях.
WAM особенности, 27 пунктов — изучение статистических свойств корреляций младшего значащего бита, включая вычисление остатков фильтра квази-Винера. Fisher Linear Discriminator (FLD) может использоваться для создания высокочувствительного детектора стеганографии младших значащих битов. Достигается аккуратность до 90% при нагрузке на младший значащий бит в 25% от максимума (0.25 бита на пиксел) и близкое к идеальному различение при заполнении 50%. Всего в методе WAM используется 27 таких особенностей.
IQM особенности: 19 особенностей (Метрика Минковского гамма=2, метрика Минковского 1, максимальная разница, разница по отсортированному максимуму, разница Шенакоски, кросскорреляция структурного контента, резкость передачи изображения, угловое среднее, угловое среднее отклонение, спектральная амплитуда, спектральная фаза, взвешенная спектральная дистанция, среднеблоковая спектральная амплитуда, среднеблоковая спектральная фаза, среднеблоковая взвешенная спектральная дистанция, нормализованное абсолютное значение ошибок(HVS), нормализованное среднеквадратическое значение ошибок (HVS), HVS-L2).
Особенности Фридриха, 23 пункта
Статистические особенности высших порядков, 72 пункта.
Для практической проверки использовалась база даных с 250 изображениями по категориям (животные, птицы, здания, лица; природа: цветы, фрукты, небо и облака). В изображениях были разные текстуры, цвета, яркость и интенсивность и они отличались по происхождению. Затем в изображения были внедрены стегоданные на 50% допустимой загрузки (0.5 бит/пиксел) посредством трёх самых популярных алгоритмов стеговнедрения: Cox, Digimac и PGS. Использовались програмы StegHide и S-Tools по причине их популярности, высокой загрузочной способности по отношению к стегоконтейнерам, свободной доступности и использованию для изображений.
Внедряя во все 250 изображений стегометки всеми методами было получено 1500 записей. Смесь из 150 содержащих стегометки и 150 чистых сообщений использовалась для самообучения системы. Оставшиеся 100 стегоотмеченных и 100 чистых сообщений использовались для теста, после того, как система прошла обучение. Для конечных исследований использовалось 1750 изображений.
Диапазон распознавания стегосообщений каждым из четырёх методов по-отдельности лежал в интервале 72-95% за несколько миллисекунд на файл. По сравнению с предыдущими работами, при использовании управляемого генетического анализа авторам удалось улучшить распознавание методом IQM, в то время как остальные три не показали существенного прироста.
Данная работа показывает существенный потенциал в вопросах стегодетектирования на основе комбинирования разных методов как параллельно, так и с совместной обработкой генетическими алгоритмами. Аналогичные методы по утверждению авторов могут быть разработаны и для стегоанализа других контейнеров информации, например звуковых.
Источник: Cryptography and Security Archive
комментариев: 9796 документов: 488 редакций: 5664
В том обсуждении не рассмотрен ещё один аспект, специфичный именно для стегоанализа. Пусть в кодеке уже распакована архивирующая часть, идёт работа с raw-битами.
Рассмотрим обычное изображение (пример можно перенести на любой другой контейнер для стего). Можно условно разделить изображение на две части: с низкой энтропией и высокой. Чёткой границы не будет, будет некоторый градиент. Но для условной простоты представим, что есть чётко разграниченные части: A — неслучайная и B — случайная, шумовая. На самом деле здесь всё тоже условно. Случайная часть B не может до конца пройти статтесты, но мы будем считать её приемлемо случайной для практического использования. А для простоты примера, пусть она будет идеально случайной, неразличимой от идеализированной случайности и все мыслимые статтесты якобы проходит.
Часть B — это может быть наименьший значащий бит, или часть некоторой характеристики изображения (яркостная, спектральная), размазанная по группе битов. Вот казалось бы, если часть B неразличима от случайного шума, то её можно заменить шифрованным сообщением C (которое, при отсутствии служебных пакетов и заголовков, по определению от случайного шума неотличимо). А раз B — это случайный шум, то в исходном изображении и информации он никакой не несёт, его можно заменить на любой другой идеально случайный шум C.
Но что получается даже в такой идеализированной реальности? Если дать противнику только часть B — то он не сможет её различить от случайности (Random Oracles are Practical © ). Т. е., что B, что стойкий шифр C, что выход случайного оракула, противнику не понять, он не может создать различитель (при соблюдении условий идеализации в нашем примере).
А теперь дадим противнику всё изображение: он сможет выделить обе части A и B. И вот здесь выясняется, что B — неслучайна. Так как есть корреляции между А и B, сложные корреляции между соседними битами и фрагментами B и A, между какими-то осмысленными преобразованиями над группами битов f (A) и f (B) и т.д. Т.е. B не поменялось, но при рассмотрении её отдельно от A — она случайна, а совместно с A — нет. То есть вроде бы и шум, но связанный с изображением. Кажущийся парадокс "A и В".
При встраивании в изображение сообщения: B меняется на C. Но условия корреляции нарушаются или полностью не имитируются встраивающим алгоритмом. И противник может выявить наличие стегосообщения C. Достаточно натаскать самообучающуюся систему на реальных картинках и она будет отличать B от C.
Их эти выводы похоже не интересуют, возможно они только борьбой со стеганографией занимаются, вероятно отрабатывая бюджет по госзаказу. Метод MBEGA, который они продвигают, судя по работе, явно заточен не столько для теоретических разработок, сколько для внедрения в практику.
Естественно, сдвинуть границу, уменьшив доступную для встраивания данных часть B — это тривиальное решение. Да, когда B будет настолько малой, что корреляции приемлемо достоверно выявить невозможно, то будет практически недектируемая стеганография. А пропускная способность будет неприемлимо низкой. Разработка стегоалгоритмов всё-таки пытается идти по другому пути: усложнению алгоритмов встраивания, так чтобы учитывать связь A и B и минимально нарушать корреляции. Но с теоретическим обоснованием стойкости традиционно очень плохо и такая ситуация скорее всего будет сохраняться долго. Пока не видно, возможно ли это вообще как-то преодолеть.
Это к тому, что многие вообще не понимают элементарного парадокса "A и B" и считают стеганографию лёгким делом, думая что даже примитивные стегоалгоритмы могут быть такими же стойкими, как обычная криптография. При этом думают, что единственый метод стегоанализа — раздобыть исходный контейнер (что также тривиально, как украсть ключ шифрования), а никакие теоретические обоснования стойкости не нужны: "на картинке же не видно, что туда что-то встроили, а в отдельных битах заменили просто один шум на другой". А стеганография, будто-бы не распространена только по чьему-то злому умыслу, а не из-за объективно существующих научных проблем. Ещё эти стегопанки выступают против "чистой криптографии" и считают, что сокрытие канала за счёт стего — это круче.
Различитель между B и C принципиально несвязан с конкретным алгоритмом. Естестественно, чем он навороченнее, изощрённее и содержит большую батарею тестов, тем он обычно лучше. Но каждый отдельный тест покрывает сразу группу стегоалгоритмов, построенных на каком-то принципе и вызывающих определённые искажения в корреляциях. Эти стегоалгоритмы для встраивания сообщений могут быть неизвестными и даже принципиально новыми в какой-то части.
Вероятно, тут какой-то заговор, например имущих (грантодателей) против остальной массы населения :)
комментариев: 11558 документов: 1036 редакций: 4118
Каждый keycode кодировать в отдельной картинке? :)
А ещё потрясающй ресурс для стего это торренты, поскольку имеют гигантскую массовость и траффик (включая служебный).
И где же стего-торрент-клиенты?
P.S.: unknown, спасибо за разъяснения. Очень понятно написали.
Частности:
Анализ по WAM особенности вообще бред: в BMP файле можно менять до 4-х битов(=> в т.ч. любой из них), не только самый младший. А даже если только его, то в алгоритме, не отличимом от обычной зашумленности.
PNG=(ZIP+BMP), о каком анализе в нем можно говорить?
Условия:
1.протокол передачи данных обеспечивает целостность данных(TCP, FTP... или UDF?), поврежденные данные никому не нужны.
2.стеганография обеспечивает суть-целостность контейнера, и сама нуждается в целостности контейнера, мертвого раба в парикмахерскую не понесут. Исключения сложны для реализации и больше соответствуют шифрованию, а не стеганографии в принципе.
3.стегоанализ в этих условиях равнозначен стучанию головой о стену прямо напротив открытой двери в попытке ее, эту дверь, открыть.
Выводы:
1. Считать стегоанализом исследование самой возможности использования стеганографии, т.е.,
анализировать саму ВОЗМОЖНОСТЬ (да – нет) использования носителя информации в качестве контейнера, а выделение скрытой информации отнести к разряду циркового искусства.
2. В случае такой возможности разрабатывать не алгоритмы СТЕГОАНАЛИЗа а методы СТЕГОДЕСТРУКЦИИ, применимые для данного конкретного контейнера.
Например: использовать алгоритмы сжатия с потерями для всего передаваемого контента или иные способы его повреждения, например изменение размера, где они применимы без значительного ущерба дальнейшему применению. В частности, использовать JPEG и его аналоги везде, где можно (а это практически везде) вместо BMP, TIFF, GIF, PNG и т. д. Проконтролировать EXIF область легче, чем весь битовый массив. Таким образом, придется и побрить всех рабов и выдать им слабительное.
3. Пока сохраняется необходимость в точных и целостных данных, стеганография непобедима.
4. Признать, что суть вопроса лежит в той же сфере, где находятся понятия добра и зла, свободы и несвободы, выбора и его отсутствия, при том, что для каждого они свои и определяются тем, что нам не подвластно. Нужен пример? Записать CD можно один только раз, только записать самих CD можно сколько угодно. Поздравляю индусов с очередной глупой работой. Все воробьи в саду застрелены, карьерный рост садовнику обеспечен.
комментариев: 9796 документов: 488 редакций: 5664
Ну так можно для этого и применять.
Тут смешивается практический и теоретический подход. В теория стегосистема идеально стойкая, когда формат один и известен противнику, стегоалгоритм один и известен, адресаты A и B известны и т.д. Неизвестен ключ стегоалгоритма. Ну насчёт неизвестности алгоритма можно допустить некоторые вариации. Вопрос: с какой вероятностью в сообщении A-B содержится стеготекст? Нужно ответить чисто вычислительно, не врываясь в двери к A и B.
UDF? М.б. UDP?
Стеганография с криптографией используются совместно практически всегда — в стегокотейнер внедряется шифрованный текст. Можно использовать ещё и коды коррекции ошибок, неотличимые от случайных. на этом принципе построены цифровые знаки (ЦВЗ для DRM), стойкие к издевательствам над изображением наподобие изменения размера, зашумливани и т.д. Разумеется, это снижает и без того невысокую пропускную способность стегоканала.
Т.е. портить передаваемые файлы? М.б. это в большинстве случаев наоборот не нужно, чтобы стороны не заподозрили, что за ними следят. А если дестроить именно для борьбы со стего, то при чрезывычайном положении проще выключить интернет и запретить публикацию кроссвордов в газетах.
Цель исследований выявить факт наличия (да, между опытом в лабораторных условиях и цирковым искусством бывает нечто общее), но не бороться с самим явлением путём уничтожения его цифровых носителей или внесения ограничений в среду распространения.
Хорошо выполненные работы
всегда(когда-нибудь внезапно вдруг) бывают полезны (не касаясь качества конкретно этой), даже если они абсолютно абстрактны и бесконечно далеки от реальной жизни.The existence of secure steganography is equivalent to the existence of one-way functions.
тут