Library
|
Your profile |
Cybernetics and programming
Reference:
Bashmakov D.A.
Adaptive Prediction of Pixels in Gradient Areas to Raise Steganalysis Accuracy of Static Digital Images
// Cybernetics and programming.
2018. № 2.
P. 83-93.
DOI: 10.25136/2644-5522.2018.2.25514 URL: https://en.nbpublish.com/library_read_article.php?id=25514
Adaptive Prediction of Pixels in Gradient Areas to Raise Steganalysis Accuracy of Static Digital Images
DOI: 10.25136/2644-5522.2018.2.25514Received: 21-02-2018Published: 23-04-2018Abstract: In his research Bashmakov analyzes accuracy of background area selection in static digital images by using the histogram method as part of steganalysis performed by Weighted Stego Image and WSPAM methods. He examines the dependence of practical accuracy of steganalysis of static digital images by using Weighted Stego Image and WSPAM methods on the kind of prediction model in gradient regions of an image as part of resistance to data transmission channels that use the method of embedding the least significant bit of spatial domain in static digital images with a significant part of homogeneous background. The author analyzes the Weighted Stego steganalysis algorithm and WSPAM modification thereof. To evaluate the analysis efficiency, the author has used the BOWS2 collection. To evaluate efficiency of homogenous background selection, the author has used images selected from a wide range of sources. The information is built in by changing the least significant bits of images in spatial domain with an actual load from 3-5%. Efficiency of methods is defined based on true-positive, true-negative, false-positive and false-negative values of image classification. The author demonstrates the low accuracy of homogenous background selection using the histogram method. The author suggests to select homogenous background using the segmentation neural net and proves its efficiency. He also offers an improved model of pixel prediction in image gradient areas, this model allowing to achieve the highest accuracy of steganalysis. The results of the research can be used to create systems of passive resistance to steganographic data transmission channels that are based on the Weighted Stego algorithm. Keywords: steganography, steganalysis, binary classification, least significant bit, passive resistance, statistical steganalysis, image spatial domain, steganalysis method accuracy, steganographic embedding, steganalytic algorithmВведение В современном мире стеганография широко применяется как спецслужбами различных стран, так и криминальными элементами. Широкие возможности по организации скрытого канала передачи информации без привлечения внимания открывают возможности использования методов стеганографического встраивания для организации террористических актов и совершения иных противоправных действий. Статистический стеганоанализ применяется для пассивного противодействия организации каналов скрытной передачи информации. Алгоритмы статистического стеганоанализа разработаны для всех основных контейнеров, методов встраивания и способов организации канала передачи информации [1, 2]. Неподвижные цифровые изображения, составляя значительную часть траффика в сети Интернет, являются распространённым типом контейнера для стеганографического встраивания. Встраивание в наименьший значащий бит (Least significant bit, LSB) пикселей пространственного домена изображения является одним из наиболее простых и доступных способов стеганографического встраивания. Реализация алгоритма встраивания, основанного на задействовании LSB не требует больших вычислительных мощностей и реализации сложных алгоритмов. Таким образом, противодействие стеганографическому каналу на основе встраивания в LSB является актуальной задачей [3]. Исследования показывают, что факт встраивания на малых значениях полезной нагрузки трудно детектируется современными алгоритмами. При значениях полезной нагрузки от 1 до 5% точность многих алгоритмов статистического стеганоанализа немногим лучше угадывания [4]. Алгоритм стеганоанализа Weighted Stego Image (WS) показывает наилучшие результаты в задаче детектирования факта стеганографического встраивания в LSB. Тем не менее, на малых значениях полезной нагрузки точность алгоритма недостаточна для эффективного противодействия каналу скрытной передачи информации, основанному на встраивании в LSB [5]. Таким образом, алгоритм нуждается в дальнейшем усовершенствовании. В работе [6] предложен метод улучшения точности детектирования встраивания в LSB неподвижного изображения алгоритмом WS с учётом особенностей предсказания пикселей в фоновых областях цифровых фотографий (алгоритм WSPAM). Возможность применения предложенного усовершенствования опирается на возможность выделения фоновых областей изображения. В статье описан гистограммный метод выделения фоновых областей, дающий приемлемый результат. Тем не менее, его точность не анализировалась авторами исследования. Также работа не затрагивает возможностей выделения более высокоуровневых структур в фоновых областях изображения, таких, как градиентные области. Такие области широко встречаются в фоновых областях фотографий естественных объектов. Поскольку градиенты нельзя в полной мере отнести к однородному фону изображения, метод предсказания, предложенный в [6] может быть менее эффективен в таких областях. Требуется дальнейшее исследование в вопросе выделения фоновых областей и способов предсказания пикселей в градиентных областях. Цель работы В работе проводится оценка эффективности выделения однородного фона неподвижных цифровых изображений и эффективности предсказания алгоритмом WSPAM пикселей в градиентных областях изображения. Приводятся и обосновываются методы увеличения эффективности выделения однородного фона и предсказания в градиентных областях. Оценивается практическая точность стеганоанализа алгоритмом AWSPAM с учётом предложенных усовершенствований. Методика проведения экспериментов Улучшенный метод выделения фоновых областей подразумевает использование сегментационной нейронной сети. Для её функционирования в рамках эксперимента исходное множество тестовых изображений первоначально подразделяется на обучающую и тестовую выборку. Для обучающей выборки проводится ручное определение доли однородного фона, с помощью гистограммного метода и ручной доработки. Тестовая выборка используется для оценки точности выделения фоновых областей. Множество стеганоизображений формируется из тестовой выборки путём имитации стеганографического встраивания в LSB пикселей пространственного домена изображений с заданным значением полезной нагрузки. Таким образом формируется множество стеганоизображений (S) и множество чистых изображений (C). Для оценки повышения точности стеганоанализа за счёт усовершенствованной модели предсказания в градиентах из множеств S и C выделяются подмножества HB (High Background), содержащие более 40% однородного фона. В дальнейшем для оценки эффективности используются подмножества HB. Остальные изображения устраняются из тестового множества. Подмножества HB чистых и модифицированных изображений анализируются алгоритмом WSPAM и модифицированным алгоритмом. Результаты используются для вычисления изменения точности стеганоанализа после применённых усовершенствований. Условия проведения экспериментов Для формирования исходного множества тестовых изображений используется коллекция изображений BOWS2, обладающая хорошими характеристиками для проведения показательных тестов точности алгоритмов статистического стеганоанализа [7]. Для оценки точности выделения однородного фона на различных по внутренней семантике изображениях, применяется также выборка изображений, не принадлежащих BOWS2. Изображения набраны из различных источников сети Интернет, для достижения максимального разнообразия обучающего материала. Для проведения экспериментов были выбраны следующие коллекции изображений: · Коллекция 1 – 50000 изображений, разрешение от 1200х800 до 2100х1800 · Коллекция 2 – 1000 изображений, разрешение 2400х2400 · Коллекция 3 – 1200 изображений, разрешение от 200х700 до 4000х5600 Моделирование стеганографического встраивания в цветных изображениях производится раздельно по каждой цветовой плоскости. Результаты, полученные для трёх цветовых плоскостей, усредняются перед дальнейшим использованием. В изображениях, изначально представленных в оттенках серого, используется единственная доступная цветовая плоскость. Способ оценки точности методов стеганоанализа Алгоритм статистического стеганоанализа WS и его модификации, рассматриваемые в статье, в качестве результата работы имеет оценку длины встроенного в LSB пикселей сообщения. При построении систем детектирования факта стеганографического встраивания к результату работы алгоритма применяется бинарная классификация. Из превышения оцененной длинны сообщения определённого порога делается вывод о наличии либо отсутствии факта стеганографического встраивания в сообщение. Идеальный классификатор всегда определяет оригинальные изображения как чистые (True Negative, TN) и модифицированные – как стеганограммы (True Positive, TP). В реальных условиях классификатор может допускать ошибки, классифицируя оригинальные изображения как стеганограммы (False Positive, FP) и модифицированные изображения как чистые (False Negative, FN). Распределение доли классификации по классам зависит от корректности оценки длины сообщения алгоритмом. В качестве оценки точности стеганоанализа используется процент некорректной классификации при заданном проценте корректной классификации. Метод улучшения эффективности выделения однородного фона Гистограммный метод выделения однородного фона, предложенный в [6] даёт приемлемую точность определения фоновых областей, однако, его точность не оценивалась. Оценка точности выделения фона гистограммным методом проведена следующим образом: на выборке 100 тестовых изображений коллекции BOWS2 проведено выделение фона гистограммным методом, после чего выделение фона каждого изображения доведено до корректного вручную. Точность выделения фона оценена следующим образом: где – количество пикселей, корректно классифицированных как фоновые, – количество нефоновых пикселей, ошибочно классифицированных как фон, – количество фоновых пикселей, ошибочно классифицированных как нефоновые. Для тестовой выборки изображений BOWS2 точность выделения фона составила 73%. Таким образом, значительное количество пикселей предсказываются с использованием некорректной модели предсказания, что влияет на точность стеганоанализа. Наглядно показать ошибки выделения фона можно, графически выделив пиксели, классифицированные как фон гистограммным методом. На рис. 1а представлено изображение коллекции BOWS2, на рис. 1б представлено оно же, с выделенными классифицированными фоновыми пикселями. Рисунки показывают, что значительное количество фоновых пикселей не классифицированы как фон. Также, некоторые нефоновые области классифицированы как фоновые. Рис. 1 – Выделение фона гистограммным методом Более того, даже в областях, уверенно классифицируемых как фон, многие пиксели в действительности не попадают в фоновое множество. На рис. 2 показана граница областей уверенной корректной и уверенной некорректной классификации на изображении с рис. 1. Видно, что в области корректной классификации множество пикселей на самом деле будут предсказаны по оригинальной модели алгоритма WS, увеличивая долю ложной положительной классификации. Рис. 2 – Некорректная классификация фоновой области гистограммным методом В качестве альтернативного метода выделения фоновых областей предлагается использовать сегментационную нейронную сеть, описанную в [8]. Сегментационные нейронные сети применяются для выделения объектов из определённого множества на изображениях. Проблема обучения сети на конкретном множестве объектов классификации имеет место, однако, фоновая область – достаточно универсальный объект, который может быть классифицирован на изображениях различной внутренней семантики [9]. Для проверки этого утверждения проведён следующий эксперимент. Сеть, обученная на BOWS2 применена к выделению фона на фотографиях студийной съёмки людей на однородном фоне. Корректность выделения фона оценена субъективно на выборке 500 изображений. Далее проведён обратный эксперимент – сеть обучалась на студийной выборке и классифицировала изображения из BOWS2. Результаты для обоих экспериментов усреднены. Далее, обучающая выборка была набрана из того множества, из которого в первый раз набиралась тестовая, и наоборот. Результаты для обоих опытов усреднены. Итоговый результат: корректность классификации составляет 92%. Наглядно точность классификации на том же примере изображения, приведённом на рис. 1, показан на рис. 3. Чёрным выделены нефоновые области. Серым – фоновые области. Рис. 3 – Классификация фоновых областей сегментационной сетью Выделение фоновых областей сегментационной сетью может применяться в качестве части улучшенного алгоритма WSPAM. Улучшенная модель предсказания в градиентных областях Градиентные области широко встречаются в фоновых областях и по большей части лежат на границах крупных областей правильной и неправильной классификации гистограммным методом. В приведённом примере доля градиентных областей из всех фоновых составляет около 7%. В среднем в BOWS2 эта доля составляет 6-20%. Точность стеганоанализа алгоритмами WS и WSPAM напрямую опирается на точность предсказания пикселей. Если в общем случае алгоритму неизвестно распределение значений пикселей в изображении, то градиентная область – напротив, область с системным изменением значений пикселей, которое можно использовать для улучшения предсказания. Модель классификации градиентов строится из представления о том, как её впоследствии можно использовать. Под градиентом понимается фрагмент фона изображения с выраженным и постоянным изменением яркости пикселей определённого цветового слоя в постоянном направлении. Таким образом, для цветных изображений градиенты следует рассчитывать для каждого слоя в отдельности. Градиентные области, которые для человеческого глаза выглядят едиными, для модели предсказания оказываются неоднородными, поскольку направление градиента различное в разных частях области. За направление градиента примем направление любого из соседних пикселей данного. Таким образом, получим 8 направлений, обозначенных U, D, L, R, UL, UR, DL, DR (Up, Down, Up-Right и так далее). Для выделения градиентов на изображении рассмотрим каждый пиксель области, ранее классифицированной как фоновая. Выделим градиентные области по следующему правилу: пиксель считается принадлежащим градиентной области направления D, если для любых P его соседей в данном направлении разница между двумя соседними пикселями не отличается от среднеквадратичного её значения на всём рассматриваемом наборе более, чем в k раз, и для N его соседей в направлениях, перпендикулярных данному, для данного направления выполняется то же условие. Таким образом, принадлежность пикселя a c множеством перпендикулярных соседей размером N множеству пикселей градиентных областей изображения определяется условием: P соседей пикселя в выбранном направлении обозначим как его градиентный кортеж. За силу градиента примем среднеквадратичное значение величины изменения значения пикселя по сравнению с предыдущим для его градиентного кортежа. Если по условию пиксель принадлежит нескольким градиентам, выбирается тот, для которого N больше. Введение условия соседства по N позволяет выделить системные, обширные градиенты и не ухудшать характеристики модели предсказания случайными совпадениями в распределении яркости фоновых пикселей. Результат работы алгоритма выделения – множество, с указанием для каждого силы и направления градиента, а также связи пиксель – градиентный кортеж. Предсказание значения пикселя, принадлежащего кортежу, производится подбором значения, наименьшим образом меняющего силу кортежа. Таким образом, для данного кортежа K длиной P предсказанное значение пикселя должно удовлетворять условию: U – множество целых значений пикселей, из которого ведётся подбор данного. Множество значений определяется как среднее значение пикселей, окружающих данный предсказываемый пиксель определённое значение допуска R. Допуск подбирается эмпирически. Множество выбора U вводится для облегчения задачи предсказания пикселя за счёт уменьшения области определения функции предсказания. Подобное допустимо за счёт предположения, что значения яркости пикселей в фоновой области не меняется по отношению к соседним на значительную величину, что позволяет ограничить R малым числом. В условиях стеганографического встраивания с малой полезной нагрузкой метод предсказания работает за счёт того же эффекта, что и предсказание по матрице соседства пикселей: изменение отдельных значений в объёмных градиентах не позволяет размыть статистику по градиенту настолько, чтобы средняя ошибка предсказания увеличилась более, чем на единицу, что позволит алгоритму анализа сделать вывод о наличии стеганографического встраивания в LSB пикселей. Несмотря на то, что модель позволяет предсказывать пиксели, использовать её в отрыве от предсказания по матрицам соседства пикселей нерационально, так как последняя хорошо справляется в фоновых областях в целом. Предсказание по матрице соседства пикселей хорошо работает для градиентов доминирующего направления в данном изображении (несложно показать, что в идеальном градиенте предсказание по матрице соседства пикселей будет давать идеальную точность). Тем не менее, когда направления градиентов значительно изменяются по изображению и нельзя выделить единое доминирующее направление, предсказание по матрице соседства в градиентах становится менее точным, чем предсказание по кортежам. Для предсказания можно использовать взвешенное среднее предсказаний по матрице соседства пикселей и по кортежам, формула итогового предсказания пикселя выглядит следующим образом: где – значение, предсказанное по матрице, – значение, предсказанное по градиентному кортежу, – экспериментально подбираемый вес, . Таким образом, итоговый набор параметров анализатора следующий: Результаты исследования График на рис. 4 показывает распределение вероятности ошибки предсказания значения пикселя только в градиентных областях для предсказания методом матриц соседства пикселей и методом градиентных кортежей. Метод предсказания по соседним пикселям, предложенный авторами оригинального WS не рассматривается для предсказания в фоновых областях. Следующие значения параметров анализатора были подобраны эмпирически: Данные получены при анализе 1000 изображений BOWS2 (только подвыборка HB), фон выделен с помощью сегментационной НС. Имитировано случайно-рассеянное LSB встраивание мощностью 3%. Данные представлены на отрезке [0; 1]. Среднее значение ошибки для метода матриц составляет 0,49. Среднее значение для метода кортежей составляет 0,24. Видно, что алгоритм градиентных кортежей позволяет значительно (около 2 раз) снизить пиковую ошибку. Если в случае с предсказанием по матрице соседства пикселей средняя ошибка предсказания балансирует в районе 0.5, что даёт достаточно высокую вероятность округления в сторону 1, то для градиентных кортежей доля вероятности ошибки более 0,5 достаточно мала (не более 10%). Рис. 4 – Распределение вероятности ошибки предсказания пикселя в градиентной области Таблица 1 содержит значение , где – точность стеганоанализа улучшенного алгоритма (с учётом доработок предыдущей статьи), – точность стеганоанализа алгоритма AWS, предложенного в предыдущей статье. Рассматривается выборка HB (доля однородного фона более 40%). Классификация фоновой области произведена сегментационной нейронной сетью, обученной на выборке 10000 естественных цифровых изображений. Тест проводился на выборке 10000 изображений BOWS2 и других коллекций. Тестовая и обучающая выборка не пересекаются. Встраивание – случайно рассеянное.
Таблица 1 – Увеличение точности стеганоанализа за счёт классификации фона и предсказания в градиентах Таблица 2 показывает увеличение точности итогового алгоритма со всеми предложенными улучшениями по сравнению с оригинальным алгоритмом, предложенным авторами WS в [].
Таблица 2 – Увеличение точности стеганоанализа за счёт всех предложенных усовершенствований Обсуждение результатов Алгоритм WSPAM, предложенный в [6], обладает повышенной точностью классификации по сравнению с оригинальным WS, однако прирост точности сильно зависит от корректности классификации фоновых областей. На изображениях, где фоновая область размыта и не выделяется полностью корректно, точность анализа может падать за счёт применения неадекватной модели предсказания к пикселям как фоновой, так и не фоновой областей. Также в фоновых областях встречаются области постоянной семантики, такие, как градиенты. Игнорирование особенностей распределения пикселей в градиентах не позволяет предсказывать пиксели с максимальной точностью. Результаты практической оценки точности стеганоанализа улучшенным алгоритмом WSPAM показывают повышение точности анализа за счёт более корректной классификации фоновых областей и улучшенной модели предсказания в градиентах. Предложенная модель классификации делает алгоритм более эффективным при анализе изображений с большой долей фоновых областей. Заключение В работе проведено исследование корректности выделения фоновых областей гистограммным методом, доказана низкая эффективность гистограммного метода в задаче выделения фоновых областей. Предложен альтернативный метод выделения фоновых областей, позволивший повысить точность классификации фона с 73% до 92% на тестовой выборке. Предложена улучшенная модель классификации в градиентных областях, а также способ выделения градиентных областей в фоновых областях изображения. Применение улучшенной классификации совместно с более эффективным выделением фоновых областей позволяет улучшить точность стеганоанализа алгоритмом WS до 10% по сравнению с модификацией WSPAM, предложенной в [6], и до 30% по сравнению с оригинальным алгоритмом, предложенным в [10]. Улучшенный алгоритм может быть применён для построения систем пассивного противодействия стеганографическим каналам передачи информации. Успешное задействование особенностей распределения пикселей в градиентных областях для улучшения предсказания пикселей в фоновых областях открывает возможности для исследования и нахождения других подобных областей со специфическими внутренними закономерностями распределения пикселей. References
1. Gribunin V.G., Okov I.N., Turintsev I.V. Tsifrovaya steganografiya. M.:Solon-Press. 2016. 262 s.
2. Steganography: A Powerful Tool for Terrorists and Corporate Spies // Stratfor [Elektronnyi resurs]. Rezhim dostupa: https://www.stratfor.com/analysis/steganography-powerful-tool-terrorists-and-corporate-spies, svobodnyi. Yaz. angl. (data obrashcheniya 22.08.2017). 3. Gayathri C., Kalpana V. Study on image steganography techniques // International Journal of Engineering and Technology (IJET). 2013. V. 5. P. 572–577. 4. Prokhozhev N.N., Mikhailichenko O.V., Bashmakov D.A., Sivachev A.V., Korobeinikov A.G. Issledovanie effektivnosti primeneniya statisticheskikh algoritmov kolichestvennogo steganoanaliza v zadache detektirovaniya skrytykh kanalov peredachi informatsii // Programmnye sistemy i vychislitel'nye metody. 2015. № 3. S. 281–292. doi: 10.7256/2305-6061.2015.3.17233 5. Prokhozhev N., Mikhailichenko O., Sivachev A., Bashmakov D., Korobeynikov A.G. Passive Steganalysis Evaluation: Reliabilities of Modern Quantitative Steganalysis Algorithms // Advances in Intelligent Systems and Computing. 2016. V. 451. R. 89–94. doi:10.1007/978-3-319-33816-3_9 6. Bashmakov D.A., Prokhozhev N.N., Mikhailichenko O.V., Sivachev A.V. Primenenie matrits sosedstva pikselei dlya uluchsheniya tochnosti steganoanaliza nepodvizhnykh tsifrovykh izobrazhenii s odnorodnym fonom // Kibernetika i programmirovanie. — 0.-№ 0.-S.0-0. DOI: 10.25136/2306-4196.0.0.24919. URL: http://e-notabene.ru/kp/article_24919.html (Stat'ya ozhidaet publikatsii) 7. BOWS2 the 10 000 original images [Elektronnyi resurs]. Rezhim dostupa: http://bows2.ec-lille.fr/, svobodnyi. Yaz. angl. (data obrashcheniya 12.04.2017). 8. J. Long, E. Shelhamer and T. Darrell, "Fully convolutional networks for semantic segmentation," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 3431-3440. doi: 10.1109/CVPR.2015.7298965 9. Hongyuan Zhu, Fanman Meng, Jianfei Cai, Shijian Lu, Beyond pixels: A comprehensive survey from bottom-up to semantic image segmentation and cosegmentation, Journal of Visual Communication and Image Representation, Volume 34, 2016, Pages 12-27, ISSN 1047-3203, https://doi.org/10.1016/j.jvcir.2015.10.012 10. Ker, Andrew. (2007). A Weighted Stego Image Detector for Sequential LSB Replacement. Proceedings-IAS 2007 3rd Internationl Symposium on Information Assurance and Security. 453-456. 10.1109/IAS.2007.71. |