Statistical models for image steganograhy

Jan Butora

Résumé

The steganographic field is nowadays dominated by heuristic approaches for data hiding. While there exist a few model-based steganographic algorithms designed to minimize statistical detectability of the underlying model, many more algorithms based on costs of changing a specific pixel or a DCT coefficient have been over the last decade introduced. These costs are purely heuristic, as they are designed with feedback from detectors implemented as machine learning classifiers. For this reason, there is no apparent relation to statistical detectability, even though in practice they provide comparable security to model-based algorithms. Clearly, the security of such algorithms stands only on the assumption, that the detector used to assess the security, is the best one possible. Such assumption is of course completely unrealistic. Similarly, steganalysis is mainly implemented with empirical machine learning detectors, which use hand-crafted features computed from images or as deep learning detectors - convolutional neural networks. The biggest drawback of this approach is that the steganalyst, even though having a very good detection power, has very little to no knowledge about what part of the image or the embedding algorithm contributes to the detection, because the detector is used as a black box. In this dissertation, we will try to leave the heuristics behind and go towards statistical models. First, we introduce statistical models for current heuristic algorithms, which helps us understand and predict their security trends. Furthemore this allows us to improve the security of such algorithms. Next, we focus on steganalysis exploiting universal properties of JPEG images. Under certain realistic conditions, this leads to a very powerful attack against any steganography, because embedding even a very small secret message breaks the statistical model. Lastly, we show how we can improve security of JPEG compressed images through additional compression.

Le domaine de la stéganographie est aujourd'hui dominé par des approches heuristiques pour la dissimulation de données. Bien qu'il existe quelques algorithmes stéganographiques basés sur des modèles et conçus pour minimiser la détectabilité statistique du modèle sous-jacent, de nombreux autres algorithmes basés sur les coûts de modification d'un pixel spécifique ou d'un du modèle sous-jacent, de nombreux autres algorithmes basés sur les coûts de modification d'un pixel spécifique ou d'un coefficient DCT ont été introduits au cours de la dernière décennie. Ces coûts sont purement heuristiques, car ils sont conçus à partir des informations fournies par les détecteurs mis en œuvre sous la forme de classificateurs d'apprentissage automatique. Pour cette raison, il n'y a pas de relation apparente avec la détectabilité statistique, même si, dans la pratique, ils fournissent une sécurité comparable à celle des algorithmes basés sur des modèles. Il est clair que la sécurité de ces algorithmes ne repose que sur l'hypothèse où le détecteur utilisé pour évaluer la sécurité est le meilleur possible. Cette hypothèse est bien sûr totalement irréaliste. De même, la stéganalyse est principalement mise en œuvre avec des détecteurs empiriques d'apprentissage automatique, qui utilisent caractéristiques calculées à la main à partir d'images ou des détecteurs d'apprentissage profond - réseaux neuronaux convolutionnels. Le principal inconvénient de cette approche est que le stéganalyseur, même s'il dispose d'un très bon pouvoir de détection, n'a que très peu, voire aucune connaissance de la partie de l'image ou de l'algorithme d'incorporation contribue à la détection, car le détecteur est utilisé comme une boîte noire. Dans cette thèse, nous essaierons d'abandonner l'heuristique et de nous orienter vers des modèles statistiques. Tout d'abord, nous introduisons des modèles statistiques pour les algorithmes heuristiques actuels, ce qui nous aide à comprendre et à prédire leurs tendances en matière de sécurité. En outre, cela nous permet d'améliorer la sécurité de ces algorithmes. Ensuite, nous nous concentrons sur la stéganalyse en exploitant les propriétés universelles des images JPEG. Dans certaines conditions réalistes, cela conduit à une attaque très puissante contre toute stéganographie, parce que l'intégration d'un message secret, même très petit, brise le modèle statistique. Enfin, nous montrons comment nous pouvons améliorer la sécurité des images compressées JPEG grâce à une compression supplémentaire.

Statistical models for image steganograhy

Modèles statistiques pour la stéganographie d'images

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager