Modèle de mélange gaussien

Un modèle de mélange gaussien (désigné couramment par l'acronyme anglais GMM pour Gaussian Mixture Model) est un modèle statistique exprimé selon une densité mélange. Il sert d'habitude à estimer de façon paramétrique la distribution de variables aléatoires en les modélisant comme somme de plusieurs gaussiennes, appelées noyaux. Il s'agit alors de déterminer la variance, la moyenne et l'amplitude de chaque gaussienne. Ces paramètres sont optimisés selon le critère de maximum de vraisemblance afin d'approcher le plus possible la distribution recherchée. Cette optimisation est souvent effectuée en utilisant la procédure itérative appelée espérance-maximisation (EM).

Les modèles de mélange gaussien permettent de reconstruire de manière efficace les données manquantes dans un jeu de données expérimentales.

Deux gaussiennes forment une distribution bimodale


Utilisation en classification automatique

Dans les modèles de mélanges, fréquemment utilisés en classification automatique, on considère qu'un échantillon de données suit, non pas une loi de probabilité usuelle, mais une loi dont la fonction de densité est une densité mélange.

Bien que n'importe quelle loi puisse être utilisée, la plus courante est la loi normale dont la fonction de densité est une gaussienne. On parle alors de mélange gaussien.

Le problème classique de la classification automatique est de considérer qu'un échantillon de données provienne d'un nombre de groupes inconnus a priori qu'il faut retrouver. Si en plus, on considère que les lois que suivent les individus sont normales, alors on se place dans le cadre des modèles de mélanges gaussiens.

Par la suite, on notera x {\displaystyle \mathbf {x} \,} un échantillon composé de p individus ( x 1 , , x p ) {\displaystyle \left({\boldsymbol {x}}_{1},\dots ,{\boldsymbol {x}}_{p}\right)} appartenant à R p {\displaystyle \mathbb {R} ^{p}} (i.e. caractérisés par p variables continues). Dans le cadre des modèles de mélanges, on considère que ces individus appartiennent chacun à un des g (g étant fixé a priori) G 1 , , G g {\displaystyle G_{1},\dots ,G_{g}} suivant chacun une loi normale de moyenne μ k {\displaystyle {\boldsymbol {\mu }}_{k}\,} ( k = 1 , , g ) {\displaystyle \left(k=1,\dots ,g\right)} et de matrice de variance-covariance Σ k {\displaystyle {\boldsymbol {\Sigma }}_{k}\,} . D'autre part, en notant π 1 , , π g {\displaystyle \pi _{1},\dots ,\pi _{g}} les proportions des différents groupes, θ k = ( μ k , Σ k ) {\displaystyle {\boldsymbol {\theta }}_{k}=\left({\boldsymbol {\mu _{k}}},{\boldsymbol {\Sigma _{k}}}\right)} le paramètre de chaque loi normale et Φ = ( π 1 , , π g , θ 1 , , θ g ) {\displaystyle {\boldsymbol {\Phi }}=\left(\pi _{1},\dots ,\pi _{g},{\boldsymbol {\theta }}_{1},\dots ,{\boldsymbol {\theta }}_{g}\right)} le paramètre global du mélange, la loi mélange que suit l'échantillon peut s'écrire

g ( x , Φ ) = k = 1 g π k f ( x , θ k ) , {\displaystyle g({\boldsymbol {x}},{\boldsymbol {\Phi }})=\sum _{k=1}^{g}\pi _{k}f({\boldsymbol {x}},{\boldsymbol {\theta }}_{k}),}

avec f ( x , θ k ) {\displaystyle f({\boldsymbol {x}},{\boldsymbol {\theta }}_{k})\,} la loi normale multidimensionnelle paramétrée par θ k {\displaystyle {\boldsymbol {\theta }}_{k}\,} .

La densité g ( x , Φ ) {\displaystyle g({\boldsymbol {x}},{\boldsymbol {\Phi }})} ci-dessus correspond bien à un mélange de gaussiennes (i.e. un mélanges de plusieurs lois normales), car:

g ( x , Φ ) = k = 1 g π k f ( x , θ k ) = k = 1 g P ( θ k ) P ( x | θ k ) = k = 1 g P ( x , θ k ) = P ( k = 1 g { ( x , θ k ) } ) = P ( k = 1 g { ( X = x , θ = θ k ) } ) {\displaystyle {\begin{aligned}g({\boldsymbol {x}},{\boldsymbol {\Phi }})&=\sum _{k=1}^{g}\pi _{k}f({\boldsymbol {x}},{\boldsymbol {\theta }}_{k})\\&=\sum _{k=1}^{g}\mathbb {P} ({\boldsymbol {\theta }}_{k})\mathbb {P} ({\boldsymbol {x}}|{\boldsymbol {\theta }}_{k})\\&=\sum _{k=1}^{g}\mathbb {P} ({\boldsymbol {x}},{\boldsymbol {\theta }}_{k})\\&=\mathbb {P} \left(\bigcup _{k=1}^{g}\{({\boldsymbol {x}},{\boldsymbol {\theta }}_{k})\}\right)\\&=\mathbb {P} \left(\bigcup _{k=1}^{g}\{({\boldsymbol {X}}={\boldsymbol {x}},{\boldsymbol {\theta }}={\boldsymbol {\theta }}_{k})\}\right)\end{aligned}}}

X {\displaystyle {\boldsymbol {X}}} est un vecteur gaussien de dimension p {\displaystyle p} et de paramètre θ {\displaystyle {\boldsymbol {\theta }}} .

La principale difficulté de cette approche consiste à déterminer le meilleur paramètre Φ {\displaystyle {\boldsymbol {\Phi }}} . Pour cela, on cherche habituellement le paramètre qui maximise la vraisemblance, donnée dans ce cas, par

L ( x ; Φ ) = i = 1 p log ( k = 1 g π k f ( x i , θ k ) ) . {\displaystyle L\left(\mathbf {x} ;{\boldsymbol {\Phi }}\right)=\sum _{i=1}^{p}\log \left(\sum _{k=1}^{g}\pi _{k}f({\boldsymbol {x}}_{i},{\boldsymbol {\theta }}_{k})\right).}

L'estimation des paramètres peut être effectuée au moyen de l'algorithme EM.

Une fois l'estimation effectuée, il s'agit d'attribuer à chaque individu la classe à laquelle il appartient le plus probablement. Pour cela, on utilise la règle d'inversion de Bayes. D'après celle-ci, on a

P ( x G k | x ) = P ( x | x G k ) P ( x G k ) P ( x ) , {\displaystyle \mathbb {P} \left({\boldsymbol {x}}\in G_{k}\right|{\boldsymbol {x}})={\frac {\mathbb {P} \left({\boldsymbol {x}}|{\boldsymbol {x}}\in G_{k}\right)\cdot \mathbb {P} \left({\boldsymbol {x}}\in G_{k}\right)}{\mathbb {P} (x)}},}

ce qui se traduit, dans notre cas, par

P ( x i G k ) = π k f ( x i , θ k ) = 1 g π f ( x i , θ ) . {\displaystyle \mathbb {P} \left({\boldsymbol {x}}_{i}\in G_{k}\right)={\frac {\pi _{k}f\left({\boldsymbol {x}}_{i},{\boldsymbol {\theta }}_{k}\right)}{\sum _{\ell =1}^{g}\pi _{\ell }f\left({\boldsymbol {x}}_{i},{\boldsymbol {\theta }}_{\ell }\right)}}.}

Il suffit alors d'attribuer chaque individu x i {\displaystyle {\boldsymbol {x}}_{i}} à la classe pour laquelle la probabilité a posteriori P ( x i G k ) {\displaystyle \mathbb {P} \left({\boldsymbol {x}}_{i}\in G_{k}\right)} est la plus grande.

Modèles parcimonieux

Un problème rencontré lors de la mise en œuvre des modèles de mélange concerne la taille du vecteur de paramètres à estimer. Dans le cas d'un mélange gaussien de g composantes de dimension p le paramètre est de dimension ( g × ( 1 + p + p 2 ) ) 1 {\displaystyle (g\times (1+p+p^{2}))-1} . La quantité de données nécessaire à une estimation fiable peut alors être trop importante par rapport au coût de leur recueil.

Une solution couramment employée est de déterminer, parmi toutes les variables disponibles, celles qui apportent le plus d'information à l'analyse et d'éliminer celles qui ne présentent que peu d'intérêt. Cette technique, très employée dans des problèmes de discrimination l'est moins dans les problèmes de classification.

Une méthode alternative consiste à considérer des modèles dits parcimonieux dans lesquels on contraint le modèle initial de manière à n'estimer qu'un nombre plus restreint de paramètres. Dans le cas gaussien, la paramétrisation synthétique des lois de probabilités grâce à deux ensembles μ k {\displaystyle {\boldsymbol {\mu }}_{k}} et Σ k {\displaystyle {\boldsymbol {\Sigma }}_{k}} de paramètres permet des ajouts de contraintes relativement simples. Le plus souvent, ces contraintes ont une signification géométrique en termes de volumes, d'orientation et de forme.

En notant B k {\displaystyle B_{k}} la matrice des valeurs propres de Σ k {\displaystyle {\boldsymbol {\Sigma }}_{k}} et D k {\displaystyle D_{k}} la matrice de ses vecteurs propres, on peut noter

Σ k = D k B k D k 1 . {\displaystyle {\boldsymbol {\Sigma }}_{k}=D_{k}B_{k}D_{k}^{-1}.}

D'autre part, B k {\displaystyle B_{k}} peut également être décomposée en B k = λ k A k {\displaystyle B_{k}=\lambda _{k}A_{k}} λ k {\displaystyle \lambda _{k}} est un réel et A k {\displaystyle A_{k}} une matrice dont le déterminant vaut 1. En utilisant ces notations, on peut considérer que λ k {\displaystyle \lambda _{k}} représente le volume de la classe, la matrice A k {\displaystyle A_{k}} représente sa forme et D k {\displaystyle D_{k}} son orientation.

Il est alors possible d'ajouter des hypothèses sur formes, des volumes ou les orientations des classes :

  • Formes quelconques : en fixant des contraintes d'égalité entre les A k {\displaystyle A_{k}} , les D k {\displaystyle D_{k}} ou les λ k {\displaystyle \lambda _{k}} , on peut générer 8 modèles différents. On peut par exemple considérer des volumes et des formes identiques mais orientées différemment, ou encore des formes et orientations identiques avec des volumes différents, etc.
  • Formes diagonales : en considérant que les matrices D k {\displaystyle D_{k}} sont diagonales, on oblige les classes à être alignées sur les axes. Il s'agit en fait de l'hypothèse d'indépendance conditionnelle dans laquelle les variables sont indépendantes entre elles à l'intérieur d'une même classe.
  • Formes sphériques : en fixant A k = I {\displaystyle A_{k}=I} , on se place dans le cas où les classes sont de formes sphériques, c’est-à-dire que les variances de toutes les variables sont égales à l'intérieur d'une même classe.

Propriétés

Une combinaison linéaire de m {\displaystyle m} mélanges gaussiens indépendants i = 1 m α i X i {\displaystyle \sum _{i=1}^{m}{\boldsymbol {\alpha }}_{i}{X}_{i}} est un mélange gaussien de proportions i = 1 m π i {\displaystyle \bigotimes _{i=1}^{m}{{\boldsymbol {\pi }}_{i}}} (produit de Kronecker) où les π i {\displaystyle {\boldsymbol {\pi }}_{i}} sont les proportions des mélanges impliqués, de moyenne i = 1 m α i μ i {\displaystyle \bigoplus _{i=1}^{m}\alpha _{i}{\boldsymbol {\mu }}_{i}} .

Le nombre de composantes du mélange résultant est alors au moins égal au nombre maximum de composantes des mélanges de la combinaison linéaire max i ( g i ) {\displaystyle \max _{i}(g_{i})} et strictement plus grand si au moins deux des mélanges impliqués (avec des coefficients non nuls) ont au moins deux composantes distinctes (de proportions non nulles)

Notes et références

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Voir aussi

Articles connexes

Liens externes

  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l’informatique