1. Les méthodes multifactorielles d'Analyse des Données
Les méthodes multifactorielles permettent d'obtenir des représentations graphiques qui constituent le meilleur résumé possible de l'information contenue dans un grand tableau de données. Pour cela, il faut consentir à une perte d'information afin de gagner en lisibilité. En fonction des phénomènes que l'on veut étudier et de la nature du tableau de données dont on dispose, on appliquera telle ou telle méthode multifactorielle. En effet, il n'existe pas une méthode factorielle d'analyse des données, mais un ensemble de méthodes, reposant toutes sur les mêmes théories mathématiques. Ainsi, on trouvera les principales méthodes suivantes :
2. Présentation générale de l'ACP
Dans la plupart des situations, on dispose de plusieurs observations sur chaque individu constituant la population d'étude. On a donc à prendre en compte p variables par individu, p étant strictement supérieur à 1. L'étude séparée de chacune de ces variables donne quelques informations mais est insuffisante car elle laisse de côté les liaisons entre elles, ce qui est pourtant souvent ce que l'on veut étudier.
C'est le rôle de la statistique multifactorielle que d'analyser les données dans leur ensemble, en prenant en compte toutes les variables.
L'Analyse en Composantes Principales est alors une bonne méthode pour étudier les données multidimensionnelles, lorsque toutes les variables observées sont de type numérique, de préférence dans les mêmes unités, et que l'on veut voir si il y a des liens entre ces variables.
Dans la littérature, on trouve deux approches différentes de l'ACP :
3. Formulation mathématique de l'ACP
On part d'un tableau de données rectangulaire, représentant toutes les données, en plaçant en ligne les individus et en colonnes les variables. Soit X ce tableau de données. Par convention, on placera en exposant ce qui se rapporte aux individus : le premier individu est donc x1, et en indice ce qui se rapporte aux variables : x1 désigne la première variable.

désigne la valeur numérique prise par la première variable, pour le premier individu. Et notre tableau de données regroupe toutes les valeurs prises par tous les individus (de 1 à n) par p variables, soit encore :

Pour la suite, on considérera le tableau X comme un tableau de variables centrées. Une variable centrée est une variable dont la moyenne est nulle. Pour centrer les données, il suffit de retrancher à chaque variable sa moyenne, on obtient ainsi un tableau X', avec des nouvelles variables de moyenne nulle.
On considère maintenant N comme le nuage de points formé par l'ensemble des individus xi, dans l'espace à p dimensions des variables. Le but de l'ACP est d'obtenir une représentation la plus fidèle possible du nuage N en le projetant sur un espace de faible dimension. Pour cela, on cherche à minimiser les " écarts " entre les points de N et leurs projections. Les espaces de représentation choisis sont des espaces affines (droite, plan,...). La formulation mathématique de l'ACP est alors la suivante.
Trouver le sous-espace affine Ek de dimension k (k<p souvent k=2) tel que , inertie du nuage N par rapport à l'espace Ek soit minimum.
|

pi : pondération sur les individus. Chaque individu i est muni du poids pi. La plupart du temps, on se place dans un cadre d'équipondération : tous les individus ont le même poids.
dM : distance définie par la métrique M. En pratique, on considère deux métriques différentes : I, la métrique identité, ou la métrique D1/s² qui réduit les variables. Réduire un tableau de données consiste à calculer l'écart type pour chacun des caractères et à exprimer toutes les cases en nombre d'écarts types (positif ou négatif). L'écart type devient ainsi une mesure unique commune à tous les caractères et les unités dans lesquels s'expriment initialement les données n'ont plus d'importance. dM(xi, Ek) désigne la distance entre xi et Ek soit la distance entre xi et son projeté sur Ek..
Trouver le sous-espace vectoriel Ek de dimension k (k<p souvent k=2) tel que soit maximale.
|
;

On montre facilement que chacun des sous-espaces Ei (i £
k) ainsi définis est un sous-espace affine de dimension i maximisant l'inertie expliquée.
On note V la matrice d'inertie du nuage N, qui est aussi la matrice de covariance des caractères (x1,...,xp).
La solution est alors obtenue en utilisant les propriétés spectrales des matrices : les vecteurs propres normés de la matrice VM ordonnés suivant les valeurs propres décroissantes fournissent les axes Du1, Duk, appelés axes factoriels.
De plus, les inerties
expliquées par ces axes sont égales aux valeurs propres lk. Les ui forment une base M-orthonormée de Ek : les vecteurs ui sont par définition normés et par ailleurs, la matrice VM étant symétrique, ses vecteurs propres sont orthogonaux.
On définit le pourcentage d'inertie expliquée par le sous-espace Ek par la formule:

F
Le nuage N est alors exactement dans le sous-espace vectoriel Er engendré par les r premiers axes factoriels.
4. Représentation des individus lors d'une ACP
Le problème initial était d'obtenir une représentation du nuage N dans des espaces de dimension réduit. On connaît maintenant les axes définissant ces espaces. Pour pouvoir obtenir les différentes représentations, il suffit de déterminer les coordonnées de la projection de tous les points du nuage sur chaque axe factoriel. Soit
ces n coordonnées pour l'axe i.
Le vecteur
est appelé ième composante principale.
On peut alors obtenir " l'image " du nuage N dans un plan factoriel quelconque (ui, uj) grâce aux composantes principales ci et cj. La représentation dans le premier plan factoriel est obtenue grâce à c1 et c2. En utilisant conjointement la représentation du plan (u1, u3), on peut " voir " le nuage dans le sous-espace E3.
Le calcul des composantes principales se fait par changement de base. Il suffit de faire une projection orthogonale sur les nouveaux vecteurs de base. Ainsi, pour la ième composante principale, on a :
![]()
d'où l'expression de la composante principale : ![]()
5. Synthèse des résultats
Les résultats mathématiques classiques sont regroupés dans le tableau suivant:
|
|
|
|
|
|
a i |
ci=X ai=XMui |
|
ième axe factoriel ou axe principal d'inertie. |
ième facteur principal d'inertie |
ième composante principale |
|
ui : vecteur propre de VM associé à la valeur propre li. |
a i : vecteur propre de MV associé à la valeur propre li. |
|
|
Les (ui) sont des vecteurs M-orthonormés :
M(ui,ui)=1 ; M(ui,uj)=0
|
M-1-orthonormés. M-1(ui,ui)=1 ; M-1 (ui,uj)=0 ![]()
|
|
A la fin de l'ACP, on peut représenter les individus et les variables par leurs projections sur un plan. A titre d'exemple, voici la projection de 10 variables constituant un questionnaire.

Il reste alors à trouver une signification à cette projection... L'interprétation des résultats s'effectue généralement plan par plan.
6. Règles d'interprétation des résultats d'une ACP
Pour un plan factoriel donné, on regardera la part d'inertie expliquée. On regarde donc la somme des parts d'inertie expliquée par chaque axe, laquelle peut être interprétée comme un pourcentage de l'information du nuage initial retranscrite par le plan factoriel. Ainsi, un axe expliquant moins de 10% de l'inertie générale sera rarement intéressant. Dans toutes les sorties des logiciels, les axes sont rangés dans l'ordre décroissant d'inertie (en fait dans l'ordre décroissant des valeurs propres obtenues après diagonalisation, mais il y a correspondance), de telle manière que le premier plan factoriel - constitué par les deux premiers axes factoriels - soit toujours celui qui est le plus riche en renseignements sur les propriétés du nuage étudié.
Puis on peut proposer une interprétation des axes en faisant l'étude des corrélations entre les composantes principales et les variables initiales du tableau de données. En effet, une composante principale est une combinaison linéaire des variables initiales. Par conséquent, le rôle de chaque composante principale peut être déterminé par les variables d'origine qui contribuent le plus à sa construction, soit les plus corrélées.
Lorsque l'on fait une ACP en utilisant la métrique D1/s², ce qui revient à travailler sur le tableau de données centré et réduit, ces coefficients de corrélation linéaire r(ck,xj) peuvent alors être calculés par la formule :



est la ième coordonnée de la composante principale ck.
Par la formulation initiale de l'A.C.P. (minimalisation de l'inertie), un axe peut être assimilé à une droite de régression dans l'espace de départ, et donc comme passant " au plus près " de l'ensemble des points du nuage. Mais tous les points du nuage ne sont pas pour autant proches de l'axe. La contribution est un indicateur de cette proximité à l'axe. Ainsi, les individus ayant une bonne contribution (valeur numérique élevée) sont ceux qui sont le plus proche de l'axe et donc ceux qui attirent l'axe vers eux, qui favorisent la détermination de l'axe. Et par conséquent, c'est grâce à ces individus que l'on va pouvoir chercher à donner un sens à l'axe. Il faut bien voir que, dans la plupart des cas, ce sont les points extrêmes d'un axe qui ont la plus forte contribution pour ce dernier, ce qui est normal dans la mesure où ce sont eux qui donnent une forme particulièrement allongée au nuage suivant la direction de l'axe. Un bon moyen de caractériser l'axe rapidement est donc de classer les individus par ordre décroissant de contribution.
Il faut aussi s'assurer que la représentation des individus sur les plans principaux est de bonne qualité. Pour un individu ei, on mesure cette qualité à l'aide du cosinus de l'angle formé par le plan principal et le vecteur défini par l'individu ei. L'indicateur utilisé dans les logiciels est alors couramment noté cos². Idéalement, lorsqu'un individu est sur le plan factoriel, l'angle défini est alors nul, ce qui entraîne un cos² égal à 1. Au contraire, un individu orthogonal à chacun des axes du plan factoriel aura un cos² nul. Tous les individus occupant des positions intermédiaires entre ces deux extrémités auront un cos² compris entre 0 et 1, d'autant plus proche de 1 que l'individu est bien représenté par sa projection sur le plan.
En règle générale, les individus contribuant bien aux axes du plan y sont bien représentés. L'indicateur cos² est principalement à utiliser quand on veut interpréter les points centraux.
Enfin, dans certains cas, on peut gagner en richesse en utilisant des variables ou des individus en tant qu'objets supplémentaires. Les objets supplémentaires ne sont pas intégrés au tableau de données lors du calcul, mais peuvent être visualisés en même temps que les objets actifs lors de la représentation finale. Cette représentation simultanée permet de juger de leurs liens éventuels avec les variables de base. Lorsqu'un nombre restreint d'individus contribuent fortement à un axe (et donc suffisent à le déterminer à eux seuls), il peu être intéressant de relancer une analyse en les mettant en individus illustratifs, de telle sorte qu'ils n'influencent pas les résultats.
7. Ouvrages de référence
Ouvrages de référence