L'analyse des correspondances

Page 5 sur 8 | Table des matières | Précédent | Suivant

.

5. Que trouve-t-on dans le listing et comment l'interpréter ?

.
.

Les premiers programmes informatiques d'analyses des correspondances ont ete developpes en France, puis ensuite par la communaute scientifique internationale. Ceci explique que les termes sont parfois donnee en anglais, parfois en franais, et qu'ils changent en plus suivant les programmes. J'ai essaye de donner les synonymes les plus courants, mais le mieux à faire est de comprendre à quoi servent les differentes grandeurs et à les chercher ensuite sur le listing, quels que soient leurs noms.

.

A.

Ecarts absolus, écarts relatifs

.

Premièrement il faut se souvenir que l'analyse des correspondances nous presente de maniere synthetique la structure des ecarts à l'independance. Nous devons donc considerer la valeur du khi-2 pour juger de la grandeur de cet ecart. En effet, et c'est une propriete peu connue de l'analyse des correspondances, l'amplitude des ecarts, leur valeur absolue, n'est pas representee par l'analyse. Le changement d'echelle (cf infra) fait que les ecarts ont toujour l'air importants. Il faut donc imperativement considerer la significativite du c2 avant d'interpréter. Si on doute de l'importance des associations entre niveaux de formations et communes dans notre table, il nous suffit de multiplier l'inertie (cf. prochain tableau) par le nombre d'individus de la table, soit 0.03097x169'836=5259 et de verifier dans une table du c2 pour 7x11=77 degres de liberte qu'au seuil de 0.005% il nous suffirait d'une valeur de c2 de 110 pour declarer l'association significative.

Certains ont proposes des coefficients variant de o à 1 pour qualifier la valeur du c2, tels que Pearson et son coefficient de contingence ou Tschuprow et son T. Nous citerons le V de Cramer :

Cette valeur vaut pour notre table 0.0665

Le lecteur novice peut sauter la partie suivante lors d'une premiere lecture pour lire d'abord la partie concernant les representations graphiques.

.

B.

Valeurs propres et inertie de la table

.

Dans la premiere partie du listing, apres les trois tables reproduites plus haut, SPSS a extrait les 7 axes factoriels de notre tableau et affiche la table suivante:

.

Cliquez pour voir la
table des valeurs propres

dans une nouvelle fenêtre

.

Les 7 axes factoriels sont classes dans l'ordre, et pour chacun on donne les valeurs singulieres et les valeurs propres (carre des valeurs singulieres) toutes deux classees par ordre decroissant. Ensuite vient la somme des valeurs propres, qui equivaut à l'inertie totale du nuage (ou ), puis sous proportion explained on trouve les valeurs propres exprimees comme part de leur total, ainsi que ces parts cumulees. On voit que la somme des deux dernieres colonnes vaut 1, car avec 7 axes on peut decrire tout le nuage.

On peut interpréter ces valeurs comme suit : par exemple proportion explained = 0.753 signifie que le premier axe d'inertie resume 75% des ecarts à l'independance (ou de l'inertie) de notre tableau, et cumulative proportion = 0.934 veut dire que les deux premiers axes resument 93% de l'inertie.

.

C.

Combien d'axes retenir ?

.

Miracle de l'analyse factorielle, en sacrifiant 5 dimensions sur 7 on ne perd que 7% de l'inertie totale! Et le fait est général : la contribution des valeurs propres à l'explication diminue dans toutes les analyses que j'ai pu lire tres rapidement, et on se contente souvent de considerer les deux ou trois premiers axes d'inertie. Certains donnnent des criteres mathematiques complexes pour determiner le nombre d'axes à conserver, mais à mon avis (Benzecri aussi : cf Benzecri, 1992:398) cette limite devrait etre fixee par notre capacite à les interpréter. On donne à l'ordinateur le nombre d'axes que l'on desire retenir au vu des valeurs propres et le sens que nous avons trouve aux axes. Ca n'est pas parce qu'un axe a une valeur propre relativement petite que l'on devra forcement l'ecarter. Il peut souvent mettre en evidence une opposition subtile dans les donnees qui peut etre difficile à interpréter.Dans notre cas, nous ne retiendrons que les deux premiers axes. On donne alors l'ordre à l'ordinateur de recommencer l'analyse en precisant 2 dimensions, et tous les resultats subsequents ne donneront les valeurs que pour les deux premiers axes.

.

D.

Scores factoriels

.

Ces deux tableaux nous donnent les coordonnees de chaque point sur les axes retenus, ainsi que leur masses. Voici les tableaux row et column scores: imprimes par SPSS pour notre exemple :

.

Cliquez pour voir la
table des scores factoriels

dans une nouvelle fenêtre

.

On remarque les valeurs qui ne sont plus des pourcents et dont plusieurs sont negatives. Une colonne nous rappelle le profil moyen. Par exemple, on interprétera la ligne 6 du tableau column scores comme suit: à Lausanne on trouve 0.649 de la population de la table, et le point Lausanne sera represente dans l'espace des deux premiers axes avec les coordonnees -ou scores factoriels- (0.005;-0.130). On aurait pu avoir jusqu'à 7 colonnes, une pour chaque axes. Ces colonnes s'appellent aussi DIM, F ou K.

.

E.

Contributions absolues par point

.

Nous voudrions savoir ensuite quels sont les points qui ont le plus contribues à la construction des axes. Deux tableaux au label contribution of row/column points to the inertia of each dimension nous donnent ces informations:

.

Cliquez pour voir la
table des contributions absolues
dans une nouvelle fenêtre

.

On trouve souvent ces valeurs dans la litterature sous le nom de CTR ou contributions absolues. Pourquoi absolues? Dans un des premiers programmes, ce tableau indiquait sous CTA la valeur de l'inertie causee par un point qui se trouvait dans la direction de l'axe considere. D'où contributions absolues. Plus tard, et c'est la cas maintenant, on indique la part de chaque point dans l'inertie dont rend compte l'axe considere, exprimee en pourcent. L'ancien nom est resté.

On voit par exemple que la ligne 7 (universite) entre pour 46% dans l'inertie expliquee par le premier axe. Comme la valeur propre associee au premier axe est Lambda1 = 0.02331, l'inertie du point universite en direction de cet axe vaut 0.461x0.02331 soit 0.01075, sa CTA.

Ces valeurs sont importantes pour interpréter les axes. Graphiquement, plus un point est eloigne de l'origine et plus son effectif marginal est petit, plus sa contribution à l'inertie est grande.

Lors d'une premiere analyse, j'avais inclus une ligne "sans indication" au profil tres inegalement reparti dans l'espace des communes. J'ai du la supprimer car elle deformait completement le nuage, ce que l'examen de ce tableau m'a confirme.

.

F.

Contributions absolues par cellule

.

On pourrait s'interesser à connaître la contribution de chaque cellule du tableau à l'inertie totale. Les cellules (=cases) contenant les valeurs les plus improbables sous l'hypothese d'independance donneront alors les contributions les plus fortes. SPSS ne donne pas cette table (c'est un defaut) mais on peut calculer les valeurs pour quelques cellules interessantes avec la formule suivante :

.

Contribution de la cellule ij à l'inertie =
ou fi et fj sont les profils marginaux
fij est la fréquence de la cellule ij (son effectif divise par le total de la table)
est la somme des valeurs propres, soit ici 0.03097 aussi égal au

J'ai utilise Excel pour calculer toutes les contributions des cellules :

.

Cliquez pour voir la
table des contribution par cellules
dans une nouvelle fenêtre

.

On voit par exemple que l'intersection (Universite, Pully) est responsable de pres de 15% de l'inertie de toute la table. Pas etonnant qu'elle "tire" le premier axe! On voit d'autres points comme (Jouxtens, Formation professionnelle) avec des valeurs tres petites, qui s'expliquent par les ecarts absolus minimes constates dans la table imprimee plus haut.

.

G.

Contributions relatives par points et par axes

.

Finalement, on peut s'interesser à la question inverse, c'est-à-dire quelle est la part de la representation de l'inertie de mes points sur mes axes? Le tableau suivant, au label étrange contribution of dimensions to the inertia of each row/column points, souvent nommé COR et QLY (comme quality) ou encore contributions relatives y répond:

.

Cliquez pour voir la
table des contributions relativues
dans une nouvelle fenêtre

.

On voit par exemple que l'inertie de Pully (colonne 10) est "rendue" à 96% par le premier axe et à 1% par le second. En tout, le plan des axes 1 et 2 rend compte de 97.5% de l'inertie du point (sous total). Cette derniere colonne est souvent nommee QLY pour qualite de la representation par le sous-espace engendre par les k premiers axes.

On peut faire un parrallele avec l'analyse en composantes principales: valeurs propres et vecteurs propres y ont en effet le meme statut, et on peut interpréter les saturations au carré comme nos COR, et la communalité étant donnée les r facteurs retenus comme la QLY de la représentation par les k premiers facteurs.
Ces indications sont importantes pour l'interprétation du graphique, mais si le chercheur rend compte des aspects les plus importants d'icelles, il peut se passer des les publier et se contenter du graphique commenté.

.

Page suivante : Représentations graphiques et interprétation


L'analyse des correspondances
La homepage de François Micheloud