L'analyse des correspondances | |||||||||||||||
Page 5 sur 8 | Table des matières | Précédent | Suivant . |
|||||||||||||||
5. Que trouve-t-on
dans le listing et comment l'interpréter ? . |
|||||||||||||||
Les premiers programmes informatiques d'analyses des
correspondances ont ete developpes en France, puis ensuite par la communaute scientifique
internationale. Ceci explique que les termes sont parfois donnee en anglais, parfois en
franais, et qu'ils changent en plus suivant les programmes. J'ai essaye de donner
les synonymes les plus courants, mais le mieux à faire est de comprendre à quoi servent
les differentes grandeurs et à les chercher ensuite sur le listing, quels que soient
leurs noms. . |
|||||||||||||||
A. |
Ecarts absolus, écarts relatifs . |
||||||||||||||
Premièrement il faut se souvenir que l'analyse des
correspondances nous presente de maniere synthetique la structure des ecarts à
l'independance. Nous devons donc considerer la valeur du khi-2 pour juger de la grandeur
de cet ecart. En effet, et c'est une propriete peu connue de l'analyse des
correspondances, l'amplitude des ecarts, leur valeur absolue, n'est pas representee par
l'analyse. Le changement d'echelle (cf infra) fait que les ecarts ont toujour l'air
importants. Il faut donc imperativement considerer la significativite du c2 avant
d'interpréter. Si on doute de l'importance des associations entre niveaux de formations
et communes dans notre table, il nous suffit de multiplier l'inertie (cf. prochain
tableau) par le nombre d'individus de la table, soit 0.03097x169'836=5259 et de verifier
dans une table du c2 pour 7x11=77 degres de liberte qu'au seuil de 0.005% il nous
suffirait d'une valeur de c2 de 110 pour declarer l'association significative. Certains ont proposes des coefficients variant de o à 1 pour qualifier la valeur du c2, tels que Pearson et son coefficient de contingence ou Tschuprow et son T. Nous citerons le V de Cramer : Cette valeur vaut pour notre table 0.0665 Le lecteur novice peut sauter la partie suivante lors d'une premiere lecture pour lire d'abord la partie concernant les representations graphiques. . |
|||||||||||||||
B. |
Valeurs propres et
inertie de la table |
||||||||||||||
. Dans la premiere partie du listing, apres les trois tables reproduites plus haut, SPSS a extrait les 7 axes factoriels de notre tableau et affiche la table suivante: .
. Les 7 axes factoriels sont classes dans l'ordre, et pour chacun on donne les valeurs singulieres et les valeurs propres (carre des valeurs singulieres) toutes deux classees par ordre decroissant. Ensuite vient la somme des valeurs propres, qui equivaut à l'inertie totale du nuage (ou ), puis sous proportion explained on trouve les valeurs propres exprimees comme part de leur total, ainsi que ces parts cumulees. On voit que la somme des deux dernieres colonnes vaut 1, car avec 7 axes on peut decrire tout le nuage. On peut interpréter ces valeurs comme suit : par exemple proportion explained = 0.753 signifie que le premier axe d'inertie resume 75% des ecarts à l'independance (ou de l'inertie) de notre tableau, et cumulative proportion = 0.934 veut dire que les deux premiers axes resument 93% de l'inertie. . |
|||||||||||||||
C. |
Combien d'axes
retenir ? |
||||||||||||||
. Miracle de l'analyse factorielle, en sacrifiant 5 dimensions sur 7 on ne perd que 7% de l'inertie totale! Et le fait est général : la contribution des valeurs propres à l'explication diminue dans toutes les analyses que j'ai pu lire tres rapidement, et on se contente souvent de considerer les deux ou trois premiers axes d'inertie. Certains donnnent des criteres mathematiques complexes pour determiner le nombre d'axes à conserver, mais à mon avis (Benzecri aussi : cf Benzecri, 1992:398) cette limite devrait etre fixee par notre capacite à les interpréter. On donne à l'ordinateur le nombre d'axes que l'on desire retenir au vu des valeurs propres et le sens que nous avons trouve aux axes. Ca n'est pas parce qu'un axe a une valeur propre relativement petite que l'on devra forcement l'ecarter. Il peut souvent mettre en evidence une opposition subtile dans les donnees qui peut etre difficile à interpréter.Dans notre cas, nous ne retiendrons que les deux premiers axes. On donne alors l'ordre à l'ordinateur de recommencer l'analyse en precisant 2 dimensions, et tous les resultats subsequents ne donneront les valeurs que pour les deux premiers axes. . |
|||||||||||||||
D. |
Scores factoriels |
||||||||||||||
. Ces deux tableaux nous donnent les coordonnees de chaque point sur les axes retenus, ainsi que leur masses. Voici les tableaux row et column scores: imprimes par SPSS pour notre exemple : .
. On remarque les valeurs qui ne sont plus des pourcents et dont plusieurs sont negatives. Une colonne nous rappelle le profil moyen. Par exemple, on interprétera la ligne 6 du tableau column scores comme suit: à Lausanne on trouve 0.649 de la population de la table, et le point Lausanne sera represente dans l'espace des deux premiers axes avec les coordonnees -ou scores factoriels- (0.005;-0.130). On aurait pu avoir jusqu'à 7 colonnes, une pour chaque axes. Ces colonnes s'appellent aussi DIM, F ou K. . |
|||||||||||||||
E. |
Contributions
absolues par point |
||||||||||||||
. Nous voudrions savoir ensuite quels sont les points qui ont le plus contribues à la construction des axes. Deux tableaux au label contribution of row/column points to the inertia of each dimension nous donnent ces informations: .
. On trouve souvent ces valeurs dans la litterature sous le nom de CTR ou contributions absolues. Pourquoi absolues? Dans un des premiers programmes, ce tableau indiquait sous CTA la valeur de l'inertie causee par un point qui se trouvait dans la direction de l'axe considere. D'où contributions absolues. Plus tard, et c'est la cas maintenant, on indique la part de chaque point dans l'inertie dont rend compte l'axe considere, exprimee en pourcent. L'ancien nom est resté. On voit par exemple que la ligne 7 (universite) entre pour 46% dans l'inertie expliquee par le premier axe. Comme la valeur propre associee au premier axe est 1 = 0.02331, l'inertie du point universite en direction de cet axe vaut 0.461x0.02331 soit 0.01075, sa CTA. Ces valeurs sont importantes pour interpréter les axes. Graphiquement, plus un point est eloigne de l'origine et plus son effectif marginal est petit, plus sa contribution à l'inertie est grande. Lors d'une premiere analyse, j'avais inclus une ligne "sans indication" au profil tres inegalement reparti dans l'espace des communes. J'ai du la supprimer car elle deformait completement le nuage, ce que l'examen de ce tableau m'a confirme. . |
|||||||||||||||
F. |
Contributions absolues par cellule |
||||||||||||||
. On pourrait s'interesser à connaître la contribution de chaque cellule du tableau à l'inertie totale. Les cellules (=cases) contenant les valeurs les plus improbables sous l'hypothese d'independance donneront alors les contributions les plus fortes. SPSS ne donne pas cette table (c'est un defaut) mais on peut calculer les valeurs pour quelques cellules interessantes avec la formule suivante : .
J'ai utilise Excel pour calculer toutes les contributions des cellules : .
. On voit par exemple que l'intersection (Universite, Pully) est responsable de pres de 15% de l'inertie de toute la table. Pas etonnant qu'elle "tire" le premier axe! On voit d'autres points comme (Jouxtens, Formation professionnelle) avec des valeurs tres petites, qui s'expliquent par les ecarts absolus minimes constates dans la table imprimee plus haut. . |
|||||||||||||||
G. |
Contributions relatives par points et par axes |
||||||||||||||
. Finalement, on peut s'interesser à la question inverse, c'est-à-dire quelle est la part de la representation de l'inertie de mes points sur mes axes? Le tableau suivant, au label étrange contribution of dimensions to the inertia of each row/column points, souvent nommé COR et QLY (comme quality) ou encore contributions relatives y répond: .
. On voit par exemple que l'inertie de Pully (colonne 10) est "rendue" à 96% par le premier axe et à 1% par le second. En tout, le plan des axes 1 et 2 rend compte de 97.5% de l'inertie du point (sous total). Cette derniere colonne est souvent nommee QLY pour qualite de la representation par le sous-espace engendre par les k premiers axes. On peut faire un parrallele avec l'analyse en composantes
principales: valeurs propres et vecteurs propres y ont en effet le meme statut, et on peut
interpréter les saturations au carré comme nos COR, et la communalité
étant donnée les r facteurs retenus comme la QLY de la représentation par les k
premiers facteurs. . |
|||||||||||||||
Page suivante : Représentations graphiques et interprétation |
L'analyse
des correspondances
La homepage de François Micheloud