L'analyse des correspondances

Page 6 sur 8 | Table des matières | Précédent | Suivant

.

6. Représentations graphiques et interprétation

.

Cliquez pour voir le
SCHEMA
dans une nouvelle fenêtre

.

C'est sans doute la partie de cet expose la plus importante à comprendre de tout l'expose. En effet, quand un chercheur effectue une analyse des correspondances, il ne publie souvent que le plan engendré par les 2, voire par les 3 premiers axes d'inertie. Les tableaux des contributions sont parfois mentionnées dans le texte, rarement publiés. Cette pratique est justifiable en partie par le fait que la représentation graphique est la plus riche en information, et que c'est là que l'avantage majeur de l'analyse des données apparaît : la représentation synthetique d'un grand tableau de chiffres.

On étudiera toujours les plans engendrés par les axes 1 et 2, parfois 1 et 3 et 3 et 2, rarement plus loin. Nous nous contenterons du premier plan.

Mais ce sujet est controverse. En effet, il existe plusieurs méthodes pour représenter graphiquement les résultats de l'analyse, et il faut être sûr d'en bien comprendre les limitations avant de les interpréter. Les représentations bidimensionnelles (graphiques plans) ont toutes en commun de figurer les points-lignes, les points-colonnes ou parfois les deux dans l'espace engendré par deux axes d'inertie (en general les deux premiers). L'intersection des deux axes, appelée centroïde moyen, correspond au profil moyen. On represente usuellement le premier axe d'inertie horizontalement, et au bout de chaque axe on mentionne la valeur propre et le pourcentage d'inertie exprimee par cet axe.

L'inspection des tableaux que l'on vient de presenter (COR, CTR, QLY,...) est tres utile pour interpréter les graphiques. Pourtant les chercheurs ne les publient pas toujours et il convient de savoir comment profiter au mieux du graphique bidimensionnel. Si vous n'avez pas fait l'analyse vous même, c'est souvent tout ce que vous aurez. D'ailleurs c'est bien l'intérêt de cette methode de pouvoir résumer l'information par un changement d'axes judicieux et d'en restituer la majeure partie sur un graphique plan.

.

.

A.

Le graphique assymétrique

.

C'est pour les puristes la meilleure représentation, et c'est celle qui pousse le moins à l'erreur dans l'interprétation. Les points-lignes et les points-colonnes sont représentes dans deux échelles différentes, ce qui fait que les uns sont très dispersés alors que les autres sont ramassés autour de l'origine. Les distances entre tous les points sont interprétables en terme de . C'est un des graphique donne par SPSS (sous normalization: row ou column-principals) mais je l'ai assez rarement vu dans les publications appliquées.

.

.

B.

Le graphique symétrique

.

C'est la representation la plus répandue dans la litterature, mais elle est controversée. Ici, les représentations des points-colonnes et des points-lignes sont superposées, à la même échelle. On la reconnait tout de suite au fait que les points ont tendance à couvrir tout l'espace, quel que soit le niveau d'association entre les points.

Mais attention! Si la distance entre les points-colonnes et la distance entre les points-lignes sont toutes deux des approximations de la distance , la distance entre les points-lignes et les points-colonnes ne l'est pas. On ne peut malheureusement pas déduire de la proximité d'un point ligne et d'un point colonne que les deux sont fortement associés dans les données. On ne peut le faire que si les deux points proviennent d'un même espace.

.

.

C.

Interprétation des distances entre points d'un même nuage

.Pour interpréter le graphique, il convient de ne considerer que les positions relatives des points d'un meme nuage par rapport à un axe. On n'interprétera donc que la position d'une commune par rapport à une autre commune, ou d'une formation par rapport à une formation. Deux points proches auront alors des profils similaires. Autrement dit, si Crissier et Renens sont proches (cf infra), c'est les habitants de ces communes ont repondu dans des proportions similaires dans les differentes categories de formation.

..

.

D.

Interprétation angulaires entre points de deux nuages différents

.

Il est extrêment périlleux d'interpréter les proximités entre deux points issus de deux nuages différents. C'est pourtant une erreur courante, qui fait que certains auteurs découragent l'utilisation du graphe dit symétrique et même les représentations simultanées des deux nuages.

On peut par contre interpréter à l'angle par rapport à l'origine entre un point-ligne et un point-colonne en suivant quelques règles simples:

.

(a) Si l'angle entre les deux points est aigu ( < 90º), les deux modalités des variables lignes et colonnes s'attirent. Par exemple, l'angle entre les points Scolarité obligatoire et Renens fait environ 40¡, car il y a 46% de personnes ayant répondu Scolarité obligatoire à Renens contre 36% dans toute la population, donc une sur-représentation de cette categorie dans la commune de Renens.

.

(b) Au contraire, si l'angle est obtus ( > 90º), les modalites se repoussent, comme c'est le cas entre Université et Prilly (environ 180º), ce qui semble correct car il y a 3.6% de personnes ayant declare Université à Prilly, contre 8.2% dans toute la population, donc sous-representation.

.

(c) Si l'angle est droit, les modalites n'interagissent pas, comme entre Maturité et Le Mont . En effet, il y a 8.6% de personnes ayant declare Maturite à Le Mont, sensiblement la meme proportion que 8.8% dans toute la population.

Cliquez pour voir les dessins !

.

E.

Interprétation angulaire entre un point et un axe ou l'expression graphique de COR

.

Graphiquement, le plus petit (aigu) l'angle entre un point et un axe a (le sommet de l'angle est à l'origine), le plus proche de 1 sera sa COR sur cet axe. Inversément, si l'angle vaut 90º la COR sur cet axe sera nulle. C'est donc le facteur duquel un point sera le plus proche qui exprimera le mieux son eloignement du profil moyen. Par exemple, Romanel et Cheseaux sont tout deux très proche de l'axe 2 et ont une COR sur cet axe dépassant 90%, c'est-à-dire que c'est axe exprime plus de 90% de leur inertie.

.

.

F.

Deux formes typiques

.

La disposition des points sur le graphique exprime la structure de la table. Certaines formes caracteristiques sont facilement interprétable en termes de répartition des effectifs dans la table. Nous en considérerons deux, renvoyant le lecteur à (Benzecri, 1993:400sq) pour plus de details.

Dans ce qui va suivre nous supposerons que la table peut se diviser exhaustivement en I = I1 U I2 et J = J1 U J2.

Dans la première forme typique, le nuage est sépare en deux clusters:

.

.

On voit que d'une part les modalités du groupe I1 sont associées à celles du groupe J1, et d'autre part celles du groupe I2 le sont avec les modalités du groupe J2. Si on regroupe les modalités des deux variables suivant leurs projections sur le premier axes, on obtient un nouveau tableau (parfaitement equivalent à la table de contingence d'origine mais presentée differemment) dont les blocs diagonaux I1XJ1 and I2XJ2 très "pleins" alors que les blocs I1XJ2 and I2XJ1 sont plutôt vides. Cette organisation de la table reflete une dichotomie dans les donnees qui se separent naturellement en deux clusters. Il faudrait chercher l'appartenance à quelle catégorie qui sépare les deux clusters.

.

Dans la deuxième forme typique, le nuage forme un croissant parabolique :

.

.

Si nous reécrivons la table en mettant les différentes modalités dans l'ordre de leur projection sur le premier axe, nous obtiendrons la table figuree ci-dessus à gauche, dont la diagonale est pleine de cellules contenant relativement plus d'individus (fi*fj<<fij) avec deux coins contenant des élements plus petits (fi*fj>>fij). Le petit groupe de points au sommet de l'axe 2 exprime un profil plat auquel contribuent les deux extremités du croissant, soit la conjunctio oppositorum.

.

.

G.

Interprétation du premier axe

.

Sur le graphique issu de l'analyse de notre tableau, on voit que le premier axe est interprétable comme un axe de ségrégation sociale. Il oppose d'une part les quartiers ouvriers de Renens, Crissier et Prilly aux quartiers bourgeois de Jouxtens, Belmont et Pully. D'autres agglomerations comme Lausanne et Romanel sont très mal representées sur le premier axe d'apres les contributions relatives, ce qui est visible par leur position centrale. D'autre part, il oppose les formations exigentes Universite-Hautes écoles aux formations les plus simples Scolarite obligatoire et Aucune formation., dans une gradation transitive. La position centrale des rubriques Autre formation et Formation professionnelle indiquent une tres mauvaise représentation sur cet axe, et ne sont donc pas interprétables.

..

.

H.

Interprétation du deuxième axe

.

Le second axe, moins facile à interpréter, semble opposer Romanel et Cheseaux à Lausanne. L'angle entre Romanel et cet axe est très petit, ce qui indique une grande COR. (Renens, Crissier et Pully, sont très mal representés sur cet axe, ce qui se voit à leurs positions centrales.)

Les points formation professionnelle, formation professionnelle supérieure et école professionnelle supérieure se détachent dans les deux quadrants superieurs Les autres points ne devraient pas etre considere en interprétant cet axe au vu de leur basses COR sur cet axe.

Le point ligne formation professionnelle entre pour 42% dans la composition de cet axe, et si l'on considere la table des profils, on se rend compte qu'à Romanel comme à Cheseaux environ 50% des individus ont declaré Formation professionnelle, pour une moyenne de 37% dans toute la population. On voit aussi que Renens et Crissier occupent une position moyenne (près de l'origine) sur cet axe, car ils ont dans leur population environ 37% de Formation professionnelle. Pully et Lausanne, plus bas sur cet axe, revendiquent un peu moins que la moyenne de Formation professionnelle.

Sans autres indications, je n'ai pas été capable d'interpréter cet axe. Je l'ai soumi à la sagacite du professeur Racine, qui avait bien sûr dejà effectué une analyse similaire sur une beaucoup plus grande échelle (plus de 800 communes et de nombreuses variables sociologiques dont le revenu et la profession). Il est tombé partout en Suisse sur le meme deuxième axe, et il a été capable de lui donner un sens. C'est un axe qui separé les classes moyennes. En effet, si l'on considère les projections des points sur cet axe on constate dans sa partie positive (en haut) les formations professionnelles très qualifiées (Ecole professionnelle, Formation professionnelle. et Formation professionnelle supérieures) opposées dans la partie négative à Autre formation, Scolarité obligatoire et Aucune formation (on fait abstraction des points dejà considérés sur le premier axe).

On voit donc sur notre graphe trois clusters de formations indicatrices de trois niveaux de la structure sociale. Dans le cadrant inférieur droit, les classes populaires (ouvriers), dans le cadran supérieur droit la classe moyenne inférieure, dans le cadran supérieur gauche la classe moyenne supérieure (importante en Suisse, avec de hauts revenus), et enfin, last but not(?) least, dans le cadran inférieur gauche, la bourgeoisie et les intellectuels. Chaque fois les communes ayant le plus d'affinités avec ces fractions sont representées dans leur direction.

.

Page suivante : Extensions et limitations


L'analyse des correspondances
La homepage de François Micheloud