L'analyse des correspondances | |||||
Page 3 sur 8 | Table des matières | Précédent | Suivant . |
|||||
3. Fonctionnement de
l'analyse I |
|||||
A. |
L'hypothèse d'indépendance . |
||||
Pour pouvoir dire quelque chose sur nos donnees, il nous
faut quelque chose par rapport à quoi situer la distribution observee des individus. Le
plus simple est de se demander quelle serait le contenu des cases si les individus se
repartissaient de la meme maniere dans toutes les communes, leur nombre absolu dependant
de la taille de la commune. On sait par exemple que dans toute notre population on a 8.2%
d'universitaires (cf infra, tables des profils) et que Pully contient 7.8% de notre
population. On devrait s'attendre sous l'hypothese d'independance (ou homogeneite) à
avoir 0.082x0.078x169836 individus dans la case (Uni, Pully), soit 1086. La table suivante
donne pour chaque case la valeur qu'on aurait si l'hypothese d'indépendance: .
. Mais pour pouvoir juger des affinites un peu mieux nous pouvons soustraire cette matrice du premier tableau. Nous obtiendrons ainsi une table donnant les ecarts absolus. J'ai (laborieusement) calcule cette table sur Excel:
. On lit dans la case (Renens ; Université) la valeur de -799. Nous devrions donc observer 799 universitaires de plus à Renens si l'hypothese d'independance etait satisfaite. Il y a en quelque sorte un deficit d'universitaires à Renens, ou une sous-representation. On observe par contre une sur-representation des universitaires à Jouxtens de 56 individus. Mais au vu de la population de Jouxtens, c'est beaucoup. Le but de l'analyse des correspondances sera de resumer les sur- et sous-representations ainsi constatees, non pas en valeurs absolues comme nous venons de le faire, mais en valeurs relatives. De manière plus generale, l'independance, c'est la situation que nous observerions si le nombre d'individus de la case (i,j) etait le produit du nombre d'individus de la ligne i par le nombre d'individus de la colonne j, le tout divise par le nombre d'individus de toute la table. C'est le nombre d'individus theoriques du test du Khi2. . |
|||||
B. |
Khi2 et
inertie |
||||
Nos donnees de depart sont sous la forme d'une table dans
laquelle des individus sont ventiles suivant deux criteres I et J. Nous sommes alors en
droit d'appliquer la statistique dite du ![]() ![]() Cette valeur de On retiendra que plus l'inertie est grande, plus grande est l'association lignes/colonnes soit la distance de la moyenne. Elle peut varier de 0 (pas d'association) au rang de la matrice (card(I)-1, association parfaite entre de chaque ligne avec chaque colonnes. La valeur absolue de l'inertie dependra des unites de mesures des variables dans le cas ou l'analyse ne porte pas sur une vraie table de contingence. . |
|||||
C. |
Profils . |
||||
Les points sur lesquels l'analyse des correspondances va
travailler sont definis par un vecteur de coordonnees : ce sont des profils, ou
pourcentages par rapport au total de la ligne ou de la colonne. Notre table peut se
decomposer en profils-lignes: .
. où l'on trouve en lignes les 12 coordonnees de 8 points (les formations), et de maniere equivalente, le tableau des profils colonnes : .
qui nous donne les 8 coordonnees des 12 points-communes dans l'espace des formations.J'ai omis les labels des modalites des deux variables sur ces tableaux et les suivants, mais l'ordre est le même que pour le premier tableau (SPSS est difficile!) Ce que l'on trouve sous margin dans les tables ci-dessus est appele aussi masse ou profil moyen des lignes et des colonnes, ou centre de gravite, c'est à dire le nombre d'individus dans toute la ligne (ou la colonne) correspondant au point divise par le total de la table, et ce pour chaque point. Ces profils sont les coordonees d'un nuage de points N(I) dans l'espace J ou de maniere equivalente un nuage N(J) dans l'espace I.On va d'abord presenter l'analyse pour le nuage N(I), puis nous montrerons que l'analyse est symetrique pour le nuage N(J). . |
|||||
L'analyse
des correspondances
La homepage de François Micheloud