Je réalise un travail que je trouve passionnant !
Je dispose d'une base de données catégorielles répertoriant :
- Un état de santé mental (Très mal / Mal / Bien / Très bien) nommée "Etat_sante_menta"
- Un situation géographique du lieu de domicile (Campagne / Ville) nommée "Lieu"
Ma question est : Existe t-il une relation entre l'état de santé mentale et la situation géographique du lieu de domicile ?
Pour cela, j'utilise le test du Chi2 :
- Code: Tout sélectionner
> chisq.test(data$etat_sante_mental, data$lieu, correct = FALSE)
Pearson's Chi-squared test
data: data$etat_sante_mental_bin and data$lieu
X-squared = 15.08, df = 3, p-value = 0.00175
Mon résultat est significatif, je rejette donc l'hypothèse d'indépendance. Jusque là, je pense avoir bien appris ma leçon
Là où ça devient un peu plus compliqué pour moi, c'est en regardant un pdf sur internet qui propose de pousser l'analyse plus loin. On peut déterminer quelles modalités possèdent un caractère attractif (résidus positif) ou un caractère répulsif (résidus négatif) par rapport à une autre modalité.
Pour l'exemple, je crée mon tableau de contingence :
- Code: Tout sélectionner
> khi2$observed
data$lieu
data$etat_sante_mental_bin A la campagne En ville
1-TRES MAL 18 5
2-MAL 18 4
3-BIEN 45 26
4-TRES BIEN 204 30
Je calcule mes résidus :
- Code: Tout sélectionner
> khi2$residuals
data$lieu
data$etat_sante_mental_bin A la campagne En ville
1-TRES MAL -0.24863849 0.54907532
2-MAL -0.06001056 0.13252300
3-BIEN -1.33288204 2.94344066
4-TRES BIEN 0.85089588 -1.87905715
Et je représente ça graphiquement :
https://zupimages.net/viewer.php?id=20/22/fj1q.png
La couleur bleu signifie une attraction, le rouge une répulsion.
D'après mon interprétation, les personnes qui habitent en Ville possède une large attractivité à appartenir à la catégorie santé mentale "Bien". La situation est inversée pour la catégorie de Santé mentale "Très Bien", où l'attraction est plus visible en campagne qu'en ville. Les autres modalités (Très mal et Mal) sont quasiment négligeable (car les résidus sont quasi-nulle, et donc qui correspondent aux valeurs espérées ?)
Je n'arrive pas à interpréter davantage. Mais j'ai quelques questions qui se posent :
- Comment interpréter le fait que la valeur de la catégorie "Bien" / "En Ville" (la valeur représenté par le gros cercle bleu) ait plus de "poids" que les autres ?
- Est-ce que cela lui donne plus "d'importance" ou de significativité ? (Selon moi, vu que c'est la valeur qui s'éloigne le plus du modèle d'indépendance, je dirais que oui).
- Si j'avais simplement comme objectif de représenter graphiquement la répartition des valeurs de "Etat_sante_mental" sur la variable "Lieu", qu'est ce qui différencie ce graphique d'attraction et de répulsion avec un barplot de ce type :
- Code: Tout sélectionner
> barplot(khi2$observed)
https://zupimages.net/viewer.php?id=20/22/8gei.png
Je vous remercie énormément.