Je réalise une étude sur R très intéressante à partir d'une base de données imaginaire, fruit d'un entretien réalisé sur 1500 personnes dans un hôpital, et qui a pour but de donner des informations sur leur santé mentale.
Je souhaite analyser les réseaux de relation qui existe entre une variable quantitative à expliquer, et plusieurs variables explicatives binaires, quantitatives, et une variables explicative catégorielle. Ainsi, j'analyse la durée d'entretien (variable à expliquer) avec l'âge des personnes, l'existence d'une dépression ou non, l'existence d'une consommation de drogue ou non, la présence d'un trouble schizophrénique ou non, ou la profession exercée. L'objectif est de voir dans quels cas la durée de l'entretien diminue ou augmente, sur ces paramètres.
Pour cela, j'utilise la régression linéaire multiple. J'ai des difficultés pour l'interpréter.
Voici la formule que j'écris :
- Code: Tout sélectionner
> mod = lm(data$dur.interv~data$age + data$dep.cons + data$subst.cons + data$scz.cons + data$prof)
> summary(mod)
Et j'obtiens ce résultat :
- Code: Tout sélectionner
Call:
lm(formula = data$dur.interv ~ data$age + data$dep.cons + data$subst.cons +
data$scz.cons + data$prof)
Residuals:
Min 1Q Median 3Q Max
-63.280 -14.164 -1.337 10.959 63.184
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.77932 2.83938 17.180 < 2e-16 ***
data$age 0.21289 0.05884 3.618 0.000317 ***
data$depression 7.36792 1.45840 5.052 5.53e-07 ***
data$conso_drogue 5.34589 1.76902 3.022 0.002599 **
data$scz 2.50439 2.54734 0.983 0.325863
data$profagriculteur 14.01270 9.72111 1.441 0.149880
data$profartisan 2.52755 2.48989 1.015 0.310381
data$profautre 3.72522 3.99637 0.932 0.351567
data$profcadre -5.28366 4.25567 -1.242 0.214798
data$profemploye 0.45460 2.12659 0.214 0.830785
data$profprof.interm?diaire 0.99344 2.95809 0.336 0.737089
data$profsans emploi -0.26596 1.87727 -0.142 0.887375
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.11 on 731 degrees of freedom
(56 observations deleted due to missingness)
Multiple R-squared: 0.06595, Adjusted R-squared: 0.05189
F-statistic: 4.692 on 11 and 731 DF, p-value: 5.825e-07
D'une manière générale, j'ai compris certains éléments :
- Une personne déprimée, par rapport à une personne non-déprimée et en annulant l’effet de l’âge, subst, et scz, aura en moyenne une durée d’entretien de 7 minutes de plus.
- Une personne déprimée et qui a une consommation de drogue aura une durée d’entretien de 7 + 5 = 12 minutes supplémentaire en moyenne par rapport à une personne qui n’est ni déprimé et qui ne consomme pas de drogue.
Là où je bloque, c'est sur l'interprétation de la variable catégorielle "Profession".
- Si je veux savoir de combien augmente ou diminue en moyenne la durée de l'entretien chez un Cadre qui consomme des drogues, dois-je calculer -5.28 + 5.34, soit une augmentation moyenne du temps de l'entretien de 0.06 minutes ? (Bien que ça ne soit pas significatif, vu la valeur de p).
- Si je veux comparer de combien augmente ou diminue la durée de l'entretien chez un employé qui consomme des drogues avec un agriculteur qui consomme des drogues, dois-je faire (0.45 + 5.34 = 5.79 minutes en plus) pour l'employé et (14.01 + 5.34 = 19.35 minutes en plus) pour l'agriculteur, ce qui donnerait qu'un agriculteur drogué aura un temps d'entretien de 13.56 minutes en plus (19.35 - 5.79) qu'un employé drogué ?
Merci
