Interpréter une régression linéaire multiple

Discussion générale entre passionnés et amateurs de mathématiques sur des sujets mathématiques variés
preliator
Membre Naturel
Messages: 26
Enregistré le: 03 Juil 2018, 10:12

Interpréter une régression linéaire multiple

par preliator » 26 Avr 2020, 09:23

Bonjour à tous,

Je réalise une étude sur R très intéressante à partir d'une base de données imaginaire, fruit d'un entretien réalisé sur 1500 personnes dans un hôpital, et qui a pour but de donner des informations sur leur santé mentale.
Je souhaite analyser les réseaux de relation qui existe entre une variable quantitative à expliquer, et plusieurs variables explicatives binaires, quantitatives, et une variables explicative catégorielle. Ainsi, j'analyse la durée d'entretien (variable à expliquer) avec l'âge des personnes, l'existence d'une dépression ou non, l'existence d'une consommation de drogue ou non, la présence d'un trouble schizophrénique ou non, ou la profession exercée. L'objectif est de voir dans quels cas la durée de l'entretien diminue ou augmente, sur ces paramètres.

Pour cela, j'utilise la régression linéaire multiple. J'ai des difficultés pour l'interpréter.

Voici la formule que j'écris :
Code: Tout sélectionner
> mod = lm(data$dur.interv~data$age + data$dep.cons + data$subst.cons + data$scz.cons + data$prof)
> summary(mod)


Et j'obtiens ce résultat :
Code: Tout sélectionner
Call:
lm(formula = data$dur.interv ~ data$age + data$dep.cons + data$subst.cons +
    data$scz.cons + data$prof)

Residuals:
    Min      1Q  Median      3Q     Max
-63.280 -14.164  -1.337  10.959  63.184

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 48.77932    2.83938  17.180  < 2e-16 ***
data$age                     0.21289    0.05884   3.618 0.000317 ***
data$depression              7.36792    1.45840   5.052 5.53e-07 ***
data$conso_drogue            5.34589    1.76902   3.022 0.002599 **
data$scz                     2.50439    2.54734   0.983 0.325863   
data$profagriculteur        14.01270    9.72111   1.441 0.149880   
data$profartisan             2.52755    2.48989   1.015 0.310381   
data$profautre               3.72522    3.99637   0.932 0.351567   
data$profcadre              -5.28366    4.25567  -1.242 0.214798   
data$profemploye             0.45460    2.12659   0.214 0.830785   
data$profprof.interm?diaire  0.99344    2.95809   0.336 0.737089   
data$profsans emploi        -0.26596    1.87727  -0.142 0.887375   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.11 on 731 degrees of freedom
  (56 observations deleted due to missingness)
Multiple R-squared:  0.06595, Adjusted R-squared:  0.05189
F-statistic: 4.692 on 11 and 731 DF,  p-value: 5.825e-07


D'une manière générale, j'ai compris certains éléments :
- Une personne déprimée, par rapport à une personne non-déprimée et en annulant l’effet de l’âge, subst, et scz, aura en moyenne une durée d’entretien de 7 minutes de plus.
- Une personne déprimée et qui a une consommation de drogue aura une durée d’entretien de 7 + 5 = 12 minutes supplémentaire en moyenne par rapport à une personne qui n’est ni déprimé et qui ne consomme pas de drogue.

Là où je bloque, c'est sur l'interprétation de la variable catégorielle "Profession".
- Si je veux savoir de combien augmente ou diminue en moyenne la durée de l'entretien chez un Cadre qui consomme des drogues, dois-je calculer -5.28 + 5.34, soit une augmentation moyenne du temps de l'entretien de 0.06 minutes ? (Bien que ça ne soit pas significatif, vu la valeur de p).
- Si je veux comparer de combien augmente ou diminue la durée de l'entretien chez un employé qui consomme des drogues avec un agriculteur qui consomme des drogues, dois-je faire (0.45 + 5.34 = 5.79 minutes en plus) pour l'employé et (14.01 + 5.34 = 19.35 minutes en plus) pour l'agriculteur, ce qui donnerait qu'un agriculteur drogué aura un temps d'entretien de 13.56 minutes en plus (19.35 - 5.79) qu'un employé drogué ?

Merci



lyceen95
Membre Complexe
Messages: 2263
Enregistré le: 14 Juin 2019, 23:42

Re: Interpréter une régression linéaire multiple

par lyceen95 » 26 Avr 2020, 13:17

Si tu n'as que ces résultats là, et si tu tiens absolument à comparer un agriculteur qui se drogue avec un employé qui se drogue, alors oui, ton analyse est bonne.

Mais tu constates que si tu compares un agriculteur qui ne se drogue pas avec un employé qui ne se drogue pas, ta méthode donne exactement le même écart de 13.56 minutes, au centième près.

Et visiblement, ça n'a pas de sens.
Tu sur-interprètes les résultats.
Raisonnablement, tout ce qu'on peut dire, c'est qu'un agriculteur parle 13.56mn de plus qu'un employé et des comparaisons du même type... le reste est tiré par les cheveux.

preliator
Membre Naturel
Messages: 26
Enregistré le: 03 Juil 2018, 10:12

Re: Interpréter une régression linéaire multiple

par preliator » 26 Avr 2020, 14:32

D'accord, merci pour ta réponse :)

preliator
Membre Naturel
Messages: 26
Enregistré le: 03 Juil 2018, 10:12

Re: Interpréter une régression linéaire multiple

par preliator » 27 Avr 2020, 12:16

Bonjour,

Je me permets de partager une dernière une dernière petite zone d'ombre quant à ce modèle de régression linéaire multiple, concernant la variable quantitative "Age".

Sur le modèle, nous voyons un coefficient de 0.21. Selon mes recherches, cela signifie que lorsque l'âge d'une personne, par rapport à une autre, augmente de 1, la durée de l'entretien augmente de 0.212 minutes, et de manière significative.

Alors, pourquoi est-ce que je trouve un résultat et une p.value différent sur un modèle de régression linéaire simple :

Code: Tout sélectionner
> mod2 = lm(data$dur.interv~data$age)

Call:
lm(formula = data$dur.interv ~ data$age)

Residuals:
    Min      1Q  Median      3Q     Max
-62.470 -14.402  -1.712  12.341  60.055

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 57.04091    2.22028  25.691   <2e-16 ***
data$age     0.12625    0.05375   2.349   0.0191 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.57 on 745 degrees of freedom
  (52 observations deleted due to missingness)
Multiple R-squared:  0.00735, Adjusted R-squared:  0.006018
F-statistic: 5.516 on 1 and 745 DF,  p-value: 0.0191

Où là, j’interprète que lorsqu'une personne qui a 1 an de plus qu'une autre, la durée de l'entretien augmente 0.126 minute (c'est très proche, mais différent).

Comment interpréter cette différence ?

Merci.

lyceen95
Membre Complexe
Messages: 2263
Enregistré le: 14 Juin 2019, 23:42

Re: Interpréter une régression linéaire multiple

par lyceen95 » 27 Avr 2020, 17:48

Non, et c'est tout l'intérêt de faire une régression multiple, c'est que ça permet de faire une analyse 'toutes choses égales par ailleurs'.

Si tu fais une régression multiple avec uniquement ces 2 critères ( drogue+age, sans prendre en compte la profession ni les autres critères), tu vas obtenir d'autres résultats, différents de ceux que tu as eus jusque là.

Je vais prendre un cliché : il y a plus de gens qui se droguent parmi les jeunes que parmi les anciens. Et je vais modifier un tout petit peu tes résultats :

- Parmi les gens qui se droguent, plus on est âgé, plus l'interview dure longtemps.
Parmi les gens qui ne se droguent pas , plus on est âgé, plus l'interview dure longtemps.
Mais sur la totalité de la population, l'âge n'a pas d'impact sur la durée de l'interview.

Exemple de données :
Jeunes + drogués : 50 personnes , 15minutes
Jeunes + non drogués : 20 personnes, 5mn
Agés + drogués : 15 personnes , 20 mn
Agés + non drogués : 55 personnes : 10mn
Avec ces chiffres, c'est clair , 'toutes choses égales par ailleurs', si on est âgé, l'Interview dure 5mn de plus que si on est jeune. Et si on se drogue, l'interview dure 10mn de plus que si on ne se drogue pas. Les résultats sont clairs.

Mais Si on fait la moyenne de tous les jeunes (drogue ou pas), on trouve 12.14mn
Et pour tous les âgés, on trouve la même valeur : 12.14mn L'âge n'aurait donc pas d'impact ???

Et idem, si on faisait la moyenne de tous les drogués d'une part, et de tous les autres d'autres part, on aurait des résultats trompeurs.

D'où vraiment l'intérêt de la régression multiple.
Sur cet exemple avec 2 dimensions et 2 valeurs dans chaque dimension, c'est parce que la proportion de drogués n'est pas la même parmi les jeunes et parmi les âgés qu'on a ce phénomène. On parle d'effet-structure.

Là, on survole vraiment les choses. On regarde uniquement la colonne 'Estimate'. Dans les faits, il y a les colonnes suivantes qui permettent de dire si tel indicateur est fiable ou non.

preliator
Membre Naturel
Messages: 26
Enregistré le: 03 Juil 2018, 10:12

Re: Interpréter une régression linéaire multiple

par preliator » 27 Avr 2020, 18:04

Merci beaucoup pour ces explications

 

Retourner vers ⚜ Salon Mathématique

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 5 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite