Résidus d'une régression linéaire

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
MaximeRouche
Membre Naturel
Messages: 13
Enregistré le: 23 Avr 2013, 19:51

Résidus d'une régression linéaire

par MaximeRouche » 07 Aoû 2013, 11:25

Bonjour,

Dans mon cours de statistiques descriptives de première année d'éco-gestion, on nous a enseigné la régression linéaire par la méthode des moindres carrés. J'ai bien saisi comment calculer les différents parètres pour obtenir l'équation de y en x (ou de x en y).

Mais on nous parle aussi des "résidus de la régression", que l'on calcule avec cette formule:

Ei=ei-êi

Pourriez-vous m'expliquer à quoi correspondent ces résidus, et ce que représente cette formule, à quelles données doit-on appliquer cette formule?

Merci d'avance!



DamX
Membre Rationnel
Messages: 630
Enregistré le: 02 Oct 2012, 13:12

par DamX » 07 Aoû 2013, 22:53

MaximeRouche a écrit:Bonjour,

Dans mon cours de statistiques descriptives de première année d'éco-gestion, on nous a enseigné la régression linéaire par la méthode des moindres carrés. J'ai bien saisi comment calculer les différents parètres pour obtenir l'équation de y en x (ou de x en y).

Mais on nous parle aussi des "résidus de la régression", que l'on calcule avec cette formule:

Ei=ei-êi

Pourriez-vous m'expliquer à quoi correspondent ces résidus, et ce que représente cette formule, à quelles données doit-on appliquer cette formule?

Merci d'avance!


Bonjour,

Il s'agit tout simplement de l'écart entre l'estimation de la régression avec la vraie valeur. C'est à dire pour chaque point, l'écart en ordonnée entre la vraie valeur et la droite de régression.

Pour le formuler, si les (xi,yi) sont les vrais points, ta régression t'a fourni pour chaque yi une estimation zi=a.xi+b (a et b étant les coefficients de la régression)

Alors les résidus sont les valeurs Ei = yi-zi. (ou dans ta notation tu avais ei=yi et êi=zi je suppose).

C'est l'erreur commise par la régression donc (d'où le 'E' comme erreur, écart...)
Et formellement le résidu devrait être défini avant la régression, puisque effectuer la régression (ie trouver a et b) consiste à minimiser la somme des carrés des résidus... C'est en ce sens que la droite de régression est la "meilleure" droite passant "au plus près" des points (xi,yi).

Est-ce plus clair ?

Damien

MaximeRouche
Membre Naturel
Messages: 13
Enregistré le: 23 Avr 2013, 19:51

par MaximeRouche » 08 Aoû 2013, 10:11

DamX a écrit:Bonjour,

Il s'agit tout simplement de l'écart entre l'estimation de la régression avec la vraie valeur. C'est à dire pour chaque point, l'écart en ordonnée entre la vraie valeur et la droite de régression.

Pour le formuler, si les (xi,yi) sont les vrais points, ta régression t'a fourni pour chaque yi une estimation zi=a.xi+b (a et b étant les coefficients de la régression)

Alors les résidus sont les valeurs Ei = yi-zi. (ou dans ta notation tu avais ei=yi et êi=zi je suppose).

C'est l'erreur commise par la régression donc (d'où le 'E' comme erreur, écart...)
Et formellement le résidu devrait être défini avant la régression, puisque effectuer la régression (ie trouver a et b) consiste à minimiser la somme des carrés des résidus... C'est en ce sens que la droite de régression est la "meilleure" droite passant "au plus près" des points (xi,yi).

Est-ce plus clair ?

Damien



Bonjour,

Merci, ça m'aide beaucoup.

J'ai cependant une dernière petite question : donc Ei=yi-zi.

Je suppose que yi représente simplement l'observation statistique, donc on remplace dans la formule chaque yi par les données que l'on a, mais que représentent les zi?

Merci!

Sylviel
Membre Transcendant
Messages: 6466
Enregistré le: 20 Jan 2010, 12:00

par Sylviel » 08 Aoû 2013, 10:22

Je reprends ce que dis Dam :

y_i est la "vraie valeur" (i.e celle de ton jeu de données) associée à x_i
z_i est la valeur prédit pour ton modèle associée à x_i.

Prenons un exemple (un peu débile, soit) : tu veux établir un lien entre la pluie et le nombre d'accidents de voiture. Pour cela tu collectionne tes données sur des années et entre comme information de base la pluie en mm d'eau tombé (ce sont tes xi) et en sortie le nombre d'accidents ce sont tes yi. Le i ici décrit chaque unité de temps considérées (par exemples les 36 mois d'une études sur 3 ans).

La regression linéaire va te donner un modèle qui dit " s'il pleut x mm alors il y aura environ ax+b accidents". Les coefficients a et b résultant du problème de regression. Après tu peux chercher à voir si ton modèle est sérieux ou pas. Pour cela tu regardes ce que ton modèle aurais dit par rapport à la réalité :
au mois i il a plût xi mm, ton modèle prédit zi= a xi +b accidents, et en réalité il y a eu yi accident. L'écart entre la prédiction et la réalité c'est zi - yi.

En espérant que ce soit plus clair.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

MaximeRouche
Membre Naturel
Messages: 13
Enregistré le: 23 Avr 2013, 19:51

par MaximeRouche » 08 Aoû 2013, 10:28

Sylviel a écrit:Je reprends ce que dis Dam :

y_i est la "vraie valeur" (i.e celle de ton jeu de données) associée à x_i
z_i est la valeur prédit pour ton modèle associée à x_i.

Prenons un exemple (un peu débile, soit) : tu veux établir un lien entre la pluie et le nombre d'accidents de voiture. Pour cela tu collectionne tes données sur des années et entre comme information de base la pluie en mm d'eau tombé (ce sont tes xi) et en sortie le nombre d'accidents ce sont tes yi. Le i ici décrit chaque unité de temps considérées (par exemples les 36 mois d'une études sur 3 ans).

La regression linéaire va te donner un modèle qui dit " s'il pleut x mm alors il y aura environ ax+b accidents". Les coefficients a et b résultant du problème de regression. Après tu peux chercher à voir si ton modèle est sérieux ou pas. Pour cela tu regardes ce que ton modèle aurais dit par rapport à la réalité :
au mois i il a plût xi mm, ton modèle prédit zi= a xi +b accidents, et en réalité il y a eu yi accident. L'écart entre la prédiction et la réalité c'est zi - yi.

En espérant que ce soit plus clair.



D'accord, donc, si j'ai bien compris, les yi se trouvent simplement dans mon tableau statistique, et les zi s'obtiennent en remplaçant y par la valeur de yi dans mon équation de la droite de régression?

Merci!

Sylviel
Membre Transcendant
Messages: 6466
Enregistré le: 20 Jan 2010, 12:00

par Sylviel » 08 Aoû 2013, 10:39

Exactement !
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

MaximeRouche
Membre Naturel
Messages: 13
Enregistré le: 23 Avr 2013, 19:51

par MaximeRouche » 08 Aoû 2013, 10:50

Sylviel a écrit:Exactement !


D'accord, merci de votre aide!

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 67 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite