Econométrie : régression multiple

par **jvtvstib** » 29 Nov 2011, 14:14

Bonjour, j'ai un travail à remettre en économétrie, et j'avais une question sur une des sous-questions.

Nous avons des données sur des individus, avec des caractéristiques. Par exemple, des jeunes et des adultes (variables binaires, = 1 si jeune, 0 si adulte). Une variable dépendantes Y, le revenu par exemple. On fait donc une régression multiple avec plusieurs "regresseurs", variables explicatives donc.

En faisant la régression, on trouve deux coefficient positifs pour les variables "jeune" et "adulte", mais l'un est en fait plus petit que l'autre (par exemple 0,805 pour jeune et 0,736 pour adulte). Donc, toutes choses étant égales par ailleurs dans la régression estimée, un jeune aura un revenu plus élevé qu'un adulte.

Mais bizarrement, quand on fait deux régressions séparées, c'est-à-dire une seulement avec les jeunes, et l'autre seulement avec les adultes, on trouve une moyenne pour le revenu Y plus grand chez les adultes que chez les jeunes. Et l'échantillon "n" est grand, plus de 500 personnes, même quand on prend les régressions séparées.

Je me demande en fait ce que ça veut bien dire. Car j'ai l'impression qu'on ne peut pas conclure à une phrase du type : "les jeunes ont généralement un revenu plus important que les adultes". Car le coefficient des jeunes est plus grand que celui des adultes, mais les moyennes séparées des régression sont contraires à ce résultat.

Voilà, merci d'avance pour vos réponses.

par **Dlzlogic** » 29 Nov 2011, 15:11

Bonjour,
J'ai pas très bien compris.
Pour moi, faire une régression, c'est étant donné une série de couples (x,y) de valeurs, c'est trouver une fonction y = f(x) permettant de calculer la valeur y si on connait la valeur x.

Si vous pouviez aussi me dire ce que vous appelez "régression multiple", je comprendrai peut-être mieux.

Je n'ai pas compris non plus votre variable binaire jeune <--> adulte

par **jvtvstib** » 29 Nov 2011, 15:20

Merci pour votre réponse.

En fait, la régression multiple est une régression simple à laquelle on rajoute des variables de contrôles, car la variable X dans Y=C(0)+C(1)X n'explique pas toujours très bien à elle toute seule la variable Y.

Donc, on se retrouve par exemple avec Y qui dépend par exemple de X, mais aussi R, S, T par exemple.

Pour la variable binaire, c'est par exemple : Y = Y=C(0) + C(1)*X + C(2)*Z , où Z prend la valeur 1 ou 0. Son coefficient C(2) calcule par exemple le revenu moyen estimé en plus pour un jeune. Si c'est un adulte, elle vaudra donc zéro.

par **Dlzlogic** » 29 Nov 2011, 15:42

jvtvstib a écrit:Merci pour votre réponse.

En fait, la régression multiple est une régression simple à laquelle on rajoute des variables de contrôles, car la variable X dans Y=C(0)+C(1)X n'explique pas toujours très bien à elle toute seule la variable Y.

J'ai toujours pas compris.
C(0) ; C(1) sont des paramètres. En fait c'est probablement un style d'écriture.

Donc, on se retrouve par exemple avec Y qui dépend par exemple de X, mais aussi R, S, T par exemple.

On peut calculer une régression avec 3 variables, C'est à dire f(x,y,z) dont on se servira généralement sous la forme z=f(x,y).
3 variables c'est déjà assez difficile, alors plus, j'arrive pas à imaginer.

Pour la variable binaire, c'est par exemple : Y = Y=C(0) + C(1)*X + C(2)*Z , où Z prend la valeur 1 ou 0. Son coefficient C(2) calcule par exemple le revenu moyen estimé en plus pour un jeune. Si c'est un adulte, elle vaudra donc zéro.

Votre dernier terme c(2)*Z revient à rajouter une constante.
Autrement dit, si "jeune" alors Y = C(0)+C(2) + C(1)*X
Autrement dit, si "adulte" alors Y = C(0) + C(1)*X

Donc, j'ai toujours rien compris.

Par ailleurs il existe d'autres fonctions de régression que la fonction linéaire.
Je suis assez étonné que vous rameniez la notion d'age à une variable binaire, ça me parait un peu plus compliqué que ça.

PS peut-être qu'avant le terme C(2) il faut mettre '*' au lieu de '+' ?

par **jvtvstib** » 29 Nov 2011, 15:51

Voilà à quoi peut ressembler une régression multiple sous Eviews par exemple :

http://philscience.com/economics/eviews/ev5images/arma.gif

On a plusieurs "régresseurs". Certains peuvent être des variables binaires. L'exemple jeune/adulte est un mauvais exemple de ma part. Prenons par exemple, une caractéristique "voiture/ pas de voitures" qui pourrait expliquer le poids des personnes en général : ce serait une variable binaire.

On a nos données, échantillon ....

Je pense que wikipédia explique mieux que moi :

http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire_multiple

par **jvtvstib** » 29 Nov 2011, 15:58

Sinon félicitations pour le 1000 ième message !

Pour les variables binaires, si on a un échantillon avec 1000 individus, 500 personnes peuvent avoir une voiture, les 500 autres pas. Donc ça reste une "variable", ça devient constant (car égal à 1) si on prend que les 500 personnes avec une voiture.

par **Dlzlogic** » 29 Nov 2011, 16:47

Sinon félicitations pour le 1000 ième message !

Merci, c'est gentil, je n'avais même pas remarqué.

J'ai lu l'article de Wiki et j'ai compris le but.
Quelques remarques.
Manifestement la forme générale de la fonction utilisée est une somme de fonctions linéaires. Une formule plus générale serait de la forme
Y = K . A^a . B^b . C^c . ... etc.
Les paramètres K, a, b, c ... peuvent être fonction de variables extérieures, par exemple régionales
A, B, C, ... sont les variables concernées.

Remarques:

Pourquoi minimiser la somme des carrés plutôt que la simple somme? Cela tient au fait que la moyenne de ces résidus sera 0, et donc que nous disposerons de résidus positifs et négatifs. Une simple somme les annulerait, ce qui n'est pas le cas avec les carrés.

Ceci est uns hérésie mathématique.

par **jvtvstib** » 29 Nov 2011, 16:56

Merci d'avoir essayé de m'aider. Mais là je dois quitter pour le moment le site.

Dlzlogic a écrit:Ceci est uns hérésie mathématique.

En tout cas, je suis pas mathématicien, et c'est pas moi le précepteur de l'inférence statistique, des moindres carrés ordinaires ... :ptdr:

par **Dlzlogic** » 29 Nov 2011, 18:19

L'hérésie ne réside pas dans l'utilisation des moindres carrés, ce qui tout à fait normal, mais dans la remarque à propos de la raison pour laquelle on l'utilise.

par **Skullkid** » 29 Nov 2011, 18:34

Tu peux m'expliquer cette hérésie, Dlzlogic ?

par **Skullkid** » 29 Nov 2011, 23:07

Dlzlogic a écrit:Ecoute, fais au moins une recherche à propos des moindres carrés, http://fr.wikipedia.org/wiki/M%C3%A9thode_des_moindres_carr%C3%A9s. le premier sur Google.

L'hôpital qui se fout de la charité... Montre-moi où cet article contredit ce que j'ai dit et où il explique pourquoi c'est une hérésie de dire qu'un avantage de sommer les carrés est de cumuler les erreurs ponctuelles sans possibilité de les compenser ("hérésie" qui d'ailleurs vient d'un autre article wikipédia). Ah d'ailleurs, cet article explique la différence entre les moindres carrés ordinaires et les moindres carrés pondérés (tu sais, la méthode qui n'existe pas parce que tu n'en as jamais entendu parler), mais je te sais suffisamment honnête pour l'avoir lu avant de me le balancer (non, je déconne).

Dlzlogic a écrit:Pour ma part, j'ai retrouvé un document (1961) qui donne cette formule sous le non de "écart moyen quadratique", n'ayant aucun rapport avec le cours cité par ailleurs. Cette histoire de terme est d'ailleurs assez ridicule.

Je suis d'accord : c'est ridicule de prétendre qu'un terme n'existe pas parce qu'on ne l'a jamais vu ou parce qu'on a l'habitude d'en utiliser un autre, c'est pourtant ce que tu fais en permanence.

Dlzlogic a écrit:Les membres jugeront si ta remarque :
est une réponse "normale" à ma phrase

Bien sûr, puisque :

Dlzlogic a écrit:il n'y a qu'une seule loi, la loi normale.

par **fatal_error** » 30 Nov 2011, 07:43

Bj,

pour parfaire cette prestation :hum: , je n'ai pas compris ton énoncé

En faisant la régression, on trouve deux coefficient positifs pour les variables "jeune" et "adulte", mais l'un est en fait plus petit que l'autre (par exemple 0,805 pour jeune et 0,736 pour adulte). Donc, toutes choses étant égales par ailleurs dans la régression estimée, un jeune aura un revenu plus élevé qu'un adulte.

Si il y a une variable qui prend la valeur jeune et adulte (représentés par 0,1) comment c'est possible d'avoir deux coefficients?
Moi jcomprends les choses comme
Y = aX+bZ+...
(avec Y le revenu, X la variable jeunesse qui vaut 0 ou 1, et Z un autre régresseur qu'on s'en tape)

Comment fais-tu pour obtenir simultanément 0.805 et 0.736 pour a?

par **Dlzlogic** » 30 Nov 2011, 11:21

Bonjour Sullkid,

L'hôpital qui se fout de la charité... Montre-moi où cet article contredit ce que j'ai dit et où il explique pourquoi c'est une hérésie de dire qu'un avantage de sommer les carrés est de cumuler les erreurs ponctuelles sans possibilité de les compenser ("hérésie" qui d'ailleurs vient d'un autre article wikipédia). Ah d'ailleurs, cet article explique la différence entre les moindres carrés ordinaires et les moindres carrés pondérés (tu sais, la méthode qui n'existe pas parce que tu n'en as jamais entendu parler), mais je te sais suffisamment honnête pour l'avoir lu avant de me le balancer (non, je déconne).

Je suis un peu ennuyé de répondre à ta question puisque nuage, par MP, m'a demandé expressément de me taire, puisque même s'il avait tord, il avait raison puisqu'il corrige les copies.

Les moindres carrés n'ont fondamentalement rien à voir avec les proba.

Réponse :

Son nom vient de la loi statistique qu'elle décrit, si les erreurs de mesure qui entachent les yi sont distribuées suivant une loi normale (ce qui est très courant). Dans ce dernier cas, la méthode des moindres carrés permet de plus destimer quantitativement ladéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs i. Si le modèle derreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance, dont la méthode des moindres carrés est un cas particulier.

Il n'y a qu'une sorte de méthode des moindres carrés, si pondération il y a, ce sont le valeurs qui sont pondérées.

par **Skullkid** » 30 Nov 2011, 12:59

Dlzlogic a écrit:Bonjour Sullkid,
Je suis un peu ennuyé de répondre à ta question puisque nuage, par MP, m'a demandé expressément de me taire, puisque même s'il avait tord, il avait raison puisqu'il corrige les copies.

Quel rapport ça a avec moi ou les critiques que je te fais ?

Son nom vient de la loi statistique qu'elle décrit, si les erreurs de mesure qui entachent les yi sont distribuées suivant une loi normale (ce qui est très courant). Dans ce dernier cas, la méthode des moindres carrés permet de plus destimer quantitativement ladéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs i. Si le modèle derreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance, dont la méthode des moindres carrés est un cas particulier.

Ce paragraphe que tu cites (enfin, les premières phrases en tout cas) parlent du khi², qui est en effet une loi de stat/proba. Le fait que les moindres carrés possèdent une interprétation statistique/probabiliste (c'est ce à quoi je faisais référence quand je parlais d'arguments sophistiqués qui justifient que les moindres carrés sont optimaux de plusieurs points de vue) ne change rien au fait que l'idée de la méthode n'a rien à voir avec les proba : on définit arbitrairement un écart entre deux objets, et on veut minimiser cet écart. Les moindres carrés ont aussi une interprétation en algèbre euclidienne, c'est pas pour ça qu'ils sont fondamentalement liés à l'algèbre euclidienne.

par **Dlzlogic** » 30 Nov 2011, 14:05

Quel rapport ça a avec moi ou les critiques que je te fais ?

Parce qu'il ajouté "nous les mathématiciens", mais comme je déteste l'agressivité, il m'arrive de me retenir.
Je vais essayer de dire, avec mes mots, le lien étroit qu'il y a entre la méthode des moindres carrée et les probabilités. Il y aura probablement un ou deux termes impropres ou mal employés, mais ce n'est pas pour autant que mon argumentation ou mon explication est fausse.
Soit une série dexpériences, chaque expérience conduit à une valeur. On a vu que la répartition de ces valeurs était toujours la même, que la moyenne arithmétique était la valeur la plus probable, l'écart type (emq) étant la valeur numérique qui caractérise la qualité de la série d'expériences.

Considérons maintenant un groupe de séries d'expériences. Chaque série d'expérience du groupe est indépendante des autres. Considérons (pour simplifier) que les emq de chacune des séries sont égales. On a donc un groupe de valeurs qui ont la même qualité et ont pour but de calculer les caractéristiques, les paramètres d'une fonction. Ces valeurs sont en sur-nombre, le but de la méthode des moindres carrés est de calculer les dits paramètres tel que l'écart sur le résultat sera le minimum.
Chaque résultat d'expérience a une emq, e1, e2, ... en. Les résidus v1, v2, ... vn sont les écarts à la valeur vraie. L'emq est fonction des carrés des écarts à la valeur vraie (notion abstraite). Si on minimise la somme des carrés des écarts constatés on tend vers la valeur résultat la plus probable.

1er exemple : régression linéaire. On dispose de couples (X,Y) résultant d'observations quelconques. On sait, en tout cas c'est l'hypothèse, que le phénomène observé correspond à une fonction de la forme y = ax + b. Il est bien évident que 2 couples permettent de calculer les paramètres a et b, mais comme on dispose d'observations en sur-nombre, on utilise la méthode des moindres carrés.

2nd exemple : calage de plan. On cherche à mettre en correspondance 2 plans d'une même zone. On sait qu'il suffit de 3 points de calage pour calculer la transformation de la forme,
X = TX + XX x + XY y
Y = TY + YX x + YY y
Pour un certain nombre de raisons, on a l'habitude de prendre de 6 à 10 points de calage, on a donc des équations en sur-nombre. La méthode des moindres carrés est appliquée pour résoudre cela.

Econométrie : régression multiple

Econométrie : régression multiple

Qui est en ligne