Statistique - Régression multiple - Perte de normalité après

par **huitzi** » 19 Mai 2012, 10:46

Bonjour,

Je suis étudiant en M1 de Statistique et je dois étudier des données en utilisant le logiciel SAS. Cet exercice fait partie de mes examens, donc je tiens à préciser que je cherche seulement de l'aide dans ma compréhension, et aucunement une résolution de l'exercice.

Je dispose d'environ 300 données avec une variable explicative et 8 régresseurs. J'ai d'abord réalisé une PROC REG de manière classique. J'ai vérifié les hypothèses d'homoscédasticité (à l'aide de l'option SPEC) et de normalité des résidus (à l'aide d'une PROC UNIVARIATE NORMAL).
Dans la suite de l'exercice, on me demande de faire une transformation Box-Cox en y -> ln(y). Je n'ai pas vu la transformation Box-Cox en cours mais je suis allé m'instruire sur internet. Ensuite, on me demande de refaire la régression et de retester les hypothèses. La p-value associé au test d'homoscédasticité augmente, elle passe de 0.055 (c'était un peu limite avant) à 0.09 environ. En revanche, pour la normalité, alors que j'avais avant une p-value de 0.5, elle vaut maintenant 0.0001. Donc, après la transformation, j'ai complètement perdu la normalité de mes données.

Je trouve que c'est évidemment très étrange, parce que si on me demande ça dans l'exercice, c'est pour améliorer le modèle (notamment à cause, à mon avis, de la faible p-value du test d'homoscédasticité).
J'ai réalisé une PROC TRANSREG pour faire le Box-Cox avec SAS qui me dit d'utiliser un lambda de 0,25. J'ai aussi transformé les données de cette façon mais j'obtiens aussi un test de normalité significatif.

Est-ce qu'il y a une explication à cela ?
Les données sont accessibles ici : http://huitzi.fr/Ozone.TXT

Je le répète, c'est un travail qui comptera dans mes examens, donc je ne cherche pas une solution, simplement de l'aide pour m'aiguiller.

Merci !

par **Dlzlogic** » 20 Mai 2012, 13:42

Bonjour,
Je voudrais réactiver ce sujet qui me parait intéressant.
Je ne connais pas le logiciel SAS, je ne peux donc pas donner une réponse précise à la question posée.

Cette méthode de régression multiple mérite à mon avis quelques explications.
On dispose d'un certain nombre d'observations portant sur une période de temps suffisamment significative. On suppose que les quantités mesurées influent sur la valeur mesurée d'un évènement. Autrement dit, on suppose qu'un certain nombre d'évènements sont liées, l'un de ces évènement est difficile à mesurer, contrairement aux autres, et but étant d'établir une fonction qui permette d'évaluer très facilement et rapidement la valeur de l'évènement étudié.

J'appelle groupe d'observations, celles qui correspondent à un instant donné. Les observations d'un groupe sont liées entre-elles par une unité temporelle, même si l'une d'elle est mesurée ultérieurement, mais l'hypothèse est que l'évènement est directement lié aux évènements d'un même groupe.
Les différents groupes sont liés entre eux par le fait que seul la variable "temps" les différencient.

Il résulte de cela qu'on est en présence qu'un certain nombre de groupes de mesures, le but est de trouver la relation mathématique qui lie ces différents groupes.

Dans la phase de recherche, il sera nécessaire de vérifier
1- qu'aucune mesure ne corresponde à impact négligeable. Si c'est le cas, cette mesure peut être ignorée
2- qu'aucune mesure ne produise un impact disproportionné par rapport aux autres. En ce cas, il faudrait se demander si l'évènement considéré est réellement lié au phénomène observé, si la méthode de mesure de cet évènement est correcte, ou tout autre anomalie concernant cet évènement.

Dans l'exemple proposé, on peut supposer que cette phase de recherche a été menée de façon satisfaisante. On dispose de 330 groupes. Ci dessous, le résultat de mes calculs.

Pour mémoire les 4 premiers groupes
3 40 2693 -25 250 5710 28 47.66 4
5 45 590 -24 100 5700 37 55.04 3
5 54 1450 25 60 5760 51 57.02 3
6 35 1568 15 60 5720 69 53.78 4

Résultat (fonction puissance) : A= 82.9541 B= 0.0508 C= 0.4728 D= 0.1035 E= 0.0905 F= 0.0529 G= -9.9734 H= 0.1287 I= 0.2654
Res = exp(A) * V1^B * V2^C * V3^D * ...
Les constantes suivantes ont été ajoutées aux valeurs lues :
1.00 0.00 0.00 70.00 1.00 0.00 0.00 0.00 1.00
Calcul sur 330 groupes. Ecart-type = 1.96
Nombre = 330 emq=1.96 ep=1.31
Classe 1 nb= 3 0.91% théorique 0.35%
Classe 2 nb= 11 3.33% théorique 2%
Classe 3 nb= 26 7.88% théorique 7%
Classe 4 nb= 59 17.88% théorique 16%
Classe 5 nb= 87 26.36% théorique 25%
Classe 6 nb= 93 28.18% théorique 25%
Classe 7 nb= 30 9.09% théorique 16%
Classe 8 nb= 18 5.45% théorique 7%
Classe 9 nb= 3 0.91% théorique 2%
Classe 10 nb= 0 0.00% théorique 0.35%

On constate que la moitié des valeurs calculées ont une précision de =/- 1.31, ce qui apparait satisfaisant pour des valeurs fournies avec la précision de l'unité.

On observe par ailleurs la répartition des écarts. Il y a lieu de remarquer que 3 groupes sont dans la classe 1, c'est à dire 2 de trop. Il faudra examiner la liste pour vérifier que l'un des groupes ne comporte pas une valeur invraisemblable. Habituellement, on considère comme douteuses toutes les observations qui sont dans la classe 1 ou la classe 10.

Statistique - Régression multiple - Perte de normalité après

Statistique - Régression multiple - Perte de normalité après

Qui est en ligne