Estimation d'un paramètre

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

Estimation d'un paramètre

par john32 » 21 Juil 2008, 10:36

Bonjour,

Après m'être bien pris la tête sur ce projet je vous le propose car je pense qu'un avis extérieur pourrait m'être d'un grand secours (mes notions dans le domaine n'étant pas extrêmes et ayant épuisé les pistes qui me semblaient intéressantes à explorer). :mur:

C'est parti:
Admettons que je souhaite estimer le nombre d'enfants par femme en France pour l'année 2007.
J'envoies des émissaires dans chaque région de France et à causes de certains facteurs que je ne connais pas (taille population, région particulière peut être...) je ne reçois pas les données dans un délai suffisament court. Je dois donc estimer cette moyenne a partir d'un morceau tronqué de données (disons 30%).
Il paraît difficile voire impossible d'obtenir une estimation non biaisée de la variable d'intérêt.

Cependant on dispose d'infos supplémentaires :
Le nombre moyen d'enfants par femme pour les années précédentes (admettons depuis 1990). Il est évident que ces nombres sont plus ou moins liés. Comment puis je utiliser cet ajout d'information dans mon problème d'estimation.

Je vous remercie par avance de votre aide :we:



busard_des_roseaux
Membre Complexe
Messages: 3151
Enregistré le: 24 Sep 2007, 14:50

par busard_des_roseaux » 21 Juil 2008, 11:11

salut,

Il y a de nombreuses variables quantitatives corrélées:
- nbre de biberons, de poussettes,de vélos pour enfants
de sièges automobiles pour bébés...

sinon, il semble que l'INSEE (observatoire nationale de la statistique)
publie un rapport annuel.

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 21 Juil 2008, 11:24

Ta réflexion est des plus intéressantes mais pose au moins deux prolbèmes dans l'absolu :
- Ces variables corrélés au nombre 2007 peuvent l'être beaucoup plus par rapport aux années précédentes (par exemple si certains accessoires ne sont achetés que tard après la naissance de l'enfant = vente faite en 2007 pour un enfant né en 2006).

- L'accès à de telles informations n'est pas forcément aisé.

Je tiens tout de même à préciser qu'un tant qu'étudiant je n'ai évidemment pas un problème de cette ampleur à résoudre mais au niveau de la formulation et des données disponibles c'est un problème proche de celui qui m'a été proposé.

Merci de ta réponse :we: mais cela reste de peu d'aide car ce qui m'intéresse réelement c'est l'utilisation des données de corrélation. :briques:

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 22 Juil 2008, 13:22

Bonjour,

Si vous disposez de 30 % des données, il faut faire un redressement. Faites une estimation du nombre de femmes pour chaque région et du nombre d'enfants pour chaque région région (utiiser la population légale régionale disponible sur le site de l'Insee).

Faites également attention de ne pas faire une erreur très courante de faire la moyenne des enfants par femme par région. Le taux que vous trouverez est biaisé !

En réalité, le taux que vous cherchez est le rapport nombre d'enfants France entière sur nombre de femmes France entière. Ce sont ces deux valeurs que vous devez estimer.

Cordialement,

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 22 Juil 2008, 13:24

Sinon vous avez également à votre disposition le nombre de naissances nationales et régionales sur le site de la DREES ou sur le site de chaque DRASS.

Cordialement,

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 22 Juil 2008, 13:54

Ok ton explication est claire mais je ne comprends pas quel critère tu voudrais utiliser pour faire le redressement.

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 22 Juil 2008, 14:58

Il me semble qu'il me faut une variable auxiliaire qui soit fortement corrélée à ma variable d'intérêt pour faire un bon redressement mais je n'en suis absolument pas sur.

Anyone can help ??

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 22 Juil 2008, 18:02

Vous devriez checher le nombre de femmes entre 18 et 65 ans par région. Cela serait un bon début.

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 23 Juil 2008, 09:31

Mince je l'avais énoncé précédemment mais apparemment je me suis mal exprimé. Ce problème (le thème, l'ampleur des données à récupérer) n'est pas du tt celui que j'ai a traité.
Il n'est absolument pas question de nombre d'enfants par femme etc ...

C'est juste la mise en situation et le fait de ne pas pouvoir récupérer toutes les données à la date voulue qui va poser problème pour la résolution de mon projet.

C'est donc surtout la question du redressement et le critère à prendre en compte pour ce même redressement où réside le point nodal.

Donc j'attends vos suggestions avec impatience mais aussi inquiétude car la je suis un peu dans l'impasse.

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 11:48

Pouvez-vous être plus précis sur le thème que vous devez traiter ?

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 23 Juil 2008, 11:53

En gros voila je bosse sur un chiffre relatif a la fiabilité des avions.

Le problèmes c'est qu'on ne peut pas attendre pour calculer ce chiffre pour le mois qui vient de s'écouler et donc on travaille sur une fraction des données. (car certaines compagnies clients délivrent ou non les données dans le délai imparti).

Je dois donc estimer ce chiffre par une méthode de sondage en sélectionnant un échantillon représentatif de l'échantillon total car évidemment on dispose de données annexes (âge, durée de vol pour chaque appareil).

Evidemment on peut se douter que le calcul de la valeur peut conduire à un biais de son estimateur car il suffit que les données utilisables soient toutes en dessous de celles qui seront délivrées plus tard.

Voila donc le problème : Si ya besoin de plus d'infos tenez moi au courant.

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 14:20

Bonjour,

Est-ce que vous disposez de l'intégralité des données sur l'age et la longueur du vol. Est-ce que vous connaissez également la compagnie de l'avion (sur liste noir par exemple ?).

Si la réponse est positive, vous pouvez alors construire des classes.
Exemple sur l'âge : moins d'un an, un à trois ans, quatre à cinq ans etc....
Exemple sur la durée du vol : moins de quatre heures ...
Ce qu'il faut, c'est que vos classes soient le plus pertinent possible. C'est à vous de les construire.

Avec ces deux variables, vous pouvez alors construire un tableau croisé. Dans chacune de ces cases vous aurez un nombre Nij. C'est-à-dire le nombre total de vol d'avions d'age i et d'une durée j. Attention chacune des cases de ce tableau doit être supérieur à 5.

Vous prenez maintenant votre échantillon et vous classez les vols dans cette grille. Vous obtenez alors un nombre nij dans la case de ligne i et de colonne j. (attention chaque case ne doit pas être nul).

Une fois que vous avez ce nouveau tableau pour votre échantillon, vous allez redresser votre échantillon par la formule :
Nij=nij*X. X s'appelle le poids.
Et vous faites ce calcul pour chaque case.
En d'autres termes, chaque vol de la case ij sera multiplié par le poids X, de tel sorte que quand vous faites la somme des nij pondérés par le poids X, vous obtenez le total Nij.

Cordialement,

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 23 Juil 2008, 14:44

Ok nickel les tableaux croisés pour donner des poids relatifs à deux variables.

Cependant deux questions subsistent :
- Comment choisir les deux variables (choisir les plus corrélées à ma variable d'intérêt ?)
- Comment faire si je dois avoir affaire à plus de 2 variables

En tout cas merci pour ta reflexion qui va me permettre d'avancer un peu.

Dans un cours de quelle matière mathématique à tu lus ou appris de telles informations ?

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 15:54

john32 a écrit:Ok nickel les tableaux croisés pour donner des poids relatifs à deux variables.

Cependant deux questions subsistent :
- Comment choisir les deux variables (choisir les plus corrélées à ma variable d'intérêt ?)

Il ne s'agit pas de prendre les variables les plus corrélés mais d'en choisir deux voire trois qui vous semblent pertinentes. Avec ces variables vous créez des classes ou vous reprenez une classification existante. Attention, le nombre par case ne doit pas être nul.


Comment faire si je dois avoir affaire à plus de 2 variables

Faites simple, commencez par deux variables.


Dans un cours de quelle matière mathématique à tu lus ou appris de telles informations ?
Il s'agit de la théorie des sondages.

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 15:59

Vous trouverez, ci-joint, la méthode de calage sur marge.

http://www.insee.fr/fr/methodes/outils/calmar/doccalmar.pdf

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 23 Juil 2008, 16:08

Je ne comprends pas très bien ce que tu entends par variables pertinentes !
De mon point de vue elle doivent tout de même présenter un lien avec la variable d'intérêt sinon cela doit poser problème.

Ai je tort ?

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 16:24

C'est une mauvaise question que vous vous posez.

Je m'explique.

Vous cherchez les variables auxiliaires les plus corrélées à votre variable d'intérêt.

Or vous ne connaissez pas votre variable d'intérêt. C'est elle que vous cherchez à estimer. Donc vous ne pouvez pas calculer de variance de cette variable (peut-être l'estimer mais c'est très dur et dans certains cas c'est impossible) et encore moins calculer la covariance.

Quand je parle de variables pertinentes, vous devez recensez les variables auxiliaires que vous avez à votre disposition (il n'y en a pas mille) et vous en choisissez deux.

Par exemple, vous pouvez prendre une variable de structure (nationalité de la compagnie, statut de la compagnie...) et une variable technique (age de l'appareil, nombre d'heures de vol)...

C'est à vous de déterminer les variables.

Si cela vous pose un problème faites deux redressements avec deux variables auxiliaires différentes à chaque fois et comparer les résultats.

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 23 Juil 2008, 17:22

Bien vu bien vu, je me suis un peu fourvoyé dans la mesure où mon idée de base est un peu différente de celles des sondages.

En effet je connais les valeurs de la variable d'intérêt. Mais le problème c'est que je la connais pour seulement 30 % des données :doh: .
Les autres étant comme expliqué non connue (donc comme des non réponses).
Je peux donc tricher et essayer de choisir des bonnes variables auxiliares pour mon redressement ?

En effet n'ayant pas toutes les données j'introduis un biais dans le calcul de la moyenne comme il me manque des données.
En choisissant des variables auxiliaires un peu "au hasard" et même en faisant des bonnes classes est ce que je ne risque pas d'introduire plus de biais dans mon estimation.

En tt cas tu es très pertinent et semble très calé (et c'est le mot :ptdr: ) dans le domaine des sondages

duduche19
Membre Naturel
Messages: 30
Enregistré le: 20 Mai 2008, 21:39

par duduche19 » 23 Juil 2008, 19:26

Dans les sondages, il y a toujours un risque de se planter dans les estimations.
Mais en utilisant des variables auxiliaires pour votre redressement vous augmentez sensiblement vos chances de trouver une estimation proche de la réalité .

Vous vous trompez sur un autre plan. Vous dites ne disposer que de 30 % des observations. Ce n'est pas un critère de qualité. Dans certaines enquêtes, l'échantillon ne représente même pas un millième de la population étudiée.
En fait ce qui compte, c'est d'abord le nombre d'observations. Vous en avez combien pour l'instant ? 30, 100 , 1000 ou plus ?

Mais ce n'est pas suffisant. Il faut également que vous ayez des observations d'un peu partout. Je m'explique :
- Si vous n'avez que des observations que d'une compagnie. Laissez tomber. Le seul redressement que vous feriez ce serait de calquer la compagnie à la population totale.
- Si vous n'avez que quelques compagnies mais qui se ressemblent toutes (elles se retrouvent dans les mêmes classes des variables auxiliares), ce n'est pas bon non plus. Il faut que vous trouviez d'autres variables auxiliaires.
- Ce qui est primordiale, c'est que vous trouviez deux variables auxiliaires, que vous déterminiez des classes pertinentes et que dans chaque case vous ayez des observations. Alors là, oui, cela vaut le coup de faire un redressement.

john32
Membre Relatif
Messages: 239
Enregistré le: 08 Juil 2008, 11:34

par john32 » 24 Juil 2008, 11:56

En fait les informations dont je dispose sont assez variées je pense. Ainsi les données dont je dispose sont données par différentes compagnies qui ne se ressemblent pas toutes.

Pour preuve comme je connais 30% des données, je les prends toutes et regarde la dispersion de la variable d'intérêt et elle n'est pas très petite preuve peut être qu'il existe un échantillon "représentatif".

Ensuite j'ai un autre problème.
Je me demande si la variable qualitative nom de la compagnie ne pourrait pas être utilisée.
A priori cela me semble difficile car je ne sais pas comment utiliser une telle information pour le redressement.
Je pensais donc faire des strates à partir de cette variable car on peut remarquer que les avions se ressemblent plus au sein d'une même compagnie qu'avec d'autres appareils.

Je sais pas si je me suis fait comprendre !

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 73 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite