Importance du nombre d'observations dans une série statistique

par **fatal_error** » 24 Avr 2012, 13:25

lerreur de prediction ne diminue plus.

significativement (pour justifier lajout dune nouvelle donnee). C'est un constat de ma part, dans le lien que jai file egalement, et il existe surement des inegalites, que je n'ai pas pris la peine de comprendre.

par **beagle** » 24 Avr 2012, 13:45

Le PDF fait 155 pages en anglais et en langage maths, argh ...

n sup n' donc toujours meilleure prédiction pour n est bien sur faux,
si on reprend l'exemple des votes du premier tour,
l'estimation faite à 20 heures
l'institut X avec n grand et faible représentativité de l'échantillon
donnera une moins bonne estimation
que l'institut Y avec n' petit mais excellente représentativité de l'échantillon.
Donc ce n'est pas la taille qui compte, reste une phrase valable.

Au fait, il y a eu plantage des sondages préélectoraux,
on retombe sur difficulté, incompétence et volonté de faire plaisir au commanditaire, jusqu'à manipulation, ok.
Mais aux estimations de 20heures, là on ne triche plus, la réputation seule entre en jeu.
Donc, c'est qui les bons et les mauvais du 20heure et cela rejoint-il les mauvais des sondages préélectoraux?
On pourrait s'amuser à noter les données de chacun pour le second tour!

par **Black Jack** » 24 Avr 2012, 15:41

Lorsqu'on dit que la marge d'erreur diminue lorsque N augmente, c'est évidemment lorsque les "individus" qui constituent l'échantillon sont vraiment pris au hasard dans une population représentative.

Si ce n'est pas le cas, alors il ne faut même pas essayer de faire une étude statistique.

Si lors d'un sondage sur une élection (comme celle qui vient d'avoir lieu en France), on interroge 5000 personnes et que parmi ces 5000 personnes, chaque "région" est représentée proportionnellement à son nombre de votants par rapport à la population totale votante du pays, cela sera meilleur qu'avec un échantillon de 10000 personnes interrogées mais que ces 10000 personnes habitent toutes une même grande ville par exemple.

Si N augmente, la marge d'erreur diminue ... si évidemment on prend des critères sains pour tirer "au hasard" les participants.
C'est un peu comique de dire "au hasard" alors que je précise que ce choix doit être fait "avec des critères sains"... mais je ne vois pas comment dire autrement.

:zen:

par **beagle** » 24 Avr 2012, 16:14

Bon, ici c'est un forum de maths, alors voici la question:
on veut donner des résultats à 20 heures, avant les résultats totaux.
Avec les % des candidats déjà estimés en prévotes,
combien faudrait-il d'individus pour avoir une estimation fiable si l'on devait choisir les individus-résultats partiels au hasard et non à partir d'échantillons représentatifs.

Et à comparer avec le nombre d'individus pris par les instituts pour donner leurs résultats.

par **Black Jack** » 26 Avr 2012, 11:13

Un exemple de calcul de la taille d'un échantillon ici: http://www.ifad.org/gender/tools/hfs/anthropometry/f/ant_3.htm

C'est sur un sujet différent (ici malnutrition) mais les principes restent les mêmes.

On peut voir, comme je l'avais mentionné, que la taille de l'échantillon (ici n) dépend d'une estimation de ce qu'on s'attend à trouver par l'étude (représenté par le "p" dans le lien)

On peut aussi remarquer que la taille de l'échantillon ne dépend pas de la taille de la population totale.

Dans les étapes suivantes, on corrige la valeur du n trouvé pour tenir compte que le choix des "participants" n'est jamais purement aléatoire.

On voit la aussi que le facteur de correction (2 dans le lien) est de nouveau du à une "supposition" basée probablement sur l'expérience, mais ...

Et il y a encore 1 correction de la taille de l'échantillon pour tenir compte des erreurs "d'encodage" des réponses.

Et ... ce n'est pas fini.

On a la taille de l'échantillon pour avoir le niveau de confiance et la marge d'erreur voulue ...

Mais il faut encore répartir le "choix" des individus de cet échantillon de manière correcte. (donc, répartir un peu partout portionnellement aux nombres d'habitants de toutes les régions).

Après tout cela, il y a toujours bien quelque chose qui ne va pas ... et malgré des calculs justes, le statiscitien, qui part de prémisses douteuses (entre autre dans les choix faits ci dessus pour la composition de l'échantillon), arrive à des résultats faux. :ptdr:

N'empêche, la formule pour calculer la taille "primitive" de l'échantillon (début du lien) , on voit que n (taille de l'échantillon) augmente si on veut augmenter le niveau de confiance et/ou si on veut diminuer la marge d'erreur.

:zen:

Importance du nombre d'observations dans une série statistique

Qui est en ligne