Echantillon "représentatif" ?

par **Mac_Leod** » 25 Juin 2015, 13:12

Bonjour à tous,

Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

par **chombier** » 25 Juin 2015, 13:45

Mac_Leod a écrit:Bonjour à tous,

Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

C'est des maths appliquées, pas sur qu'on puisse beaucoup t'aider. D'autant que ça a l'air complexe.

La première question à te poser c'est : à quelle taille sont limités les échantillons. Plus ton échantillon est grand, plus il sera représentatif.

Pour caricaturer, l'échantillon représentant le mieux une ville de 10 000 habitants est un échantillon... de taille 10 000 !

par **Mac_Leod** » 25 Juin 2015, 14:05

chombier a écrit:C'est des maths appliquées, pas sur qu'on puisse beaucoup t'aider. D'autant que ça a l'air complexe.

La première question à te poser c'est : à quelle taille sont limités les échantillons. Plus ton échantillon est grand, plus il sera représentatif.

Pour caricaturer, l'échantillon représentant le mieux une ville de 10 000 habitants est un échantillon... de taille 10 000 !

Ils ne sont pas limités. Simplement, j'aimerais en faire un échantillon le plus petit possible mais tout en ayant une représentativité suffisante.
Je ne cherche pas à avoir un échantillon le plus grand donc mais à déterminer un échantillon suffisant.

Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

par **zygomatique** » 25 Juin 2015, 17:32

salut

http://www.ilemaths.net/forum-sujet-643070.html

...

par **Mac_Leod** » 26 Juin 2015, 01:11

Bonsoir,

Oui, et donc ? :)
J'ai posté le même sujet sur différents forums pour avoir plusieurs réponses au lieu de quelques unes.
Cela n'empêche en rien d'avoir des réponses ici, là bas ou ailleurs ^^

par **Mac_Leod** » 02 Juil 2015, 11:15

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :

Code: Tout sélectionner: n = IC² * SD*(1-SD) / e² # taille minimale d'un échantillon représentatif nadj = n / (1 + ((n - 1) / npop)) # n ajusté en fonction de la taille de la ville # IC -> Niveau de confiance (fixé à 95%) # SD -> Stand. dev. (fixé à 50%) # e -> marge d'erreur (fixée à 5, 3, puis 1%) # npop -> taille des populations

Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :

Code: Tout sélectionner: n5 <- (1.96^2) * 0.5*0.5 / 0.05^2 nadj5 <- n5/(1+((n5-1)/df$n_obs #df$n_obs, étant le nombre d'observation correspondant.

Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).

J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ... :roll:

Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?

Merci en tout cas à la personne qui prendra le temps pour moi !

Echantillon "représentatif" ?

Echantillon "représentatif" ?

Qui est en ligne