Echantillon "représentatif" ?

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
Mac_Leod
Messages: 4
Enregistré le: 25 Juin 2015, 13:08

Echantillon "représentatif" ?

par Mac_Leod » 25 Juin 2015, 13:12

Bonjour à tous,


Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...



Avatar de l’utilisateur
chombier
Membre Irrationnel
Messages: 1324
Enregistré le: 19 Juil 2012, 18:35

par chombier » 25 Juin 2015, 13:45

Mac_Leod a écrit:Bonjour à tous,


Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

C'est des maths appliquées, pas sur qu'on puisse beaucoup t'aider. D'autant que ça a l'air complexe.

La première question à te poser c'est : à quelle taille sont limités les échantillons. Plus ton échantillon est grand, plus il sera représentatif.

Pour caricaturer, l'échantillon représentant le mieux une ville de 10 000 habitants est un échantillon... de taille 10 000 !

Mac_Leod
Messages: 4
Enregistré le: 25 Juin 2015, 13:08

par Mac_Leod » 25 Juin 2015, 14:05

chombier a écrit:C'est des maths appliquées, pas sur qu'on puisse beaucoup t'aider. D'autant que ça a l'air complexe.

La première question à te poser c'est : à quelle taille sont limités les échantillons. Plus ton échantillon est grand, plus il sera représentatif.

Pour caricaturer, l'échantillon représentant le mieux une ville de 10 000 habitants est un échantillon... de taille 10 000 !

Ils ne sont pas limités. Simplement, j'aimerais en faire un échantillon le plus petit possible mais tout en ayant une représentativité suffisante.
Je ne cherche pas à avoir un échantillon le plus grand donc mais à déterminer un échantillon suffisant.

Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".


Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

Avatar de l’utilisateur
zygomatique
Habitué(e)
Messages: 6928
Enregistré le: 20 Mar 2014, 12:31

par zygomatique » 25 Juin 2015, 17:32

Ce qui est affirmé sans preuve peut être nié sans preuve. EUCLIDE

Mac_Leod
Messages: 4
Enregistré le: 25 Juin 2015, 13:08

par Mac_Leod » 26 Juin 2015, 01:11

Bonsoir,


Oui, et donc ? :)
J'ai posté le même sujet sur différents forums pour avoir plusieurs réponses au lieu de quelques unes.
Cela n'empêche en rien d'avoir des réponses ici, là bas ou ailleurs ^^

Mac_Leod
Messages: 4
Enregistré le: 25 Juin 2015, 13:08

par Mac_Leod » 02 Juil 2015, 11:15

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :
Code: Tout sélectionner
n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif         
nadj = n / (1 + ((n - 1) / npop))     # n ajusté en fonction de la taille de la ville

# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations


Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :
Code: Tout sélectionner
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs              #df$n_obs, étant le nombre d'observation correspondant.


Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).


J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ... :roll:
Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?


Merci en tout cas à la personne qui prendra le temps pour moi ! :)

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 63 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite