Bonjour,
Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.
De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :
- Code: Tout sélectionner
n = IC² * SD*(1-SD) / e² # taille minimale d'un échantillon représentatif
nadj = n / (1 + ((n - 1) / npop)) # n ajusté en fonction de la taille de la ville
# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations
Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :
- Code: Tout sélectionner
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs #df$n_obs, étant le nombre d'observation correspondant.
Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).
J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ...

Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?
Merci en tout cas à la personne qui prendra le temps pour moi !
