Stats : taille de l'échantillon lors d'une étude d'opinion

par **SacréLouis** » 19 Mar 2026, 09:15

Bonjour,
Je suis interne de médecine, et mes cours de stats remontent à fort longtemps

..

Je réalise ma thèse qui concerne le recueil de pratique de médecins. Pour cela, j'utilise un questionnaire qui se présente sous la forme d'une échelle ordinale dit de Likert à 5 modalités (de "pas du tout d'accord" à "tout à fait d'accord"). Le but de mon travail est de classer, ordonner, des "facteurs d'influence" à la pratique des médecins.
Pour cela, je compare les histogrammes des modalités d'accord et calcul la moyenne de l'accord à chaque pratique étudiée (je sais que la moyenne n'est pas le meilleur indice pour interpréter une échelle de Likert à cause de l'irrégularité des intervalles entre deux modalités mais c'était le plus pratique...).

Ma question porte sur la taille de l'échantillon.
J'ai pas mal chercher sur le net mais je n'arrive pas à trouver s'il existe une formule qui permet de déterminer la taille minimale de l'échantillon que je dois viser pour que mes réponses soit représentatives de ma population.
Ma population mère est représentée par une fraction de 7000 médecins, que j'estime à 3000.
J'ai trouvé deux formules qui permettrait à mon sens de déterminer la taille minimal de mon échantillon, l'une se dispensant de l'estimation de la taille de ma population mère.

n = taille de l'échantillon = [z²*p(1-p)] / e² / 1 + [z²*p(1-p)] / e²*N
avec :
N = taille de la population
z = z-score : 1,96 d’après la loi normale centrée réduite pour un intervalle de confiance à 95%
e = marge d'erreur soit 5% ici
p = écart type fixé à 0,5 correspondant à la dispersion maximale

et n = [z² *p(1-p)] / e²

les deux formules donnent une estimation entre 300 et 400 participants.

Je les ai donc utilisé dans mon travail, la thèse est presque terminée mais je doute sur l'utilisation que j'ai faite de ces formules, sont-elles réellement adaptées à mon étude ?
Si c'est le cas, j'ai du mal à comprendre ce que représente "p". J'ai lu qu'on peut l'interpréter comme "la proportion a priori d'individus présentant la caractéristique étudiée parmi la population N". Cependant cela ne s'adapte pas à mon étude étant donné que j'étudie l'accord qui est une variable qualitative, que je transforme secondairement en variable quantitative à l'aide du calcul de la moyenne.

Qu'en pensez-vous ? Ai-je fait fausse route ?

Je vous remercie d'avance pour toute aide, :cote:

par **leon1789** » 20 Mar 2026, 08:16

Bonjour Sacré Louis
Je ne connais pas cette formule.
J'essaie de comprendre la problématique :
Tu as une population de 3000 personnes (avec une incertitude sur ce nombre). On considère une question quantitative : notée de 1 à 5 ?
On note M la moyenne qui serait obtenu à cette question pour la population entière. On cherche à estimer M.
Pour cela on choisit un échantillon de taille N (connaître N, c'est la question posée) de telle sorte que M soit continue avec une probabilité de 95% dans l'intervalle [m - 5%m ; m + 5%m] où m est la moyenne de l'échantillon.
Est-ce les bons pourcentages ? Est-ce la bonne problématique ?

par **SacréLouis** » 20 Mar 2026, 10:40

Bonjour Léon, merci pour ta réponse,

Je vais rentrer plus en détail sur ma méthode et donner des exemples.
J'étudie les potentiels facteurs d'influence à la réalisation d'ordonnance de prescription différée d'antibiotique (PDA).
J'ai réalisé des recherches dans la littérature pour cerner les motivations/les potentiels facteurs d'influence à la PDA, et en ai identifié une trentaine.
Le but de l'étude était d'apporter un aspect quantitatif en identifiant lesquels de ces facteurs sont les plus influents à la PDA. J'ai donc voulu faire un classement.

Pour cela j'ai utilisé un questionnaire, de 30 questions indépendantes, qui interroge chaque potentiel facteur d'influence comme suivant :
Question 1 sur le facteur 1 : Est-ce que [facteur 1] vous motive à la PDA ?
Réponse : -pas du tout d'accord
- pas d'accord
- neutre
- d'accord
- tout à fait d'accord
et ai répliqué ce modèle pour les 30 facteurs.

J'ai obtenu des résultats bruts sous forme de fréquence des modalités d'accord : 20% de l'échantillon est d'accord pour dire que facteur 1 les motive à la PDA, 30% neutre etc.

Pour interpréter mes résultats, j'ai utilisé deux moyens :
J'ai calculé pour chaque question l'accord moyen : j'ai attribué un score d'accord entre (-2) et 2 à chaque modalité de réponse et réaliser une moyenne :
- (-2) pour la réponse « pas du tout d’accord »
- (-1) pour « pas d’accord »
- 0 pour « neutre »
- 1 pour « d'accord »
- 2 pour « pas du tout d’accord »
=> calcule du "score moyen d'accord" compris entre (-2) et 2, et comparaison de ces scores pour chaque facteur.

J'ai donc classé les 30 facteurs d'influence du plus ou moins influent suivant leur "score moyen d'accord". Cette partie constitue les résultats principaux, mais pour rentrer dans le détail, j'ai aussi illustré mon travail avec la simple analyse brute des fréquence d'accord,
Par exemple j'ai dit : le "facteur n°6" se classent en 15ème position de part son "score moyen", on constate que 50% de l'échantillon est "d'accord" ou "tout à fait d'accord" avec le fait que ce facteur motive à la PDA.

Ma question est la suivante, comment savoir quelle est la taille minimale de l'échantillon n parmi ma population N=3000 pour que mes réponses soient représentatives de l'avis de N ?
Lorsqu'on tape "échelle de likert" et "échantillon" sur internet, on trouve cette formule et ses variantes un peu omniprésentes sur des sites du genre "wiki how comment faire un sondage en buisness" (https://fr.wikihow.com/calculer-la-tail ... chantillon).
J'ai lu plusieurs autres thèses qui utilisaient cette formule avec des méthodes similaires, mais à quelques semaines de l'échéance je m'interroge, est-ce vraiment la bonne méthode ?

Du coup pour répondre à ta question, j'ai l'impression que ta formulation est juste, simplement le processus est répété sur 30 questions indépendantes car le but de l'étude est de calculer les 30 "m" que j'appelle "score moyen d'accord" et de les comparer.

Merci d'avance, j'espère que ma question diverge pas trop de la thématique du forum.

par **beagle** » 20 Mar 2026, 11:35

Bonjour SacréLouis,

il semblerait (je ne connais pas; j'ai juste demandé à copilot) que n= 385 donc 400 est une taille habituelle pour déterminer du binaire d'accord pas d'accord,
Ce qui semble différent de déterminer du représentatif dans chaque classe.
Et au vu du nombre élevé de la population, tu n'as pas besoin de la taille de la population

Mais je comprends que l'on utilise la moyenne dans un certain type de raisonnement,
mais cela ne peut pas reduire la discussion.
Prenons deux attitudes extrèmement tranchées à - 2 et +2 45%, 55% ou quelques miettes pour les autres classes,
tu vas conclure avec la moyenne que ce facteur est moyennement déterminant dans la décision,
alors que ce facteur est complètement déterminant de la décision pour les pour comme pour les contre.

je ne sais pas comment tu fais ta discussion sur ces cas là mais le classement par la moyenne ne me semble pas complètement judicieux.
Bien confraternellement , futur docteur !

par **beagle** » 20 Mar 2026, 13:32

Donc je laisse Léon expliquer ou valider le n =400
(le p=0.5 est le maximum car la surface du carré est plus grande que celle du rectangle px(1-p) quand p s'éloigne de 0.5

Pour ma remarque précédente sur la discussion,
je verrais bien un top 5 des +2 , un top 5 des -2
et à comparer au top et bottom 5 des 30 moyennes
Il n ' y aura peut-ètre pas de différence,
si une valeur diffère tu auras gagné quelques lignes de discussion

par **SacréLouis** » 20 Mar 2026, 15:20

Bonjour Beagle et merci pour tes remarques,

En fait je considère comme influent uniquement les facteurs identifiés comme influent positivement, car l'étude a pour but de recenser les facteurs motivants à la PDA, et non pas ceux démotivants.
Au vu du design (qui a été de recueillir des facteurs déjà validés dans la littérature), je m'attendais à avoir une majorité de réponses positives, avec un score moyen > 0,40. Finalement seulement 40% des facteurs ont été identifiés comme plutôt motivants à la PDA.
Pour les 60% restants, l'utilisation de la moyenne perd du sens suivant la répartition des réponses comme tu l'as expliqué, j'utilise donc davantage l'analyse directe des fréquences d'accord plutôt que la moyenne pour ces facteurs.

par **beagle** » 20 Mar 2026, 15:50

Ah, super alors.

Tu as le droit de commencer par dire j'ai été surpris ...
mais en fait ce n'est pas si surprenant car si on reprend tel facteur, ben pour certains c'est en fait pas du du tout une bonne pratique dans ces conditions car ils pensent que ...

C'est bien , je pense que tu as de quoi discuter,
donc cela va bien se passer

par **leon1789** » 21 Mar 2026, 15:54

Comme ta population totale est de 3 000 personnes, n représente une part importante de la population (plus de 10%), je pense qu'il faut corriger le tir car n n'est pas négligeable devant 3000.

par **leon1789** » 21 Mar 2026, 15:56

Par ailleurs, pourquoi poser quand la variance serait 1/4 (c'est à dire p(1-p) avec p = 0.5 ) : la variance peut être plus grande quand on numérote les réponses entre -2 et 2.

par **leon1789** » 22 Mar 2026, 11:02

Je ne sais pas si Sacré Louis repassera ici, mais pour ma part :
avec une population de 3000 personnes, et des questions chiffrées de -2 à 2,
un échantillon de 340 suffit pour obtenir une valeur approchant la moyenne de la population à +- 0.2 ,
avec une probabilité de 95%.
Autrement, soit m la moyenne obtenue avec un échantillon de 340 personnes, alors il y a 95% de chance que la moyenne M des 3000 personnes soit comprise entre m-0.2 et m+0.2
(remarque : 0.2 = 5% de la longueur de l'intervalle [-2; 2])

On peut même descendre à des échantillons moins important si la moyenne M s'approche de -2 ou 2.

par **leon1789** » 22 Mar 2026, 11:49

Et si on a une information (précise ou vague) sur la loi de probabilité des réponses sur la population, alors on peut essayer d'en tenir compte pour diminuer la taille de l'échantillon.

La pire situation étant celle décrite par Beagle : 50% pour -2 et 50% pour 2.
Alors dans ce cas extrême, il faut un échantillon de taille 342.

Dans des cas plus standards, on peut largement descendre même en dessous de 300.
Par exemple -2 à 50% , -1 à 23% , 0 à 13% , 1 à 10% et 2 à 4%,
on peut prendre un échantillon de 130 seulement !

Bref, tout cela peut être source de réflexion, surtout quand les tests coûtent chers, doivent être menés simultanément ou pas nécessairement, etc.

par **SacréLouis** » 23 Mar 2026, 20:31

Bonsoir à tous les deux,
Je compte bien repassé par ici tant qu'il y a des volontaires pour me discuter c'est la moindre des choses.
Je vous remercie pour vos réponses.

Pour le coup j'ai obtenu 300 réponses au final. Le travail est terminé, peu importe si au final j'ai obtenu ou non le nombre minimal de participants. Simplement il faut que je sache justifier mon nombre de sujet à inclure a priori.

Du coup Léon, lorsque tu calcules les exemples que tu cites, tu utilises la formule que j'ai proposé ? Si oui, tu penses donc qu'elle est adaptée à mon utilisation ? (désolé je suis peut-être long à la détente mais j'ai du mal à te suivre notamment sur ta remarque du 21/03 à 15h54, que faut-il corriger ? Par contre j'ai bien compris tes remarques postérieures).

par **leon1789** » 24 Mar 2026, 10:14

Bonjour
Pour mon message où je disais qu'il fallait corriger quelque chose, je m'adressais davantage à Beagle : ce que je voulais dire, c'était qu' il vaut mieux tenir compte de la population totale de 3000 personnes environ, car cela permet d'optimiser sensiblement la taille de l'échantillon.

Pour la formule, je reviendrai ici ce soir pour détailler les choses.

Tu as pu faire ton expérience avec un échantillon de 300 personnes, on peut en déduire une certaine précision. J'en reparle ce soir.

par **leon1789** » 24 Mar 2026, 18:27

Bonsoir

Pour une formule (que je comprends) donnant la taille minimale d'un échantillon :

n = 1/( 1/N + (1-1/N) * (e/z)² / V )

où
N est la taille de la population = 3000
p est un niveau de confiance = 95 %
z est la valeur correspondant au niveau de confiance = 1.96
e est l'imprécision (en pourcentage) par rapport l'étendue des réponses possibles = 5%
V est une variance (entre 0 et 1/4). En absence d'information, on pose V = 1/4

(avec les valeurs spécifiées, on calcule n = 340.6 )

En posant
M est la moyenne obtenue pour la population,
m est la moyenne obtenue pour l'échantillon,
une question étant notée entre -2 et 2 (largeur L=4)
alors p est la probabilité que M appartienne à l'intervalle [m-e*L ; m+e*L]
c'est-à-dire P ( m-0.2 < M < m+0.2 ) = 95%

Remarque 1 :
p et e sont indépendants :
p = niveau de confiance (proche de 100%),
e = pourcentage d'imprécision (proche de 0%) : m - e*L < M < m + e*L

Remarque 2 :
si N est infini, alors n = V * (z/e)²
et avec les valeurs spécifiées, on calcule n = 384.1 ,
ce qui est sensiblement plus grand que 340.6

par **leon1789** » 24 Mar 2026, 18:42

SacréLouis a écrit:Pour le coup j'ai obtenu 300 réponses au final. Le travail est terminé

Pour une formule donnant un intervalle contenant la moyenne cherchée :

g = z * ( W/n * (N-n)/(N-1) )^0.5

où
N la taille de la population = 3000
n la taille de l'échantillon = 300
p est un niveau de confiance = 95 %
z est la valeur correspondant au niveau de confiance = 1.96
W est la variance de la population sur la question. En absence d'information, on peut estimer W à l'aide de la variance W0 de l'échantillon par W = W0 * n/(n-1)

En posant
M est la moyenne obtenue pour la population,
m est la moyenne obtenue pour l'échantillon,
alors p est la probabilité que M appartienne à l'intervalle [m-g; m+g]

Remarque :
ne pas confondre la variance W ici, et la variance V dans mon message précédent.

par **SacréLouis** » 04 Avr 2026, 09:24

Merci beaucoup Léon pour tes explications, c'est très clair à présent ! :love:

Stats : taille de l'échantillon lors d'une étude d'opinion

Stats : taille de l'échantillon lors d'une étude d'opinion

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Re: Stats : taille de l'échantillon lors d'une étude d'opini

Qui est en ligne