Ecart entre 2 proportions
Olympiades mathématiques, énigmes et défis
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 10 Aoû 2016, 19:39
Bonjour,
J'aimerai étudier 1 base de données de poker, j'espère etre dans la bonne section.
Voici le problème :
J'ai un échantillon de 2000 mains de poker stockées dans un logiciel. Grâce à ce logiciel, on sait que j'ai gagné 47 % des mains. On sait aussi que, si les probabilités avaient été parfaitement respectées, j'aurais du en gagner 50 %.
Ce que je veux savoir, c'est si cet écart de 3 % est lié uniquement au hasard ou si il y a un biais.
A noter sur cet échantillon de 2000 mains :
1) Celui-ci est tiré d'un échantillon total de 4000 mains. Sur ces 4000 mains, j'en gagne 50,2 % pour un résultat théorique de 50,5 % .
2) chaque main de ces échantillos a une probabilité de succès aléatoire et indépendante du résultat des autres mains.
Voilà pour l'énoncé du problème. Dans un deuxième message, je posterai les méthodes que jai envisagées pour résoudre ce problème.
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 10 Aoû 2016, 19:46
Voici les calculs que j'ai déjà fait sur mon échantillon de 2000 mains :
Je considère que le résultat d'1main est 1 variable aléatoire discrète indépendante prenant 2 valeurs : 1 = succès, 0 = échec.
Je peux donc calculer la moyenne et la variance de l'échantillon.
En considérant que 47 % correspond à la moyenne de la va X "résultat réel" et 50 % à la moyenne de la va Y "résultat theorique", j'ai donc 2 va pour lesquelles je peux calculer leur variance s^2.
J'ai donc defini mon écart comme étant la différence des 2 va X et Y.
J'utilise ensuite la distribution d'échantillonnage pour dire que cet écart est 1 valeur de la loi normale avec mu = moyenne des moyennes des écarts calculés sur des echantillons de meme type. ( suis je clair ? ).
À partir de là je fais 1 test hypothèse :
H0 : mu(X) = mu(Y) donc mu(X) - mu(Y) = ecart =0.
H1 : ecart =/ 0
Avec 1 table de la loi normale centrée réduite on resoud alors facilement ce test.
Pensez vous que ce soit une bonne méthode pour resoudre mon problème ?
Est ce qu'il y a d'autres tests statistiques pour comparer les valeurs fournies par mon logiciel ?
Javais pensé à 1 test du chi2, pour comparer mes valeurs sur l'échantillon de 2000 mains et celles sur celui de 4000. Est ce possible ?
Question subsidiaire : que représente 1 loi du chi2 ? A.quoi sert t-elle en pratique ?
Merci de votre aide ! (et désolé si il y a des imprécisions dans mon énoncé, je suis novice en stat...)
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 11 Aoû 2016, 14:30
En repensant à mon problème, je pense que le fait que chaque va suive une loi différente peut poser soucis.
Je vais donc préciser un peu les données de mon echantillon :
Chaque main jouée parmi les 2000 a 1 proba de succès p différente et variant grossièrement de 5 à 95 %: en fait quand je regarde 1 proba de succès spécifique dans mon logiciel, il me sort 1 dizaine de mains max (donc les p ne sont pas tous différent mais presque). Cest ce que j'avais résumé par le 2) de mon 1er message.
Du coup, est ce correct d'utiliser le théorème central limite (ce que jai appelé distribution d'échantillonnage) sur cet échantillon de 2000 mains (on peut dire 2000 va, mais dont bcp ont des lois de proba différentes) ?
Jai donc fait des recherches et suis tombé là-dessus : on peut appliquer le TCL même si les va de l'échantillon suivent 1 loi différente, à condition que la variance de chaque va ne s'ecarte pas trop de la variance de la somme de ces va. C'est la condition de lindeberg si je me trompe pas.
Comment vérifier si cette condition est respectée sur mon echantillon ?
Merci de votre aide !
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 13 Aoû 2016, 00:07
Personne pour résoudre mon problème ?? Il me paraissait pas si compliqué pourtant...
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 14 Aoû 2016, 22:15
Autre hypothèse de travail : est ce correct de dire que les valeurs de mon échantillon suivent 1 loi normale ?
On prendrait comme moyenne 50 % (ma frequ de succès théorique d'après mon logiciel) et 47 % serait 1 valeur de ma densité de probabilité. Sur 2000 données, j'ai donc 1 moyenne de 1000 succès. Ma loi normale serait donc N (1000, ecart-type à déterminer).
Pensez-vous que c'est correct ?
Pour le calcul de l'écart-type : comme mon p varie, c'est 1 erreur de dire var = 2000×0,5×0,5. Pour autant, la var est max lorsque p = 0,5. Est il alors juste de dire que si je calcule 1 intervalle de confiance avec var =500, je surestime toujours la.grandeur de mon intervalle et donc que mon intervalle réel sera plus etroit ?
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 17 Aoû 2016, 13:47
J'ai peut être trouvé un moyen de résumé de façon plus mathématique mon problème, ce qui amènera peut être plus de réponses de votre part, enfin j'espère...
Finalement, on est dans un problème d'estimation: une des questions est d'estimer les paramètres de ma population à partir de mon échantillon.
Si vous vous rappelez, mon logiciel me donne 2 valeurs: 47% (résultat réel) et 50% (résultat théorique). Peu importe la valeur que l'on choisit d'étudier, il faut à mon sens estimer une valeur à la fois.
Il me semble aussi qu'il me faut redéfinir la variable aléatoire que j'étudie, car ce n'est pas clair. Mon échantillon est composé de mains de poker jouées d'une certaine façon ("à tapis"). Ma population correspond donc aux mains jouées à tapis. La variable aléatoire étudiée est "résultat des mains jouées à tapis".
A partir de là, il y a une question déterminante pour la suite du problème: est-il possible d'estimer les paramètres de ma population sachant que les probabilités de succès d'1 main à l'autre PEUT varier (ce n'est pas systématique, et lorsque ça varie c'est de façon aléatoire et indépendante) ?
Autrement dit, est-il possible d'estimer le paramètre P de ma population (correspondant à la probabilité de succès moyenne sur la population) sachant qu'il y a pi probabilités de succès au sein de cette population. En fait il faut comprendre ce P comme étant égal à la moyenne des pi.
Je vois également une autre question qui découle de l'estimation qu'on aura faite: on aura estimer les paramètres d'1 population à partir d'1 échantillon comportant une distribution particulière de ces pi. On peut donc se demander si cet échantillon est bien représentatif de l'ensemble de la population des mains jouées à tapis, ou s'il n' est pas seulement représentatif de la population "mains jouées à tapis avec cette distribution spécifique des pi".
Sachant que ces pi sont distribués de façon aléatoire et indépendante, donc a priori équidistribués (pouvez vous me le confirmer?), est-il tout de même possible de dire que notre échantillon est bien représentatif de l'ensemble de la population des mains jouées à tapis?
-
benji124
- Messages: 7
- Enregistré le: 10 Aoû 2016, 19:12
-
par benji124 » 28 Aoû 2016, 19:52
Pour vous aider à comprendre ce que je cherche à faire, on va prendre 1 exemple fictif, peu importe le type de données étudiées :
On analyse 2 echantillons de 25 donnees chacun, tte des épreuves de bernoulli.
1) 25 données avec p = 0,5. On peut donc dire qu'on a 1 va suivant 1 loi binomiale B (25, 0,5).
Son espérance est de 12,5 et sa variance de 6,25. En approximant par la loi normale, on trouve 1 IC95 = [7.5, 17.5]
2) on a maintenant 25 données reparties de cette façon. 10 avec p = 0.2, 10 avec p =0.8 et 5 avec p = 0.5. On peut donc dire qu'on a 3 va suivant chacune 1 loi binomiale de paramètres respectif ci-dessus.
L'espérance de la somme de ces 3 va est de 12,5 aussi. La variance est de 4,45. En approximant par la loi normale, je trouve 1 IC95 = [8.28, 16.72].
Vous l'aurez compris ma question est simple : les calculs réalisés sur le 2eme echantillon sont-ils valables ?
Merci à vous !
Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 8 invités