Test adéquation pour 2 échantillons

Discussion générale entre passionnés et amateurs de mathématiques sur des sujets mathématiques variés
LB2
Habitué(e)
Messages: 1504
Enregistré le: 05 Nov 2017, 18:32

Re: test adéquation pour 2 échantillons

par LB2 » 29 Mar 2020, 18:51

Je répons à léon1789 :

Je ne comprends pas ce que tu appelles "adéquation". Je n'ai jamais parlé d'adéquation. Je mentionnais juste le test non paramétrique de Mann-Whitney. Je ne comprends pas très bien pourquoi tu l'écartes a priori.



Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 29 Mar 2020, 20:51

On a deux séries statistiques : le problème est d'enquêter sur le fait qu'elles soient la réalisation de variables aléatoires suivants une même loi de probabilité (en supposant l'indépendance des variables).

J'écarte le test de Wilcoxon-Mann-Whitney pour les raisons que tu as expliquées (et avec lesquelles je suis d'accord) : ce test ne permet pas de savoir si les échantillons proviennent d'une même distribution.

Exemple :
série D : 0., 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20.
série E : 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15

Le test de Wilcoxon-Mann-Whitney donne une p-value de 1, donc est positif à 100% .
Or il serait très très étonnant que ces deux échantillons proviennent d'une instance de D_1.... D_20, puis E_1,...E_20 variables aléatoires indépendantes suivant une même loi.
Cela montre par l'exemple que le test de Wilcoxon-Mann-Whitney ne convient pas au problème posé.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 29 Mar 2020, 21:11

C'est comme se contenter de calculer moyennes et écart-type, et ensuite déclarer que les échantillons sont en adéquation si ces deux caractéristiques sont "assez proches" respectivement. Ce n'est pas fiable comme le montre cet exemple :

série A : 2.5, 3, 5, 5, 5.5, 6.5, 7, 7.5, 7.5, 9, 9.5, 10, 10.5, 10.5, 10.5, 11.5, 12, 12, 12, 14, 15, 17.5
série C : 0, 0, 8.5, 8.5, 8.5, 8.5, 8.5, 9.5, 9.5, 9.5, 9.5, 10, 10, 10, 10, 10, 10, 10, 10, 10, 13, 20

Elles ont même nombre d'éléments (22), même moyenne (9.25), médiane (9.75), écart-type (3.76), et pourtant leurs répartitions sont totalement différentes.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 29 Mar 2020, 21:12

J'aimerais un vrai test qui ne tombe pas dans des conclusions insatisfaisantes comme au-dessus.

Je pensais à cela (je ne sais pas si ce test existe déjà) :
Pour un réel , on note
la proportion des éléments inférieurs ou égaux à dans la série n°1 ;
la proportion des éléments inférieurs ou égaux à dans la série n°2 ;
puis on calcule .

On rejette l'hypothèse d'adéquation des deux échantillons si D est supérieur à une certaine valeur (que l'on connait par avance, et qui est fonction du seul de risque que l'on veut)

Concrètement, pour deux échantillons de 20-25 individus, et des notes allant de 0 à 20 par demi-points,
on peut prendre la valeur limite D_max= 0.35 au delà de laquelle on refuse l'hypothèse d'adéquation des deux échantillons.

voici le graphe de la fonction pour les séries D et E :
Image

voici le graphe de la fonction pour les séries A et C :
Image

Dans ces deux cas, la valeur maximale de la fonction est supérieure à D_max = 0.35, donc on rejette l'hypothèse d'adéquation des séries. Ce qui me paraît intuitivement correct !

voici le graphe de la fonction pour les séries A et B de mon message initial :
Image

La valeur maximale de la fonction est inférieure à D_max = 0.35 , donc on ne peut pas rejeter l'adéquation des deux séries...

c'est genre test de Kolmogorov, mais avec deux échantillons...

LB2
Habitué(e)
Messages: 1504
Enregistré le: 05 Nov 2017, 18:32

Re: test adéquation pour 2 échantillons

par LB2 » 29 Mar 2020, 22:23

Bonsoir,

il existe un test de Kolmogorov - Smirnov :
http://www.real-statistics.com/non-para ... rnov-test/

C'est un peu la même idée que la distance que tu calcules, sauf que la distance de KS est calculée sur les fonctions de répartition empiriques. Je n'ai pas très bien compris la définition précise de ton T(a), mais peut être est ce la même chose? Dans ce cas bravo, tu as redécouvert ce test !

Il te manque juste le calcul de la statistique critique et la règle de décision suivante : On rejette l'hypothèse que les deux séries proviennent de la même distribution, au niveau , si

où m et n sont les tailles des deux échantillons.
et une constante ne dépendant que de

Les tables donnent

Donc ici, on obtient une valeur critique de pour, et pour

Par curiosité, comment avais tu obtenu ta valeur Dmax = 0.35 ?

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 10:26

Soit trois caractères yeux
R= rouge
B= bleu
V= vert

On examine deux échantillons où ont été retrouvés les résultats suivants

échantillon A: 22 animaux
B= 5
R= 3
V=14

échantillon B: 24 animaux
B=9
R=3
V=12

H0= il s'agit de deux échantillons prélevées sur la meme population

test de chi2?
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

LB2
Habitué(e)
Messages: 1504
Enregistré le: 05 Nov 2017, 18:32

Re: test adéquation pour 2 échantillons

par LB2 » 30 Mar 2020, 11:21

@beagle

Oui tout à fait, on peut même le faire en ligne ici par exemple : https://www.socscistatistics.com/tests/ ... ault2.aspx

The chi-square statistic is 1.212. The p-value is .545518. The result is not significant at p < .05

Ici donc, on ne peut pas rejeter H0 au niveau de confiance 5%. (ce qui ne signifie pas que H0 a 54% de chances d'être vraie, hein!)

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 11:39

beagle a écrit:H0= il s'agit de deux échantillons prélevées sur la meme population
test de chi2?

avec le chi2, on obtient une p-value de 0.6 environ, donc H0 n'est pas réfutée.

avec mon idée de test ci-dessus, on obtient une valeur D = 0.15 , donc largement inférieure à D_max = 0.35 , donc H0 n'est pas réfutée.

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 11:47

ah super LB2,
on voit bien l'intérèt des tests
parce qu'intuitivement le 5/22 versus le 9/24 j'aurais dit c'est plutôt du pas pareil!

et si on le fait en 2 caractères? en réunissant rouge et vert ?
donc B = 5/22 et D= R+V = 17/22 pour échantillon A
et B =9/24 et D= R+V = 15/24 pour échantillon B

j'irai voir tout à l'heure si j'arrive à le faire online, mais sinon je veux bien que tu le fasses LB2.
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 11:50

Salut leon1789,
les deux ne permettent pas de rejeter H0, ok
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 11:53

LB2 a écrit:il existe un test de Kolmogorov - Smirnov :
http://www.real-statistics.com/non-para ... rnov-test/

je connaissais le test de Kolmogorov avant d'ouvrir cette discussion. Mais il teste une série par rapport à une loi de probabilité précisée. Dans mon cas, il n'y a pas d'hypothèse sur la loi de proba, mais il y a peut-être des liens.

Pour un échantillon x_1, ...., x_n ,
T(a) = "nombre de x_i <= " divisé par n
C'est la proportion des éléments inférieurs ou égaux à dans la série .

J'ai obtenu ta valeur Dmax = 0.35 par simulation avec un seuil de 8% environ. Il me manque l'aspect théorique de la statistique utilisée.

Merci pour ta référence ! je vais la lire.
Modifié en dernier par leon1789 le 30 Mar 2020, 12:19, modifié 1 fois.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 11:57

beagle a écrit:parce qu'intuitivement le 5/22 versus le 9/24 j'aurais dit c'est plutôt du pas pareil!

oui, on a parfois une mauvaise intuition de l'aléa possible.

beagle a écrit:et si on le fait en 2 caractères? en réunissant rouge et vert ?
donc B = 5/22 et D= R+V = 17/22 pour échantillon A
et B =9/24 et D= R+V = 15/24 pour échantillon B

The chi-square statistic is 1.1831. The p-value is 0.276718.

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 11:59

salut leon1789,
mais si c'est la zone du milieu qui merdouille, la recherche du inf qq chose n'est pas le plus adapté, si?
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 12:18

beagle,
je ne comprends pas ce que tu veux dire.

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 12:26

Je ne sais pas si j'ai bien compris ce que fait ton test
"C'est la proportion des éléments inférieurs ou égaux à dans la série ."

il me semble que dans le cas présent où la zone qui pourrait ne pas etre en adequation est le début , les notes faibles, donc cela me semble normale que l'on soit en accord avec ce test ici,
mais si une des zones "anormales était en zone centrale, détecterait-on l'anomalie aussi bien en faisait les inf a un truc,
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

beagle
Habitué(e)
Messages: 8707
Enregistré le: 08 Sep 2009, 16:14

Re: test adéquation pour 2 échantillons

par beagle » 30 Mar 2020, 12:33

Merci leon1789 pour le deux caractère.

on voit bien que la p-value est 0,55 avec les 3 caractères, on passe à 0,27 pour deux caractères
ce n'est toujours pas significatif,
mais c'est tout de même en ciblant l "anomalie possible" que l'on se rapproche du rejet H0

avec aussi un terrible effet possible a posteriori d'aller pécher la zone qui rejetterait à posteriori

d'où la necessité d'une logique dans ce que l'on cherche.
Il peut ètre logique et légitime de rechercher si les deux classes sont proches pour les gens qui ont bien compris comme pour ceux qui ont mal compris.
Il n'est pas légitime de chercher une anomalie entre 3,5 et 5,5 l'ayant trouvée a postériori et alors que cela ne correspondrait à aucune logique.
L'important est de savoir quoi faire lorsqu'il n' y a rien à faire.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 13:09

beagle a écrit:mais si une des zones "anormales était en zone centrale, détecterait-on l'anomalie aussi bien en faisait les inf a un truc,

je comprends.
Mais je ne sais pas quoi te répondre. Il faudrait un test qui soit symétrique en toutes les valeurs.
Modifié en dernier par leon1789 le 30 Mar 2020, 14:27, modifié 1 fois.

LB2
Habitué(e)
Messages: 1504
Enregistré le: 05 Nov 2017, 18:32

Re: test adéquation pour 2 échantillons

par LB2 » 30 Mar 2020, 14:23

leon1789 a écrit:
LB2 a écrit:il existe un test de Kolmogorov - Smirnov :
http://www.real-statistics.com/non-para ... rnov-test/

je connaissais le test de Kolmogorov avant d'ouvrir cette discussion. Mais il teste une série par rapport à une loi de probabilité précisée. Dans mon cas, il n'y a pas d'hypothèse sur la loi de proba, mais il y a peut-être des liens.


Le test de Kolmogorov le plus connu teste en effet l'adéquation d'une série à une distribution de probabilité fixée. Mais je parlais ici d'une autre version, justement adaptée pour tester l'adéquation entre deux séries à une même distribution

LB2
Habitué(e)
Messages: 1504
Enregistré le: 05 Nov 2017, 18:32

Re: test adéquation pour 2 échantillons

par LB2 » 30 Mar 2020, 14:27

beagle a écrit:ah super LB2,
on voit bien l'intérèt des tests
parce qu'intuitivement le 5/22 versus le 9/24 j'aurais dit c'est plutôt du pas pareil!

et si on le fait en 2 caractères? en réunissant rouge et vert ?
donc B = 5/22 et D= R+V = 17/22 pour échantillon A
et B =9/24 et D= R+V = 15/24 pour échantillon B

j'irai voir tout à l'heure si j'arrive à le faire online, mais sinon je veux bien que tu le fasses LB2.


Tu peux le faire très facilement sur le lien, juste en prenant 2 catégories (Bleu / Rouge+Vert) au lieu de trois.

Avatar de l’utilisateur
leon1789
Membre Transcendant
Messages: 5475
Enregistré le: 27 Nov 2007, 17:25

Re: test adéquation pour 2 échantillons

par leon1789 » 30 Mar 2020, 14:29

oui LB2, je suis content d'avoir eu tes explications et le lien.
J'en conclus pour l'instant que,
lorsque le nombre de valeurs est faible par rapport à la taille des échantillons, on peut utiliser le chi2 ;
lorsque le nombre de valeurs est grand, on peut utiliser le test 2-samples de Kolmogorov ;

 

Retourner vers ⚜ Salon Mathématique

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 4 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite