on a régulièrement des questions autour de la Loi (Forte) des Grands Nombres (LGN) et du Théorème Central Limite (TCL). Bien que ces deux résultats soit bien connu et maîtrisés je propose d'en rapeller les grandes lignes avec des illustrations numériques.
Dans ce post je fais les rappels élémentaires, les illustrations viennent plus tard.
1] Un échantillon
On va considérer une variable aléatoire à valeurs réelles
Un échantillon consiste intuitivement à demander plusieurs réalisations, de manière indépendante, à cette même variable. (On ouvre plusieurs fois la boîte, sans prendre en compte les ouvertures précédentes). Mathématiquement cela signifie que l'on considère une suite de variables aléatoires
Un échantillon est un vecteur aléatoire, et non une suite de nombre. Pour visualiser cela. Considérons que X est le résultat d'un tirage de dé. Alors un échantillon de taille 3 consiste à lancer 3 dés. Il y a donc 6x6x6=216 réalisations possible de l'échantillon : (1,1,1),(1,1,2)...(6,6,6).
2] Moyenne empirique
La loi des grands nombres le TCL parlent tout deux de moyenne empirique. Définissons donc cet objet.
Si on dispose d'un échantillon
Notons que
3] Loi des Grands Nombres
La loi des grands nombres dis la chose suivante :
Si
Commentons un peu :
- la condition d'intégrabilité est nécessaire pour se prémunir de variable aléatoire comme celle de Cauchy (illustration à venir);
- l'hypothèse d'indépendance est indispensable (elle peut toutefois être affaiblie sous des conditions techniques de "faible dépendance")
- le "presque sûrement" signifie qu'il existe des évènements où la moyenne empirique ne tends pas vers l'espérance (par exemple l'évènement "tous les dés donnent un 1") mais que l'ensemble de ces évènements est de probabilité nulle.
Une application fondamentale consiste à considérer comme variable aléatoire
Elle a le bon goût d'être intégrable et son espérance est simplement la probabilité de A (notée P(A)). Dans ce cadre là la loi des grands nombre peut simplement se lire "la fréquence empirique avec laquelle l'évènement se réalise tends vers la probabilité de cet évènement quand le nombre de tirage augmente".
4] Théorème Central Limite
La LGN dis "la moyenne empirique tends vers l'espérance", le TCL précise l'écart entre l'espérance et la moyenne empirique.
Précisément le TCL s'énonce ainsi :
Si X est de variance finie, alors
Quelques commentaires :
- ce théorème est au fondement d'une grande partie des résultats de la statistique;
- la convergence en loi est une notion un peu fine que l'on peut grossièrement interpréter comme "la fonction de répartition de l'écart prends la forme d'une Gaussienne".
Reformulation en langage non mathématique pour comprendre :
- si je somme un grand nombre de variables aléatoires indépendantes alors la somme ressemble à une loi normale
- si je moyenne un grand nombre de variables aléatoires indépendantes alors la moyenne ressemble à une loi normale
Application très classique (détaillée quelques message plus loin) : pour N grand, la moyenne empirique
P.S: j'ai essayé d'être rigoureux tout en restant clair. Si quelqu'un voit une erreur, n'hésitez pas à le signaler.