Loi des Grands Nombres et TCL : illustration

Discussion générale entre passionnés et amateurs de mathématiques sur des sujets mathématiques variés
Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Loi des Grands Nombres et TCL : illustration

par Sylviel » 13 Mai 2019, 14:11

Bonjour,

on a régulièrement des questions autour de la Loi (Forte) des Grands Nombres (LGN) et du Théorème Central Limite (TCL). Bien que ces deux résultats soit bien connu et maîtrisés je propose d'en rapeller les grandes lignes avec des illustrations numériques.

Dans ce post je fais les rappels élémentaires, les illustrations viennent plus tard.

1] Un échantillon

On va considérer une variable aléatoire à valeurs réelles . Pour paraphraser une vidéo avec des chats belges : il s'agit d'une boîte qui produit un nombre au hasard.

Un échantillon consiste intuitivement à demander plusieurs réalisations, de manière indépendante, à cette même variable. (On ouvre plusieurs fois la boîte, sans prendre en compte les ouvertures précédentes). Mathématiquement cela signifie que l'on considère une suite de variables aléatoires indépendantes et identiquement distribuées (noté va iid). Cette suite sera appelée échantillon (de taille n). Notons que le terme d'échantillon à diverses interprétation suivant les domaines, c'est pourquoi on parle souvent simplement de suite de variables aléatoires iid.

Un échantillon est un vecteur aléatoire, et non une suite de nombre. Pour visualiser cela. Considérons que X est le résultat d'un tirage de dé. Alors un échantillon de taille 3 consiste à lancer 3 dés. Il y a donc 6x6x6=216 réalisations possible de l'échantillon : (1,1,1),(1,1,2)...(6,6,6).



2] Moyenne empirique

La loi des grands nombres le TCL parlent tout deux de moyenne empirique. Définissons donc cet objet.
Si on dispose d'un échantillon de taille N, alors sa moyenne empirique est la moyenne (arithmétique) des différentes variables, i.e. :


Notons que est une variable aléatoire, et non un nombre. Pour reprendre l'exemple des dés,
prends une valeur entre 1 et 6. Par exemple prend la valeur 1 avec proba 1/36, la valeur 1.5 avec proba 2/36, la valeur 2 avec proba 3/36...



3] Loi des Grands Nombres

La loi des grands nombres dis la chose suivante :
Si est intégrable (sa valeur absolue admet une espérance) alors lorsque tends vers l'infini, tends (presque sûrement) vers l'espérance de .

Commentons un peu :
- la condition d'intégrabilité est nécessaire pour se prémunir de variable aléatoire comme celle de Cauchy (illustration à venir);
- l'hypothèse d'indépendance est indispensable (elle peut toutefois être affaiblie sous des conditions techniques de "faible dépendance")
- le "presque sûrement" signifie qu'il existe des évènements où la moyenne empirique ne tends pas vers l'espérance (par exemple l'évènement "tous les dés donnent un 1") mais que l'ensemble de ces évènements est de probabilité nulle.

Une application fondamentale consiste à considérer comme variable aléatoire où A est un évènement (par exemple "X est positif" ou "X = 2"...). Cette variable vaut 1 si l'évènement est réalisé et 0 sinon.
Elle a le bon goût d'être intégrable et son espérance est simplement la probabilité de A (notée P(A)). Dans ce cadre là la loi des grands nombre peut simplement se lire "la fréquence empirique avec laquelle l'évènement se réalise tends vers la probabilité de cet évènement quand le nombre de tirage augmente".



4] Théorème Central Limite

La LGN dis "la moyenne empirique tends vers l'espérance", le TCL précise l'écart entre l'espérance et la moyenne empirique.

Précisément le TCL s'énonce ainsi :
Si X est de variance finie, alors converge en loi vers une loi normale centrée de même variance que X.

Quelques commentaires :
- ce théorème est au fondement d'une grande partie des résultats de la statistique;
- la convergence en loi est une notion un peu fine que l'on peut grossièrement interpréter comme "la fonction de répartition de l'écart prends la forme d'une Gaussienne".

Reformulation en langage non mathématique pour comprendre :
- si je somme un grand nombre de variables aléatoires indépendantes alors la somme ressemble à une loi normale
- si je moyenne un grand nombre de variables aléatoires indépendantes alors la moyenne ressemble à une loi normale

Application très classique (détaillée quelques message plus loin) : pour N grand, la moyenne empirique ressemble à une loi normale d'espérance celle de X et d'écart-type celui de X divisé par . De cela on déduit par exemple que, pour N grand, avec probabilité 95%.

P.S: j'ai essayé d'être rigoureux tout en restant clair. Si quelqu'un voit une erreur, n'hésitez pas à le signaler.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.



Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 13 Mai 2019, 14:25

Illustration loi des grands nombres

Code: Tout sélectionner
from scipy import *
import matplotlib.pyplot as plt


n = 5000 # number on which we average
m = 10 # number of averages

def compute_empirical_mean(X):
  n,m = X.shape
  M = zeros((n,m))
  for i in range(n):
    for j in range(m):
      M[i,j] = mean(X[:i+1,j])
  return M

def plot_empirical_mean(X):
  n,m = X.shape
  fig = plt.figure(figsize=(10, 8))
  ax = fig.add_subplot(111)

  M = compute_empirical_mean(X)
  ax.plot(M)
  plt.show()
  fig.savefig('graph.png')

X = rand(n,m) # uniform
#X = randn(n,m) # Gaussian
#X = random.exponential(size=(n,m))
#X = random.geometric(0.5,size=(n,m))
#X = random.standard_cauchy((n,m)) # Will not work as Cauchy is not integrable

plot_empirical_mean(X)

que l'on peut trouver ici https://repl.it/repls/CulturedGraciousTriangle

Pour le cas d'une uniforme :
Image
Pour le cas de Cauchy (non intégrable) :
Image

On observe que dans le cas de la loi de Cauchy on n'a pas la convergeance de la moyenne empirique vers une constante. En fait on peut même montrer que la moyenne de va de Cauchy iid est une va de Cauchy de même type.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

beagle
Habitué(e)
Messages: 8179
Enregistré le: 08 Sep 2009, 16:14

Re: Loi des Grands Nombres et TCL : illustration

par beagle » 13 Mai 2019, 17:42

merci Sylviel pour cette présentation.
Cela me rappelle les belles heures de maths forum avec Dzlogic!!!!

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 13 Mai 2019, 17:57

Illustration TCL

Code: Tout sélectionner
from scipy import *
import matplotlib.pyplot as plt
import matplotlib.animation as animation

n = 100 # number on which we take average
m = 10000 # number of simulation to make histogramm

n1,n2,n3,n4 = 0,3,20,99 # plotting distribution histogram of M_n1 M_n2 M_n3 and M_n4

bins = 50 # for all except Cauchy
# bins=arange(-10,10,0.5) # to get better visualization for Cauchy

def compute_empirical_mean(X):
  n,m = X.shape
  M = zeros((n,m))
  for i in range(n):
    for j in range(m):
      M[i,j] = mean(X[:i+1,j])
  return M

def plot_multiple_hist(M,bins,n1,n2,n3,n4):
  fig = plt.figure(figsize=(10, 8))
  ax1 = fig.add_subplot(411)
  ax2 = fig.add_subplot(412)
  ax3 = fig.add_subplot(413)
  ax4 = fig.add_subplot(414)

  ax1.hist(M[n1,:], bins = bins, density=1)
  ax2.hist(M[n2,:], bins = bins, density=1)
  ax3.hist(M[n3,:], bins = bins, density=1)
  ax4.hist(M[n4,:], bins = bins, density=1)

  plt.show()
  fig.savefig('graph.png')

X = rand(n,m) # uniform
#X = randn(n,m) # Gaussian --> mean of independent Gaussian is Gaussian
#X = random.exponential(size=(n,m))
#X = random.geometric(0.5,size=(n,m))
#X = random.standard_cauchy((n,m)) # Warning : change bins for Cauchy

M = compute_empirical_mean(X)
plot_multiple_hist(M,bins,n1,n2,n3,n4)


code que l'on peut faire tourner ici : https://repl.it/repls/AgonizingCreepyRedundancy

On oberve en particulier que (va indépendantes) :
- la moyenne d'uniforme ressemble très vite à une loi normale
- la moyenne de géométrique conserve quelque temps des "bosses"
- la moyenne de Gaussiennes est bien une Gaussienne, peu importe le nombre sur lequel on moyenne
- la moyenne de loi de Cauchy ne s'approche jamais d'une loi de normale, et pour cause, il s'agit d'une loi de Cauchy. Pour le voir il vaut mieux forcer l'histogramme à rester bien centré sur l'origine (sinon on observe beaucoup de "grandes valeurs" qui vont écraser l'histogramme).

On peut bien sur remplacer "mean" par "sum" et on aura le même résultat.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 13 Mai 2019, 18:06

beagle a écrit:merci Sylviel pour cette présentation.
Cela me rappelle les belles heures de maths forum avec Dzlogic!!!!


Je ne sais pas si on peut appeler cette période les "belles heures" de maths forum. Mais je suis sûr qu'il hante encore les forums et continue de penser qu'il a raison contre tous quand bien même il n'arrive pas à faire un seul énoncé précis ou comprendre la notion de variable aléatoire à valeurs réelles.

J'en profite pour repréciser : ce poste est de la vulgarisation mais les théorèmes énoncés ci-dessus (en italiques) sont parfaitement juste. Si quelqu'un voit une erreur que j'aurais laissé passer qu'il me le dise !
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

LB2
Habitué(e)
Messages: 1492
Enregistré le: 05 Nov 2017, 18:32

Re: Loi des Grands Nombres et TCL : illustration

par LB2 » 14 Mai 2019, 12:55

Bonjour,

c'est un super travail et je vais regarder ce que ça donne avec Python!

J'aurais juste précisé loi forte des grands nombres

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 25 Mai 2020, 09:00

M'étant levé un peu tôt je suis allé traîner là où je ne devrais pas et du coup j'ai fait un autre petit code pour illustrer la loi des grands nombre

Code: Tout sélectionner
from scipy.stats import *
import matplotlib.pyplot as plt


N = 1000 # nombre de tirages
nb = 3 # nombre de courbes



r_cauchy = cauchy.rvs(size=(N,nb)) # simule N va de Cauchy indep
m_cauchy = [ sum(r_cauchy[:n],axis=0)/n for n in range(1,N)] # calcule la moyenne empirique

r_expo = expon.rvs(size=(N,nb)) # exponential
m_expo = [ sum(r_expo[:n],axis=0)/n for n in range(1,N)]

r_norm = norm.rvs(size=(N,nb)) # normal
m_norm = [ sum(r_norm[:n],axis=0)/n for n in range(1,N)]

r_uniform = uniform.rvs(size=(N,nb)) # uniforme
m_uniform = [ sum(r_uniform[:n],axis=0)/n for n in range(1,N)]

fig, axs = plt.subplots(2, 2,figsize=(20, 10))
axs[0, 0].plot(m_cauchy,c='b')
axs[0, 0].set_title('Cauchy')
axs[0, 0].plot([0,N],[0,0],'tab:blue')
axs[0, 1].plot(m_expo, c='orange')
axs[0, 1].plot([0,N],[1,1], 'tab:orange')
axs[0, 1].set_title('Exponentielle')
axs[1, 0].plot(m_norm, c='g')
axs[1, 0].plot([0,N],[0,0], 'tab:green')
axs[1, 0].set_title('Gaussienne')
axs[1, 1].plot(m_uniform, c='r')
axs[1, 1].plot([0,N],[0.5,0.5], 'tab:red')
axs[1, 1].set_title('Uniforme')

plt.show()


Accessible ici : https://repl.it/repls/ApprehensivePartialMalware
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Avatar de l’utilisateur
Mateo_13
Membre Relatif
Messages: 298
Enregistré le: 30 Oct 2013, 06:08

Re: Loi des Grands Nombres et TCL : illustration

par Mateo_13 » 25 Mai 2020, 10:41

Merci Sylviel pour cette présentation qui m'intéresse beaucoup,

et je me permets de mettre en lien ici vers une traduction du début du livre de Probas de Leo Breiman,
qui démontre (en 5 pages) la loi faible des grands nombres :
https://maths-mateo.blogspot.com/p/probas.html

Amicalement,
--
Mateo.
Mateo.
Un livre original de calcul en cycle 4 :
http://mathemagique-com.blogspot.com/

GaBuZoMeu
Habitué(e)
Messages: 3671
Enregistré le: 05 Mai 2019, 11:07

Re: Loi des Grands Nombres et TCL : illustration

par GaBuZoMeu » 25 Mai 2020, 13:03

Bonjour,

On avait vu des exemples où la loi des grands nombres ne s'applique pas à propos de la moyenne des temps de retour à l'équilibre sur une suite de tirages à pile ou face (donc un truc tout à fait naturel, pas "fait exprès pour embêter")
Les dessins sont ici, Ils sont du même type que ce qu'obtient Sylviel pour la loi de Cauchy.

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 25 Mai 2020, 14:16

@Mateo, dans le lien donné je n'ai pas vraiment vu de démonstration. De plus le document mentionne Tchebychev qui requière d'avoir un moment d'ordre 2.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Avatar de l’utilisateur
Mateo_13
Membre Relatif
Messages: 298
Enregistré le: 30 Oct 2013, 06:08

Re: Loi des Grands Nombres et TCL : illustration

par Mateo_13 » 25 Mai 2020, 16:18

Le document est incomplet, mais je le mettrai à jour bientôt.

Amicalement,
--
Mateo.
Mateo.
Un livre original de calcul en cycle 4 :
http://mathemagique-com.blogspot.com/

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 23 Juin 2020, 18:48

Exemple d'application aux sondages

On trouve une application très simple de la LGN et du TCL aux sondages.

Considérons une population donc chaque individu a un avis "oui" ou "non" sur une question. On suppose que la proportion d'individu ayant l'avis "oui" est inconnu et qu'on souhaite l'estimer. On le noteras .

On considère l'expérience aléatoire suivante : choisir au hasard, uniformément sur la population, un individu et lui poser la question. On suppose qu'il réponds son vrai avis. On s'intéresse à la variable aléatoire qui vaut si l'individu pense "oui", et sinon.

Quelque remarques basique sur :
La loi de est une loi de Bernoulli de paramètre p, donnée par et .
Son espérance est , ce qui est la paramètre à estimer.
Sa variance est .

Le point intéressant ci-dessus c'est que le paramètre inconnu est l'espérance de . On va donc pouvoir utiliser la loi des grands nombres pour construire un estimateur convergeant du paramètre . Le théorème central limite serviras à donner un intervalle d'incertitude (asymptotique).

Echantillon :
On modélise le sondage en supposant que l'on répète plusieurs fois, de manière indépendante, l'expérience ci-dessus. Cela signifie qu'on choisit un individu au hasard, on l'interroge, puis, de manière indépendante, on choisit a nouveau un individu au hasard qu'on interroge etc... En particulier il y a une petite chance d'interroger deux fois le même individu. C'est un petit écart entre la réalité d'un sondage et sa modélisation mathématique, mais cet écart simplifie largement l'analyse théorique.

On suppose donc que l'on répète l'expérience fois, ce qui produit un échantillon, c'est à dire une suite de variables aléatoires iid de même loi que . On noteras la variable aléatoire associé au n-eme individu.

Pour visualiser prenons . On a alors l'ensemble des possible

et les variables aléatoires
et
et

Estimateur :
Un estimateur statistique (de p) est une variable aléatoire obtenue comme une fonction qui prends en argument un échantillon et retourne un réel. Il s'agit donc d'une fonction qui prends les résultats brut du sondage et retourne une "estimation" de p.

Comme noté plus haut on a , il est donc naturel d'estimer p par la moyenne empirique des réalisations. On choisit donc comme estimateur . L'estimateur est bien une variable aléatoire puisqu'il dépends des individus interrogé lors du sondage. Pour visualiser on a




Convergence et loi des grands nombre
On dit qu'un estimateur est convergeant si, quand la taille de l'échantillon tends vers l'infini, l'estimateur tends (presque sûrement) vers le paramètre à estimer (pour toute valeur possible du paramètre inconnu).

Ici on est en plein dans le cadre d'application de la loi des grands nombres : est la moyenne d'une suite de variables aléatoires réelles indépendantes et identiquement distribuées. Ces variables sont intégrables (car bornées). La loi (forte) des grands nombres tends presque sûrement vers .
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 23 Juin 2020, 20:28

Exemple d'application aux sondages : intervalles de confiance

Nous avons donc vu que la moyenne empirique est un estimateur naturel de , et qu'il est convergeant. Mais nous voulons aller plus loin et préciser un intervalle de confiance.

L'intervalle de confiance sera un intervalle construit à partir des données tel que le paramètre inconnu soit très probablement dedans. Nous allons préciser tout cela.

Rappelons que le TCL nous affirme que "ressemble" (terme non mathématique car la définition mathématique est moins facilement compréhensible, cf premier message du fil), pour N grand, à une loi normale de moyenne et de variance .

Supposons que soit exactement une loi normale de moyenne et de variance . Alors est une loi normale centrée réduite et .
On a donc . L'écart-type n'est pas connu (on pourrait l'estimer lui aussi) mais on va plus simplement le majorer par 1/2, et majorer 1.96 par 2 pour obtenir
.

Une manipulation très simple (écrire sous forme d'inégalité, soustraire à tous les termes, changer de signe) nous montre que
.

Et voici notre intervalle de confiance : .
Cet intervalle se construit donc ainsi :
i) interroger N individus
ii) appeler la proportion (empirique) de ces N individus répondant oui
iii) l'intervalle est centré sur cette proportion et de largeur

Notons en particulier que l'intervalle est aléatoire . Si je sélectionne 1000 individus (avec remise) puis que je recommence il est tout à fait raisonnable que j'ai deux valeurs de légèrement différente (exemple : 507 oui la première fois, 494 oui la seconde) qui donnerons donc deux intervalles différent.

Ce que garanti l'analyse ci-dessus c'est que, parmi tous les échantillons de 1000 individus possible, au moins 95% d'entre eux me donnerons un intervalle qui contient la vraie valeur. On peut aisément modifier le 95% à en choisissant de prendre plus de 2 écart-type. Il n'est toutefois pas possible d'avoir 100%, en effet il existe toujours l'échantillon consistant à prendre 1000 fois le même individu (qui réponds non par exemple) conduisant à une estimation de 0. Heureusement ces échantillons sont très rare (seul 5% vont rater la vraie valeur comme dis plus haut).

Un dernier nota bene : l'analyse ci-dessus est faite en supposant que est une gaussienne. En réalité il faut faire tendre N vers l'infini pour pouvoir appliquer le TCL et donc l'intervalle de confiance n'est qu'asymptotique.

P.S: une fois de plus j'ai essayé d'être compréhensible tout en restant rigoureux. Lorsque j'utilise des termes non mathématiques c'est précisément pour indiquer l'idée du résultat car son énoncé précis est délicat et peu éclairant. Commentaires (en particulier erreurs que j'aurais pu laisser passer) bienvenus.
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Sylviel
Modérateur
Messages: 6335
Enregistré le: 20 Jan 2010, 14:00

Re: Loi des Grands Nombres et TCL : illustration

par Sylviel » 24 Juin 2020, 14:45

Petite remarque complémentaire : on peut formuler l'analyse de manière légèrement différente. Les arguments sont fondamentalement les même puisque le théorème de Moivre-Laplace est un cas particulier du TCL.

On interroge N individus (tirages indépendants uniforme sur la population).
J'appelle le nombre d'individus répondant "oui". Par construction c'est une somme de variables aléatoires indépendantes de Bernoulli de paramètre p, il s'agit donc d'une loi binomiale de paramètres (N,p).
La proportion empirique est et on se sert du théorème de Moivre-Laplace
(https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Moivre-Laplace) pour garantir la convergence en loi de vers une loi centrale centrée réduite G.
On a donc, pour N grand,

qui devient

Et donc, en majorant par 1,

puis en inversant
Merci de répondre aux questions posées, ce sont des indications pour vous aider à résoudre vos exercices.

Avatar de l’utilisateur
Mateo_13
Membre Relatif
Messages: 298
Enregistré le: 30 Oct 2013, 06:08

Re: Loi des Grands Nombres et TCL : illustration

par Mateo_13 » 25 Juin 2020, 12:37

Merci Sylviel pour ton post sur les intervalles de confiance, grâce auquel je les comprends mieux.

Ci-après la fin de la preuve sur la loi faible des grands nombres, en 5 pages :
https://maths-mateo.blogspot.com/p/probas.html

Amicalement,
Mateo.
Un livre original de calcul en cycle 4 :
http://mathemagique-com.blogspot.com/

 

Retourner vers ⚜ Salon Mathématique

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 5 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite