Méthode des moindres carré

par **Dlzlogic** » 12 Nov 2012, 15:53

Sylviel a écrit:Bon, puisque tu refuses la discussion je ne saurais jamais où tu voies une moyenne arithmétique dans la détermination d'un changement de repère pour le GPS...

Petit exemple d'application.
Ci dessous une liste de 16 points. Pour chaque ligne, on Xa Ya Xn Yn, où Xa et Ya sont les coordonnées dans un système et Xn et Yn sont les coordonnées dans un autre système.
Le but est de trouver les paramètres pour passer du système a au système n, et réciproquement. On appelle ça un "calage".

Code: Tout sélectionner: 50.633 3.06 610 67 49.44 1.1 470 200 49.7 4.7 729 163 48.85 2.348 559 264 48 0.2 401 357 47.8 3.57 648 380 47.24 6.02 833 436 49.1 -1.1 311 230 46.17 1.86 522 559 45.74 4.84 751 601 44.84 -0.58 334 701 44.35 2.57 578 758 44.56 6.08 851 727 43.29 5.38 804 868 43.7 7.29 948 813 43.48 -1.56 238 858

La moyenne arithmétique intervient dans la formulation de base. Tout ceci n'est vrai (ie la méthode des moindres carrés) que parce que étant donné un ensemble de mesures, la valeur la plus probable est la moyenne arithmétique.
Une mesure GPS est le résultat de très nombreuses observations. Quel autre résultat adopterais-tu que la moyenne arithmétique ?

par **Sylviel** » 12 Nov 2012, 16:03

Bon, encore une fois tu n'arrives pas à être clair dans ce que tu énonces. Je vais essayer de faire mieux. N'hésite pas à me dire où ma démarche diffère de la tienne ?

Soit, tu as deux séries de valeurs. Comment passes-tu d'un repère à un autre ? A priori c'est un changement de repère linéaire ici (non ?), donc tu as
Xn = a Xa + b Ya
Yn = c Xa + d Ya

Ce que tu as appelé n est ce que j'avais appelé y, et ce que tu as appelé a est ce que j'avais appelé x.
On appelle f la fonction qui a (Xa, Ya) associe ( a Xa + b Ya, c Xa + d Ya).

Ce que tu cherches à minimiser est alors la somme des ||f(Xa,i , Ya,i) - (Xn,Yn)||² où l'indice i décrit les 16 valeurs que tu m'as présenté. La variable de contrôle est la fonction f, décrite par les 4 paramètres a,b,c et d.

Où as-tu vu apparaître la moyenne arithmétique dans la formulation du problème des moindres carrés ?

par **Dlzlogic** » 12 Nov 2012, 16:51

Sylviel a écrit:Bon, encore une fois tu n'arrives pas à être clair dans ce que tu énonces. Je vais essayer de faire mieux. N'hésite pas à me dire où ma démarche diffère de la tienne ?

Soit, tu as deux séries de valeurs. Comment passes-tu d'un repère à un autre ? A priori c'est un changement de repère linéaire ici (non ?), donc tu as
Xn = a Xa + b Ya
Yn = c Xa + d Ya

Ce que tu as appelé n est ce que j'avais appelé y, et ce que tu as appelé a est ce que j'avais appelé x.
On appelle f la fonction qui a (Xa, Ya) associe ( a Xa + b Ya, c Xa + d Ya).

Ce que tu cherches à minimiser est alors la somme des ||f(Xa,i , Ya,i) - (Xn,Yn)||² où l'indice i décrit les 16 valeurs que tu m'as présenté. La variable de contrôle est la fonction f, décrite par les 4 paramètres a,b,c et d.

Où as-tu vu apparaître la moyenne arithmétique dans la formulation du problème des moindres carrés ?

La formule de changement de repère est
Xn = a Xa + b Ya +TX
Yn = c Xa + d Ya +TY
En effet 3 points sont nécessaires (donc 6 paramètres) pour calculer ce changement de repère.
Si il s'agissait d'une similitude, il n'y aurait que 2 paramètre (a=d et b=c au signe près).
Un point (Xa, Ya) du repère a aura pour coordonnées (Xa', Ya') dans le repère n.
Ce que l'on cherche à minimiser c'est
S=Somme((Xa'-Xn)² + (Ya'-Yn)²) pour tout point [a] correspondant à [n] et transformé en [a']
autre forme S=Somme((dist(a',n))²)

La moyenne arithmétique est la base de toute la théorie, le TCL l'appelle élégamment "moyenne empirique".

Il est vrai que on peut appeler "fonction" toute opération mathématique. Mais on m'a bien expliqué qu'un fonction donnait un résultat, une valeur et que c'était une hérésie d'écrire "Soit la surface S définie par la fonction f(x,y)".
Personnellement, pour la relation indiquée plus haut, je préfère le terme "formule" plutôt que le terme "fonction".
Il y a lieu de préciser que la méthode des moindres carrés a pour but de calculer les 6 paramètres utiles, à la "fonction" ou "formule" de changement de repère.
Autre point à préciser : la méthode ds moindre carrés ne dépend de rien d'autre que des éléments mesurés, quels que soient les références, repères etc. Alors que la méthode de régression qui minimise l'écart en Y dépend du système dans lequel sont précisée les coordonnées des points. Ce qui ne serait pas le cas si la valeur que l'on cherche à minimiser était la distance à la droite.

par **Sylviel** » 12 Nov 2012, 17:25

La formule de changement de repère est
Xn = a Xa + b Ya +TX
Yn = c Xa + d Ya +TY
En effet 3 points sont nécessaires (donc 6 paramètres) pour calculer ce changement de repère.
Si il s'agissait d'une similitude, il n'y aurait que 2 paramètre (a=d et b=c au signe près).
Un point (Xa, Ya) du repère a aura pour coordonnées (Xa', Ya') dans le repère n.
Ce que l'on cherche à minimiser c'est
S=Somme((Xa'-Xn)² + (Ya'-Yn)²) pour tout point [a] correspondant à [n] et transformé en [a']
autre forme S=Somme((dist(a',n))²)

Soit, j'ai supposé que le repère avait la même origine, ce qui est évidemment une hypothèse forte (et généralement non vérifiée). Cela ne change rien à la théorie.

Il est vrai que on peut appeler "fonction" toute opération mathématique. Mais on m'a bien expliqué qu'un fonction donnait un résultat, une valeur et que c'était une hérésie d'écrire "Soit la surface S définie par la fonction f(x,y)".
Personnellement, pour la relation indiquée plus haut, je préfère le terme "formule" plutôt que le terme "fonction".

Une fonction ça a un ensemble de définition, et un ensemble d'arrivée. L'ensemble d'arrivée n'est pas du tout obligé d'être R. "La surface définie par la fonction f(x,y)" signifierais que f est une fonction à valeur dans un ensemble de surfaces paramétrées par x et y. Tu peux préférer le terme formule, cela ne me dérange pas, je te montre juste que cela se met sous la forme "minimiser somme des ||f(x_i)-y_i||²" où f varie dans un ensemble de fonctions.

Il y a lieu de préciser que la méthode des moindres carrés a pour but de calculer les 6 paramètres utiles, à la "fonction" ou "formule" de changement de repère.

Oui c'est ce que je dis : on cherche la meilleure fonction dans une classe donnée. Cette fonction est donc définie par un certain nombre de paramètres (6 ici), et identifier les paramètres ou identifier la fonction c'est exactement la même chose.

Autre point à préciser : la méthode ds moindre carrés ne dépend de rien d'autre que des éléments mesurés, quels que soient les références, repères etc. Alors que la méthode de régression qui minimise l'écart en Y dépend du système dans lequel sont précisée les coordonnées des points. Ce qui ne serait pas le cas si la valeur que l'on cherche à minimiser était la distance à la droite.

Je pense que c'est exact.

La moyenne arithmétique est la base de toute la théorie, le TCL l'appelle élégamment "moyenne empirique".

Sauf qu'elle n'apparaît toujours pas dans ta présentation du problème.

Donc dans ta première définition où tu disais :

Soit des mesures d'une même chose. Le terme "mesure" est à prendre dans le sens le plus général ainsi que le terme "chose".
Il y des mesures en sur-nombre, la préoccupation est de calculer le résultat le plus probable.
On démontre (de façon parfaitement rigoureuse) que le résultat le plus probable est celui qui minimise la somme des carrés des écarts entre la moyenne arithmétique et chacune des mesures.

il me semble bien que tu t'étais mélangé les pinceaux puisque tu parle d'écart entre des mesures et leur moyenne, et non entre les "prédictions" et les valeurs effectives, où les "prédictions" sont les f(x) avec mes notations générales, et les a' avec les notations de ton dernier message ; et les valeurs effectives les y de mes notations, et les n de tes notations.

Pour revenir avec le lien avec le TCL (que je n'oublie pas) : il n'y en a pas dans la formulation du problème des moindres carrés. Et il n'est pas du tout évident d'en faire apparaître un dans un cadre général pour l'interprétation du résultat obtenu. En particulier affirmer que l'estimateur des moindres carrés fournit le "résultat le plus probable" nécessite des hypothèses supplémentaires (typiquement des hypothèses de normalité et d'hétérodascité du bruit).

Et finalement la phrase "le résultat le plus probable" nécessite une définition pas évidente du tout à donner. En effet cela signifie d'avoir défini une probabilité sur l'ensemble des résultats possible... En fait il faudrait plutôt dire le résultat le plus "vraisemblable" c'est à dire que c'est avec ce changement de repère là (pour garder le dernier exemple) qu'on avait le plus de chance d'obtenir le résultat qu'on a en pratique. Mais pour ça il faut avoir modélisé les erreurs...

Exemple :
On fait l'hypothèse que

Xn,i = a Xa,i + b Ya,i +TX + ex,i
Yn,i = c Xa,i + d Ya,i +TY + ey,i

où ex et ey sont des variables aléatoires. Et c'est sur elle qu'on fait des hypothèses. Pour simplifier revenons en dimension 1, avec Y la nouvelle variable :

Y = a X +b + e
a et b sont les coefficients à déterminer, e est une variable aléatoire. En fait on considère la collections des données à disposition :
Yi = a Xi +b + ei
où
- ei sont iid
- ei est supposée être normale

alors les a et b optimaux du problème de moindre carré seron aussi ceux tel que les réalisations dont on dispose soit le plus probable possible. Et cela ne vient pas du TCL mais des propriétés de la loi normale. Après si les erreurs sont le résultat d'une somme d'erreurs individuelles indépendantes, alors il s'agit d'une loi normale (grâce au TCL).

Je ne suis pas sûr d'avoir été limpide sur le sujet, mais je veux juste te montrer que la phrase "résultat le plus probable" n'a pas de sens sans hypothèses de modélisation supplémentaires. Cela n'empêche pas d'utiliser les moindres carrés pour obtenir une "bonne" valeur des paramètres sans entrer plus avant dans l'interprétation.

par **Dlzlogic** » 12 Nov 2012, 19:37

Bonsoir,
Le message concernant les questions 5 à 7 de clemoute a été poste le 10/11/2012 à 16H22. Ce serait sympa de lui remettre.
D'abord, je voudrais rectifier une erreur, quand je parlais de la "fonction de surface" j'aurais dû écrire "f(x,y,z)" : j'ai oublié 'z'.

Concernant le sujet principal, mes affirmations résultent du fait qu'on a observé, et qu'on continue à le vérifier, que pour une expérience quelconque où toutes les mesures sont indépendante, tir au pistolet etc., la répartition des écarts à la moyenne est toujours la même, et c'est la répartition de la loi normale. Le principe fondamental, non démontré directement, est le "postulat de la moyenne, sous entendu arithmétique".
Ce terme "postulat de la moyenne" a soulevé un tollé général, mais malgré ma demande, je n'ai jamais vu de démonstration du TCL. Pour mémoire, il y a eu d'autres hypothèses que la moyenne arithmétique, pour l'évaluation de la valeur la plus probable. Maintenant, on a démontré que c'était le bon choix.
Dans une réponse sur un autre topic, j'ai comparé mot à mot les termes du TCL et de mes précédentes explications qui ne sont d'un faible reflet du document que j'ai mis en lien. Apparemment il n'y a pas eu de contradiction. Je ne crois pas utile de revenir sur ce sujet.

Il est certain que dès qu'on est en présence de plusieurs mesures de la même chose on évoque le même problème.
Il y a plusieurs conséquences importantes, je citerai la composition des erreurs accidentelles qui se calcule quadratiquement. Luc le sait aussi bien que moi. La méthode des moindres carrés est une autre conséquence, et on en parle ici.
Je tiens à préciser que la méthode n'est pas la seule, n'est pas un théorème, mais elle se justifie, c'est à dire qu'on démontre qu'elle est bonne. Je ne pense d'ailleurs pas qu'il y en ait d'autre. On pourrait très bien utiliser une méthode itérative. Tout le but serait de minimiser l'écart-type.

J'ai pas trop bien compris ce que tu appelles "prédiction". On a un certain nombre de mesures, on sait que les écarts se répartissent suivant la loi normale, on calcule la moyenne, tout au moins on établie un système d'équations qui se justifient du fait que la moyenne est la plus probable.

Petit exemple de l'emploi de l'expression "moyenne (sous-entendu arithmétique)".
Supposons qu'on ait 3 points bien répartis. On mesure la distance de chacun de ces points à un quatrième que l'on doit définir. On va obtenir ce que l'on appelle un "chapeau". Le point définitif sera la "moyenne", mais naturellement pas le résultat d'une addition et d'une division par 3. C'est un autre exemple de l'utilisation de la méthode des moindres carrés.

par **Sylviel** » 12 Nov 2012, 21:26

Bonsoir,
Le message concernant les questions 5 à 7 de clemoute a été poste le 10/11/2012 à 16H22. Ce serait sympa de lui remettre.

fait

D'abord, je voudrais rectifier une erreur, quand je parlais de la "fonction de surface" j'aurais dû écrire "f(x,y,z)" : j'ai oublié 'z'.

ça n'a à mon avis pas le sens que tu imagines. f(0,0,0) qu'est ce que c'est comme type d'objet pour toi ? Si f(0,0,0) est un nombre, alors dire que f(x,y,z) défini une surface est faux puisque pour x=y=z=0 on a un nombre et pas une surface.

Concernant le sujet principal, mes affirmations résultent du fait qu'on a observé, et qu'on continue à le vérifier, que pour une expérience quelconque où toutes les mesures sont indépendante, tir au pistolet etc., la répartition des écarts à la moyenne est toujours la même, et c'est la répartition de la loi normale. Le principe fondamental, non démontré directement, est le "postulat de la moyenne, sous entendu arithmétique".

Faux, on te l'a déjà dis à plusieurs reprises et à plein d'exemple : un dé a un support discret, il ne peut donc suivre une loi normale, la désintégration suis une loi exponentielle, un générateur rand classique donne une loi uniforme, les arrivées dans les files d'attente sont modélisé par un processus de poisson etc... Mais tu maintiens tes affirmations en dépit du fait que TOUS les gens qui sont intervenus sur le sujet te contredisent, qu'on t'a donné moult lien et pdf te montrant des modélisation utilisant d'autres lois etc...

Ce terme "postulat de la moyenne" a soulevé un tollé général, mais malgré ma demande, je n'ai jamais vu de démonstration du TCL. Pour mémoire, il y a eu d'autres hypothèses que la moyenne arithmétique, pour l'évaluation de la valeur la plus probable. Maintenant, on a démontré que c'était le bon choix.

c'est faux, on t'as donné plusieurs liens (dont un pdf d'un cours complet) vers des démonstrations du TCL et de la loi des grands nombre. Mais tu n'as clairement pas les connaissances nécessaires pour en comprendre la démo.

Dans une réponse sur un autre topic, j'ai comparé mot à mot les termes du TCL et de mes précédentes explications qui ne sont d'un faible reflet du document que j'ai mis en lien. Apparemment il n'y a pas eu de contradiction. Je ne crois pas utile de revenir sur ce sujet.

Heu... pas de contradiction ? Tu rigoles peut-être ? A chaque fois que tu l'as évoqué on a souligné les endroits où tu fais des erreurs... Entre autre tu maintiens que chaque variable suis une loi normale, alors que c'est leur moyenne empirique qui la suis (asymptotiquement).

Il est certain que dès qu'on est en présence de plusieurs mesures de la même chose on évoque le même problème.
Il y a plusieurs conséquences importantes, je citerai la composition des erreurs accidentelles qui se calcule quadratiquement. Luc le sait aussi bien que moi. La méthode des moindres carrés est une autre conséquence, et on en parle ici.
Je tiens à préciser que la méthode n'est pas la seule, n'est pas un théorème, mais elle se justifie, c'est à dire qu'on démontre qu'elle est bonne. Je ne pense d'ailleurs pas qu'il y en ait d'autre. On pourrait très bien utiliser une méthode itérative. Tout le but serait de minimiser l'écart-type.

Ben non justement, y'a une approche alternative qui consiste à maximiser la vraisemblance. Parfois c'est faisable, parfois non. Mais l'objectif n'est pas toujours de minimiser l'écart-type...

J'ai pas trop bien compris ce que tu appelles "prédiction". On a un certain nombre de mesures, on sait que les écarts se répartissent suivant la loi normale, on calcule la moyenne, tout au moins on établie un système d'équations qui se justifient du fait que la moyenne est la plus probable.

Et pourtant je t'ai dis ce qui était la prédiction avec tes notations et avec les miennes. Et encore une fois le fait que "les écart se répartissent selon la loi normale" est non seulement faux sans hypothèses supplémentaires, mais en plus n'a rien à faire ici.

Petit exemple de l'emploi de l'expression "moyenne (sous-entendu arithmétique)".
Supposons qu'on ait 3 points bien répartis. On mesure la distance de chacun de ces points à un quatrième que l'on doit définir. On va obtenir ce que l'on appelle un "chapeau". Le point définitif sera la "moyenne", mais naturellement pas le résultat d'une addition et d'une division par 3. C'est un autre exemple de l'utilisation de la méthode des moindres carrés.

Soit, mais tu n'as toujours pas dis où elle servait dans l'établissement du problème des moindres carrés. Tu sous entends éventuellement que c'est la solution d'un problème que tu n'as pas clairement formulé...

par **Dlzlogic** » 12 Nov 2012, 21:58

Désolé, mais là je n'ai plus rien à dire.
Maintenant, je comprends pourquoi tu traitais d'incapables les gens de l'IGN. Eux ont les capacités et le poids pour t'expliquer, moi pas.
On se demande lequel de nous deux ne veux plus discuter, pour ma part, je renonce.

par **Deliantha** » 12 Nov 2012, 23:43

Sylviel a écrit:Soit, mais tu n'as toujours pas dis où elle servait dans l'établissement du problème des moindres carrés. Tu sous entends éventuellement que c'est la solution d'un problème que tu n'as pas clairement formulé...

J'ai à la main une étude de précision d'un lever topographique avec l'erreur moyenne en position et les écarts avec un lever de contrôle où il est indiqué que devant la relative complexité d'utilisation de la moyenne quadratique des erreurs pourtant non biaisé et la grande simplicité de la moyenne arithmétique, il est préférable d'avoir pour référence celle-ci dans les arrêtés réglementaires.
En revanche, je n'ai pas trouvé son utilisation mentionnée au sein des documents de l'IGN (un exemple est l'application de l'équation de navigation à la gravimétrie mobile). Mais on parle d'effets de moyenne par moindres carrés dans un autre exemple d'analyse de séries temporelles en géodésie spatiale qui est un défaut de modélisation affectant les résidus de l''estimation. Je pense qu'on aborde un problème d'un genre distinct du vôtre; cependant une confirmation est attendue après avoir abordé les sources. So...!

par **Dlzlogic** » 13 Nov 2012, 11:57

@Sylviel,
Bonjour,

Ce que je vois c'est que tu maintiens tes positions envers et contre tout... Même pris en flagrant délit d'incohérence et d'incapacité à t'expliquer clairement les choses.

Ceci nécessite de ta part, des précisions, références, citations etc.

A propos de la répartition des écarts conformément à la loi normale, il me semble t'avoir répondu très précisément avec ton jeu d'essai du tirage de pièces, et il y a eu dernièrement une exercice avec 3 roues dans lequel Léon est intervenu, ainsi que ptitnoir.

Mais il est vrai que si on conteste des notions, la méthode des moindres carrés n'a aucune justification.

Soit un ensemble de mesures directes x1x2...xn.
La moyenne arithmétique de ces n valeurs rend minimum la somme des carrés de résidus. Nous avons en effet
x-x1 =v1 ; x-x2=v2 ; x-xn =vn.
La somme des carrés des résidus est égale à
(x-x1)² + (x-x2)² + ... + (x-xn)² = Somme(v²)
Elle sera minima si la dérivée est nulle, c'est à dire 2[(x-x1) + (x-x2) + ... + (x-xn)}=0
C'est la valeur de la moyenne arithmétique. On généralise le raisonnement :
Puisque pour la moyenne arithmétique la somme des carrés des résidus est minima, on conviendra d'appliquer le principe, quelle que soit la forme des relations d'observations. On démontre d'ailleurs que cette solution est la "plus probable" au sens du calcul des probabilités.

@ Delentha,
Pour ton information, il existe une relation entre l'erreur moyenne arithmétique et l'erreur moyenne quadratique : ema = 4/5 emq.

par **beagle** » 13 Nov 2012, 12:19

Bah Dlzlogic, tant que tu mélangeras tout en ne voulant jamais rien définir, tes généralités seront fausses.Sylvie a raison de te reprendre.
prenons cette phrase:
"Il est certain que dès qu'on est en présence de plusieurs mesures de la même chose on évoque le même problème."
Tu es capable de définir comme la mème chose des situations issues de la loi uniforme, et des situations issues de loi déjà gaussienne au départ.
Donc c'est de la soupe.

La gauss avec son écart-type qui dépend de la précision,
précision de la mesure et/ou précision obtenue en augmentant les tirages selon tes expériences de loi uniforme,

est mélangée avec la Gauss obtenue car tirage dans du gauss,

c'est n'importe quoi.

Alors déjà tu ne parles plus d'aléatoire mais de la "mème chose", qui te permet d'éliminer les lois de probas non uniformes ou non gaussiennes, c'est déjà mieux , mais c'est du vague de chez pas défini.
Or le vague de chez pas défini ne devrait pas conduire à des généralités avec des toujours...

Le jour où tu voudras bien faire un effort de précision, tu seras crédible sur les trucs que tu sais bien faire.Mais le Dlzlogic qui ne tient pas compte du langage des mathématiciens sera toujours celui qui démolira les bons cotés de Dlzlogic.

par **Dlzlogic** » 13 Nov 2012, 12:51

@Deliantha,
J'ai lu un peu rapidement l'article concernant le projet de réglementation concernant la précision des levés topographiques.
Il est vrai que je n'avais pas eu l'occasion d'utiliser celle de 1980, je n'en avais donc qu'une très faible connaissance. Mais d'après ce que je lis, on reproche à ce texte de ne prendre en compte que la tolérance ( tol = 4ep = 8/3 emq # 3 écart-type).
Donc, si j'ai bien compris, on revient vers une application plus "normale" de la théorie des erreurs.

par **Sylviel** » 13 Nov 2012, 13:04

Ceci nécessite de ta part, des précisions, références, citations etc.

Exemple mis en évidence dans cette discussion : ta première "définition" de la méthode des moindres carrés.

Sinon c'est simple donne une définition propre et précise d'une "variable aléatoire qui a une répartition des écarts conformément à la loi normale". Je t'en propose une, n'hésite pas à le modifier comme il te plaira tant que tu reste rigoureux :
X a une répartition des écarts conformément à la loi normale si
P( a<(X-m)/s<b)=F(b)-F(a) où F(x) est la fonction de répartition de la loi normale (donc l'aire sous la courbe de gauss avant le point d'absisse x), m l'espérance de X (sa "vraie moyenne") et s son écart-type. Cela se vérifie empiriquement en réalisant un grand nombre de tirages indépendant de cette loi, et alors la proportion des tirages Xi vérifiant a<(Xi-m)/s<b sera de l'ordre de F(b)-F(a).
On peut remplacer m et s par leur estimation à partir des tirages, mais pour le moment supposons qu'ils soient connus par ailleurs.

Change la complètement si tu veux, mais donne une définition pour que tu puisse enfin voir l'incohérence de ton propos.

par **Dlzlogic** » 13 Nov 2012, 13:44

A mon avis, on mélange plusieurs choses;
1- le postulat de la moyenne qui conduit à la répartition normale des écarts à la moyenne
2- l'affirmation que les erreurs accidentelles ont la même répartition que celles des expériences aléatoires
3- la méthode des moindres carrés qui n'est qu'une méthode de calcul pour trouver la valeur cherchée.

Naturellement, je confirme ma définition de la méthode des moindres carrés. Ce n'est pas un théorème et les notions servant à la justifier sont un pré-requis.

Donc ma définition (un peu plus détaillée):
Etant donné un ensemble de mesures de la même chose, de manière directe ou indirecte, la méthode des moindres carrés consiste à établir la fonction S égale à la somme des carrés des écarts entre la moyenne arithmétique et la valeur mesurée. La valeur la plus probable est telle que S est minimale. S sera minimale pour les valeurs qui annulent sa dérivée. Ce calcul conduit à un système de n équations à n inconnues.
S est fonction de plusieurs variables, on calculera ses dérivées partielles pour chacune des variables, en vertu du principe de l'indépendance des erreurs, qui se justifie parce que on peut négliger l'infiniment petit d'ordre supérieur.

[HS]Lorsqu'on me reproche des incohérences, il serait de bon ton de citer les propos incohérents[/HS]

par **Sylviel** » 13 Nov 2012, 13:54

Je t'ai demandé (pour la 20ème fois au moins) une définition d'une "variable aléatoire qui a une répartition des écarts conformément à la loi normale" où est-elle ?

autre sujet sur l'incohérence :
Je reprends ta définition de la méthode des moindres carrés initiale cité à plusieurs reprises :

l y des mesures en sûr-nombre, la préoccupation est de calculer le résultat le plus probable. On démontre (de façon parfaitement rigoureuse) que le résultat le plus probable est celui qui minimise la somme des carrés des écarts entre la moyenne arithmétique et chacune des mesures.

Donc je traduis sur un exemple :
J'ai trois valeurs 1, 2, et 6. Moyenne arithmétique : (1+2+6)/3=3. Tu cherches à minimiser (6-3)²+(2-3)²+(1-3)²=15
que minimise t'on ici ? quelle variable peut-on faire bouger pour minimiser un nombre ?
--> si tu n'arrives pas à voir que tu t'es mélangé les pinceaux dans cette phrase c'est quand même embêtant...

Rebelotte avec ta nouvelle explication : quelle est le paramètre de ta fonction ? Tu écris somme des écarts quadratique entre les valeurs mesurées et leur moyenne : c'est un nombre, pas une fonction. Que veux-tu minimiser ici ?

par **Dlzlogic** » 13 Nov 2012, 14:02

Petit complément pour justifier le nom de "méthode" à ce dont on parle.
Pour un certain nombre d'opérations, c'est naturellement la méthode des moindres carrés qui est préférable. Mais elle est généralement difficile à mettre un uvre, et le calcul est long : plusieurs heures en l'absence d'outils informatiques.
Dans la pratique, on utilise très souvent des méthodes graphiques, beaucoup plus rapides et donnant un résultat équivalent.

par **Dlzlogic** » 13 Nov 2012, 16:12

Je viens de voir ce message.

Sylviel a écrit:Je t'ai demandé (pour la 20ème fois au moins) une définition d'une "variable aléatoire qui a une répartition des écarts conformément à la loi normale" où est-elle ?

Le problème, la question, la phrase, je sais plus quoi dire, n'est pas "définition ... aléatoire qui a une répartition", mais une affirmation : une variable aléatoire a une répartition ...
Tu me dis que c'est pas vrai, c'est ton droit le plus stricte.

autre sujet sur l'incohérence :
Je reprends ta définition de la méthode des moindres carrés initiale cité à plusieurs reprises :

Donc je traduis sur un exemple :
J'ai trois valeurs 1, 2, et 6. Moyenne arithmétique : (1+2+6)/3=3. Tu cherches à minimiser (6-3)²+(2-3)²+(1-3)²=15
que minimise t'on ici ? quelle variable peut-on faire bouger pour minimiser un nombre ?
--> si tu n'arrives pas à voir que tu t'es mélangé les pinceaux dans cette phrase c'est quand même embêtant...

Que représentent les chiiffres 1, 2, 6 ?
Si tu avais suivi le raisonnement cité dans mon message de 11H47, je suppose que tu ne poserais pas la question.
Depuis le début de ces discussions, j'ai bien compris que tu refuses la répartition des résultats d'expérience aléatoire comme conforme à la loi normale. Considérant cela, c'est parfaitement inutile d'aller plus loin.
La méthode des moindres carrés est une conséquence directe de cela. Par un miracle que j'ignore, de méthode elle est passée au rang de théorème, de la même façon que le postulat de la moyenne est passé au rang de théorème.
D'après toi, elle est directement liée à la régression linéaire, j'ai rien à dire de plus.

Rebelotte avec ta nouvelle explication : quelle est le paramètre de ta fonction ? Tu écris somme des écarts quadratique entre les valeurs mesurées et leur moyenne : c'est un nombre, pas une fonction. Que veux-tu minimiser ici ?

Reprenons l'exemple du triangle ou du calage.
Pour le triangle, il existe bien une relation entre les 6 éléments du triangle, non?
Pour la calage, on a une bonne dizaine de points, or il n'y a que 6 paramètres à calculer, tu fais comment, toi?

par **Sylviel** » 13 Nov 2012, 18:08

Et bien énonce proprement cette propriété. Le fait que cela soit vérifié par tout le monde n'empêche pas d'en donner une définition. Je t'ai fait une proposition qui me semble coller à ce que tu décris (et qui correspond à la vraie définition d'une loi gaussienne). Est-ce que cela te convient ?
Une fois que tu l'auras fait je pourrais te donner un contre-exemple que tu ne pourras pas contester. Car je t'ai déjà donné contre-exemples et arguments mais cela ne te convainc faute de définition précise de cette propriété.

Si si j'ai bien suivi ton raisonnement de 11h57. Je te montre juste que ta phrase

le résultat le plus probable est celui qui minimise la somme des carrés des écarts entre la moyenne arithmétique et chacune des mesures.

et

(x-x1)² + (x-x2)² + ... + (x-xn)² = Somme(v²)
Elle sera minima si la dérivée est nulle, c'est à dire 2[(x-x1) + (x-x2) + ... + (x-xn)}=0
C'est la valeur de la moyenne arithmétique

ce n'est pas pareil (pour cela il suffit de lire). Ta première phrase dit :
je minimise (m-x1)² + (m-x2)² + ... + (m-xn)² où m=(x1+...+xn)/n. Ce qui n'a pas de sens car il n'y a rien à minimiser. Es-tu capable de l'admettre ?

Par un miracle que j'ignore, de méthode elle est passée au rang de théorème, de la même façon que le postulat de la moyenne est passé au rang de théorème.

Non, ne mélange pas tout :
- ce que tu appeles le postulat de la moyenne est un théorème qui s'appelle la loi forte des grands nombre et ce depuis le début du XXème siècle. Je t'en ai donné une démonstration dans un document pdf.
- le théorème cité au début de la discussion n'est pas "la méthode" j'ai sans doute été peu clair sur le sujet. Il dit : dans un cadre linéaire, la solution du problème des moindres carrés est donnée comme solution d'un système d'équation (et précise cette équation).

Pour le triangle, il existe bien une relation entre les 6 éléments du triangle, non? Pour la calage, on a une bonne dizaine de points, or il n'y a que 6 paramètres à calculer, tu fais comment, toi?

tout d'abord ça n'a rien a voir avec ma remarque, qui revient à celle du début de ce message où tu as encore voulut minimiser non pas une fonction mais un nombre.

Ben j'ai déjà répondu (hier à 17h25 par exemple). Soit un ensemble de couples de valeurs (xi,yi) La méthode des moindres carrés consiste à trouver la fonction f dans un ensemble de fonctions F qui minimise la somme des ||f(xi)-yi||².

Pour le calage l'ensemble de fonction F est défini par
f(x1,x2) = (ax1+bx2+c,dx1+ex2+f) où a,b,c,d,e,f varie dans R. Les xi sont tes coordonnées dans l'ancien repère, tes yi les coordonnées dans le nouveau repère.

Identifier la meilleure fonction c'est identifier les meilleurs paramètres. Meilleur à prendre au sens "minimisant la norme 2 de l'erreur".

Bref je l'ai déjà expliqué en détail précedemment...

par **Dlzlogic** » 13 Nov 2012, 18:29

Bonjour Beagle,
Puisque tu me parles gentiment, je vais te répondre.

"Il est certain que dès qu'on est en présence de plusieurs mesures de la même chose on évoque le même problème."
Tu es capable de définir comme la mème chose des situations issues de la loi uniforme, et des situations issues de loi déjà gaussienne au départ.
Donc c'est de la soupe.

J'avais précisé et c'est important, que "mesures" et "même chose" est à prendre dans le sens le plus général.
Petit exemple :
1- dans une classe on demande à chaque élève de mesurer la largeur de leur cahier (même marque). Il y aura 25 mesures, la valeur la plus probable est la moyenne arithmétique des 25 mesures. On peut vérifier, en comparant à la distribution normale qu'il n'y a pas une mesure complètement fausse. Si c'est le cas (écart à la moyenne > 3 écart-type), on l'élimine et on recalcule la moyenne.
2- supposons maintenant que le résultat cherché n'est pas une seule valeur, mais un ensemble de valeurs, c'est à dire 3 nombres A, B, C. Supposons aussi que il ne soit pas possible de faire une moyenne arithmétique, petit exemple simple, on a un abaque, un point est défini pas 3 valeurs, on a 3 entrées comme la plupart des abaques. Le but est de trouver une "formule" que j'écris f(X,Y,Z) qui pourra se mettre sous la forme X= f1(X,Y) ou Y=f2(X,Z) ou Z=f(X,Y). Ces formules comportent un certain nombre de paramètres, suivant des hypothèses choisies.
Pour réaliser cela, on va lire un certain nombre de triplets xi, yi, zi. On aura des triplets en sur-nombre. Par extension, on peut dire que les résultats cherchés seront la moyenne arithmétique des valeurs mesurées. Naturellement on ne peut pas calculer une moyenne comme celle qu'on a pu calculer pour la largeur du cahier, mais le raisonnement mathématique est identique.
Pour faire cela on utilise la méthode des moindres carrés.

J'ai un peu de mal à comprendre ton expression "loi déjà gaussienne au départ".

par **beagle** » 13 Nov 2012, 18:57

on prend 100 tubes métalliques de 10 mètres, usinés avec une précision extra super géniale.
Ces tubes sont mesurés ensuite à l'aide d'un double décimètre,
ou à l'aide d'un mètre de couturier, ou à l'aide d'un appareiel laser.
on fait quantité de mesures, bon avec le double décimètre le résultat sera une dispersion supérieure que pour les mesures avec un mètre de couturier,
donc on aura différentes gauss,
une gauss avec gros écart-type, double décimètre,
une gauss faible écart-type le mètre, et une gauss d'écart-type zéro avec l'appareil sophistiqué.
parce que tu mesures de l'identique comme tu le dis.

Maintenant on fait la mème chose mais avec un échantillon d'ètres humains,
100 hommes adultes sont mesurés, idem avec un double décimètre, ou un mètre de couturier ou un appareil sophistiqué.
On retrouvera du Gauss, mais cela n'aura rien à voir avec l'expérience précédente en terme d'écart-type.
parce que on tire dans du Gauss.

Et tu ne peux pas mélanger ces deux types d'expériences pour dire c'est toujours du Gauss lorsque on mesure au hasard de l'aléatoire.

Et on pourrait imaginer tirer les données d'une autre loi de proba qui ne serait pas uniforme, et qui ne serait pas gaussienne non plus.

Or tu fais toujours cet amalgame,...

par **Dlzlogic** » 13 Nov 2012, 18:58

Bon, ça mérite une réponse.
Ce que j'ai mis en citation n'est pas de moi. Impossible de le remettre en cause. (sauf faute éventuelle de recopie, mais j'ai relu).

Concernant la définition de la méthode des moindres carrés, je maintiens ma position.
Ta définition pourrait être celle de la loi normale.

Pour le calage l'ensemble de fonction F est défini par
f(x1,x2) = (ax1+bx2+c,dx1+ex2+f) où a,b,c,d,e,f varie dans R. Les xi sont tes coordonnées dans l'ancien repère, tes yi les coordonnées dans le nouveau repère.

a,b,c,d,e,f ne varient absolument pas.
Ce sont des paramètres et chaque triplets de points homologues dans les 2 repères permettent de calculer un groupe de ces 6 paramètres.
La méthode des moindres carré a pour but et permet de calculer les valeurs de a,b,c,d,e,f les plus "probables" c'est à dire qui donneront un écart minimum avec une valeur idéale, et inconnue par définition. Si c'était une mesure directe simple, ce serait la moyenne arithmétique.

Petit mot concernant la régression linéaire.
Si on veut trouver les paramètres A et B de la fonction y=A +Bx qui minimise Somme((y-yi)²), on utilise la méthode bien connue.
Si on veut trouver les paramètres A et B de la fonction y=A+Bx qui minimise la somme des carrés des distances des points (xi,yi) à la droite, on utilisera la méthode amenée par l'exercice origine de ce topic. J'appelle D(xi,yi) la distance du point (xi,yi) à la droite, alors on minimise Somme((D(xi,yi))²).
Dans les deux cas, on utilise la méthode des moindres carrés (on n'en connait pas d'autre) mais les équations, donc les coefficients A et B ne seront pas les mêmes.

Méthode des moindres carré

Qui est en ligne