nenex73 a écrit:Bonjour à tous,
J'ai un petit soucis avec une formulation.
Je travaille avec des niveaux qui varient de 100 à 0.
De temps en temps les capteurs "merdouillent" et revoient des données erronées
Je dois estimer la probabilité que le niveau lu soit exact en fonction du nombre de pièces sorties.
Ex :
Je sais que je consomme 1% pour chaque pièce.
- Si le niveau est à 10 après 110 pièces, c'est louche aussi.
Une idée ?
Bonjour,
Pour formuler ce problème, il faut passer par une modélisation du problème. C'est à dire considérer que la consommation n'est pas "toujours" 1% mais est une variable aléatoire. Il faut donc proposer une loi pour cette consommation.
Et pour proposer une modélisation "convenable" il manque des infos au problème.
- Est-ce que la pièce consomme "en moyenne" 1%, mais qu'il y a une légère variation autour de 1% (dans ce cas on pourrait modéliser la consommation par une gaussienne "étroire" de moyenne 1% en première tentative).
- Est-ce que la consommation est "presque toujours" 1% exactement, mais que parfois une anomalie provoque une surconsommation ? auquel cas on pourrait suggérer plusieurs lois potentielles, selon les données que l'on a sur le phénomène de surconsommation ou l'idée qu'on s'en fait. Quelques exemples :
1)
c = 1% + a*X, où a > 0 est un paramètre de surconsommation, et X une variable de Bernoulli qui vaut 1 avec une proba p (p assez petit), ce qui se traduit par : avec proba '1-p) la conso est 1% (cas normal) et avec proba p, la conso est 1%+a.
2) On peut étoffer cette première loi très "rudimentaire" avec une loi géométrique, pour tolérer de grandes valeurs de surconsommation très rare, mais cela ne prendra toujours qu'un ensemble de valeurs possible discret.
3) Partir de 1) et considérer que a est une variable aléatoire également, indépendante de X, par exemple une qui sert justement à modéliser des événement extrêmes est la loi de Pareto de minimum 0 (voir
http://fr.wikipedia.org/wiki/Loi_de_Pareto_%28probabilit%C3%A9s%29 avec xmin = 0).
4) on peut aussi faire des combinaisons .. du style une gaussienne "assez serrée" autour de 1% plus un événement "rare" en Pareto, ce qui pourrait permettre d'obtenir - si tant est que la valeur des paramètres en entrée ait une quelconque justification empirique - des probabilités donnant une valeur pertinente pour la question du problème (par exemple "proba que si C<10% pour 50 pièces, alors il y a eu au moins un événement de surconsommation" qui dans les cas 2 et 3 n'aura pas vraiment de sens ..)
5) Et probablement plein d'autres, peut etre même plus simples et permettant de répondre au problèle auxquelles je n'aurais pas pensé.
Et une fois qu'une modélisation particulière est choisie pour la consommation C (qu'on considère comme la somme des consommation c_i indépendantes et de même loi), il sera alors possible d'effectuer des calculs de probas qui ont du sens dans le problème .., voire faire des tests d'hypothèses.
En bref il n'y a que l'embarras du choix, tant que le choix est :
- pertinent : la loi choisie doit remplir, ou approcher au mieux les observations connues du phénomène expérimental ou les conditions/bornes (physiques, autres) imposées sur le phénomène, et limiter autant que possible le nombre de paramètres qu'il faudra estimer d'une manière ou d'une autre .. (En l'occurence la loi 4) me parait la mieux niveau "features" à la vue du problème mais présente 3 paramètres, ça frôle déjà l'usine à gaz inexploitable s'il n'y a pas moyen d'avoir une idée correcte des paramètres)
- judicieux : elle doit - au moins dans un premier temps pour faire un premier test - rester simple de manière à laisser possible des calculs analytiques avec cette loi (sauf si l'on dispose de moyens informatiques pour estimer les probas - Monte Carlo - ce qui laisse alors plus de libertés)
En espérant que ça aide, même si ça ouvre plus de questions que ça n'en ferment

Damien
EDIT :
Une autre idée en passant, plus simple et qui a le mérite de laisser la moyenne de la conso par pièce à 1% contrairement aux propositions 1) et suivantes :
On considère que la conso suit une gaussienne étroite autour de 1%. (La variance est à estimer/fixer)
Et on considère qu'il y a surconsommation si elle dépasse 2 écarts-types (ou 3). Inversement, si on considère que c'est 2 ecart-types et qu'on considère une surconso au-dessus de 1.5%, on peut en déduire la variance à utiliser.
Et ensuite on peut calculer la probabilité qu'il y ait eu au moins une sur-consommation sachant que C < 10% à 50 pièces.