Représentativité d'un échantillon dans un cas de traitement informatique
Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
-
Martial
- Messages: 3
- Enregistré le: 19 Jan 2007, 09:26
-
par Martial » 19 Jan 2007, 09:56
Bonjour tout le monde, j'inaugure mon inscription sur le forum par une question qui me tarabusque. Je suis un étudiant ingénieur en informatique en stage et je suis confronté à un problème mathématique dont voici la description.
Le contexte :
Ces derniers jours, jai programmé une application qui migre les données dun système vers un autre. Ces deux système nont pas ma même structure et donc jai du trouver une place pour chaque donnée de lancien système.
Le problème :
Maintenant que les données doivent être passé de lancien système vers le nouveau, je dois massurer de lintégrité de celles-ci. Je ne compte pas vérifier toutes les lignes de données et je voudrais plutôt prendre un échantillon qui serait représentatif de lensemble. Je me suis penché vers la loi de Bernouilli mais cela ne me donne pas les résultats espérés. En effet dans mon cas les donnés sont particulières puisque Une ligne est extrêmement représentative (mais pas à 100%) de lensemble, car toutes les lignes passent exactement au même traitement.
Les données :
Si je devais suivre mon feeling (ce qui na aucune preuve mathématique malheureusement :) ) je dirais que sur un univers de 100, si 25 lignes testées sont juste, on pourrait estimer quil y ait
90-95% de chance que lensemble soit correcte. En effet je pense que si une ligne est juste, il y a 50% de chance que lensemble le soit ; si jen prends 2 cest entre 55 et 70% (en fonction de la pertinence des deux lignes) et ainsi de suite.
Ma demande :
Je cherche donc un moyen de prouver que avec un échantillon relativement petit, je puisse assuré que lensemble est juste car une ligne serait très représentative. Je penserais a une loi ou model qui tiendrait compte du fait que cest soit tout juste ou tout faux, que un élément est extrêmement représentatif des autres, que si 1 seul élément de léchantillon est faux lensemble est obligatoirement faux.
Jespère avoir était clair et ne pas me tromper dans mon raisonnement, cest assez difficile pour moi de représenté mathématiquement mon problème, alors si vous avez des questions je serais là pour éclaircir mon problème.
-
maturin
- Membre Irrationnel
- Messages: 1193
- Enregistré le: 09 Nov 2006, 16:28
-
par maturin » 19 Jan 2007, 11:02
ben tu peux calculer la probabilité d'avoir 100% des lignes qui sont juste sachant que t'en as vérifié un certain nombre mais on peut pas faire grand chose si tu nous donne aps une loi exacte de la représentativité de tes lignes testées.
-
Martial
- Messages: 3
- Enregistré le: 19 Jan 2007, 09:26
-
par Martial » 19 Jan 2007, 11:19
JE cherche en effet à calculer la probabilité d'avoir 100% des lignes juste. en fonction de mon échantillon.
Mais je ne comprends pas ce que vous attendez comme réponse pour la loi exacte ? il y a t'il une méthode de calcul pour l'obtenir ? (une importation témoin ?)
-
maturin
- Membre Irrationnel
- Messages: 1193
- Enregistré le: 09 Nov 2006, 16:28
-
par maturin » 19 Jan 2007, 11:58
je dirais que sur un univers de 100, si 25 lignes testées sont juste, on pourrait estimer quil y ait
90-95%
c'est cette loi là qu'on aimerait avoir
tu dis que ça dépend de la pertinence de ton échantillon, donc nous on connais pas ton problème, il nous faudrait des éléments pour juger de la pertinence de tes lignes testés.
-
mathelot
par mathelot » 19 Jan 2007, 12:11
bonjour,
soit n variables aléatoires

qui valent 1 si la ième ligne est juste, 0 si elle n'est pas exacte.
On pose
)
d'après les hypothèses, on a la proba conditionnelle:
 = 0,5)
 = 0,5 P(X_{i}=1))
Si les

sont indépendantes:
 = 0,5)
d'où:
si les probas sont non nulles et de même loi:
=(0,5)^{\frac{1}{n-1}})
et
=1-(0,5)^{\frac{1}{n-1}})
on obtiendrait donc la loi des va. Les v.a ne doivent pas être indépendantes
car alors, la proba que le système soit intégralement juste ne dépasse pas 0,5.
-
Martial
- Messages: 3
- Enregistré le: 19 Jan 2007, 09:26
-
par Martial » 19 Jan 2007, 12:27
Merci pour ces réponses :) que je vais étudier un peu plus tard car je suis trop occupé pour le moment.
j'ais une autre question qui vient, lorsque vous dites "les variables sont indépendantes..." cela signifie bien que les variable n'influes pas entres elles ?
cependant, si la première est juste, la second à encore beaucoup plus de chance d'être juste, inversement si elle est fause. En effet au premier coup on part avec une chance sur 2 (hypothése) que ce soit juste, mais si la première est just cela influe sur la chance de la suivante et ainsi de suite.
Cela m'ammène a me demander, est-ce que c'est possible d'imaginer une suite ou les chances de succes augmente au fure et à mesure des relevés. Et de ce fait arrivé à X mesures on a une chance de 90% que ce soit juste, alros on estime que c'est assez "représentatif" (mis entre "" volontairement)
Je sais que cela semble biscornu, mais c'est la réalité de mon problème, surment peu academique et ou les hypothèse se base sur une estimation personnel... :briques:
Merci encore pour votre coup de main, ce problème n'est pas d'une importance capitale, mais c'est surtout ma curiosité qui me pousse a trouver une solution valable.
-
mathelot
par mathelot » 19 Jan 2007, 12:32
oui, les

ne semblent pas indépendantes
Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 81 invités