Hervé a écrit:Bonjour à tous,
Informaticien, je souhaiterais concevoir un logiciel de détection de fraudes aux examens.
On se restreint pour le moment aux épreuves de type QCM.
Les résultats sont connus (pour chaque élève, une base de données référençant les réponses à chaque question ainsi que la note existe).
Comment modéliser le degré de ressemblance entre deux copies sachant que
- les copieurs ont l'habitude de "pomper" des séries de N questions consécutives (par ex, de la question 6 à la 21)
- deux personnes ayant une bonne note (donc beaucoup de réponses correctes en commun) ne sont pas forcément coupables.
Je suis familiarisé avec les outils statistiques (variables aléatoires, matrice de covariance, etc...) mais je ne sais pas comment mathématiser mon problème
Merci d'avance
Si tu voulais modeliser ca, ca necessiterait malheureusement un travail qui n'est pas faisable a ton niveau de connaissance.
Je m'explique.
Ce que tu demandes, est fortement lié au critere de fiabilité. Car il va de soi qu'il va falloir evaluer la chance que l'estimation soit juste. Car c'est la toute la difficulté, ne pas accuser un eleve a tort. Et ceci va utiliser des données subjectives!
C'est a dire le niveau de l'eleve, la difficulté de la question etc.
Donc c'est compliqué ce que tu demandes et ca demande un vrai travail.
Tout ce que tu ferais la dessus sans l'aide d'un pro qui passerait du temps dessus aboutirai a un modele grossier qui n'est pas du tout adapté a ton probleme. Car evidemment on ne peut pas accusé un eleve de tricherie sans preuve ou alors sans forte suspission.
La notion de "test" (je parle de test en statistique) va rentrer en jeu. Il va falloir que ton risque de premiere espece soit tres faible, c'est a dire qu'il faut que la chance de suspecter un eleve a tort soit tres faible.
Le modele sera le suivant.
I, l'hypothese l'eleve n'a pas triché.
T l'hypothese l'eleve a triché.
Il faudrait fabriqué un intervalle( provenant des variables sujectives et du modeles subjectifs que tu auras construit) qu'on appelle R pour lequel tu accepteras l'hypothese l'eleve a triché. Et il faut que la probabilité sachant que l'eleve n'a pas triché de se retrouver dans l'intervalle R(ou tu conclus a la tricherie) soit de l'odre au maximum 5% disons.
P (R)=[sous la loi d'un eleve qui n'a pas triché]=5%.
Ton etude par contre conclura tres souvent a la non triche, car le risque de seconde espece ne peut etre minimisé en meme temps que le risque de premiere espece. C'est a dire que la probabilité de se retrouver dans l'intervalle complementaire de R(ou tu conclu a la non triche) pour un eleve qui a triché, sera assez elevé. La puissance de ton test etant defini par sa capacité a attraper les ticheurs(c'est a dire a une forte probabilité de se retrouver dans R sous la loi de la tricherie) tout en restant a un maxmum de 5% d'erreur sous la loi de la non tricherie.
Tout le travail c'est de fabriquer cet intervalle R, de trouver une loi de la note et de la combinaison des reponses type pour un eleve qui a triché et que ce meme model puisse etre utilisé pour modeliser le resultat d'un eleve qui a triché. Tu vas tester plusieurs parametre suivant certaines loi et voir si tu te trouves dans R ou pas. La valeur d'une variable fixant la loi parmis une famille de loi predefini determinant la loi suivi par un eleve tricheur ou pas.
Je te conseille de travailler avec la loi normale si tu te lances. Mais ca demande beaucoup de travaille et de passer par un pro ou alors un etudiant en stat et moi na pas avoir le temps lol (que tu vas payer, ou alors ton meilleur pote en esperant qu'ils fassent des stats).
Bonne chance...