Interprétation de matrice de confusion

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
picatshou
Messages: 6
Enregistré le: 01 Mai 2012, 10:27

interprétation de matrice de confusion

par picatshou » 27 Oct 2013, 08:03

Bonjour tout le monde ,
j'ai fait une classification avec la méthode kmeans sur un échantillon de 46 clients dont 21 sont solvables et 25 non solvables
alors le résultat donné par R est comme suit :
Code: Tout sélectionner

K-means clustering with 2 clusters of sizes 7, 39

Cluster means:
          VAR1     VAR2        VAR3       VAR4
1 0.32714286  0.06142857 3.891429 0.4514286
2 0.02923077 -0.03102564 1.697179 0.4192308

Clustering vector:
 [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 1 2 2
[30] 2 2 2 2 2 2 2 2 2 2 1 2 1 2 1 2 1

Within cluster sum of squares by cluster:
[1]  4.8756 19.9965
 (between_SS / total_SS =  54.0 %)

alors j'ai construit la matrice de confusion pour comparer la classification réelle avec la classification K-means et j'ai trouvé ce qui suit:
Code: Tout sélectionner

   1  2
  S   0 21
  NS  7 18

alors je l'est interprété comme suit :
on a
Le taux de bonne classification totale est de : (21+18)/(21+18+7)*100=84,78% la classification est globalement bonne .
Le taux de classification de « S » est : 21/21*100= 100% , les 21 clients sont bons classés en groupe 2 :le groupe 2 est des clients solvables.
Le taux de classification de « NS » est : 18/25 *100=72 % ,18 clients sont biens classées dans le groupe 2 ce qui signifie que le groupe 2 est un groupe de clients non solvables ce qui est impossible car le groupe 2 caractérisera des clients solvables et non solvables à la fois .

en fait je ne sais pas si j'ai bien interprété les résultat mais ce qui est clair est que la classification par kmeans contient une contradiction donc le taux de classification globale doit être mauvais pour affirmer le résultat mais ce n'est pas le cas

Merci de bien vouloir m'aider à bien interpréter les résultats s'il vous plait



Avatar de l’utilisateur
fatal_error
Modérateur
Messages: 6610
Enregistré le: 22 Nov 2007, 12:00

par fatal_error » 27 Oct 2013, 09:00

slt picatshou,

d apres ta matrice de confusion que je connais pas mais dont la def est donnée sur wiki (pour d'autres lecteurs)

1 2
S 0 21
NS 7 18

SI on suppose que tes groupes représentent 1: non solvable, 2:solvable, alors
la detection des solvables est bonne (100%)
la detection des non solvables est mauvaise (7/25)

Il se peut que dans les variables que tu as mesurées qu'il y ait une relation entre les individus plus forte que le fait d'etre NS ou S (ce qui expliquerait pourquoi tu en a trouvé 18 solvables alors qu'ils sont NS)

Aussi si on regarde ta moyenne pour les variables
Code: Tout sélectionner
1 0.32714286  0.06142857 3.891429 0.4514286
2 0.02923077 -0.03102564 1.697179 0.4192308


On voit que VAR3 en moyenne (3.89) est largement supérieur à VAR2.
Est-ce que la distance de kmeans norme chacune des variables pour qu'elles soient toute au même "poids" ?
la vie est une fête :)

picatshou
Messages: 6
Enregistré le: 01 Mai 2012, 10:27

par picatshou » 27 Oct 2013, 14:01

merci beaucoup pour la réponse : non les données ne sont pas centrés et réduites
après avoir fait cette étape j'ai trouvé le résultat suivant de la matrice de confusion pour la méthode Kmeans :
Code: Tout sélectionner
      1  2
  S   6 15
  NS 24  1


En plus j'ai utilisé la méthode de classification hiérarchique et j'ai trouvé la matrice de confusion suivante:
Code: Tout sélectionner
     prédit
réel  S NS
  S   1 20
  NS  0 25

D'après ces deux résultats puisse je dire que la méthode de classification par K-means est meilleure que la classification hiérarchique ascendante
merci beaucoup d'avance pour toute réponse

Avatar de l’utilisateur
fatal_error
Modérateur
Messages: 6610
Enregistré le: 22 Nov 2007, 12:00

par fatal_error » 31 Oct 2013, 19:51

slt

je sais pas. ca dépend des critères que tu utilises pour comparer tes deux méthodes.
Maintenant j'aurais envie de dire que avec kmeans tu as prédit avec une précision de:
(15+24)/(15+24+6+1)=0.84

alors qu'avec cluster hiérarchique elle n'est que de :
20/(25+20+1)=0.43

bien sûr il faut définir précision, mais bon d'intuition t'as envie de compter le nombre qui sont correctement classifiés!
la vie est une fête :)

jahouna
Messages: 2
Enregistré le: 25 Juin 2014, 01:26

par jahouna » 25 Juin 2014, 01:51

svp j'ai une question existe-t-il des commandes sous R que peut évaluer une méthode de classification c'est-à-dire( précision, temps, f mesure d'exécution etc)...?

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 31 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite