Statistiques: Choix d'une annlyse factorielle

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
Piezo
Messages: 3
Enregistré le: 18 Jan 2007, 20:32

Statistiques: Choix d'une annlyse factorielle

par Piezo » 18 Jan 2007, 23:15

Bonjour,
Je suis en seconde, mais je me permet de poster ici pour un problème extrascollaire qui n'a absolument aucun rapport avec le programme.

Je développe une application dans le but d'afficher une représentation 3D des albums que l'on trouve sur Jamendo. Je veux proposer une dispersion intuitive des albums, où deux albums voisins dans l'espace sont similaires.
Pour cela, je dispose d'une source de donnée importante mais difficile a appréhender statistiquement parlant : les utilisateur du site, dont l'aspect communautaire est mis en avant, peuvent "taguer" les albums en mettant des mots pour qualifier les albums, comme "rock", "instrumental", "metal", "70s", "ambient" etc... Un même tag (mot) peut être placé plusieurs fois sur un même album, cependant, à cause du système pour récupérer les données brutes du site, je ne peut obtenir la fréquence du tag pour un album donné :cry: : j'ai uniquement la listes des tags de l'album classé par poids , tel que : "rock > instrumental > 70s > electro".

J'ai environ 2100 individus (albums tagués), et 4400 tags différents (600 utilisé plus de 5 fois, 340 +de 10x, 27 +de 100x, 2 +de 200x).
Une analyse factorielle des correspondances, aurais été une bonne voie, je suppose, si j'avais eu les fréquences de chaque tag pour chaque individu, constituant alors mes variables... (après le retrait des tags avec une fréquence globale faible).

J'ai donc fais un essai, à l'arrache, sans rien maitriser, avec un logiciel de statistiques (R avec le module FactoMineR), et des valeurs booléennes (tag présent au moins une fois, ou non, pour un album donné)(fichier de donnés ici). J'ai utilisé une "correspondence analysis " (CA), ce qui m'a tout l'air d'une analyse factorielle des correspondances (AFC) en français.
Résultat : ici, sur plan 2D Tags en rouge, albums en bleu (J'ai trouvé pas comment zoomer avec le graffeur... :hein: )
Avec le peut de connaissances en lecture de graphique d'analyse factorielles que j'ai, je distingue quand même bien un axe rock-metal-hardcore, et un autre electro-ambient-calme. (on voit vraiment rien avec toutes ces étiquettes superposées...) Bref, vu la forme du nuage je suis encore loin du résultat attendu... Les chiffres sont encore plus parlants :
Code: Tout sélectionner
         
        eigenvalue      inertia            cumulative inertia
dim 1   3.801582e-02 5.639583e+00           5.639583
dim 2   2.981764e-02 4.423397e+00          10.062980
dim 3   1.950726e-02 2.893869e+00          12.956849
...
dim 220 5.237702e-04 7.770043e-02          89.917601
dim 221 5.220314e-04 7.744248e-02          89.995044
dim 222 5.206676e-04 7.724017e-02          90.072284
dim 223 5.155681e-04 7.648366e-02          90.148768

10% sur mes deux dimensions... :hum: Je ne sais pas trop ce que cela signifie vraiment, mais je suis loin des 90% recommandés...

Forcement, la méthode est totalement inadapté, mais c'est pour un aperçu...

Donc voila, j'ai besoin de votre aide afin choisir une méthode pour analyser mes données sous la forme : "rock > instrumental > 70s > electro" et extraire une représentation 3D intuitive de mes individus (et des tags si l'occasion se présente, mais ce n'est pas un critère de choix).

Un projet de cette ampleur pour mon niveau peut vous paraître impossible à réaliser, mais j'ai des personnes qui peuvent m'aider, des implémentations toutes faites (pour déterminer les valeurs propres par exemple). Et j'ai l'habitude de chercher des ressources sur le net, et je ne recule pas de terreur devant la complexité.

Donc n'hésiter pas a m'aider, même si c'est compliqué, je me débrouillerais avec vos réponses ! Et si il manque des informations sur mes données, n'hésitez pas à les demander. :we:

Merci d'avance.



Piezo
Messages: 3
Enregistré le: 18 Jan 2007, 20:32

par Piezo » 19 Jan 2007, 20:54

Toujours pas réponses...

Je me suis peut, être mal exprimé ? :hein: Faut dire que je mélange un peu tout au point ou j'en suis...

J'aurais rapidement besoin de savoir si ce que je demandes est possible ou non, et vers quel type d'analyse m'orienter.

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 23 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite