Probleme de Data Mining

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
pendemovis
Messages: 2
Enregistré le: 08 Mai 2007, 20:43

Probleme de Data Mining

par pendemovis » 08 Mai 2007, 20:58

On dispose d'une micro-enquête réalisée sur 40 personnes, pour lesquelles on a recueilli diverses variables
classées en trois thèmes:

1/ Thème "socio-démo-économique" S: sexe sx, âge a, statut matrimonial m (célibataire, union stable,séparé ou divorcé, veuf), plus haut diplôme d (sans, CEP, BAC, Supérieur), statut d'occupation o (occupé,chômeur, retraité), emploi e (étudiant, ouvrier, employé, cadre / profession intellectuelle, foyer, artisan /commerçant), statut d'emploi s (salarié, libéral), secteur d'activité sec (public, privé), revenu ;

2/ Thème "conditions de vie" C contenant deux variables d'opinion: l'appréciation des conditions de vie actuelles cv (mauvaises, acceptables, bonnes), l'appréciation des conditions de vie futures f (pires, égales,
meilleures);

3/ Thème "politique" P: vote au premier tour d'une élection présidentielle v (extrême gauche, gauche, centre, droite, extrême droite, environnementaliste, abstention).

A partir de cette variable, on a créé les
variables "synthétiques" suivantes:
vs_gauche = v_gauche + v_extrême_gauche ;
vs_droite = v_droite + v_extrême_droite ;
vs_extrême = v_extrême_gauche + v_extrême_droite ;
vs_nonpolarisé = v_centre + v_environnement.

Les données sont dans le fichier enqueteSEP.csv. Il est demandé de les analyser. A titre de guide, on demande de
répondre, avec un degré de raffinement laissé à votre appréciation, aux questions qui suivent.

N.B. - La concision et la clarté de la rédaction seront très appréciées.
- Dans l'analyse, partez toujours du global pour aller graduellement vers le détail. Prêtez attention à la robustesse dans la mesure du possible, en examinant le rôle des observations atypiques, ainsi qu'en mettant en
concurrence les méthodes susceptibles de répondre à une même question de problématique.
- Les variables continues (âge et revenu) ont été recodées en qualitatives ordinales, mais un autre découpage du domaine peut être proposé si nécessaire.

Guide d'analyse

I - Méthodologie

1. Modèle conceptuel:

Parmi les modèles conceptuels suivants, qui articulent les trois thèmes en termes de dépendance, lequel vous semble le plus réaliste? Expliquez brièvement votre réponse en justifiant chaque arc et chaque absence
d'arc du graphe choisi. (NB. Un arc A->B entre deux thèmes A et B signifie: B dépend (au moins partiellement) de A).

a: S -> P
C -> P

b: S -> P
C -> P
S -> C

c: S -> C -> P

d: S -> C
S -> P

2. Questionnements et Méthodes

2a) En supposant qu'on adopte le schéma conceptuel (a) ci-dessus, précisez la problématique sous-jacente (i.e. les questions qu'on se pose sur les liaisons entre thèmes) et proposez une chaîne de traitements statistique complète permettant d'y répondre.
NB1: Chaque fois que vous étudiez une liaison, vous préciserez s'il s'agit d'une liaison globale ou d'une liaison partielle.
NB2: Si, à une étape donnée de la chaîne de traitements, plusieurs méthodes peuvent être envisagées alternativement, vous préciserez lesquelles.

2b) Reprendre la question 2a. en considérant cette fois que l'on adopte le schéma (c).

II - Exploration séparée des thèmes

1 - Thème S

a) Explorez le thème S à l'aide d'une technique d'analyse factorielle adaptée. Cette technique permet-elle de bien résumer ce thème?

b) Le thème S peut-il être subdivisé en sous-thèmes intéressants et opérationnels? Si oui, formez les et explorez les.

c) Explorez le thème S à l'aide de méthodes de classification. Permettent-elles de mieux résumer le thème?

2 - Thème C

a) Le thème C est plus simple. Son ACM est équivalente à une ACB, laquelle?

b) Explorez le thème à l'aide de cette méthode (vous pourrez vérifier cette équivalence en pratique).

3 - Thème P

Ce thème mérite-t-il d'être exploré? Pourquoi?

III - Exploration des liens deux à deux entre thèmes

1 - On explorera, à l'aide des techniques appropriées, les liens entre:
- situation socio-démo-économique et perception des conditions de vie;
- perception des conditions de vie et vote;
- situation socio-démo-économique et vote.

2 - Expliquez pourquoi la modélisation de l'orientation politique ne peut pas se satisfaire des liens deux à deux précédemment explorés.

3 - Explorez les liens entre le thème P et la réunion des thèmes S et C.

IV - Modélisation du vote

Vous chercherez à modéliser successivement chacune des variables du thème P en fonction des thèmes S et C.

V - Synthèse

Donnez une synthèse de vos conclusions sous la forme d'une note technique claire, d'une page au plus, pouvant être lue par un journaliste moins de 10 minutes avant son passage à l'antenne.




Merci d'avance pour toute l'aide que vous pourrez me fournir



buzard
Membre Relatif
Messages: 274
Enregistré le: 22 Mai 2006, 14:29

par buzard » 08 Mai 2007, 22:01

bonsoir,

c'est quoi ce charabia une épreuve de l'insee, ou un stage que tu est en train de faire?

moi je te conseille de partir sur des variables floue, tu pourra faire des calculs sur le graphe de dépendance.En ce qui concerne le modèle de dépendance. Il ne s'agit que d'un modèle, et les cheminement cause/effet ne sont que des effets statistiques.

l'avantage des variables floues : elles te permettent de calculer la valeur de chacune des relations dans un modèle causale. Et ainsi d'en déduire un chemin causale le plus probable.
Lorsque deux chemins se distingue il faut en plus appliquer les formules de bayes pour les discriminer.

Bien évidement ce sont les ecarts-types qu'il faut comparer et non les seulement les moyennes.

sinon de manière générale, tu remarqueras que le clivage socio-professionnelle est largement insuffisant à expliquer les comportements électoraux. Il s'avère que les notions d'imprégnation du voisinage (géographique et sociale) sont plus apte à les expliquer. Malheureusement les mathématiques sont aujourd'hui insuffisante pour répondre simplement à cette problématique.

pour conclure se sont encore une fois les ouvriers qui vont souffrir et faudra pas s'attendre à une augmentation du budget de la recherche avant 2012

pendemovis
Messages: 2
Enregistré le: 08 Mai 2007, 20:43

par pendemovis » 09 Mai 2007, 14:12

Bonsoir, merci pour ta réponse (même si je n'aipas tout compris).
En fait il s'agit de mon partiel de data mining qui se fait... à la maison.
C'est quoi une variable floue? :marteau:

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 41 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite