Regression avec differents types de variables sur R

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

regression avec differents types de variables sur R

par antonyst » 08 Mar 2021, 20:57

Bonsoir à tous!
Je manipule rarement des nombres mais j'ai décidé de me former à la recherche quantitative en lien avec mes études.
Il m'est demandé de formuler une hypothèse à partir de plusieurs variables puis de tester cette hypothèse.
J'ai décidé de tester l'hypothése suivante: "Les pays qui ont pris part à une guerre sont associés à un degré de liberté plus faible". Je dispose d'une variable factice "un pays est impliqué dans une guerre" égale à 1 si tel est le cas et à 0 dans le cas contraire. En ce qui concerne le degré de liberté j'utilise deux variables "droits politiques" et "libertés civiles" allant de 1 à 7.
Il m'est ensuite demandé de choisir une manière de tester mon hypothèse, d'expliquer ce choix puis de tester l'hypothèse. J'ai décidé d'effectuer une regression. Ma question est la suivante: je ne sais pas comment transformer les variables allant de 1 à 7 afin d'effectuer une regression sur le logiciel R.
Merci !
Modifié en dernier par antonyst le 08 Mar 2021, 23:16, modifié 1 fois.



Vassillia

Re: Methode quantitative statistique

par Vassillia » 08 Mar 2021, 22:55

Bonjour, pour répondre à ta question :
On fait un test de corrélation de Pearson (paramétrique donc les variables doivent suivre une loi normale) ou de Spearman ou de Kendall (non paramétrique donc utilisation des rangs) lorsqu’on cherche juste à déterminer l’absence ou la présence d’une relation significative. Ecrire une équation entre les variables n’aurait pas beaucoup de sens car il n’y a pas raison de pouvoir prédire une variable à partir des autres. Ex : X nombre de lunette de soleil vendu et Y nombre de parapluies vendus. On se doute bien que la corrélation est négative mais le facteur explicatif est la météo et c’est lui qui aiderait à prédire le nombre de ventes. On peut échanger X et Y dans l’analyse sans difficulté.

On fait une régression lorsqu’on cherche à utiliser un modèle pour prédire une variable dépendante Y à partir d’une ou plusieurs variables que l’on considère comme explicatives. Ex : on va supposer qu’il existe une taille optimisée pour les villes, si elles sont trop petites ou trop grandes les infrastructures coutent trop cher par rapport aux nombre d'habitants. X la taille de la ville et Y le cout moyen des infrastructures. A partir de X, on peut prédire Y par contre à partir de Y, on ne peut pas prédire X puisque la ville peut soit être petite soit grande. Je vais juste citer 2 régressions :
- La régression linéaire. L’hypothèse de recherche est que la variable Y est associée à une combinaison linéaire des variables explicatives. Il y a plusieurs conditions à vérifier dont le fait que la variable Y est une variable continue et ne peut donc pas être dichotomique.
- La régression logistique. Elle permet justement d’étudier une variable Y dichotomique en fonction d’une ou plusieurs variables explicatives continues ou catégorielles. Cela peut correspondre à ton exercice sauf que théoriquement il y a aussi des conditions à vérifier. Le plus gênant dans ton cas, c'est que les variables explicatives ne doivent pas être fortement corrélées entre elles. A toi de voir si « droits politiques » et « libertés civiles » remplissent ce critère ou s’il faut en changer.

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 08 Mar 2021, 23:22

Merci beaucoup ! J'ai vérifié et il m'est possible d'effectuer une regression linéaire. Toutefois, je viens de me rendre compte d'un nouveau soucis : les variables "droits politiques " et "libertés civiles " sont codés sur une échelle de 1 à 7 tandis que mon variable dépendent va de 1 à 2. Il me semble donc que je dois transformer les variables indépendants mais je ne sais pas comment faire cela...

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 08 Mar 2021, 23:41

Mouais, pas convaincue. Pour faire une régression linéaire, il faut que la loi de Y soit normale sous certaines conditions. C’est un peu se moquer du monde de faire cette hypothèse avec uniquement 2 valeurs possibles pour Y.
Par contre pour une régression logistique, il faut que la loi de Y soit de Bernoulli sous certaines conditions. C’est nettement plus pertinent vu les circonstances. On pourrait même faire d’autres type de régressions en fonction de la loi supposée de Y.
Maintenant, si tu me dis que tu peux rentrer les valeurs dans ton logiciel et que cela va sortir des résultats. Évidemment, il s’en fiche lui des conditions d’application mais le résultat ne sera pas très probant si tu veux mon avis.

lyceen95
Membre Complexe
Messages: 2255
Enregistré le: 15 Juin 2019, 00:42

Re: regression avec differents types de variables sur R

par lyceen95 » 09 Mar 2021, 00:22

La bonne méthode n'est pas de calculer une régression linéaire.

On calcule la moyenne et l'écart-type du groupe 1,
On calcule la moyenne et l'écart-type du groupe 2,
Et il y a des formules (je ne me souviens plus du nom, ni des formules) qui permettent de conclure :

Soit : On peut raisonnablement dire que Le groupe 1 est très différent du groupe 2, avec un risque inférieur à 5% de se tromper (on prend généralement ce seuil de 5%)
Soit : On peut raisonnablement dire qu'il n'y a pas de différence significative entre le groupe 1 et le groupe 2, avec un risque inférieur à 5 de se tromper.
Soit : On est dans la zone frontière, il y a une différence entre le groupe 1 et le groupe 2, mais elle n'est pas suffisament signigicative pour qu'on puisse conclure quoi que ce soit.

C'est exactement ce qui se fait en médecine par exemple, pour comparer un médicament et un placebo.

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 00:43

Enfin là tu parles d’un test statistique de comparaison de moyennes (c’est à dire une variable quantitative en fonction d'une variable qualitative dichotomique : médicament ou placebo), ce n’est pas vraiment la question. Accessoirement, il y a plein de formules en fonction des conditions de validité : paramétriques ou non, échantillons appariés ou non… Je comprends que tu ne t'en souviennes plus et ce n'est pas l'important mais il faut savoir qu'il y a des conditions de validité à respecter.

Antonyst, lui, il veut faire de l’analyse multivariée sur une variable qualitative dichotomique en fonction de plusieurs variables qualitatives, c'est un peu plus compliqué. Si on avait une variable qualitative en fonction d’une autre variable qualitative, on pourrait faire un test statistique du chi 2 (voir un test statistique de proportions si les 2 variables sont dichotomiques).

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 01:12

Merci à vous deux !
Oui Vassilia, tu as raison, je ne souhaites pas comparer des moyennes. Je pensais egalement fair eun test de chi mais pour cela il me faudrait transformer mes variables independentes il me semble.

lyceen95
Membre Complexe
Messages: 2255
Enregistré le: 15 Juin 2019, 00:42

Re: regression avec differents types de variables sur R

par lyceen95 » 09 Mar 2021, 01:20

Ici, on a une variable qualitative dichotomique (guerre ou pas guerre, c'est comme médicament ou pas médicament).
Et on a une variable quantitative.
Et la 2ème ligne du premier message était en plein dans ce cadre :
Il m'est demandé de formuler une hypothèse à partir de plusieurs variables puis de tester cette hypothèse.

Je fais l'hypothèse que la guerre a un effet sur tel indicateur, et je vérifie cette hypothèse.
La suite de l'énoncé parle à nouveau de tester l'hypothèse.
Puis vient le tournant ... : " j'ai décidé d'effectuer une régression"

Si Antonyst a décidé d'effecuer une régression au lieu de faire l'exercice demandé, soit. C'est son choix.
Moi, je proposais juste de faire l'exercice demandé.

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 01:22

Ben non, il faudrait surtout avoir une seule variable explicative pour faire un test du chi 2 tel que tu l'entends. Ceci-dit comme je trouve que tes variables explicatives sont corrélées ce qui n'est pas vraiment réglementaire, ce ne serait pas forcément plus mal de les fusionner mais ce n’est pas à moi de choisir ce genre de chose.
Moi tant que tu me dis variable qualitative dichotomique "etat guerrier" en fonction de 2 variables qualitatives "droit politique" et "liberté civile", je reste obstinément sur régression logistique multivariée, pas vraiment le choix. Après si tu me changes le problème, je pourrai te proposer autre chose.

@lyceen95 Je pense que tu te trompes, il n'y a pas de variable quantitative, c'est juste un codage de variable qualitative nécessaire pour faire la régression en tout cas moi je le comprends comme cela. Et puis de toute façon, tant qu'il y a 3 variables, tu ne peux pas faire de test de moyennes. A la limite tu peux faire de l'analyse de la variance (ANOVA) si tu fais une variable quantitative en fonction de plusieurs variables qualitatives voir de l'analyse de la covariance (ANCOVA) si tu fais en fonction d'un mélange de qualitatives et quantitatives mais cela ne correspond pas vraiment au problème et je ne pense pas que ce soit à son programme.

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 01:58

@Vassillia Meme si mon Y est normale, je ne peux pas faire une regression lineaire ? Je n'ai pas appris les regressions logistique et c'est pour cela que ca me semblait evident de faire cela...

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 02:01

Mon dataset comprend 27 pays avec de nombreux variables (PIB, taux de chomage...) et je m'intéresse surtout à la relation entre guerre et liberté politique dans ses 27 pays mais sans effectuer une transformation des variables dependants cela me semble impossible.

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 02:39

Ton Y ne peut prendre que 2 valeurs, tu ne peux pas l’assimiler à une loi normale ! Pour être précise, ce sont les résiduels qui doivent avoir une distribution normale mais peu importe. Je sais bien que certains ont tendance à être souple sur les conditions mais là, il y a vraiment de l’abus. Tiens, j’ai trouvé exactement ton cas de figures et du coup, ils expliquent la régression logistique. http://www.info.univ-angers.fr/~gh/wstat/Perfectionnement_R/tanner_chap5.pdf

Tu ne voudrais pas plutôt étudier le PIB, taux de chomage... qui sont des variables quantitatives pour lesquelles la régression linéaire est une bonne idée ? Ou alors étudier juste une seule des variables qualitatives explicatives soit "liberté civile" soit "droit politique" ? Visiblement tu ne connais pas les outils pour traiter ce problème

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 10:10

Ah oui je comprends ! Il serait donc bien plus aisé d'étudier avec une régression linéaire la relation entre le PIB et l'occurence d'une guerre avec Y = PIB et X=guerre si je comprends bien ?

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 11:54

Relis ma toute première réponse, une régression sert à prévoir et juste avec le résultat "en guerre" ou "pas en guerre" tu veux essayer de deviner le PIB, ce ne sera pas pertinent.
Dans le cas que tu viens de présenter, le mieux serait de faire un test de moyennes comme l'avait expliqué Lyceen95 où on compare le PIB moyen dans les pays en guerre et le PIB moyen dans les pays pas en guerre donc une variable quantitative en fonction d'une variable qualitative.
Si tu veux faire une régression linéaire qui tient debout, il te faut uniquement des variables quantitatives et faire certaines hypothèses sur elles.

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 12:56

Je vois merci beaucoup. Par exemple, il serait possible d'étudier le PIB en lien avec le taux de chômage dans ce cas ? Un soucis additionnel se pose alors dans mon base de données il me semble puisque le nombre d'observations n'est pas semblable pour chaque variable. Par exemple, je ne dispose que d'une observation Azerbaijan et 7 pour le Bélarus dans l'image en lien. Il me semble alors incorrect de faire une regression sur l'ensemble des pays afin de poser disons l'hypothèse que le PIB est negativement corrélé au taux d'emploi n'est ce pas ?
Merci !
Image

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 13:40

Je n'ai pas accès à ton image donc pas compris ton problème mais étudier le PIB en fonction du taux de chômage par une régression linéaire est une idée convenable vu les outils dont tu disposes.

antonyst
Messages: 8
Enregistré le: 08 Mar 2021, 20:43

Re: regression avec differents types de variables sur R

par antonyst » 09 Mar 2021, 13:44

Voici l'image:
https://imgur.com/oxhNwyb
Mon soucis est que certains pays ont été observés plusieurs fois et d'autres une seule fois, j'ai peur que cela fausse mes resultats.

Vassillia

Re: regression avec differents types de variables sur R

par Vassillia » 09 Mar 2021, 14:17

Effectivement, cela peut fausser le résultat et c'est un petit peu compliqué à corriger, le plus simple dans ton cas est de comparer à année égale (ou aussi proche que possible si tu n’as pas).

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 73 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite