j’ai une question assez pointue, que je vous pose car à cause du confinement ma professeur ne répond pas tres vite
Je suis entrain de faire une régression logistique sur des données, j’ai testés plein de modèles sous R, avec des AIC proche de 415.
J’ai bien veillé à ne pas avoir de variables corrélés (en faisant les chi test et test de corrélation)
J’ai néanmoins testé toutes les possibilités de modèles, et avec un modèle qui présente 2 variables corrélées, j’obtiens mon meilleur AIC de 412,
les résidus sont semblables à mon meilleur modèle sans variables corrélées,
mon test de Hosmer Lemeshow lui donne un meilleur résultat,
mes distances de cooks sont semblables,
mais ma courbe ROC me donne un AUC plus élevé. ( qui me permet d’atteindre 0,7 et donc d’avoir un modèle correcte.)
Donc avec tout ces éléments, j’obtiendrais un modèle légèrement meilleur avec mes 2 variables corrélés que sans.
Donc ma question:
cela pose t’il problème d’avoir 2 variables corrélées dans mon modèle et, cela peut-il être en fait de FAUX meilleurs résultats, ou c’est possible dans de rare cas ?
Et si se sont de faux meilleurs résultats, quelles sont les hypothèses d’explications de ceux-ci ?
Merci beaucoup.
