A vrai dire, le but est de modéliser tout type de données:
Exemple classique: on relève sur des fleurs de 3 types différent la longueur et la largeur de leurs pétales et cépales, ce qui nous donne 4 attributs et donc 4 dimensions pour représenter chaque fleur observée. Il existe un jeu de données "classique" comportant 150 prélèvements (50 de chaque) et certains algos classiques peuvent identifier les groupes à environs 92% (2 groupes de points se "chevauchent" un peu, donc on est obligés d'en associer une partie au mauvais groupe)
Dans mon cas, on part de rien, mais avec une bonne matrice de "recouvrement" (j'ai testé avec différentes valeurs arbitraires, sans pouvoir généraliser) on peut obtenir d'excellents résultats dans la plupart des cas (répartition Gaussienne, ellipsoïdale, ou formes spéciales telles que des spirales ou cercles concentriques (en 2D), etc...)
Donc en admettant que la répartition des points suive une loi uniforme, on devrait pouvoir estimer un maillage correct pour repérer les groupes à partir des espaces blancs (noeuds vides de la matrice)
Peut être faire des statistiques serait-il plus avisé pour approximer cette distance moyenne
Justement, le but de mon travail (clustering) est de dissocier des données à partir... de rien :briques: Tout ce dont je dispose est l'ensemble des coordonnées des points. Introduire des stats reviendrait à inclure une connaissance, ce dont on ne dispose pas ^^'
Si la répartition des points suit une loi uniforme alors il est possible de calculer la loi de probabilité de la distance entre deux points.
Pour la génération de la matrice, j'ai pensé que ça pourrait être une idée de se représenter une répartition suivant une loi uniforme. Pour le reste du traitement,
La loi de la distance moyenne entre deux points dans un système de n points sera par contre différentes et plus complexe, à cause de problème de dépendance.
Donc à partir de juste l'intervalle de chaque dimension et du nombre de points, trouver une distance moyenne (sur chaque dimension) serait trop complexe? A un moment j'avais pensé calculer séparément l'écart-type de chaque dimension mais ça me paraissait un peu bizarre et peut-être un peu lourd...
Je pense que je saurais faire pour deux points sur une droite. Après c'est du costaud.
comprends pas... :hum:
Peut-être aussi que je prends mal le problème: on n'a aucune idée de l'échelle dans laquelle se positionner (on peut avoir des données de natures différentes donc des intervalles totalement différents d'une dimension à l'autre), on ne connait pas le type de répartition (Gauss, ellipse...), tout ce qu'on a c'est l'ensemble des points, desquels je récupère les valeurs min/max dans chaque dimension. (il est important de faire un minimum de lectures de la base de données, on peut avoir des milliards voire plus de données à traiter sur un plus ou moins grand nombre de dimensions, d'où ma recherche d'une formule mathématique efficace :happy2: