Classement des plus éloignés dans une matrice 2D

par **Gnolls** » 02 Mar 2021, 10:06

Bonjour,

Je suis en train de créer un outil et j'ai un problème sur une fonctionnalité que je souhaite développer.

J'ai un algorithme qui calcul l'unicité de différents textes entre eux selon différents algorithmes. Derrière ça me ressort une matrice avec des pourcentages :

Je peux avoir jusqu'à 5000+ éléments dans cette matrice

J'aimerai faire en sorte de trier les textes par unicité : me faire un classement des textes les plus uniques en premiers pour les récupérer.

J'aimerais que mes textes soit tous un peu similaires entre eux, mais pas qu'il y ait 2 textes qui soit vraiment trop proches. Le classement prendrait dans l'idéal en premières positions les textes qui sont tous un tout petit peu similaire entre eux et mettrait en dernières positions les textes qui sont trop similaires avec trop de textes.

Je ne sais pas s’il y a une formule mathématique ou un moyen de trouver ça et de faire ce classement de "pertinence".

J'espère que vous avez compris ma demande et que vous aurez peut-être une réponse !

Merci à vous et bonne journée

par **GaBuZoMeu** » 02 Mar 2021, 11:18

Bonjour,

Que signifient tes pourcentages ?

par **Gnolls** » 02 Mar 2021, 11:43

Les pourcentages sont le taux d'unicité d'un texte par rapport à un autre.

Texte 1 par rapport à texte 2 est 78% unique
Texte 2 par rapport à texte 3 est 87% unique

etc ...

par **Gnolls** » 04 Mar 2021, 11:29

GaBuZoMeu a écrit:Bonjour,

Que signifient tes pourcentages ?

J'ai essayé de reprendre mes explications au plus clair et en simplifiant les choses avec des exemples.

Ce que je cherche à faire c'est un classement des textes les plus éloignés entre eux (donc le plus possible avec un faible pourcentage entre chacun d'entre eux).

Dans mon classement, je préfère avoir beaucoup de textes moyennement proches les uns entre les autres que peu de textes très éloignés.

J'ai essayé de calculer des moyennes de similitude en enlevant les valeurs les plus éloignées, des calculs sur les pourcentages + les occurrences, mais je ne trouve jamais un classement cohérent et je suis presque sûr qu'il y a une formule ou une manière de faire.

Voilà un exemple de matrice :

0 1 2 3 4 5
1 100% 19% 37% 12% 20%
2 19% 100% 48% 34% 26%
3 37% 48% 100% 49% 18%
4 12% 34% 49% 100% 4%
5 20% 24% 18% 4% 100%

Dans ce cas-là mon ordre personnel serait 5, 4, 1, 2, 3. Mais c'est sans calcul ...

D'une manière générale, il faut que le 4 et le 3 soient éloignés cars 49% similaire. Mais il faut aussi que le 2 et le 3 soient éloignés. Pour le reste, c'est un classement des plus petits pourcentages entre eux. 5 et 4 parce qu'ils n'ont que 4%. Ensuite j'ai regardé lequel avait le moins de pourcentage avec et le 5 et le 4 -> le 1.
Par contre, si le 1 avait 50% avec le 5 et 5% avec le 4 et que le 2 avait 27% avec le 5 et 25% avec le 4, j'aurais préféré le 2. Car il est certes plus similaire avec les 2, mais il n'y a pas un gros écart. Le texte 1 fausserait tout avec un aussi gros pourcentage de similarité.

Si on prend un deuxième exemple :

0 1 2 3 4 5
1 100% 8% 14% 20% 11%
2 8% 100% 19% 4% 6%
3 14% 19% 100% 21% 6%
4 20% 4% 21% 100% 15%
5 11% 6% 6% 15% 100%

Ici mon classement serait : 5, 2, 4, 1, 3

Mais encore une fois c'est sans calculs et je pense qu'il y a une manière de calculer ça précisément.

L'idéal serait d'avoir des données et des statistiques comme ces courbes :

https://www.zupimages.net/viewer.php?id=21/09/mlti.png

En indiquant un certain nombre de textes, indiqué quel serait le taux de similitude maximal.

Mon but est d'exporter un maximum de textes avec le moins de pourcentage de similitude possible.

par **Vassillia** » 04 Mar 2021, 19:34

Bonjour,
J’ai essayé de comprendre ton premier exemple mais quelque chose m’échappe visiblement.
Tu dis que le 2 et 3 doivent être éloignés et tu les mets cote à cote dans ton résultat final : 5 ;4 ;1 ;2 ;3 ce qui donne une similitude max entre 2 textes successifs de 48%. Pourquoi ne pas faire 2 ; 1 ; 4 ; 5 ; 3 ce qui donne une similitude max entre 2 textes successifs de 19% ?
En fait ma question est est-ce que tu regardes uniquement les similitudes entre 2 textes successifs ou bien quelque chose de plus général ?

par **Gnolls** » 08 Mar 2021, 09:06

Hello,
Merci pour ta réponse.

Je ne regarde pas la similitude entre 2 textes successifs, mais d'une manière générale entre tous les textes.
Je préfère avoir 2 textes plus proches à la suite plutôt que 2 textes très éloignés et un proche.

par **Vassillia** » 08 Mar 2021, 12:29

Bonjour,
Désolée mais je n’ai toujours pas compris, admettons n textes classés

. On va appeler

la similitude entre le texte

et le texte

, je ne sais pas trop comment tu la calcules mais peu importe.

On essaye de minimiser quoi :

-

cela ne te convient pas puisque c'est le max des similitudes entre 2 textes successifs

-

peut-être ? C'est la somme des similitudes entre tous les textes successifs

-

peut-être ? C'est le max de la somme des similitudes sur des regroupements de

textes successifs. Il va ensuite falloir discuter de ce que vaut

.

- Autre chose de plus compliqué ?

Un algo est peut-être trouvable mais il faut être un peu plus précis sur ce qu’on cherche à minimiser sinon, je ne vois pas ce qu’on peut faire. Si les formules sont trop théoriques, montre moi ce que tu calcules dans ton exemple et fais le même calcul dans ma proposition pour que je comprenne pourquoi ton ordre est mieux que le mien.

Classement des plus éloignés dans une matrice 2D

Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Re: Classement des plus éloignés dans une matrice 2D

Qui est en ligne