Classement des plus éloignés dans une matrice 2D

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
Gnolls
Messages: 6
Enregistré le: 21 Oct 2015, 17:34

Classement des plus éloignés dans une matrice 2D

par Gnolls » 02 Mar 2021, 11:06

Bonjour,

Je suis en train de créer un outil et j'ai un problème sur une fonctionnalité que je souhaite développer.

J'ai un algorithme qui calcul l'unicité de différents textes entre eux selon différents algorithmes. Derrière ça me ressort une matrice avec des pourcentages :

Image

Je peux avoir jusqu'à 5000+ éléments dans cette matrice

J'aimerai faire en sorte de trier les textes par unicité : me faire un classement des textes les plus uniques en premiers pour les récupérer.

J'aimerais que mes textes soit tous un peu similaires entre eux, mais pas qu'il y ait 2 textes qui soit vraiment trop proches. Le classement prendrait dans l'idéal en premières positions les textes qui sont tous un tout petit peu similaire entre eux et mettrait en dernières positions les textes qui sont trop similaires avec trop de textes.

Je ne sais pas s’il y a une formule mathématique ou un moyen de trouver ça et de faire ce classement de "pertinence".

J'espère que vous avez compris ma demande et que vous aurez peut-être une réponse !

Merci à vous et bonne journée



GaBuZoMeu
Habitué(e)
Messages: 6020
Enregistré le: 05 Mai 2019, 10:07

Re: Classement des plus éloignés dans une matrice 2D

par GaBuZoMeu » 02 Mar 2021, 12:18

Bonjour,

Que signifient tes pourcentages ?

Gnolls
Messages: 6
Enregistré le: 21 Oct 2015, 17:34

Re: Classement des plus éloignés dans une matrice 2D

par Gnolls » 02 Mar 2021, 12:43

Les pourcentages sont le taux d'unicité d'un texte par rapport à un autre.

Texte 1 par rapport à texte 2 est 78% unique
Texte 2 par rapport à texte 3 est 87% unique

etc ...

Gnolls
Messages: 6
Enregistré le: 21 Oct 2015, 17:34

Re: Classement des plus éloignés dans une matrice 2D

par Gnolls » 04 Mar 2021, 12:29

GaBuZoMeu a écrit:Bonjour,

Que signifient tes pourcentages ?


J'ai essayé de reprendre mes explications au plus clair et en simplifiant les choses avec des exemples.

Ce que je cherche à faire c'est un classement des textes les plus éloignés entre eux (donc le plus possible avec un faible pourcentage entre chacun d'entre eux).

Dans mon classement, je préfère avoir beaucoup de textes moyennement proches les uns entre les autres que peu de textes très éloignés.

J'ai essayé de calculer des moyennes de similitude en enlevant les valeurs les plus éloignées, des calculs sur les pourcentages + les occurrences, mais je ne trouve jamais un classement cohérent et je suis presque sûr qu'il y a une formule ou une manière de faire.

Voilà un exemple de matrice :


0 1 2 3 4 5
1 100% 19% 37% 12% 20%
2 19% 100% 48% 34% 26%
3 37% 48% 100% 49% 18%
4 12% 34% 49% 100% 4%
5 20% 24% 18% 4% 100%

Dans ce cas-là mon ordre personnel serait 5, 4, 1, 2, 3. Mais c'est sans calcul ...

D'une manière générale, il faut que le 4 et le 3 soient éloignés cars 49% similaire. Mais il faut aussi que le 2 et le 3 soient éloignés. Pour le reste, c'est un classement des plus petits pourcentages entre eux. 5 et 4 parce qu'ils n'ont que 4%. Ensuite j'ai regardé lequel avait le moins de pourcentage avec et le 5 et le 4 -> le 1.
Par contre, si le 1 avait 50% avec le 5 et 5% avec le 4 et que le 2 avait 27% avec le 5 et 25% avec le 4, j'aurais préféré le 2. Car il est certes plus similaire avec les 2, mais il n'y a pas un gros écart. Le texte 1 fausserait tout avec un aussi gros pourcentage de similarité.


Si on prend un deuxième exemple :

0 1 2 3 4 5
1 100% 8% 14% 20% 11%
2 8% 100% 19% 4% 6%
3 14% 19% 100% 21% 6%
4 20% 4% 21% 100% 15%
5 11% 6% 6% 15% 100%

Ici mon classement serait : 5, 2, 4, 1, 3

Mais encore une fois c'est sans calculs et je pense qu'il y a une manière de calculer ça précisément.

L'idéal serait d'avoir des données et des statistiques comme ces courbes :

https://www.zupimages.net/viewer.php?id=21/09/mlti.png


En indiquant un certain nombre de textes, indiqué quel serait le taux de similitude maximal.


Mon but est d'exporter un maximum de textes avec le moins de pourcentage de similitude possible.

Vassillia

Re: Classement des plus éloignés dans une matrice 2D

par Vassillia » 04 Mar 2021, 20:34

Bonjour,
J’ai essayé de comprendre ton premier exemple mais quelque chose m’échappe visiblement.
Tu dis que le 2 et 3 doivent être éloignés et tu les mets cote à cote dans ton résultat final : 5 ;4 ;1 ;2 ;3 ce qui donne une similitude max entre 2 textes successifs de 48%. Pourquoi ne pas faire 2 ; 1 ; 4 ; 5 ; 3 ce qui donne une similitude max entre 2 textes successifs de 19% ?
En fait ma question est est-ce que tu regardes uniquement les similitudes entre 2 textes successifs ou bien quelque chose de plus général ?

Gnolls
Messages: 6
Enregistré le: 21 Oct 2015, 17:34

Re: Classement des plus éloignés dans une matrice 2D

par Gnolls » 08 Mar 2021, 10:06

Hello,
Merci pour ta réponse.

Je ne regarde pas la similitude entre 2 textes successifs, mais d'une manière générale entre tous les textes.
Je préfère avoir 2 textes plus proches à la suite plutôt que 2 textes très éloignés et un proche.

Vassillia

Re: Classement des plus éloignés dans une matrice 2D

par Vassillia » 08 Mar 2021, 13:29

Bonjour,
Désolée mais je n’ai toujours pas compris, admettons n textes classés . On va appeler la similitude entre le texte et le texte , je ne sais pas trop comment tu la calcules mais peu importe.

On essaye de minimiser quoi :

- cela ne te convient pas puisque c'est le max des similitudes entre 2 textes successifs

- peut-être ? C'est la somme des similitudes entre tous les textes successifs

- peut-être ? C'est le max de la somme des similitudes sur des regroupements de textes successifs. Il va ensuite falloir discuter de ce que vaut .

- Autre chose de plus compliqué ?

Un algo est peut-être trouvable mais il faut être un peu plus précis sur ce qu’on cherche à minimiser sinon, je ne vois pas ce qu’on peut faire. Si les formules sont trop théoriques, montre moi ce que tu calcules dans ton exemple et fais le même calcul dans ma proposition pour que je comprenne pourquoi ton ordre est mieux que le mien.

 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 39 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite