[Résolu] Traduction du théorème d'approximation universelle

par **anonymesympatique** » 01 Aoû 2017, 22:29

Bonjour à tous,

Aujourd'hui, dans le cadre de recherche sur le sujet des Deep Belief Networks, j'ai entrepris de comprendre un peu plus ce qu'était le Théorème d'approximation universelle.
Le seul problème est que tous les résultats que j'ai son en anglais, et loin de moi le fait de penser que je suis presque bilingue, mais je me débrouille cependant pas mal en anglais. Donc où est le problème me diriez vous.
Et bien, je connais mieux l'anglais que les mathématiques. C'est-à-dire que je ne comprends pas vraiment les termes mathématiques utilisés, car jamais utilisé et j'aimerais pouvoir savoir à quoi ils correspondent en français pour les approfondir. Ce n'est pas grand chose à traduire et je pense même que celui ayant effectué la traduction pourra se satisfaire en plus de la création d'une page Wikipédia sur ce même sujet, mais en français ! :mrgreen:

Sur ce, assez blablaté, voici le lien : https://en.wikipedia.org/wiki/Universal_approximation_theorem#Formal_statement

Merci à vous d'éclairer ma petite lanterne et je suis sur celle que quelques autres ! :cote:

par **NicoTial** » 02 Aoû 2017, 10:57

quels termes mathématiques te posent exactement problème dans la page ?

par **Skullkid** » 02 Aoû 2017, 11:11

Bonjour, en faisant un peu du mot-à-mot histoire de garder le même niveau de détail que l'énoncé donné par Wiki, ça peut se traduire comme :

Soient m un entier strictement positif et

une fonction continue, non constante, croissante et bornée de

dans lui-même. Quel que soit

, il existe un entier N tel que toute fonction f continue de

dans

on puisse trouver des familles

,

de réels et une famille

de vecteurs de

telles que la fonction F définie sur

par

soit une approximation de f à

près en tout point.

Si besoin on peut rendre les enchaînements "quel que soit il existe quel que soit il existe quel que soit" moins douloureux en les remplaçant par du jargon, mais selon ton niveau en maths ça peut être une bonne ou une mauvaise chose... Ça nous aiderait sans doute si tu pouvais nous donner une idée de ton niveau.

par **anonymesympatique** » 02 Aoû 2017, 12:21

NicoTial a écrit:quels termes mathématiques te posent exactement problème dans la page ?

Bah un peu tout :snif:

Skullkid a écrit:Bonjour, en faisant un peu du mot-à-mot histoire de garder le même niveau de détail que l'énoncé donné par Wiki, ça peut se traduire comme :

Soient m un entier strictement positif et une fonction continue, non constante, croissante et bornée de dans lui-même. Quel que soit , il existe un entier N tel que toute fonction f continue de dans on puisse trouver des familles , de réels et une famille de vecteurs de telles que la fonction F définie sur par soit une approximation de f à près en tout point.

Si besoin on peut rendre les enchaînements "quel que soit il existe quel que soit il existe quel que soit" moins douloureux en les remplaçant par du jargon, mais selon ton niveau en maths ça peut être une bonne ou une mauvaise chose... Ça nous aiderait sans doute si tu pouvais nous donner une idée de ton niveau.

Salut,
j'ai un niveau seconde + un peu de connaissance en algorithmie vu que je fais de la programmation ^^

par **Skullkid** » 04 Aoû 2017, 14:52

anonymesympatique a écrit:Salut,
j'ai un niveau seconde + un peu de connaissance en algorithmie vu que je fais de la programmation ^^

Dans ce cas ça risque d'être un peu costaud de saisir tous les détails mathématiques de l'énoncé (je ne parle pas de la démonstration, que je ne connais d'ailleurs pas, mais qui vu la tête de l'enoncé requiert sans doute un niveau licence au moins).

En revanche, comprendre les grandes idées ne devrait pas poser trop de problème. La première question qui vient à l'esprit c'est : est-ce que tu vois pourquoi/comment la fonction F de l'enoncé n'est jamais rien d'autre qu'un réseau de neurones ? Tout le passage de l'énoncé "on peut trouver des familles machintruc telles que la fonction F réponde à nos attentes" est à comprendre comme "on peut programmer un réseau de neurones qui fait bien ce qu'on attend de lui".

par **anonymesympatique** » 08 Aoû 2017, 19:46

Bon, on va décoder tout cela tranquillement ^^

Skullkid a écrit: une fonction continue, non constante, croissante et bornée de dans lui-même

Cela veut bien dire que la fonction

est contenue dans

(l'ensemble des réels) ? Donc toutes ses images sont des réels, c'est cela ?

Skullkid a écrit:

Je ne comprends pas ce termes.

On vera la suite plus tard, on va faire par étapes :mrgreen:

par **pascal16** » 08 Aoû 2017, 20:08

[0;1]^m dit que les m variables de la fonction sont des nombres entre 0 et 1

pour un fonction y=f(x), c'est trouver une approximation du type y=ax+b à cette fonction.

par **anonymesympatique** » 08 Aoû 2017, 23:20

D'accord, donc : f est la fonction qui associe m (contenu entre 0 et 1) à un réel y.

Par contre j'ai pas compris le lien avec ta dernière phrase et la fonction affine.

par **Skullkid** » 09 Aoû 2017, 01:32

Les principaux objets en jeu dans le théorème sont :

- Les m entrées de ton réseau de neurones

, qui sont des réels entre 0 et 1 (en jargon on parle d'un vecteur x en dimension m).
- Une fonction f, qui prend les m entrées et renvoie un réel

. C'est la fonction qu'on cherche à "imiter" avec un réseau de neurones.
- La fonction F, qui prend les m entrées et renvoie un réel

. C'est la fonction qui décrit le réseau de neurones, le but du jeu est que F ressemble le plus possible à f, autrement dit que la sortie du réseau de neurones

soit la plus proche possible de

pour toutes les valeurs possibles des entrées

.

En arrière-plan, il y a d'autres objets qui servent à caractériser le réseau de neurones, c'est-à-dire à définir la forme que peut avoir la fonction F. Pour comprendre ce passage il faut connaître en détail le fonctionnement d'un simple réseau de neurones (du type perceptron simple couche, si le nom te dit quelque chose) :

Chaque neurone individuel, lorsqu'il reçoit les entrées

, commence par appliquer une fonction affine pour obtenir un réel, c'est-à-dire qu'il calcule un nombre

(je note volontairement les indices des w en exposant pour éviter d'entrer en conflit avec les notations de l'énoncé, mais ce sont bien des indices, pas des puissances). On préfère écrire y en notation matricielle,

où w est le "vecteur poids"

et x est le "vecteur entrée"

. Il donne ensuite ça à sa fonction d'activation

(qui prend un réel et renvoie un réel) pour obtenir à sa sortie le nombre

.

Dans ton réseau de neurones, tous les neurones ont la même fonction d'activation,

, mais ils ont le droit d'utiliser des coefficients différents, c'est-à-dire que le neurone numéro i a son propre vecteur poids

et son propre coefficient

, et sa sortie est donc donnée par

.

Finalement, la sortie du réseau de neurones, qu'on note

, est calculée par une fonction linéaire des sorties de chaque neurone. La sortie du neurone numéro i est affectée d'un coefficient

, et on fait la somme pour tous les neurones. S'il y a N neurones dans ton réseau, ça donne

, qui peut s'écrire plus simplement

.

Bref, une fois tout ça décortiqué, ce que le dit le théorème c'est que si tu te fixes une fonction d'activation

"pas trop moche", alors tu pourras toujours programmer des approximations aussi précises que tu veux de n'importe quelle fonction continue en utilisant un réseau de neurones avec la fonction

. Ce que le théorème ne te dit pas c'est comment le programmer en pratique, c'est-à-dire comment bien choisir tes coefficients, de combien de neurones tu as besoin, etc.

par **anonymesympatique** » 09 Aoû 2017, 20:05

Merci beaucoup à toi !

J'ai justement pas mal bossé les réseaux de neurones et je connais bien la structure de ceux ci (bien qu'ignorant l'existance du coefficient bi, bizarre...).

Mon but dans la compréhension de ce théorème était de pouvoir déterminer combien de couches de neurones et combien de neurones ils devront chaqu'un en contenir. Je pensais que c'était à cela que servait ce théorème.
Du coup il sert à quoi ?

Et comment je peux savoir ces choses ?

En tout cas c'était très clair. ^^

par **Skullkid** » 13 Aoû 2017, 04:09

Dans le cadre du théorème il n'y a qu'une seule couche de neurones, sinon la forme de la fonction F serait différente. Pour le coefficient b, tu peux le voir comme un seuil, l'exemple le plus simple étant celui d'un neurone à une entrée qui renvoie 0 si l'entrée est inférieure à b et 1 sinon (pour cet exemple la fonction d'activation n'est pas continue, donc ça ne rentre pas dans le théorème, mais tu peux trouver des fonctions continues qui ont un comportement très proche).

Pour caricaturer un peu, le théorème te dit que les réseaux de neurones sont des objets qui valent le coup d'être étudiés. Si le théorème te donnait tous les détails sur comment "bien" programmer les réseaux de neurones, ben on n'aurait pas besoin de former des gens là-dedans et il n'y aurait aucune recherche dans le domaine, il suffirait d'appliquer le théorème bêtement.

Pour aller plus en profondeur, je te suggère de chercher un cours qui parle de l'"entraînement" de ces réseaux (neural network training algorithms). Tu risques aussi de tomber sur les noms de quelques méthodes numériques célèbres (méthode de Newton, descente du gradient, Levenberg-Marquardt, etc) dont tu pourras facilement trouver des implémentations en à peu près n'importe quel langage de programmation.

par **anonymesympatique** » 14 Aoû 2017, 11:40

Merci beaucoup à toi, je vais suivre cette voie. De très bonnes explications en tous cas

[Résolu] Traduction du théorème d'approximation universelle

[Résolu] Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Re: Traduction du théorème d'approximation universelle

Qui est en ligne