J'aurais besoin de l'aide d'un matheux, sur une formule.
Je suis en train d'implémenter un algorithme en langage C, pour résoudre un problème dit du "Bandit Manchot"
L'idée c'est que l'on a UNE grosse machine à sous à plusieurs bras, a chaque bras correspond une probabilité de gain, une récompense positive ou négative.
Le but de l'algo et de trouver le bras qui maximise le gain sur L tirages de bras et ceux le plus rapidement possible.
A la fin de cet algo je souhaite, introduire une formule me permettant de calculer ce que l'on nomme le regret.
Qui est donné comme suit :
où
r* : est la récompense moyenne max
T : le nombre de tirage/essais effectués
Mais, je ne comprends pas ce que veut dire
Lespérance du nombre total de tirage du bras i ? .... ça me parle pas trop.
Merci
Ps : désoler, j'arrive pas à enlever ce [?]
