par Ben314 » 23 Oct 2016, 14:07
Le truc m'intéresse et je pense avoir compris comment se déroulent les parties.
Par contre, j'ai rien calculé du tout (pas trop le temps) et j'y connais absolument que dalle à la notion "d'équilibre de Nash", mais la question me semble extrêmement simple (et à priori je pense que la réponse doit être quand même pas mal compliquée) :
Le joueur A a un certain nombre de choix à faire : "miser" ou "laisser la parole à B" au début puis "payer" ou "passer" s'il a laissé la parole à B et que B a misé.
Pour faire par exemple le premier choix, la seule info. qu'a A a c'est la valeur de son dés donc établir une "stratégie", ça va consister à choisir 10 probas p1, p2,... p10 puis, si son dés donne comme résultat k, à choisir au hasard "miser"<->"laisser la parole à B" avec des probas pk<->(1-pk).
Ensuite, idem pour B dont la stratégie va consister à choisir des probas q1, q2,...q? pour déterminer, en fonction de la valeur de son dès et du choix fait précédemment par A quelle option il choisi.
Et éventuellement, il y a de nouveau un "choix de stratégie" pour A consistant à prendre telle décision avec telle proba qui est fonction des données en sa possession (valeur de son dès et choix déjà effectué par B).
Une fois toute ces probas connues, on peut établir l'espérance de gain de A (qui est une fonction des différents probas) et le but du jeu de A est choisir les valeurs des proba qui le concerne de façon à ce que, au pire (i.e. quelque soit le choix des proba concernant B), son gain soit maximal.
Éventuellement et pour pas mal simplifier le problème, on pourrait considérer que toutes les proba en question sont des 0 ou des 1, c'est à dire que, par exemple, le joueur A va systématiquement "passer" si son dès a donné un 3.
Mais je pense que c'est pas mal réducteur comme approche et que dans la pratique, c'est super pas malin du tout de jouer comme ça vu que très rapidement, B pourra déterminer à coup sûr des règles du style "A a dit ça donc son dés et comme çi" alors qu'il semble bien plus malin de "bluffer" de temps en temps pour éviter que B ait des certitudes (mais évidement, ça dépend du nombre de parties jouées : là je me place dans le contexte où on va jouer un très grand nombre de parties et où chaque joueur va avoir suffisamment d'expériences pour analyser la stratégie de l'adversaire)
Sinon, et au contraire pour complexifier le problème, on pourrait considérer que les différentes probas ne sont pas les même à chaque partie et que chaque joueur les fait "évoluer" en fonction du comportement de l'adversaire lors des parties précédentes. Sauf que là, je sais pas comment aborder le problème mathématiquement parlant...
Enfin bon, je répète que j'y connais rien en "équilibre de Nash", mais qu'en tout cas, si je trouve le temps, c'est ça que j'essayerais de résoudre (et ça risque clairement de prendre plus que 15 secondes...)
Qui n'entend qu'un son n'entend qu'une sonnerie. Signé : Sonfucius