Bon, là j'ai pas le temps de refaire un cours complet sur le calcul matriciel et sur la notion de dérivées partielles (le fait que tu écrive
LA dérivée partielle par rapport à bêta donne l'impression que tu n'as pas du en entendre parler souvent).
Ce que je t'inciterais plus que fortement à faire, c'est de regarder "dans un cas concret" ce que c'est que ton fameux truc par exemple en prenant (au pif)
)
,
)
et
)
(là, il faut absolument mettre des variables pour pouvoir dériver...)
- Déjà, ça te permettra de bien voir pourquoi on a (par exemple)

.
- Ensuite ça te permettra de voir qu'on a comme résultat un truc qui dépend de deux variables s et t et donc que, si on veut le "dériver", il y a deux façons de le faire (considérer que LA variable est s ou bien que c'est t)
- Ensuite de voir que, si on considère s comme "connu",on a une fonction de t (et c'est tout) et que le truc clasique vu au Lycée, c'est que pour trouver le minimum de la fonction, il faut regarder quand-est-ce que la dérivée (en t) est nulle => tu regarde quelle équation ça donne de dire que la dérivée en t est nulle.
- Idem pour la dérivée en s (en considérant t comme fixé)
- Ca te fait donc deux quantités qui doivent être nulles toute les deux lorsqu'on est sur le mini de la fonction et tu vérifie que le fait que ces deux quantités sont nulle, ça se traduit bien par une seule égalité (vectorielle) qui est celle donnée dans ton poly.
Avec ça, c'est pas sûr que tu capte "toute la subtilité théorique du bidule", mais y'a au moins un truc de sûr, c'est que tu reposera plus des question du style "Est-ce que de dériver par rapport à bêta et par rapport à la transposé de bêta revient au même ?" vu que tu aura vu que "dans le concret", ça veut rien dire.
Ni " est ce que tB. tX. X. B = tX. X. B^2 ?" vu que si tu regarde avec l'exemple çi dessus ce que signifie tX. X. B^2 , tu verra que c'est un truc qu'on peut pas calculer (les matrices sont pas de la bonne taille pour qu'on puisse en faire le produit).