Partie 2 | De la mémoire à la navigation : Mise à l'échelle des agents autonomes au-delà de la récupération
Dans un article précédent, j'ai exploré comment huit équipes de recherche indépendantes sont parvenues à la même conclusion : au lieu de construire des systèmes de mémoire autour du modèle, il faut entraîner le modèle lui-même à gérer la mémoire comme une compétence acquise. L'entraînement post-mémoire — utilisant l'apprentissage par renforcement dans la phase post-entraînement — produit des agents qui décident quoi stocker, supprimer, consolider et récupérer, le tout optimisé en fonction de l'achèvement de la tâche.





