Parte 2 | De la memoria a la navegación: Escalar agentes autónomos más allá de la recuperación
En un artículo anterior, exploré cómo ocho equipos de investigación independientes llegaron a la misma conclusión: en lugar de construir sistemas de memoria en torno al modelo, entrenar al modelo en sí mismo para gestionar la memoria como una habilidad aprendida. El entrenamiento post-memoria — utilizando aprendizaje por refuerzo en la fase post-entrenamiento — produce agentes que deciden qué almacenar, eliminar, consolidar y recuperar, todo ello optimizado para la finalización de la tarea.





