Parte 2: Da memória à navegação: Dimensionamento de agentes autônomos além da recuperação
Em um artigo anterior, explorei como oito equipes de pesquisa independentes convergiram para o mesmo insight: em vez de criar sistemas de memória em torno do modelo, treine o próprio modelo para gerenciar a memória como uma habilidade aprendida. O treinamento pós-memória - usando o aprendizado por reforço na fase pós-treinamento - produz agentes que decidem o que armazenar, excluir, consolidar e recuperar, tudo otimizado para a conclusão da tarefa.





