ai-reading-group

Reading Group (Febrero)

05/02/2024 - Razonamiento

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (11 nov 2024 - MIT)
https://arxiv.org/pdf/2411.07279

Resumen:

Key points:

Este estudio investiga la eficacia del entrenamiento en tiempo de prueba (Test-Time Training) para mejorar las capacidades de razonamiento de los modelos de lenguaje, utilizando el Abstraction and Reasoning Corpus (ARC) como referencia. Mediante experimentos sistemáticos, se identifican tres componentes cruciales para el éxito del TTT basado en in-context learning: (1) ajuste fino inicial en tareas similares, (2) estrategia de entrenamiento (creación del dataset de entrenamiento y función de pérdida) y (3) modelo de inferencia (modelo de inferencia aumentada — ojo con greedy decoding, usan transformaciones —, esquemas de votación). Por último, se añade el TTT a un modelo inductivo (BARC), mejorando significativamente su rendimiento.

Referencias relevantes:
Otros papers:

19/02/2024 - Razonamiento II

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (22 ene 2025 - Google y UC Berkeley)
https://openreview.net/forum?id=4FWAwZtd2n
https://arxiv.org/abs/2408.03314
Notas: Este estudio de Google y UC Berkeley analiza cómo la asignación óptima de recursos computacionales durante la inferencia puede superar a modelos mucho más grandes en evaluaciones equivalentes en FLOPs.

Resumen:

Key points:

El artículo analiza cómo el uso de un mayor tiempo de cómputo durante la inferencia en modelos grandes de lenguaje (LLM) puede mejorar su rendimiento en tareas complejas. Los autores investigan dos mecanismos principales para escalar el cómputo en tiempo de prueba:

  1. Búsqueda guiada por modelos de recompensa verificadores basados en procesos densos: este enfoque implica generar múltiples respuestas y evaluarlas mediante un modelo verificador para seleccionar la más adecuada.
  2. Actualización adaptativa de la distribución de respuestas del modelo: en este caso, el modelo ajusta dinámicamente sus respuestas.
Otros papers
Otros recursos

Aprendizaje por refuerzo: