ai-reading-group

Reading Group (abril)

02/04/2025 - Evaluación / Agentes I

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (28 dic 2023 – UC Berkeley)
OpenReview | GitHub | PPTX Resumen

Resumen:

Keywords: Modelos de lenguaje grandes (LLMs), preferencia humana, pruebas de evaluación, evaluación

La evaluación de chatbots es difícil debido a las amplias capacidades de los chatbots y la inadecuación de los benchmarks existentes para medir preferencias humanas.

Problema central: necesidad de un método automatizado, robusto y escalable para evaluar la alineación del LLM con las preferencias humanas.
Propuesta: explorar el uso de LLM como juez para evaluar modelos en preguntas más abiertas, comparándolo con la evaluación humana.
Verificar la concordancia introduciendo dos benchmarks que usan valoraciones humanas como principal métrica de evaluación.
Resultados: los jueces basados en LLMs como GPT-4 pueden igualar las preferencias humanas, alcanzando más del 80% de acuerdo.
Conclusión: El LLM como juez es una forma escalable y explicable de aproximar las preferencias humanas, que de otro modo serían muy costosas de obtener.

Otros papers (ideas para próximos grupos de lectura):

Intelligence at the Edge of Chaos (1 mar 2025 - Yale University, Columbia University, Northwestern University, Idaho State University)
arXiv
Keywords: Inteligencia emergente, autómatas celulares elementales, complejidad, edge of chaos, LLMs, representaciones, razonamiento, predicción de jugadas de ajedrez
Descripción: Este estudio explora la relación entre la complejidad de sistemas basados en autómatas celulares elementales (ECA) y la emergencia de inteligencia en modelos de lenguaje grandes (LLMs). Se entrena una variante modificada del GPT-2 sobre datos generados por diversas reglas de ECA y se evalúa su desempeño en tareas de razonamiento y predicción de jugadas de ajedrez. Los resultados indican que la eficiencia de los modelos mejora al preentrenarse con datos de complejidad intermedia, sugiriendo un “punto óptimo” o “edge of chaos” para el aprendizaje efectivo.
Large Language Diffusion Models (18 feb 2025 – Renmin University of China, Ant Group)
arXiv
Keywords: Modelos de lenguaje grandes, difusión, generative modeling, in-context learning, razonamiento inverso, escalabilidad
Descripción: Este estudio introduce LLaDA, un modelo de difusión para grandes modelos de lenguaje entrenado desde cero bajo un paradigma de preentrenamiento y fine-tuning supervisado. A diferencia de los modelos autoregresivos tradicionales, LLaDA define la distribución del modelo mediante un proceso de enmascaramiento aleatorio y un predictor de máscaras basado en Transformers, lo que permite capturar dependencias bidireccionales y superar limitaciones inherentes a la generación token a token. Los resultados demuestran que LLaDA es competitivo en escalabilidad y rendimiento en tareas de comprensión, matemáticas, generación de código y diálogo, estableciendo a los modelos de difusión como una alternativa prometedora a los enfoques autoregresivos.
Frontier Models are Capable of In-context Scheming (16 ene 2025 – Apollo Research)
arXiv / video Keywords: modelos frontera, razonamiento in-context, estrategias emergentes, planificación, inteligencia artificial
Descripción: Este estudio analiza la capacidad de los modelos de inteligencia artificial para generar y ejecutar esquemas complejos basados en el contexto proporcionado, destacando su potencial en tareas de razonamiento estratégico y planificación.
On the Biology of a Large Language Model (27 mar 2025 – Anthropic)
Transformer Circuits
Keywords: biología de modelos de lenguaje, circuitos de atribución, interpretabilidad, análisis de circuitos, Claude 3.5 Haiku
Descripción: Este artículo investiga los mecanismos internos utilizados por Claude 3.5 Haiku, el modelo de producción de Anthropic, a través de la metodología de trazado de circuitos. Se examinan diversos casos de estudio –desde razonamiento multi-paso y planificación en poesía hasta diagnósticos médicos y detección de entidades– para revelar cómo el modelo organiza y procesa información internamente, utilizando “grafos de atribución” que actúan como un “diagrama de cableado” de sus procesos computacionales.
Circuit Tracing: Revealing Computational Graphs in Language Models (27 mar 2025 – Anthropic)
Transformer Circuits
Keywords: trazado de circuitos, grafos de atribución, interpretabilidad, modelos transformadores, mecanismos de computación
Descripción: Este artículo describe un método para revelar los mecanismos subyacentes en el funcionamiento de modelos de lenguaje. Los autores construyen “grafos de atribución” que representan, de forma interpretable, los pasos computacionales que el modelo realiza al procesar una entrada. Se introduce la idea de un “modelo de reemplazo”, donde se sustituye parte del modelo original por componentes más interpretables, permitiendo analizar interacciones lineales entre características y validar circuitos a través de experimentos de perturbación. Además, se discuten herramientas de visualización y evaluación que facilitan la interpretación de estos grafos y, por tanto, una comprensión más profunda de las decisiones del modelo.
Integrating Artificial Intelligence into Clinical Practice (15 abr 2025 – Dartmouth, Hanover)
New England Journal of Medicine - AI
Keywords: inteligencia artificial, medicina de precisión, diagnóstico asistido, ética médica, aprendizaje automático
Descripción: En este artículo se exploran los avances y desafíos asociados a la incorporación de la inteligencia artificial en el ámbito clínico. Se examinan estudios y casos prácticos que evidencian cómo la IA puede optimizar la toma de decisiones médicas, mejorar la precisión en el diagnóstico y personalizar tratamientos, a la vez que se analizan los dilemas éticos que plantea su implementación.
Large Language Models Pass the Turing Test (31 mar 2025 – arXiv) arXiv
Keywords: Turing test; large language models; GPT‑4.5; LLaMa‑3.1‑405B; GPT‑4o; ELIZA; evaluación empírica; interacción humano‑computadora
Descripción: Este estudio, realizado por Cameron R. Jones y Benjamin K. Bergen, evalúa cuatro sistemas —ELIZA, GPT‑4o, LLaMa‑3.1‑405B y GPT‑4.5— mediante dos tests de Turing de tres partes aleatorizados, controlados y pre‑registrados con participantes independientes

02/04/2025 - Neurociencia

A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations (07 March 2025 – Nature Human Behaviour) Artículo | Nature Publishing Group

Resumen:

Keywords: procesamiento del lenguaje natural, embeddings acústico-habla-lingüística, electrocorticografía (ECoG), modelo multimodal, conversaciones reales

Descripción: Este estudio introduce un marco computacional unificado que integra representaciones acústicas, de habla y lingüísticas extraídas de un modelo multimodal (Whisper) para predecir la actividad neural durante conversaciones cotidianas. Mediante el uso de electrocorticografía en pacientes durante interacciones naturales, se mapea la alineación entre las distintas capas del modelo y las áreas cerebrales implicadas en la percepción y producción del lenguaje, demostrando una correlación robusta en la actividad neuronal.