Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems (31 mar 2025 – Google, Meta …)
arXiv | github_papers Keywords: Modelos de lenguaje grandes (LLMs), agentes inteligentes, auto-mejora, evolución colaborativa, seguridad
Descripción: Este artículo ofrece una revisión exhaustiva sobre los fundamentos y desafíos en el desarrollo de agentes inteligentes basados en modelos de lenguaje grandes. Se explora una arquitectura modular inspirada en el cerebro humano que integra componentes para la percepción, memoria, modelado del mundo, procesamiento de recompensas y sistemas análogos a las emociones. Además, se analizan mecanismos de auto-mejora y evolución adaptativa, así como la colaboración en sistemas multiagente, subrayando la necesidad de construir sistemas seguros, éticos y robustos para su implementación en entornos reales.
PaperBench: Evaluating AI’s Abilities to Replicate AI Research (2025 – OpenAI)
OpenAI
Keywords: replicación, benchmark, inteligencia artificial, evaluación, rúbricas
Descripción: Este artículo presenta PaperBench, un benchmark diseñado para evaluar la capacidad de agentes de IA para replicar investigaciones en el ámbito de la inteligencia artificial. Los agentes deben replicar por completo los experimentos descritos en 20 artículos presentados en ICML 2024, partiendo de cero y sin utilizar el código original. La evaluación se fundamenta en rúbricas detalladas, co-diseñadas con los autores de los trabajos, que desglosan cada proceso de replicación en múltiples sub-tareas (desde la implementación del código hasta la ejecución y verificación de resultados). Además, se introduce un evaluador automático basado en LLM para calificar escalablemente cada intento de replicación.
Replica de google:
AI co-scientist
Resultados
Sarkana:
The AI Scientist Generates its First Peer-Reviewed Scientific Publication
Agentic Reasoning: Reasoning LLMs with Tools for Deep Research (7 feb 2025 – Oxford)
arXiv | GitHub
Keywords: LLMs (modelos de lenguaje grandes), razonamiento, agentes, herramientas externas, investigación profunda (deep research), knowledge graph (grafo de conocimiento), RAG
Descripción: Este trabajo introduce Agentic Reasoning, un marco que mejora el razonamiento de los LLMs integrando agents que utilizan herramientas externas.
Agentless: Demystifying LLM-based Software Engineering Agents (1 jul 2024 – University of Illinois)
arXiv | GitHub
Keywords: Agentización, modelos de lenguaje grandes (LLMs), automatización
Descripción: Este trabajo presenta un enfoque simplificado para resolver problemas de desarrollo de software sin recurrir a agentes autónomos complejos. A diferencia de métodos anteriores que utilizan agentes capaces de ejecutar comandos y planificar acciones, Agentless emplea un proceso de tres fases: localización del problema, reparación y validación del parche. El estudio destaca el potencial de técnicas más simples y rentables en el desarrollo autónomo de software.
A2A (9 abr 2025 – Google) GitHub Descripción: Repositorio oficial de Google LLC que define el protocolo abierto Agent2Agent (A2A) para la interoperabilidad entre agentes. A2A establece un estándar de comunicación (basado en HTTP, SSE y JSON‑RPC) que facilita el descubrimiento de capacidades, el envío y seguimiento de tareas y el intercambio de resultados entre agentes heterogéneos.
Model Context Protocol (MCP) (fecha de acceso: 6 may 2025 – Anthropic) Introducción Descripción: Documento oficial que presenta el “Model Context Protocol” (MCP), un estándar abierto para describir, solicitar y gestionar el contexto en sistemas de IA conversacional. Define esquemas JSON para representar información de usuario, de sesión y de entorno, así como mecanismos de versionado y extensibilidad para garantizar interoperabilidad entre distintos proveedores de modelos y plataformas. Incluye ejemplos de carga de contexto, recomendaciones de seguridad y pautas de adopción tanto para desarrolladores como para arquitectos de soluciones.