Image-to-LaTeX Converter for Mathematical Formulas and Text (7 ago 2024 – Saarland University)
arXiv | GitHub
Keywords: Multimodalidad, Imagen, Texto, OCR, transformers, LoRA
Descripción: En este proyecto se entrena un modelo encoder-decoder de visión para generar código LaTeX a partir de imágenes que contienen fórmulas matemáticas y texto. Se desarrollan dos versiones: una base, que utiliza un encoder basado en Swin Transformer y un decodificador basado en GPT-2 entrenado con imágenes generadas automáticamente, y otra afinada mediante Low-Rank Adaptation (LoRA) entrenada con fórmulas manuscritas. Se evalúa la calidad de la conversión mediante la métrica BLEU y se comparan los resultados con modelos similares, como Pix2Text, TexTeller y Sumen. El proyecto aporta modelos de código abierto y código desde cero para la construcción de estos sistemas con entrenamiento distribuido y optimización en GPU.
🔥Awesome Multimodal LLMs (2024 – BradyFU)
Repositorio de artículos
GitHub
Descripción: Repositorio que recopila y organiza recursos, herramientas y proyectos relacionados con modelos de lenguaje grandes multimodales, facilitando el acceso a información y ejemplos prácticos sobre esta temática.
Vision Parser: (enero 2025 – GitHub) .
git
Descripción: 🔥🔥🔥 Acepta múltiples modelos. Basado en Ollama
🔥🔥🔥 AnyModel (2025)
git, HF, dataset 1, dataset 2
Descripción: Encoder with Llama 3.2-1B. 🔥🔥🔥 AnyModal es un framework modular y extensible para integrar diversas modalidades de entrada.
MinerU (2025)
git, doc, api
AGPL
Descripción: Converts PDFs into machine-readable formats
im2latex (7 ago 2024 – GitHub)
GitHub
Descripción: Repositorio que contiene código y documentación para un convertidor de imágenes a LaTeX, facilitando la transformación de fórmulas matemáticas y texto a código LaTeX mediante técnicas de visión por ordenador.
TexTeller (6 jun 2024 – GitHub)
GitHub
Descripción: Repositorio que ofrece un sistema de reconocimiento de fórmulas en imágenes, permitiendo convertir imágenes a código LaTeX con alta precisión y robustez, basado en modelos end-to-end y técnicas avanzadas de OCR.
⚠️Pix2Text (15 jul 2024 – GitHub) ⭐⭐⭐
GitHub
Descripción: Repositorio que proporciona un modelo para convertir imágenes en texto. Basado en técnicas de OCR y aprendizaje profundo, destaca por su capacidad de generalización y precisión en la extracción de contenido visual.
Papers:
MinerU: An Open-Source Solution for Precise Document Content Extraction (sep 2024 – Shanghai Artificial Intelligence Laboratory)
arXiv
Keywords: extracción de contenido, documentos, código abierto, visión por computador, RAG, multimodalidad
Descripción: Este artículo presenta MinerU, una solución de código abierto para la extracción precisa de contenido en documentos. Los autores proponen un método innovador que integra técnicas de procesamiento de imagen y algoritmos de reconocimiento para identificar y extraer información relevante, validándolo mediante experimentos comparativos.
Reasoning Models Don’t Always Say What They Think (3 abr 2025 – Anthropic)
Anthropic
Keywords: Modelos de lenguaje, razonamiento, explicaciones no fieles
Descripción: Este estudio examina la fidelidad de las explicaciones generadas por modelos de lenguaje en procesos de razonamiento. Se encontró que, aunque los modelos utilizan pistas proporcionadas en las preguntas para formular sus respuestas, a menudo omiten mencionar estas pistas en sus explicaciones, lo que plantea preocupaciones sobre la transparencia y confiabilidad de sus procesos de razonamiento.
PaperBench: Evaluating AI’s Abilities to Replicate AI Research (2025 – OpenAI)
OpenAI
Keywords: replicación, benchmark, inteligencia artificial, evaluación, rúbricas
Descripción: Este artículo presenta PaperBench, un benchmark diseñado para evaluar la capacidad de agentes de IA para replicar investigaciones en el ámbito de la inteligencia artificial. Los agentes deben replicar por completo los experimentos descritos en 20 artículos presentados en ICML 2024, partiendo de cero y sin utilizar el código original. La evaluación se fundamenta en rúbricas detalladas, co-diseñadas con los autores de los trabajos, que desglosan cada proceso de replicación en múltiples sub-tareas (desde la implementación del código hasta la ejecución y verificación de resultados). Además, se introduce un evaluador automático basado en LLM para calificar escalablemente cada intento de replicación.
Replica de google:
AI co-scientist
Resultados
Sarkana:
The AI Scientist Generates its First Peer-Reviewed Scientific Publication
Neuroscience-Inspired Artificial Intelligence (19 jul 2017 – Deepmind)
Neuron
Keywords: Inteligencia artificial, neurociencia, modelos inspirados en el cerebro
Descripción: Este artículo argumenta que una mejor comprensión de los cerebros biológicos puede desempeñar un papel vital en la construcción de máquinas inteligentes. Se examinan las interacciones históricas entre los campos de la inteligencia artificial y la neurociencia, destacando avances actuales en IA inspirados en el estudio de la computación neuronal en humanos y otros animales. Se concluye resaltando temas compartidos que pueden ser clave para avanzar en futuras investigaciones en ambos campos.
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models (14 nov 2024 – NVIDIA)
arXiv
Keywords: Modelos de lenguaje grandes (LLMs), generación de mallas 3D, integración de modalidades, conocimiento espacial, tokenización de mallas
Descripción: Este estudio explora la ampliación de las capacidades de los LLMs entrenados en texto para generar mallas 3D. Se propone representar las coordenadas de los vértices y las definiciones de las caras como texto, lo que permite la integración directa sin necesidad de expandir el vocabulario. Se construye un conjunto de datos para fine-tuning supervisado que habilita la generación de mallas a partir de indicaciones textuales, la producción de salidas intercaladas (texto y mallas) y la comprensión de las mallas. Con este enfoque, LLaMA-Mesh alcanza una calidad comparable a la de modelos entrenados desde cero sin afectar el rendimiento en la generación textual.
🔥🔥🔥🔥Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems (31 mar 2025 – Google, Meta …)
arXiv | github_papers
Keywords: Modelos de lenguaje grandes (LLMs), agentes inteligentes, auto-mejora, evolución colaborativa, seguridad
Descripción: Este artículo ofrece una revisión exhaustiva sobre los fundamentos y desafíos en el desarrollo de agentes inteligentes basados en modelos de lenguaje grandes. Se explora una arquitectura modular inspirada en el cerebro humano que integra componentes para la percepción, memoria, modelado del mundo, procesamiento de recompensas y sistemas análogos a las emociones. Además, se analizan mecanismos de auto-mejora y evolución adaptativa, así como la colaboración en sistemas multiagente, subrayando la necesidad de construir sistemas seguros, éticos y robustos para su implementación en entornos reales.
Recursos:
🔥LLM Reasoning Papers (15 ene 2025 – philschmid)
Repositorio de artículos
Hugging Face
Descripción: Colección curada que reúne artículos para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes.
Awesome LLM (2025 – Hannibal046)
Repositorio de artículos
GitHub
Descripción: Repositorio que recopila una amplia variedad de recursos, herramientas y proyectos relacionados con los modelos de lenguaje grandes (LLMs).
Mixture of Experts Explained (11 dic 2023 – Hugging Face)
Blog
Hugging Face Blog
Descripción: Entrada del blog que explica en detalle el concepto de Mixture of Experts (MoE), sus fundamentos, ventajas, desafíos y aplicaciones en modelos de lenguaje y transformers, con énfasis en técnicas de entrenamiento y fine-tuning para modelos dispersos.
How Scaling Laws Drive Smarter, More Powerful AI (12 feb 2025 – NVIDIA)
Blog
Blog de NVIDIA
Descripción: Entrada del blog que detalla cómo las leyes de escalabilidad en IA establecen la relación entre la cantidad de datos, parámetros y recursos computacionales con la mejora en el rendimiento de los modelos. Explica conceptos de preentrenamiento, postentrenamiento y escalado en tiempo de inferencia, poniendo especial énfasis en la importancia de aplicar computación acelerada para soportar modelos de razonamiento complejo.
Automating GPU Kernel Generation with DeepSeek R1 and Inference Time Scaling (fecha – NVIDIA Developer)
Blog
Developer Blog de NVIDIA
Descripción: Entrada del blog que explica cómo DeepSeek R1 automatiza la generación de kernels para GPU, permitiendo optimizar el rendimiento en tiempo de inferencia. El artículo aborda técnicas avanzadas de deep learning para la generación eficiente de código en GPU y describe cómo el escalado en tiempo de inferencia puede mejorar la eficiencia y capacidad de respuesta de los modelos de inteligencia artificial en producción.
NVIDIA: Cursos RAG + Agentes (NVIDIA)
Curso
Buscar Cursos | RAG 1 | RAG 2
Descripción: Agentes + RAG + Cursos varios
🔥🔥🔥Data-optimal scaling laws (2025 – Life Architect)
Blog
Blog
Descripción: Resumen del escaladado de datos (ratio datos/parametros para maximizar un coste computacional dado)
Building effective agents (19 dic 2024 – Anthropic)
Blogs
Descripción: Este post ofrece directrices prácticas basadas en la experiencia de Anthropic con múltiples equipos que desarrollan agentes LLM en diversos sectores. Define la distinción arquitectónica entre flujos de trabajo —donde LLMs y herramientas se orquestan mediante rutas de código predefinidas— y agentes, en los que los LLMs dirigen dinámicamente sus propios procesos y uso de herramientas.
A2A (9 abr 2025 – Google) GitHub Descripción: Repositorio oficial de Google LLC que define el protocolo abierto Agent2Agent (A2A) para la interoperabilidad entre agentes. A2A establece un estándar de comunicación (basado en HTTP, SSE y JSON‑RPC) que facilita el descubrimiento de capacidades, el envío y seguimiento de tareas y el intercambio de resultados entre agentes heterogéneos.
Model Context Protocol (MCP) (2025 – Anthropic) Introducción Descripción: Documento oficial que presenta el “Model Context Protocol” (MCP), un estándar abierto para describir, solicitar y gestionar el contexto en sistemas de IA conversacional. Define esquemas JSON para representar información de usuario, de sesión y de entorno, así como mecanismos de versionado y extensibilidad para garantizar interoperabilidad entre distintos proveedores de modelos y plataformas. Incluye ejemplos de carga de contexto, recomendaciones de seguridad y pautas de adopción tanto para desarrolladores como para arquitectos de soluciones.
Leveraging a Large Language Model to Assess Quality-of-Care: Monitoring ADHD Medication Side Effects (24 abr 2024 – Standford) medRxiv
Keywords: ADHD; large language model; LLaMA; quality‑of‑care measurement; electronic health records; side effects monitoring; pediatrics; natural language processing
Descripción: Este estudio de cohorte retrospectivo incluyó 1.247 niños de 6–11 años con diagnóstico de TDAH y al menos dos encuentros de medicación entre 2015 y 2022 en una red de atención primaria comunitaria. Se entrenó, evaluó y desplegó el modelo LLaMA de código abierto en 15.593 notas clínicas de encuentros presenciales, telemáticos y telefónicos relacionados con TDAH, comparando su detección de la indagación de efectos secundarios con la revisión manual de historias clínicas.
A New Perspective on ADHD Research: Knowledge Graph Construction with LLMs and Network Based Insights (19 sep 2024 – University at Albany) arXiv
Keywords: ADHD; knowledge graph; large language models; LLM; network analysis; k-core; Graph-RAG; natural language processing; social and information networks
Descripción: Este estudio presenta la construcción de un grafo de conocimiento integral sobre el trastorno por déficit de atención e hiperactividad, integrando literatura científica y datos clínicos mediante modelos de lenguaje a gran escala. Mediante un análisis de red —incluyendo técnicas de k-core— se identificaron los nodos y relaciones más críticos para comprender la patología. A partir de estos hallazgos, se diseñó Graph-RAG, un chatbot context-aware que utiliza el grafo para ofrecer interacciones precisas e informadas. Este enfoque no solo profundiza el entendimiento del TDAH, sino que también proporciona una herramienta valiosa para investigación y aplicaciones clínicas.