ai-reading-group

Reading Group (mayo)

06/05/2025 - Multimodalidad

Image-to-LaTeX Converter for Mathematical Formulas and Text (7 ago 2024 – Saarland University)
arXiv | GitHub

Resumen:

Keywords: Multimodalidad, Imagen, Texto, OCR, transformers, LoRA

Descripción: En este proyecto se entrena un modelo encoder-decoder de visión para generar código LaTeX a partir de imágenes que contienen fórmulas matemáticas y texto. Se desarrollan dos versiones: una base, que utiliza un encoder basado en Swin Transformer y un decodificador basado en GPT-2 entrenado con imágenes generadas automáticamente, y otra afinada mediante Low-Rank Adaptation (LoRA) entrenada con fórmulas manuscritas. Se evalúa la calidad de la conversión mediante la métrica BLEU y se comparan los resultados con modelos similares, como Pix2Text, TexTeller y Sumen. El proyecto aporta modelos de código abierto y código desde cero para la construcción de estos sistemas con entrenamiento distribuido y optimización en GPU.

Recursos:
Otros papers (ideas para próximos grupos de lectura)/recursos:

Papers:

Recursos:

13/05/2025 - Neurología

Leveraging a Large Language Model to Assess Quality-of-Care: Monitoring ADHD Medication Side Effects (24 abr 2024 – Standford) medRxiv

Resumen:

Keywords: ADHD; large language model; LLaMA; quality‑of‑care measurement; electronic health records; side effects monitoring; pediatrics; natural language processing

Descripción: Este estudio de cohorte retrospectivo incluyó 1.247 niños de 6–11 años con diagnóstico de TDAH y al menos dos encuentros de medicación entre 2015 y 2022 en una red de atención primaria comunitaria. Se entrenó, evaluó y desplegó el modelo LLaMA de código abierto en 15.593 notas clínicas de encuentros presenciales, telemáticos y telefónicos relacionados con TDAH, comparando su detección de la indagación de efectos secundarios con la revisión manual de historias clínicas.

Referencias relevantes:

20/05/2025 – Neurología

A New Perspective on ADHD Research: Knowledge Graph Construction with LLMs and Network Based Insights (19 sep 2024 – University at Albany) arXiv

Resumen:

Keywords: ADHD; knowledge graph; large language models; LLM; network analysis; k-core; Graph-RAG; natural language processing; social and information networks

Descripción: Este estudio presenta la construcción de un grafo de conocimiento integral sobre el trastorno por déficit de atención e hiperactividad, integrando literatura científica y datos clínicos mediante modelos de lenguaje a gran escala. Mediante un análisis de red —incluyendo técnicas de k-core— se identificaron los nodos y relaciones más críticos para comprender la patología. A partir de estos hallazgos, se diseñó Graph-RAG, un chatbot context-aware que utiliza el grafo para ofrecer interacciones precisas e informadas. Este enfoque no solo profundiza el entendimiento del TDAH, sino que también proporciona una herramienta valiosa para investigación y aplicaciones clínicas.