ai-reading-group

Reading Group (abril)

02/04/2025 - Evaluación / Agentes I

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (28 dic 2023 – UC Berkeley)
OpenReview | GitHub | PPTX Resumen

Resumen:

Keywords: Modelos de lenguaje grandes (LLMs), preferencia humana, pruebas de evaluación, evaluación

La evaluación de chatbots es difícil debido a las amplias capacidades de los chatbots y la inadecuación de los benchmarks existentes para medir preferencias humanas.

Otros papers (ideas para próximos grupos de lectura):

02/04/2025 - Neurociencia

A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations (07 March 2025 – Nature Human Behaviour) Artículo | Nature Publishing Group

Resumen:

Keywords: procesamiento del lenguaje natural, embeddings acústico-habla-lingüística, electrocorticografía (ECoG), modelo multimodal, conversaciones reales

Descripción: Este estudio introduce un marco computacional unificado que integra representaciones acústicas, de habla y lingüísticas extraídas de un modelo multimodal (Whisper) para predecir la actividad neural durante conversaciones cotidianas. Mediante el uso de electrocorticografía en pacientes durante interacciones naturales, se mapea la alineación entre las distintas capas del modelo y las áreas cerebrales implicadas en la percepción y producción del lenguaje, demostrando una correlación robusta en la actividad neuronal.