LLM metrics - métricas

Post by **Antonio Linares** » Tue Apr 23, 2024 7:47 pm

MMLU (Masked Multi-Layer Unified)

Supongamos que tenemos el siguiente texto:

"The capital of France is [MASK]."

Un modelo de lenguaje entrenado con MMLU intentaría predecir la palabra que falta en el texto. Por ejemplo, si el modelo predice que la palabra es "Paris", se consideraría una predicción correcta.

HellaSwag

Supongamos que tenemos el siguiente contexto y opciones de respuesta:

Contexto: "John was feeling sad because he lost his favorite toy. He looked everywhere but couldn't find it. Finally, he..."

Opciones de respuesta:

A) "found it under the couch"
B) "bought a new toy"
C) "went to the store"
D) "called his mom"

Un modelo de lenguaje entrenado con HellaSwag intentaría seleccionar la opción de respuesta que mejor se ajusta al contexto. En este caso, la respuesta correcta sería A) "found it under the couch", ya que es la opción que más lógicamente sigue el contexto.

ANLI (Adversarial NLI)

ANLI es una métrica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar inferencia natural (NLI, Natural Language Inference) en entornos adversarios. La inferencia natural se refiere a la capacidad de un modelo para determinar si una hipótesis se sigue lógicamente de una premisa.

En ANLI, se proporciona una premisa y una hipótesis, y el modelo debe determinar si la hipótesis se sigue lógicamente de la premisa. Sin embargo, a diferencia de otras tareas de NLI, ANLI utiliza ejemplos adversarios diseñados para engañar a los modelos de lenguaje.

Aquí te dejo un ejemplo de ANLI:

Premisa: "The city is very crowded because of the festival."
Hipótesis: "The city is empty."

En este caso, la hipótesis es claramente falsa según la premisa, ya que la premisa indica que la ciudad está muy concurrida. Un modelo de lenguaje entrenado con ANLI debería ser capaz de identificar que la hipótesis no se sigue lógicamente de la premisa y clasificarla como "contradictoria".

Sin embargo, ANLI también incluye ejemplos adversarios que intentan engañar a los modelos de lenguaje. Por ejemplo:

Premisa: "The city is very crowded because of the festival."
Hipótesis: "The city is crowded."

En este caso, la hipótesis es técnicamente verdadera, pero el modelo de lenguaje debería ser capaz de entender que la hipótesis no agrega nada nuevo a la premisa y clasificarla como "neutral".

ANLI es una métrica desafiante para los modelos de lenguaje, ya que requiere una comprensión profunda del lenguaje y la capacidad de razonar sobre la lógica y la semántica del texto.

GSM8K (Google Sentence Matching 8K)

GSM8K es una métrica utilizada para evaluar la capacidad de los modelos de lenguaje natural para entender la similitud semántica entre oraciones. La tarea consiste en determinar si dos oraciones tienen el mismo significado o no.

En GSM8K, se proporcionan pares de oraciones, y el modelo debe clasificar cada par como "similar" o "no similar" en función de su significado. La métrica se utiliza para evaluar la capacidad de los modelos de lenguaje para capturar la similitud semántica entre oraciones, incluso cuando las palabras y la estructura de las oraciones son diferentes.

Aquí te dejo un ejemplo de GSM8K:

Oración 1: "The dog is running in the park."
Oración 2: "A dog runs in a park."

En este caso, las dos oraciones tienen el mismo significado, por lo que el modelo debería clasificarlas como "similares".

Otro ejemplo:

Oración 1: "The capital of France is Paris."
Oración 2: "The Eiffel Tower is in Berlin."

En este caso, las dos oraciones tienen significados diferentes, por lo que el modelo debería clasificarlas como "no similares".

GSM8K es una métrica desafiante para los modelos de lenguaje, ya que requiere una comprensión profunda del lenguaje y la capacidad de capturar la similitud semántica entre oraciones. Los modelos que se desempeñan bien en GSM8K suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.

MedQA

MedQA (Medical Question Answering) es una métrica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas médicas complejas. La tarea consiste en responder a preguntas médicas basadas en textos médicos, como artículos de investigación, informes de casos y otros documentos médicos.

En MedQA, se proporciona un texto médico y una pregunta relacionada con ese texto. El modelo debe responder a la pregunta basándose en la información proporcionada en el texto. La métrica se utiliza para evaluar la capacidad de los modelos de lenguaje para entender el lenguaje médico, identificar la información relevante en el texto y responder a preguntas complejas.

Aquí te dejo un ejemplo de MedQA:

Texto: "A 45-year-old man presents with a 2-day history of fever, chills, and right upper quadrant abdominal pain. His medical history is significant for hypertension and hyperlipidemia. On physical examination, he has a temperature of 38.5°C, blood pressure of 140/90 mmHg, and tenderness in the right upper quadrant. Laboratory results show a white blood cell count of 15,000/μL, with 80% neutrophils. Imaging studies reveal a 3-cm gallstone in the gallbladder."

Pregunta: "What is the most likely diagnosis for this patient?"

Respuesta correcta: "Cholecystitis" (inflamación de la vesícula biliar)

MedQA es una métrica desafiante para los modelos de lenguaje, ya que requiere una comprensión profunda del lenguaje médico y la capacidad de identificar la información relevante en textos médicos complejos. Los modelos que se desempeñan bien en MedQA suelen ser modelos que han sido entrenados con grandes cantidades de datos médicos y que tienen una arquitectura avanzada.

Es importante destacar que MedQA es una tarea que requiere conocimientos médicos específicos y una comprensión del lenguaje médico, por lo que es una métrica más especializada que otras métricas de lenguaje natural.

AGIeval

AGIeval (Artificial General Intelligence evaluation) es una métrica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar tareas de inteligencia artificial general (AGI). La tarea consiste en evaluar la capacidad de los modelos para realizar una variedad de tareas que requieren inteligencia, razonamiento y comprensión del lenguaje.

AGIeval se centra en evaluar la capacidad de los modelos para:

Entender el lenguaje natural: comprender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones lógicas a partir de la información disponible.
Resolver problemas: encontrar soluciones a problemas complejos que requieren pensamiento crítico y creatividad.
Aprender y adaptarse: aprender de la experiencia y adaptarse a nuevas situaciones y contextos.
AGIeval utiliza una variedad de tareas y ejercicios para evaluar la capacidad de los modelos, incluyendo:

Preguntas de conocimiento general
Problemas de lógica y razonamiento
Tareas de resolución de problemas
Ejercicios de comprensión de texto
Tareas de aprendizaje y adaptación
Un ejemplo de AGIeval podría ser:

Tarea: "Un hombre tiene 17 piezas de fruta en una cesta. Si come 3 manzanas y 2 naranjas, ¿cuántas piezas de fruta le quedan?"

Respuesta correcta: 12

AGIeval es una métrica desafiante para los modelos de lenguaje, ya que requiere una comprensión profunda del lenguaje natural, la capacidad de razonar y deducir, y la capacidad de resolver problemas complejos. Los modelos que se desempeñan bien en AGIeval suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.

Es importante destacar que AGIeval es una métrica que se centra en evaluar la capacidad de los modelos para realizar tareas de inteligencia artificial general, lo que la hace diferente de otras métricas que se centran en tareas específicas como la comprensión de texto o la generación de texto.

TriviaQA

TriviaQA es una métrica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas de trivia y conocimiento general. La tarea consiste en responder a preguntas que requieren acceso a conocimientos previos y comprensión del lenguaje natural.

TriviaQA se centra en evaluar la capacidad de los modelos para:

Acceder a conocimientos previos: recuperar información de una amplia variedad de temas y dominios.
Comprender el lenguaje natural: entender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones lógicas a partir de la información disponible.
TriviaQA utiliza una base de datos de preguntas y respuestas que abarcan una amplia variedad de temas, incluyendo historia, ciencia, literatura, música, películas, deportes, etc.

Un ejemplo de TriviaQA podría ser:

Pregunta: "What is the capital of France?"

Respuesta correcta: "Paris"

Otro ejemplo:

Pregunta: "Who is the author of the book 'To Kill a Mockingbird'?"

Respuesta correcta: "Harper Lee"

TriviaQA es una métrica desafiante para los modelos de lenguaje, ya que requiere una comprensión profunda del lenguaje natural, acceso a conocimientos previos y la capacidad de razonar y deducir. Los modelos que se desempeñan bien en TriviaQA suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.

Es importante destacar que TriviaQA es una métrica que se centra en evaluar la capacidad de los modelos para responder a preguntas de conocimiento general, lo que la hace diferente de otras métricas que se centran en tareas específicas como la comprensión de texto o la generación de texto.