Presentando ChatQA: Construyendo Modelos de Preguntas y Respuestas al Nivel de GPT-4

En los últimos años, se ha logrado un progreso significativo en el desarrollo de modelos de preguntas y respuestas (QA), gracias a los avances en modelos como ChatGPT de OpenAI (2022) y sus posteriores iteraciones. Sin embargo, crear un modelo de QA conversacional que pueda igualar la precisión de los modelos cerrados de última generación como GPT-4 sigue siendo un desafío para los investigadores.

Abordando este desafío, el equipo de investigación de NVIDIA presenta ChatQA: Construyendo Modelos de QA Conversacionales al Nivel de GPT-4 en su última publicación. Introducen un paquete de modelos de QA conversacionales que logran una precisión comparable a GPT-4 sin depender de datos sintéticos de modelos ChatGPT.

Los investigadores proponen primero un método de ajuste fino en dos etapas para las instrucciones de ChatQA. En la primera etapa, utilizan un ajuste fino supervisado (SFT) en una combinación de conjuntos de datos de seguimiento de instrucciones y diálogos relacionados. Este ajuste fino inicial permite que el modelo rastree de manera efectiva las instrucciones como un agente conversacional. La segunda etapa, conocida como ajuste fino de instrucciones sensibles al contexto, tiene como objetivo mejorar la capacidad del modelo para generar respuestas en contexto o con el uso de referencias en tareas de QA conversacionales.

Además, los investigadores presentan un nuevo conjunto de datos llamado HumanAnnotatedConvQA, que mejora significativamente la capacidad del modelo de lenguaje para integrar el contexto proporcionado o recuperado por el usuario en tareas de QA conversacionales sin depender de datos sintéticos de modelos ChatGPT.

El equipo construye varios modelos de ChatQA basados en Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), así como en los modelos internos GPT-8B y GPT-22B. Realizan un análisis exhaustivo basado en diez conjuntos de datos de QA conversacional. En términos de rendimiento promedio, el modelo ChatQA-70B (54.14) supera tanto a GPT3.5-turbo (50.37) como a GPT-4 (53.90) sin utilizar datos sintéticos de modelos ChatGPT.

Además, los investigadores exploran el escenario de «sin respuesta», donde la respuesta deseada no está presente en el contexto proporcionado o recuperado. En estos casos, el modelo de lenguaje necesita generar una respuesta como «no es posible proporcionar una respuesta» para evitar proporcionar información incorrecta. Cabe destacar que el modelo ChatQA-70B supera a GPT-3.5-turbo al manejar este escenario, aunque aún existe una ligera diferencia en comparación con GPT-4 (aproximadamente un 3.5%).

Publicación: ChatQA: Construyendo Modelos de QA Conversacionales al Nivel de GPT-4, arXiv.

Autor: Hecate He | Editor: Chain Zhang

Para mantenerte actualizado con las últimas noticias y avances en investigación, suscríbete a nuestro popular boletín, Synced Global AI Weekly, que ofrece actualizaciones semanales sobre inteligencia artificial.

Preguntas frecuentes:

1. ¿Qué es ChatGPT?
ChatGPT es un modelo conversacional desarrollado por OpenAI. Los avances recientes han provocado cambios significativos en el desarrollo de modelos de preguntas y respuestas.

2. ¿Qué modelos de QA se presentan en la publicación «ChatQA: Construyendo Modelos de QA Conversacionales al Nivel de GPT-4»?
La publicación presenta un paquete de modelos de QA conversacionales que logran una precisión comparable a GPT-4 sin depender de datos sintéticos de los modelos GPT de OpenAI. Estos modelos se basan en Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B y GPT-22B.

3. ¿Cuál es el método de ajuste fino de instrucciones para ChatQA?
El método consta de dos etapas. La primera etapa implica un ajuste fino supervisado (SFT) utilizando conjuntos de datos de instrucciones y diálogos, lo que permite que el modelo rastree de manera efectiva las instrucciones como un agente conversacional. La segunda etapa es el ajuste fino de instrucciones sensibles al contexto, que mejora la capacidad del modelo para generar respuestas en contexto.

4. ¿Cómo ayuda el nuevo conjunto de datos, HumanAnnotatedConvQA, a ChatQA?
El conjunto de datos HumanAnnotatedConvQA mejora significativamente la capacidad del modelo de lenguaje para integrar el contexto proporcionado o recuperado por el usuario en tareas de QA conversacionales sin depender de datos sintéticos de los modelos ChatGPT.

5. ¿Cómo se compara ChatQA con otros modelos como GPT-4?
Los resultados muestran que el modelo ChatQA-70B obtiene una puntuación promedio de 54.14, superando tanto a GPT-3.5-turbo (50.37) como acercándose a GPT-4 (53.90) sin utilizar datos sintéticos de los modelos ChatGPT.

6. ¿Cómo se desempeña el modelo ChatQA en el escenario «sin respuesta»?
En los casos en que la respuesta deseada no está presente en el contexto proporcionado o recuperado, el modelo ChatQA necesita generar una respuesta como «no es posible proporcionar una respuesta». ChatQA-70B supera a GPT-3.5-turbo al manejar este escenario, aunque existe una ligera diferencia en comparación con GPT-4.

Enlaces relacionados:
– openai.com
– arxiv.org