ChatQA: Construire modele de intrebari-raspuns la nivelul GPT-4

In ultimii ani, s-au facut progrese semnificative in dezvoltarea modelelor de intrebari-raspuns (QA), multumita progreselor in modele precum ChatGPT dezvoltat de OpenAI (2022) si iteratiilor ulterioare. Cu toate acestea, crearea unui model de intrebari-raspuns conversational care sa poata atinge acuratetea modelelor inchise de ultima generatie, precum GPT-4, ramane o provocare pentru cercetatori.

Adresandu-se acestei provocari, echipa de cercetare NVIDIA prezinta ChatQA: Construirea modelelor de intrebari-raspuns conversational la nivelul GPT-4 in cea mai recenta publicatie. Ei introduc un pachet de modele de intrebari-raspuns conversational care ating acuratetea nivelului GPT-4 fara a se baza pe date sintetice de la modelele ChatGPT.

Cercetatorii propun initial o metoda de finetare in doua etape pentru instructiunile ChatQA. In prima etapa, ei utilizeaza finetare supervizata (SFT) pe o combinatie de seturi de date de urmarire a instructiunilor si seturi de date legate de dialog. Aceasta finetare initiala permite modelului sa urmareasca eficient instructiunile ca un agent conversational. A doua etapa, cunoscuta sub denumirea de finetarea instructiunilor contextuale, isi propune sa imbunatateasca capacitatea modelului de a genera raspunsuri in context sau cu ajutorul referintelor in sarcinile de intrebari-raspuns conversational.

In plus, cercetatorii prezinta un nou set de date numit HumanAnnotatedConvQA, care imbunatateste semnificativ capacitatea modelului lingvistic de a integra contextul furnizat de utilizator sau recuperat in sarcinile de intrebari-raspuns conversational fara a se baza pe date sintetice de la modelele ChatGPT.

Echipa a construit diverse modele ChatQA bazate pe Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), precum si pe modelele interne GPT-8B si GPT-22B. Ei efectueaza o analiza cuprinzatoare pe baza a zece seturi de date de intrebari-raspuns conversational. In ceea ce priveste performanta medie, modelul ChatQA-70B (54,14) depaseste atat GPT3.5-turbo (50,37), cat si GPT-4 (53.90) fara a utiliza date sintetice de la modelele ChatGPT.

In plus, cercetatorii exploreaza scenariul „fara raspuns”, in care raspunsul dorit nu este prezent in contextul furnizat sau recuperat. In astfel de cazuri, modelul lingvistic trebuie sa genereze un raspuns precum „nu pot oferi un raspuns” pentru a preveni furnizarea de informatii eronate. Este important de mentionat faptul ca modelul ChatQA-70B performeaza mai bine decat GPT-3.5-turbo in tratarea acestui scenariu, desi exista inca o diferenta minora in comparatie cu GPT-4 (aproximativ 3,5%).

Publicatie: ChatQA: Construirea modelelor de intrebari-raspuns conversational la nivelul GPT-4, arXiv.

Autor: Hecate He | Editor: Chain Zhang

Pentru a fi mereu la curent cu ultimele noutati si descoperiri din domeniul cercetarii, abonati-va la popularul nostru newsletter, Synced Global AI Weekly, pentru actualizari saptamanale despre inteligenta artificiala.

FAQ:

1. Ce este ChatGPT?
ChatGPT este un model de conversatie dezvoltat de OpenAI. Progresele recente au condus la modificari semnificative in dezvoltarea modelelor de intrebari-raspuns.

2. Ce modele de intrebari-raspuns sunt prezentate in publicatia „ChatQA: Construirea modelelor de intrebari-raspuns conversational la nivelul GPT-4”?
Publicatia introduce un pachet de modele de intrebari-raspuns conversational care ating acuratetea nivelului GPT-4 fara a se baza pe date sintetice de la modelele OpenAI’s GPT. Aceste modele se bazeaza pe Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B si GPT-22B.

3. Care este metoda de finetare a instructiunilor pentru ChatQA?
Metoda consta in doua etape. Prima etapa implica finetarea supervizata (SFT) utilizand seturi de date de instructiuni si seturi de date legate de dialog, permitand modelului sa urmareasca eficient instructiunile ca un agent conversational. A doua etapa este finetarea instructiunilor contextuale, care imbunatateste capacitatea modelului de a genera raspunsuri in context.

4. Cum ajuta setul de date nou, HumanAnnotatedConvQA, ChatQA?
Setul de date HumanAnnotatedConvQA imbunatateste semnificativ capacitatea modelului lingvistic de a integra contextul furnizat de utilizator sau recuperat in sarcinile de intrebari-raspuns conversational fara a se baza pe date sintetice de la modelele ChatGPT.

5. Cum se compara ChatQA cu alte modele precum GPT-4?
Rezultatele arata ca modelul ChatQA-70B obtine un scor mediu de 54,14, depasind atat GPT-3.5-turbo (50,37), cat si apropiindu-se de GPT-4 (53.90) fara a utiliza date sintetice de la modelele ChatGPT.

6. Cum se comporta modelul ChatQA in scenariul „fara raspuns”?
In cazurile in care raspunsul dorit nu este prezent in contextul furnizat sau recuperat, modelul ChatQA trebuie sa genereze un raspuns precum „nu pot oferi un raspuns”. ChatQA-70B are performante mai bune decat GPT-3.5-turbo in tratarea acestui scenariu, desi exista inca o diferenta minora in comparatie cu GPT-4.

Link-uri relevante:
– openai.com
– arxiv.org

The source of the article is from the blog coletivometranca.com.br