Prezentarea ChatQA: Construirea modelelor de răspuns la întrebări la nivelul lui GPT-4

În ultimii ani, s-au realizat progrese semnificative în dezvoltarea modelelor de răspuns la întrebări (QA), datorită avansurilor în modele precum ChatGPT dezvoltat de OpenAI (2022) și a iterațiilor ulterioare. Cu toate acestea, crearea unui model de QA conversațional care poate fi la fel de precis ca modelele închise de ultimă generație precum GPT-4 rămâne o provocare pentru cercetători.

Abordând această provocare, echipa de cercetare NVIDIA prezintă ChatQA: Construirea modelelor de QA conversațional la nivelul lui GPT-4 în ultima lor publicație. Ei introduc un pachet de modele de QA conversațională care ating o precizie la nivelul lui GPT-4 fără a se baza pe date sintetice provenite din modelele ChatGPT.

Cercetătorii propun mai întâi o metodă de fine-tuning în două etape pentru instrucțiunile ChatQA. În prima etapă, ei utilizează fine-tuning supervizat (SFT) pe o combinație de seturi de date pentru urmărirea instrucțiunilor și relevante pentru dialog. Acest fine-tuning inițial permite modelului să urmarească eficient instrucțiunile și să funcționeze ca un agent conversațional. A doua etapă, cunoscută sub denumirea de fine-tuning de instrucțiuni conștiente de context, își propune să îmbunătățească capacitatea modelului de a genera răspunsuri în cadrul conversațiilor sau cu ajutorul referințelor în sarcinile de QA conversațional.

În plus, cercetătorii introduc un set de date nou numit HumanAnnotatedConvQA, care îmbunătățește semnificativ capacitatea modelului de limbă de a integra contextul furnizat sau recuperat de utilizator în sarcinile de QA conversațional fără a se baza pe date sintetice provenind din modelele ChatGPT.

Echipa construiește diverse modele ChatQA pe baza Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), precum și modelele interne GPT-8B și GPT-22B. Ei realizează o analiză cuprinzătoare pe baza a zece seturi de date de QA conversațională. În ceea ce privește performanța medie, modelul ChatQA-70B (54.14) depășește atât GPT3.5-turbo (50.37), cât și GPT-4 (53.90), fără a utiliza date sintetice provenite din modelele ChatGPT.

Mai mult decât atât, cercetătorii explorează scenariul „nesoluționabil”, în care răspunsul dorit nu este prezent în contextul furnizat sau recuperat. În astfel de cazuri, modelul de limbă trebuie să genereze un răspuns precum „nu pot oferi un răspuns” pentru a preveni dezinformarea. Este de remarcat faptul că modelul ChatQA-70B se comportă mai bine decât GPT-3.5-turbo în gestionarea acestui scenariu, deși există încă o diferență mică în comparație cu GPT-4 (aproximativ 3,5%).

Publicație: „ChatQA: Construirea modelelor de QA conversațional la nivelul lui GPT-4”, arXiv.

Autor: Hecate He | Editor: Chain Zhang

Pentru a fi la curent cu cele mai recente știri și descoperiri din domeniul cercetării, abonați-vă la newsletter-ul nostru popular, Synced Global AI Weekly, pentru actualizări săptămânale privind inteligența artificială.

Întrebări frecvente (FAQ):

1. Ce este ChatGPT?
ChatGPT este un model conversațional dezvoltat de OpenAI. Avansurile recente au condus la schimbări semnificative în dezvoltarea modelelor de răspuns la întrebări.

2. Ce modele de QA sunt prezentate în publicația „ChatQA: Construirea modelelor de QA conversațional la nivelul lui GPT-4”?
Publicația introduce un pachet de modele de QA conversațională care ating o precizie la nivelul lui GPT-4 fără a se baza pe date sintetice provenite din modelele GPT ale OpenAI. Aceste modele se bazează pe Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B și GPT-22B.

3. Care este metoda de fine-tuning a instrucțiunilor pentru ChatQA?
Metoda constă în două etape. Prima etapă implică fine-tuning supervizat (SFT) folosind seturi de date pentru instrucțiuni și relevante pentru dialog, permițând modelului să urmărească eficient instrucțiunile ca un agent conversațional. A doua etapă este fine-tuning-ul de instrucțiuni conștiente de context, care îmbunătățește capacitatea modelului de a genera răspunsuri în context.

4. Cum ajută setul de date nou, HumanAnnotatedConvQA, modelul ChatQA?
Setul de date HumanAnnotatedConvQA îmbunătățește semnificativ capacitatea modelului de limbă de a integra contextul furnizat sau recuperat de către utilizator în sarcinile de QA conversațional fără a se baza pe date sintetice provenite din modelele ChatGPT.

5. Cum se compară ChatQA cu alte modele precum GPT-4?
Rezultatele arată că modelul ChatQA-70B obține un scor mediu de 54.14, depășind atât GPT-3.5-turbo (50.37), cât și se apropie de GPT-4 (53.90), fără a utiliza date sintetice provenite din modelele ChatGPT.

6. Cum se descurcă modelul ChatQA în scenariul „nesoluționabil”?
În cazurile în care răspunsul dorit nu este prezent în contextul furnizat sau recuperat, modelul ChatQA trebuie să genereze un răspuns precum „nu pot oferi un răspuns”. ChatQA-70B se comportă mai bine decât GPT-3.5-turbo în gestionarea acestui scenariu, deși există încă o diferență mică în comparație cu GPT-4.

Link-uri relevante:
– openai.com
– arxiv.org