U posljednjih nekoliko godina postignut je značajan napredak u razvoju modela za odgovaranje na pitanja (QA), zahvaljujući napretku modela poput ChatGPT-a tvrtke OpenAI (2022) i njegovih kasnijih verzija. Međutim, izazov za istraživače i dalje ostaje stvaranje konverzacijskog QA modela koji može dostići točnost najsuvremenijih zatvorenih modela poput GPT-4.
Adresa se izazovu, tim istraživača iz tvrtke NVIDIA predstavlja ChatQA: Izgradnja modela za konverzacijsko QA na razini GPT-4 u svojoj najnovijoj publikaciji. Oni predstavljaju paket konverzacijskih QA modela koji postižu točnost na razini GPT-4, ali bez korištenja sintetičkih podataka iz ChatGPT modela.
Istraživači prvo predlažu dvostupanjsku metodu fino podešavanje za ChatQA upute. U prvoj fazi koriste metodu nadziranog fino podešavanja (Supervised Fine-Tuning – SFT) na kombinaciji skupova podataka za praćenje instrukcija i dijaloga. Ovim početnim fino podešavanjem omogućuje se da model učinkovito prati instrukcije kao konverzacijski agent. Druga faza, poznata kao fino podešavanje uputa svjesnih konteksta, ima za cilj poboljšanje sposobnosti modela za generiranje odgovora u kontekstu ili uz korištenje referenci u zadacima konverzacijskog QA.
Osim toga, istraživači predstavljaju novi skup podataka naziva HumanAnnotatedConvQA, što značajno poboljšava sposobnost jezičkog modela da integrira korisničke informacije ili povratne informacije u zadacima konverzacijskog QA bez upotrebe sintetičkih podataka iz ChatGPT modela.
Tim gradi razne ChatQA modele temeljene na Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), kao i internim GPT-8B i GPT-22B modelima. Provode sveobuhvatnu analizu temeljenu na deset skupova podataka za konverzacijski QA. Prema prosječnoj izvedbi, ChatQA-70B model (54.14) nadmašuje GPT3.5-turbo (50.37) i GPT-4 (53.90) bez korištenja sintetičkih podataka iz ChatGPT modela.
Također, istraživači istražuju “neodgovarajući” scenarij, u kojem željeni odgovor nije prisutan u danoj ili povučenoj informaciji. U takvim slučajevima, jezički model treba generirati odgovor poput “nemoguće pružiti odgovor” kako bi se spriječilo širenje dezinformacija. Važno je napomenuti da ChatQA-70B model pokazuje bolje rezultate od GPT-3.5-turbo u rješavanju ovog scenarija, iako još uvijek postoji blaga razlika u usporedbi s GPT-4 (oko 3.5%).
Izvor: ChatQA: Izgradnja modela za konverzacijsko QA na razini GPT-4, arXiv.
Autor: Hecate He | Urednik: Chain Zhang
Da biste ostali informirani o najnovijim vijestima i istraživačkim otkrićima, pretplatite se na naš popularni newsletter, Synced Global AI Weekly, za tjedna ažuriranja o umjetnoj inteligenciji.
FAQ:
1. Što je ChatGPT?
ChatGPT je konverzacijski model razvijen od strane tvrtke OpenAI. Nedavna napredovanja promijenila su razvoj modela za odgovaranje na pitanja.
2. Koji QA modeli su predstavljeni u publikaciji “ChatQA: Izgradnja modela za konverzacijsko QA na razini GPT-4”?
Publikacija predstavlja paket konverzacijskih QA modela koji postižu točnost na razini GPT-4, ali bez korištenja sintetičkih podataka iz ChatGPT modela tvrtke OpenAI. Ovi modeli temelje se na Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B i GPT-22B.
3. Kako izgleda metoda fino podešavanja uputa za ChatQA?
Metoda se sastoji od dvije faze. Prva faza uključuje nadzirano fino podešavanje (Supervised Fine-Tuning – SFT) koristeći skupove podataka za praćenje instrukcija i dijaloga, što omogućuje modelu da učinkovito prati upute kao konverzacijski agent. Druga faza je fino podešavanje uputa svjesnih konteksta, što poboljšava sposobnost modela da generira odgovore u kontekstu.
4. Kako novi skup podataka, HumanAnnotatedConvQA, pomaže ChatQA?
Skup podataka HumanAnnotatedConvQA znatno poboljšava mogućnost jezičkog modela da integrira korisničke ili povučene informacije u zadacima konverzacijskog QA, bez korištenja sintetičkih podataka iz ChatGPT modela.
5. Kako se ChatQA uspoređuje s drugim modelima poput GPT-4?
Rezultati pokazuju da ChatQA-70B model postiže prosječnu ocjenu od 54.14, nadmašujući kako GPT3.5-turbo (50.37) tako i približavajući se GPT-4 (53.90), bez korištenja sintetičkih podataka iz ChatGPT modela.
6. Kako ChatQA model funkcionira u “neodgovarajućem” scenariju?
U slučajevima kada željeni odgovor nije prisutan u danoj ili povučenoj informaciji, ChatQA model mora generirati odgovor poput “nemoguće pružiti odgovor”. ChatQA-70B pokazuje bolje rezultate od GPT-3.5-turbo u rješavanju ovog scenarija, iako još postoji blaga razlika u usporedbi s GPT-4.
Povezane poveznice:
– openai.com
– arxiv.org