Az elmúlt években jelentős fejlődés történt a kérdés-válasz (QA) modellek fejlesztésében, köszönhetően olyan modellek előrehaladásának, mint az OpenAI ChatGPT (2022) és annak következő iterációi. Azonban az olyan beszélgetéses QA modell létrehozása, amely eléri a GPT-4 szintű pontosságot, továbbra is kihívást jelent a kutatók számára.
Ezt a kihívást a NVIDIA kutatócsoportja megoldani látszik a ChatQA: A beszélgetéses QA modellek GPT-4 szintjén történő létrehozása című legújabb publikációjában. Bemutatnak egy csomag beszélgetéses QA modelleket, amelyek elérnek GPT-4 szintű pontosságot anélkül, hogy a ChatGPT modellekből származó szintetikus adatokra támaszkodnának.
A kutatók először javasolnak egy kétdimenziós finomhangolási módszert a ChatQA utasítások számára. Az első szakaszban felügyelt finomhangolást (SFT) alkalmaznak utasításkövetésre és párbeszédhez kapcsolódó adathalmazok kombinációján. Ez az elsődleges finomhangolás lehetővé teszi a modell számára, hogy hatékonyan kövesse az utasításokat beszélgetéses ügynökként. A második szakasz, a kontextus-érzékeny utasítás finomhangolása, célja, hogy javítsa a modell képességét arra, hogy válaszokat generáljon kontextusban vagy hivatkozások segítségével beszélgetéses QA feladatokban.
Ezenkívül a kutatók bemutatnak egy új adatkészletet, a HumanAnnotatedConvQA-t, amely jelentősen javítja a nyelvi modell képességét a felhasználó által szolgáltatott vagy előhívott kontextus integrálására beszélgetéses QA feladatokban, anélkül, hogy a ChatGPT modellekből származó szintetikus adatokra támaszkodnának.
A csapat különféle ChatQA modelleket épít Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), valamint belső GPT-8B és GPT-22B modellek alapján. Átfogó elemzést végeznek tíz beszélgetéses QA adatkészlet alapján. Az átlagos teljesítés alapján a ChatQA-70B modell (54,14) jobb eredményt ér el, mint a GPT3.5-turbo (50,37) és a GPT-4 (53,90) a ChatGPT modellekből származó szintetikus adatok nélkül.
Továbbá, a kutatók felfedezik az „megválaszolhatatlan” forgatókönyvet, ahol a kívánt válasz nem szerepel a megadott vagy előhívott kontextusban. Ilyen esetekben a nyelvi modellnek olyan választ kell generálnia, mint például „nem tudok választ adni”, hogy elkerülje a helytelen információk terjesztését. Fontos megjegyezni, hogy a ChatQA-70B modell jobban teljesít a GPT-3.5-turbo modellnél ebben a forgatókönyvben, bár még mindig van némi különbség a GPT-4-hez képest (kb. 3,5%).
Publikáció: ChatQA: Beszélgetéses QA modellek építése a GPT-4 szintjén, arXiv.
Szerző: Hecate He | Szerkesztő: Chain Zhang
A legfrissebb hírek és kutatási áttörések érdekében iratkozzon fel népszerű hírlevelünkre, a Synced Global AI Weeklyre, heti frissítéseinket az mesterséges intelligenciáról.
Gyakori kérdések:
1. Mi az a ChatGPT?
A ChatGPT egy az OpenAI által fejlesztett beszélgetéses modell. Az elmúlt fejlesztések szignifikáns változásokat hoztak a kérdés-válasz modellek fejlesztésében.
2. Milyen QA modelleket mutat be a „ChatQA: Beszélgetéses QA modellek építése a GPT-4 szintjén” című publikáció?
A publikáció bemutat egy olyan csomag beszélgetéses QA modelleket, amelyek elérnek GPT-4 szintű pontosságot anélkül, hogy a ChatGPT modellekhez tartozó szintetikus adatokra támaszkodnának. Ezek a modellek Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B és GPT-22B alapúak.
3. Mi a ChatQA utasítások finomhangolási módszere?
A módszer két szakaszból áll. Az első szakasz felügyelt finomhangolást (SFT) tartalmaz instrukciók és párbeszédhez kapcsolódó adathalmazok használatával, amely lehetővé teszi a modell számára az utasítások hatékony követését beszélgetéses ügynökként. A második szakasz a kontextus-érzékeny utasítás finomhangolása, amely javítja a modell képességét a válaszok generálására kontextusban.
4. Hogyan segíti a HumanAnnotatedConvQA a ChatQA-t?
A HumanAnnotatedConvQA adatkészlet jelentős mértékben javítja a nyelvi modell képességét a felhasználó által szolgáltatott vagy előhívott kontextus integrálására beszélgetéses QA feladatokban anélkül, hogy a ChatGPT modellekből származó szintetikus adatokra támaszkodnának.
5. Hogyan teljesít a ChatQA más modellekhez, például a GPT-4-hez képest?
Az eredmények azt mutatják, hogy a ChatQA-70B modell átlagos eredménye 54,14, ezzel meghaladja mind a GPT3.5-turbo (50,37), mind pedig megközelíti a GPT-4 (53,90) eredményét a ChatGPT modellekből származó szintetikus adatok felhasználása nélkül.
6. Hogyan teljesít a ChatQA modell az „megválaszolhatatlan” forgatókönyvben?
Abban az esetben, amikor a kívánt válasz nincs jelen a megadott vagy előhívott kontextusban, a ChatQA modellnek olyan választ kell generálnia, mint például „nem tudok választ adni”. A ChatQA-70B jobban teljesít a GPT-3.5-turbo modellhez képest ebben a forgatókönyvben, bár még mindig van némi különbség a GPT-4-nél.
Kapcsolódó linkek:
– openai.com
– arxiv.org