Създаване на модели за отговаряне на въпроси на ниво GPT-4 с ChatQA

by Annabelle Stephenson
in News-PL, VR
on 24 януари 2024

Sukces ChatQA: Budowanie modeli odpowiadających na pytania na poziomie GPT-4

През последните години са постигнати значителни напредъци в разработката на модели за отговаряне на въпроси (QA) благодарение на развитието на модели като ChatGPT от OpenAI (2022) и неговите последващи версии. Въпреки това, създаването на разговорен модел за QA, който да може да се сравнява по точност с последните модели като GPT-4, все още представлява предизвикателство за изследователите.

За да се справят с това предизвикателство, екипът на NVIDIA представя ChatQA: Създаване на разговорни модели за QA на ниво GPT-4 в последната си публикация. Във въведената от тях пакета от модели за разговорен QA се постига точност на нивото на GPT-4, без да се използват синтетични данни от моделите на ChatGPT.

Изследователите предлагат първоначално двустъпков метод за подобряване на инструкциите за ChatQA. В първата стъпка използват наблюдавано регулиране (SFT) върху комбинация от набори от данни, свързани с проследяване на инструкциите и диалози. Това първоначално регулиране позволява на модела да проследява инструкциите като разговорен агент. Втората стъпка, наречена регулиране на инструкциите в околна среда, има за цел да подобри способността на модела да генерира отговори в контекст или с използване на препратки в разговорни задачи за QA.

Освен това изследователите въвеждат нов набор от данни, наречен HumanAnnotatedConvQA, който значително подобрява възможността на езиковия модел да интегрира контекст, предоставен от потребителя или намерен от източници, в разговорни задачи за QA, без да се използват синтетични данни от моделите на ChatGPT.

Екипът създава различни модели за ChatQA на базата на Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), както и вътрешни модели GPT-8B и GPT-22B. Провеждат се обстойни анализи въз основа на десет разговорни QA набори от данни. По отношение на средната производителност, моделът ChatQA-70B (54.14) представя по-добри резултати от GPT3.5-турбо (50.37) и GPT-4 (53.90), без да се използват синтетични данни от моделите на ChatGPT.

Освен това изследователите изучават сценария „неотговорим“, когато желаният отговор не се намира в предоставения или намерен контекст. В такива случаи езиковият модел трябва да генерира отговор като „не може да предостави отговор“, за да предотврати разпространение на грешна информация. Струва си да се отбележи, че моделът ChatQA-70B предвъзхожда GPT-3.5-турбо в този сценарий, въпреки че все още има лека разлика спрямо GPT-4 (около 3,5%).

Публикация: ChatQA: Създаване на разговорни модели за QA на ниво GPT-4, arXiv.

Автор: Hecate He | Редактор: Chain Zhang

За да останете в крак с последните новини и пробиви в научните изследвания, абонирайте се за нашия популярен бюлетин, Synced Global AI Weekly, за седмични актуализации по изкуствен интелект.

ЧЗВ:

1. Какво е ChatGPT?
ChatGPT е разговорен модел, разработен от OpenAI. Наскоро са направени значителни промени в разработката на модели за отговаряне на въпроси.

2. Какви модели за QA са представени в публикацията „ChatQA: Създаване на разговорни модели за QA на ниво GPT-4“?
В публикацията се представя пакет от разговорни модели за QA, които постигат точност на нивото на GPT-4, без да се използват синтетични данни от моделите на GPT на OpenAI. Тези модели са базирани на Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B и GPT-22B.

3. Какъв е методът за регулиране на инструкциите за ChatQA?
Методът се състои от две стъпки. Първата стъпка включва наблюдавано регулиране (SFT), използвайки данни за инструкции и данни, свързани с диалози, благодарение на което моделът ефективно проследява инструкциите като разговорен агент. Втората стъпка е наречена регулиране на инструкциите в контекст и има за цел да подобри способността на модела да генерира отговори в конкретен контекст.

4. Как помага новият набор от данни HumanAnnotatedConvQA на ChatQA?
Наборът от данни HumanAnnotatedConvQA значително подобрява възможността на езиковия модел да интегрира контекст, предоставен от потребителя или намерен от източници, в разговорни задачи за QA, без да се използват синтетични данни от моделите на ChatGPT.

5. Как се сравнява ChatQA с други модели като GPT-4?
Резултатите показват, че моделът ChatQA-70B постига среден резултат от 54,14, надминавайки както GPT3.5-турбо (50,37), така и се приближава до GPT-4 (53,90), без да използва синтетични данни от моделите на ChatGPT.

6. Как се представя моделът ChatQA в сценария „неотговорим“?
В случаите, когато желаният отговор не се съдържа в предоставения или намерен контекст, моделът ChatQA трябва да генерира отговор като „не може да предостави отговор“. ChatQA-70B представя по-добри резултати от GPT-3.5-турбо в такива сценарии, въпреки че все още има лека разлика спрямо GPT-4.

Свързани връзки:
– openai.com
– arxiv.org

The source of the article is from the blog portaldoriograndense.com