Sukces ChatQA: Budowanie modeli odpowiadających na pytania na poziomie GPT-4

by Annabelle Stephenson
in *EN, News-PL, VR
on 24 stycznia 2024

Ostatnio postępy dokonane przez ChatGPT (OpenAI, 2022) oraz jego kolejne iteracje przyniosły istotne zmiany w rozwijaniu modeli odpowiadających na pytania (QA) zarówno w społeczności produkcyjnej, jak i badawczej. Pomimo tych postępów tworzenie konwersacyjnego modelu QA, który byłby w stanie dorównać dokładnością najnowocześniejszym zamkniętym modelom takim jak GPT-4, nadal stanowi wyzwanie dla badaczy.

Adresując to wyzwanie, zespół badawczy z NVIDIA w swojej najnowszej publikacji, ChatQA: Budowanie modeli konwersacyjnych QA na poziomie GPT-4, przedstawia pakiet konwersacyjnych modeli QA, które osiągają dokładność na poziomie GPT-4 bez polegania na danych syntetycznych pochodzących z modeli OpenAI GPT.

Badacze najpierw przedstawiają dwuetapową metodę dostrojenia instrukcji dla ChatQA. W pierwszym etapie wykorzystują nadzorowane dostrojenie (SFT) na połączeniu zestawów danych związanych ze śledzeniem instrukcji i dialogu. Ten początkowy dostrojenie nadaje modelowi zdolność do skutecznego śledzenia instrukcji jako agenta konwersacyjnego. Drugi etap, znany jako dostrojenie instrukcji przy uwzględnieniu kontekstu, ma na celu poprawę umiejętności modelu w generowaniu odpowiedzi w kontekście lub z wykorzystaniem przywołań w zadaniach konwersacyjnego QA.

Następnie wprowadzają nowy zestaw danych, HumanAnnotatedConvQA, mający na celu istotne zwiększenie zdolności modelu językowego do integrowania dostarczonego przez użytkownika lub pobranego kontekstu w zadaniach konwersacyjnego QA bez konieczności poddawania go syntetycznym danym z modeli ChatGPT.

W swoim badaniu zespołm tworzy różne modele ChatQA, bazując na Llama2-7B, Llama2-13B, Llama2-70B (Touvron et al., 2023), a także wewnętrznych modelach GPT-8B, GPT-22B. Przeprowadzają wszechstronną analizę na podstawie 10 zestawów danych konwersacyjnego QA. Jeśli chodzi o wynik średni, model ChatQA-70B (54,14) prześciga zarówno GPT3.5-turbo (50,37), jak i GPT-4 (53,90) bez korzystania z syntetycznych danych z modeli ChatGPT.

Dodatkowo badacze badają scenariusz „niezmożliwionego do odpowiedzenia”, w którym żądana odpowiedź nie znajduje się w dostarczonym lub pobranym kontekście. W takich przypadkach model językowy musi wygenerować odpowiedź typu „nie można udzielić odpowiedzi”, aby zapobiec dezinformacji. Warto zauważyć, że model ChatQA-70B przewyższa GPT-3.5-turbo w obsłudze tego scenariusza, choć wciąż istnieje pewna różnica w stosunku do GPT-4 (około 3,5%).

Publikacja: ChatQA: Budowanie modeli konwersacyjnych QA na poziomie GPT-4, arXiv.

Autor: Hecate He | Redaktor: Chain Zhang

Nie chcemy, żebyście przegapili żadnych wiadomości ani przełomów badawczych. Subskrybujcie nasz popularny biuletyn Synced Global AI Weekly, aby otrzymywać cotygodniowe aktualizacje dotyczące sztucznej inteligencji.

FAQ:

1. Czym jest ChatGPT?
ChatGPT to model konwersacyjny opracowany przez OpenAI. Ostatnio przeprowadzone postępy przyczyniły się do istotnych zmian w rozwijaniu modeli odpowiadających na pytania.

2. Jakie modele QA zostały przedstawione w publikacji „ChatQA: Budowanie modeli konwersacyjnych QA na poziomie GPT-4”?
Publikacja przedstawia pakiet konwersacyjnych modeli QA, które osiągają dokładność na poziomie GPT-4 bez polegania na danych syntetycznych pochodzących z modeli OpenAI GPT. Modele te opierają się na Llama2-7B, Llama2-13B, Llama2-70B, GPT-8B i GPT-22B.

3. Jaka jest metoda dostrojenia instrukcji dla ChatQA?
Metoda ta składa się z dwóch etapów. Pierwszy to nadzorowane dostrojenie (SFT) przy użyciu zestawów danych dotyczących instrukcji i dialogu, co umożliwia modelowi skuteczne śledzenie instrukcji jako agenta konwersacyjnego. Drugi etap to dostrojenie instrukcji przy uwzględnieniu kontekstu, które polepsza umiejętność modelu w generowaniu odpowiedzi w kontekście.

4. Jak nowy zestaw danych, HumanAnnotatedConvQA, pomaga ChatQA?
Zestaw danych HumanAnnotatedConvQA znacząco zwiększa zdolności modelu językowego do integrowania dostarczonego przez użytkownika lub pobranego kontekstu w zadaniach konwersacyjnego QA, bez konieczności korzystania z syntezy danych z modeli ChatGPT.

5. Jak ChatQA porównuje się do innych modeli, takich jak GPT-4?
Wyniki pokazują, że model ChatQA-70B osiąga średni wynik 54,14, co jest lepsze niż GPT-3.5-turbo (50,37) i zbliżone do GPT-4 (53,90), bez korzystania z syntezy danych z modeli ChatGPT.

6. Jak model ChatQA radzi sobie w scenariuszu „niezmożliwionego do odpowiedzenia”?
W przypadku, gdy żądana odpowiedź nie znajduje się w dostarczonym lub pobranym kontekście, model ChatQA musi wygenerować odpowiedź typu „nie można udzielić odpowiedzi”. ChatQA-70B przewyższa GPT-3.5-turbo w obsłudze tego scenariusza, choć wciąż istnieje pewna różnica w stosunku do GPT-4.

Linki powiązane:
– openai.com
– arxiv.org

The source of the article is from the blog guambia.com.uy