Nowe podejście w syntezie mowy czasu rzeczywistego: Incremental FastPitch

by John Nowacky
in News-PL, PC
on 12 stycznia 2024

Model TTS (Text-to-Speech) Parallel (równoległy) jest powszechnie wykorzystywany do syntez mowy na bieżąco, zapewniając lepszą kontrolę i szybszą syntezę niż tradycyjne modele autoregresyjne. Jednak modele równoległe, zwłaszcza oparte na architekturze transformatora, napotykają problemy związane z inkrementalną syntezą. Ograniczenie to wynika z ich w pełni równoległej struktury. Rosnąca popularność aplikacji czasu rzeczywistego i strumieniowych spowodowała potrzebę stworzenia systemów TTS, które mogą generować mowę przyrostowo, dostosowując się do zapotrzebowania na strumieniowe TTS. Adaptacja ta jest kluczowa dla osiągnięcia niższej opóźnienia odpowiedzi i poprawy doświadczenia użytkownika.

Naukowcy z NVIDIA Corporation proponują Incremental FastPitch, wariant FastPitch, który jest w stanie inkrementalnie generować fragmenty Mel wysokiej jakości z niższym opóźnieniem podczas syntez mowy czasu rzeczywistego. Proponowany model poprawia architekturę dzięki blokom FFT opartym na fragmentach, uczeniu się z ograniczeniami pola recepcyjnego dla masek uwagi fragmentu oraz wnioskowaniu z wykorzystaniem stałych stanów modelu z przeszłości. Dzięki temu model ten osiąga porównywalną jakość mowy do równoległego modelu FastPitch, ale ze znacznie mniejszym opóźnieniem. Model wykorzystuje uczenie z ograniczonymi polami recepcyjnymi i bada możliwość stosowania zarówno statycznych, jak i dynamicznych masek fragmentów. Badanie to jest ważne dla efektywnego dopasowania modelu podczas syntezy z uwzględnieniem ograniczonego pola recepcyjnego.

Inkrementalny FastPitch to wariant FastPitch, który wykorzystuje bloki FFT oparte na fragmentach w dekoderze, aby umożliwić inkrementalną syntezę fragmentów Mel wysokiej jakości. Model jest trenowany przy użyciu masek uwagi fragmentu z ograniczeniami pola recepcyjnego, co pomaga dekoderowi dostosować się do ograniczonego pola recepcyjnego podczas inkrementalnej inferencji. Proponowany model wykorzystuje również stałe stany modelu z przeszłości podczas inferencji, aby zapewnić ciągłość Mel między fragmentami. Model trenowany jest na chińskim Korpusie Mowy Standardowej w Mandaryńskim, a parametry modelu opierają się na dostępnej implementacji FastPitch, z modyfikacjami w dekoderze, wykorzystując konwolucję przyczynową w warstwach przekazywania pozycji.

Eksperymentalne wyniki pokazują, że Incremental FastPitch może generować mowę o jakości porównywalnej do równoległego FastPitch, a jednocześnie charakteryzuje się znacznie niższym opóźnieniem, co czyni go odpowiednim do zastosowań wymagających mowy w czasie rzeczywistym. Proponowany model, który wykorzystuje bloki FFT oparte na fragmentach, uczenie z ograniczeniami pola recepcyjnego dla masek uwagi fragmentu oraz inferencję z wykorzystaniem stałych stanów modelu z przeszłości, przyczynia się do poprawy wydajności. Przeprowadzone badania aborcyjne wizualizacji pokazują, że Incremental FastPitch może generować Mel odtwarzanych z dźwiękiem z niemal żadnym zauważalnym różnicą w porównaniu do równoległego FastPitch, co potwierdza skuteczność proponowanego modelu.

Incremental FastPitch, wariant FastPitch, umożliwia inkrementalną syntezę fragmentów Mel wysokiej jakości przy niskim opóźnieniu, co czyni go obiecującym podejściem do zastosowań w czasie rzeczywistym. Proponowany model, wykorzystujący bloki FFT oparte na fragmentach, uczenie z ograniczeniami pola recepcyjnego dla masek uwagi fragmentu oraz inferencję z wykorzystaniem stałych stanów modelu z przeszłości, generuje mowę porównywalną do równoległego FastPitch, ale z znacznie mniejszym opóźnieniem. Parametry modelu opierają się na dostępnej implementacji FastPitch, z modyfikacjami w dekoderze, wykorzystując konwolucję przyczynową w warstwach przekazywania pozycji. Incremental FastPitch oferuje szybszy i bardziej kontrolowany proces syntezowania mowy, co czyni go obiecującym rozwiązaniem dla aplikacji czasu rzeczywistego.

Sekcja FAQ oparta na głównych tematach i informacjach przedstawionych w artykule:

1. Co to jest Model TTS (Text-to-Speech) Parallel?
Model TTS (Text-to-Speech) Parallel jest powszechnie stosowany do syntez mowy w czasie rzeczywistym, zapewniając lepszą kontrolę i szybszą syntezę niż tradycyjne modele autoregresyjne.

2. Jakie problemy napotykają modele równoległe oparte na architekturze transformatora?
Modele równoległe oparte na architekturze transformatora napotykają problemy związane z inkrementalną syntezą ze względu na ich pełną równoległą strukturę.

3. Co zaproponowano jako rozwiązanie dla problemów związanych z inkrementalną syntezą?
Naukowcy z NVIDIA Corporation zaproponowali Incremental FastPitch, wariant FastPitch, który jest w stanie inkrementalnie generować fragmenty Mel wysokiej jakości z niższym opóźnieniem podczas syntez mowy czasu rzeczywistego.

4. Jak Incremental FastPitch poprawia architekturę w porównaniu do innych modeli?
Incremental FastPitch poprawia architekturę dzięki blokom FFT opartym na fragmentach, uczeniu ze stałymi stanami modelu z przeszłości oraz ograniczeniom pola recepcyjnego dla masek uwagi fragmentu.

5. Jakie korpusy oraz parametry zostały użyte przy treningu modelu Incremental FastPitch?
Model został trenowany na chińskim Korpusie Mowy Standardowej w Mandaryńskim, a parametry modelu opierają się na dostępnej implementacji FastPitch, z modyfikacjami w dekoderze.

6. Jakie są wyniki eksperymentalne dla Incremental FastPitch?
Eksperymentalne wyniki pokazują, że Incremental FastPitch może generować mowę o jakości porównywalnej do równoległego modelu FastPitch, ale z znacznie niższym opóźnieniem, co czyni go odpowiednim do zastosowań wymagających mowy w czasie rzeczywistym.

7. Czym się różni Incremental FastPitch od równoległego FastPitch?
Incremental FastPitch wykorzystuje bloki FFT oparte na fragmentach w dekoderze, co umożliwia inkrementalną syntezę fragmentów Mel wysokiej jakości z niższym opóźnieniem w porównaniu do równoległego modelu FastPitch.

8. Jakie są zalety i zastosowania Incremental FastPitch?
Incremental FastPitch oferuje szybszy i bardziej kontrolowany proces syntezowania mowy, co czyni go obiecującym rozwiązaniem dla aplikacji czasu rzeczywistego, które wymagają mowy o wysokiej jakości.

9. Jakie są cechy proponowanego modelu Incremental FastPitch?
Model Incremental FastPitch wykorzystuje bloki FFT oparte na fragmentach, uczenie z ograniczeniami pola recepcyjnego dla masek uwagi fragmentu oraz inferencję z wykorzystaniem stałych stanów modelu z przeszłości, aby generować mowę porównywalną do równoległego FastPitch, ale z mniejszym opóźnieniem.

10. Jakie są perspektywy dalszego rozwoju dla Incremental FastPitch?
Incremental FastPitch jest obiecującym podejściem do zastosowań w czasie rzeczywistym, i istnieje potencjał dalszego rozwoju tego modelu w celu dalszej poprawy jakości i wydajności syntezatora mowy.

Słowa kluczowe:
– Model TTS (Text-to-Speech) Parallel (równoległy)
– Inkrementalna syntez
– FastPitch
– Bloki FFT
– Masy uwagi fragmentu
– Ograniczone pole recepcyjne
– Inferencja
– Mel odtwarzane
– Mowa w czasie rzeczywistym

Sugerowane powiązane linki:
NVIDIA Corporation

The source of the article is from the blog enp.gr