이것저것 공부 기록하기

[Paper Review] FastSpeech 2: Fast and High-Quality End-to-End Text to Speech (ICLR 2021) 본문

DeepLearning/Speech

[Paper Review] FastSpeech 2: Fast and High-Quality End-to-End Text to Speech (ICLR 2021)

얍욥얍 2022. 9. 10. 18:53

제목: FastSpeech2: Fast and High-Quality End-to-End Text to Speech

저자: Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu

소속: Zhejiang University, Microsoft Research Asia, Microsoft Azure Speech

발표: ICLR 2021

논문: https://arxiv.org/abs/2006.04558

오디오샘플: https://speechresearch.github.io/fastspeech2/

1. Introduction

Previous Work: FastSpeech

- Non-autoregressive TTS 모델들 중, FastSpeech는 가장 successful한 모델 중 하나

- FastSpeech는 one-to-many mapping problem을 경감시킬 수 있는 두 가지 방안을 제시함

- one-to-many mapping problem 이란 하나의 text에 대해서도 매우 다양한 speech가 나올 수 있다는 의미 (예를 들어, 사람에 따라 억양이나 어조, 말하는 스타일이 다름)

  1. Knowledge Distillation
  2. duration information

- 하지만 이런 방식은 여러 단점이 존재함

  1. two-stage teacher-student 학습 파이프라인은 학습 과정을 복잡하게 함
  2. teacher 모델로부터 생성된 target mel-spectrogram은 information loss 가 일어나서 ground-truth에 비해 음성합성 퀄리티가 떨어짐
  3. teacher 모델의 attention map에서 추출된 duration이 충분히 정확하지 않음

따라서, 이러한 FastSpeech의 이슈 사항을 다루고 non-autoregressive TTS에서의 one-to-many mapping problem을 더 잘 다룰 수 있도록 하는 FastSpeech2를 소개함 

 

2. FastSpeech2 and 2s

2.1 Motivation

- TTS는 전형적으로 one-to-many problem 을 갖고 있음

- 이러한 one-to-many problem이 생기는 이유는 speech의 variation(ex. pitch, duration, sound volume, prosody)로 인해 text sequence에 대하여 다양한 speech sequences가 가능하기 때문 

- non-autoregressive TTS에서는 text가 유일한 input 정보이기 때문에 speech의 variance를 충분히 예측할 수 없음

- 이 경우, 모델은 일반화가 잘 안 되어 training set에 있는 target speech의 variation에 오버피팅되는 경향이 있음

- FastSpeech는 이러한 one-to-many problem을 경감하기 위한 두 가지 방법을 고안했지만, 그에 따른 이슈들을 가져왔음 (1. 복잡한 파이프라인 / 2. information loss / 3. 충분히 정확하지 않은 ground-truth duration)

 

2.2 Model Overview

- (a: overall architecture)

- encoder는 phoneme embedding sequence를 phoneme hidden sequence로 변환시킴

- 그 후, variance adaptor는 variance(ex. duration, pitch, energy)들을 hidden sequence에 더함

- 마지막으로, mel-spectrogram decoder는 adapted hidden sequence를 mel-spectrogram sequence로 변환함

- encoder와 mel-spectrogram decoder의 기본구조로는 self-attention layer와 1D-conv를 쌓은 feed-forward Transformer를 사용

 

- FastSpeech와의 차이점은 teacher-student distillation 파이프라인과 teacher model로부터의 phoneme duration 이 있음

  1. FastSpeech2에서는 teacher-studen distillation 파이프라인을 제거하고, ground-truth 멜을 target으로 하여 학습함
    → 이로써 diltilled 멜에서의 정보손실을 피하고, voice quality를 높임
  2. FastSpeech2에서는 variance adaptor를 통해 duration 뿐 아니라 pitch나 energy 등을 함께 predict하여 one-to-many problem을 해소함
    • 이때, duration predictor는 forced alignment(McAuliffe et al., 2017) 방법을 통해 얻은 phoneme duration을 training 타겟으로 사용하여 autoregressive teacher model의 attention map에서 추출한 것보다 더 정확한 duration을 얻을 수 있도록 함
  3. 한편, 학습 파이프라인을 보다 간소화하기 위한 방안으로 text에서 바로 waveform을 생성하여 fully end-to-end 시스템으로 수 있행될 수 있는 FastSpeech2s를 제안

 

 

2.3 Variance Adaptor

Duration Predictor

Pitch Predictor

Energy Predictor

 

2.4 FastSpeech 2s

Challenges in Text-to-Waveform Generation

Our Method

 

 

2.5 Discussions

 

3. Experiments and Results

3.1 Experimental Setup

3.2 Results

 


References

https://github.com/rishikksh20/FastSpeech2

반응형
Comments