論文 text-to-speech 2018

論文

EFFICIENTLY TRAINABLE TEXT-TO-SPEECH SYSTEM BASED ON DEEP CONVOLUTIONAL NETWORKS WITH GUIDED ATTENTION

Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara

概要

text to speech を解く NN を開発。 従来は RNN を使うことが多かったが、CNN を使うことで 学習時間を短縮した。 精度は acceptable を維持している。 guide attention も紹介する。

モデル

Text2Mel

Attention の Key, Value, Query の考え方を使っている。 CNN で text から Key, Value を作る。 Query は mel spectrum を使う。 時系列でずれていく mel spectrum が RNN の代わりをしている。

SSRN (Spectrogram Super-resolution Network)

mel spectrum 行列を upsampling する。 圧縮を解凍するイメージ。

Guided Attention

時間に従って線形に Attention がズレるという、 text-to-speech の特性から、 学習の最初の方だけ、Attention 行列がだいたい対角になるように 損失を追加する。

評価

crowdworker にお願いした。

用語

mel : 音の高低の知覚的尺度。 メル尺度の差が同じであれば、人間が感じる音の高さの差が同じになることを意図している。

STFT: short-time fourier transform, 短時間フーリエ変換

bibtex

@inproceedings{tachibana2018efficiently, title={Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention}, author={Tachibana, Hideyuki and Uenoyama, Katsuya and Aihara, Shunsuke}, booktitle={2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={4784--4788}, year={2018}, organization={IEEE} }