TALQuとは
TLAQuは深層学習系の読み上げソフトです。
セットアップ
動画の音声もTALQuで生成されたものだと思いますが、特に違和感もなくすごいです!しかも、これを一人の方が開発されています。
GPU版もある
TALQuはCPU版とGPU版があります。GPU版のほうが音声の合成に時間がかかりませんが、CUDA11.2を使える環境を用意する必要があります。
自分の音源も作れる
学習モデルを作成できれば、TALQuを用いて読み上げることが可能です。(少し知識が必要になりますが、深層学習っていう文字列は知ってるという自分でも作成できました。) TALQuのダウンロード先のFAQに
Q. セットアップ方法の公開は? A. YouTubeの配信で喋ってたりしますね。公式ドキュメント作成は未定です。
と書いてあるので、公式のYouTubeチャンネルをご覧ください。 (セットアップ方法に関して言及されている動画へのURLが明確に示されていない点を考慮して動画へのリンクを貼り付けていません)
昔はUTAUの音源作ってたのでなんか作りたい!!と思い始めました。
自分の音声モデルを作成した
というわけで自分の音声モデルを作成することにしました。 下記のnoteを参考に自分のモデルを作成しました。
TALQuモデル生成手順が来たので、敢えて生声でやってみる その2
自分の環境
- マイク:yeti nano
- TALQu:CPU版
手順
詳しい内容はnoteをごらんください。自分のメモ程度にまとめて置きます。
2021/12/26 追記 声優統計コーパスを用いたモデル作成はライセンスの取り回しと収録量からTALQuでは非推奨になっています
- 声優統計コーパスを録音する(OREMOを使用しました)
- wavTarを利用して、録音した音声を一つにまとめます。
- ノイズを除去
- wavTarを利用して、一つにまとめた音声をバラします。
- SoundEngineでファイルを整えます
- XmediaRecordeファイルのサンプルレートや形式を変換します。
- ノートブックの指示に従い、ファイルを配置し、スクリプトを実行し、学習していきます。
- outdirディレクトリにできたファイルが学習してできた音声モデルです。
作成してみて
音声を録音していて、一番の問題はマイクがタイピングの音を拾ってしまうことでした。OREMOはRキーで録音を開始するのですが、毎回音声の最初にカッチっという音が入ってしまいました(青軸キーボードを恨む)。なので、ペンタブのボタンをRキーと動作するようにして、音が出ないようにしました。 2万くらいのマイクを持っていたので、ノイズは比較的少なく録音できました。 ノイズは後から除去するし、入ってもいいかと思うと後で処理が大変なので、できる限りノイズが入らないようにしたほうが良いです。
実際に作成したモデルの音声
こんな感じになりました!!