記事内に広告が表示されます

AI音声合成はもはや人間と区別できないほどリアル

voicepeak-asumi-ririse スマホ・PC
スポンサーリンク

 2023年はChatGPT、Bing AI、Stable DiffusionなどのようなAI関連サービスが大きな話題になっています。これらのサービスは優れた回答や美しい画像を生成することができるということもあって瞬く間に普及しているという現状があります。

 AI関連の出来事は毎日のように小さな革新が起こっているような状況で、寝て起きたら目新しい機能が追加されていたり、別のサービスに組み込まれたりしています。知識を日々アップデートすることすら困難といえます。

 そうした中で「AI音声合成(入力文字読み上げソフト)」は、2022年の段階で人間のようにリアルな声を再現することが可能になっています。その中でももっとも自然な発話を可能としたものがAHS社の「VOICEPEAK」シリーズです。最新のAI音声合成技術が搭載されています。

誰でもわかる音楽生成AI「Suno AI」の使い方
いま話題沸騰の音楽生成AI「Suno AI」を試してみました。ここでは音楽生成AI「Suno AI」の利用方法について画像付きで詳しく紹介しています。

 歌を歌わせたいという場合は「Synthesizer V Studio Pro」一択です。以下のページに解説があります。

「Synthesizer V Studio Pro Starter Pack」のインストール手順
「Synthesizer V Studio PRO」付属DVDを使わずにダウンロード&インストールする手順を画像付きで紹介しています。
スポンサーリンク

AI音声合成はもう人間の声と区別できない?

「VOICEPEAK」は絶対に試してみるべき

 まず始めに以下のビデオを再生して音声を聞いてみてください。目を瞑って聴くとそのすごさが伝わってきます。

【音が出ます! 音量に注意してください!】

 AI音声合成と言われなければ人間と間違えてしまうほどにリアリティのある声に仕上がっています。「VOICEPEAK」のあまりのすごさに驚嘆して、発売して間もない製品をすぐさま導入したほどです。

 「VOICEPEAK」シリーズはいくつかの製品が用意されています。製品ごとに声のモデルが異なります。こちらで紹介している製品は「VOICEPEAK 彩澄りりせ」です。この製品は YouTube 等でも使用することができます。詳しくは公式サイトの利用規約をご確認ください。

 このシリーズには「VOICEPEAK 商用可能 6ナレーターセット」という製品が用意されています。そちらを利用すれば、店内放送やWebサイトでの商品説明などの商用利用が可能になります。こちらも公式サイトの利用規約を必ずご確認ください。

 ここでは、AI音声合成のことをご存じない方や導入を検討している方に向けて、操作画面を引用しながらご紹介しています。

「VOICEPEAK」の導入

voicepeak-asumi-ririse

 「VOICEPEAK」はダウンロード版とDVDが付属しているパッケージ版が用意されています(製品によっては片方しかないものもあるかも)。ダウンロード版の方がややお安くなっています。

 今回はAmazonでダウンロード版を購入して利用することにしました。パッケージが不要な方はダウンロード版をおすすめいたします。

 製品の利用は公式サイトでの登録が必要になります。また、製品登録を行うことでマイページから追加音声ファイルの「ぴた声」をダウンロードすることができるようになります。

 また「VOICEPEAK 彩澄りりせ」には「フリモメン」という別の音声も付属しています。ボイスを切り替えることでセリフごとに読むキャラクターを変えることができます。

 ソフトウェア(アプリ)のインストールは画面の指示に従うだけで迷うことはなくとても簡単です。

「VOICEPEAK」の基本操作

voicepeak-asumi-ririse

 こちらがメインの画面を開いた状態です。ここで音声の入力と調整を行います。上の画像では既に文字を入力した状態になっています。入力した音声は、右側の設定内の「早さ」や「ピッチ」のバーをマウスで左右に移動させることで簡単に調整できます。

 また下段の感情に関する設定も同様にバーを左右に移動させることで元気な声にしたり不機嫌そうな声にしたりといった調整が容易に行えます。調整後も再生ボタンをクリックするだけで音声を確認することができます。

 「VOICEPEAK」シリーズは読み上げの「速さ」「ピッチ」「ポーズ」「音量」を設定することができます。また、「アクセント」「イントネーション」「長さ」を調整することができます。

 感情の設定は製品ごとに異なりますが、「彩澄りりせ」の場合は「幸せ」「楽しみ」「怒り」「悲しみ」「ふてくされ」の五つを調整することができます。これを少し変えるだけでも元気な声になったり落ち込んだ声になったりします。もちろん、複数の感情のバーを左右に移動させることも可能です。

 これらが未設定でもほとんどの場合において文章を流暢に読み上げてくれます。しかも、細かい調整ができるというわけです。

voicepeak-asumi-ririse

 操作の基本は文字を入力して細かい調整を繰り返すだけです。インストールしてすぐに利用することができます。細かい調整も数日使っていればすぐに慣れてきます。

 読み上げてもらう文章は吹き出し部分(文字入力欄)に文字を入力することになります。この吹き出しがひとつのまとまりになっており、基本は吹き出しごとに「設定」や「感情」を調整していくことになります。セリフを入力してエンターキーを押すことで新しい吹き出しが出てきます。

 もちろん、すべてのセリフをメニューバーのボタンからまとめて設定することもできます。

  また、この吹き出しをドラッグ&ドロップするだけで順序を変えることができます。セリフが不要であれば右上の「ゴミ箱」ボタンで削除できます。

voicepeak-asumi-ririse

 このように吹き出しごとに細かく設定を変えることができます。句読点が基準ではありません。

 メニューバーの「▶(再生ボタン)」をクリックすることで入力された文字の読み上げが始まります。調整をほとんどしていなくてもかなり自然なかたちで読み上げてくれます。漢字は稀に読み間違えますので読み方の調整が必要です。また、イントネーションのおかしいところがあればそれも簡単に微調整できます。

 なお、右側の立ち絵は「×」ボタンで縮小表示に切り替えることができます(下の画面と比較)。この立ち絵は設定された感情によって表情が変化します。それによって読み上げ中の吹き出しにどのような感情が設定されているのかがすぐに分かります。

voicepeak-asumi-ririse

 吹き出しの左側に秒数が表示されています。大体の時間が分かります。吹き出しを入れ替えると時間の表示も当然に変わります。

 上の画像のようなかたちで次から次へと読み上げてもらう文章を入力していきます。読み上げる設定を変える場合は、エンターキーを押して次の吹き出しに入力します。その繰り返しです。

voicepeak-asumi-ririse

 入力した文字をマウスカーソルで選択して再生ボタンをクリックすることで、その位置から音声の読み上げが始まります。いま読み上げている箇所の数文字がマーカーを引いたような形で強調されているため、どこを読み上げているのかを見失うことはありません。

 メニューバーの「|◀(先頭に移動) 」をクリックすると、「読み上げている最中の吹き出し」の頭の文字ではなくて、「一番上の吹き出し」の文頭まで戻ってしまいます。15個の吹き出しがあるという場合でも、1個目の吹き出しの文頭に移動するということです。

 反対にメニューバーの「▶|(末尾に移動)」をクリックすると、「一番下の吹き出し」の文頭まで移動してしまいます。20個の吹き出しがあるという場合は、20個目の吹き出しの文頭に移動すると言うことです。

 任意の位置の吹き出しから文字を読み上げたい場合は、そちらにカーソルをもってくる必要があります。そのようにやや面倒なところもあります。

文章の読み上げに関する細かい設定

アクセントを調整する

voicepeak-asumi-ririse

 画面下の三つのアイコンは「アクセント」「イントネーション」「長さ」を調整するためのボタンです。文字のところをクリックすることで「読み」を変更することができます。漢字の読みが間違っているときは、この画面で正しい読みを入力します。

 一番上の「アクセント」をクリックすると波形が表示されて、言葉ごとに上下させることができます。「アクセント」は上か下の設定しかありません。変更後に確認のための再生を行い、おかしければもう一度調整するといった流れになります。

イントネーションを調整する

voicepeak-asumi-ririse

 こちらは「イントネーション」を調整するための画面になります。イントネーションが気になる波形の部分をマウスでドラッグして上下させることによって多段階の調整が可能です。

 波形をちょっと変えるだけでも随分と印象が変わります。言葉のイントネーションは関西と関東でも相当違います。単に「おやすみなさい」と入力するだけでは(落語家や芸人が発音する)「いらっしゃい」みたいなイントネーションになることがあります。ここでうまく調整してみてください。

長さを調整する

voicepeak-asumi-ririse

 長さを調整することもできます。□の枠をマウスで掴んで引っ張るだけで長くしたり短くしたりできます。

 たとえば、「おやすみなさーい」の「さー」の部分は「サア」という読みになりますが、その内の「ア」の長さを延ばしてやることでちょうど良く聞こえます。

環境設定

voicepeak-asumi-ririse

 メニューバーは左から「メニュー」「辞書」「全体の速さ」「全体のピッチ」「全体のポーズ長さ」「全体の感情設定」「時間」「先頭に移動」「再生」「文末に移動」「元に戻す」「やり直す」「音量」の順に並んでいます。

 メニューバーの「…」をクリックするとメニューが開きます。プロジェクトの保存や音声ファイルの出力はこちらから行います。また、こちらに環境設定の画面という項目があります。

voicepeak-asumi-ririse

 言語は「日本語」「英語」「中文」から選べます。起動時に更新にチェックを入れることで更新ファイルを受信することができます。詳細設定はこの程度になります。UIや操作を細かくカスタマイズすることは今のところできません。

 複数のヴォイスを入れている場合は、デフォルトボイスを切り替えることができます。ひとつしか持っていなくても、付属している「フリモメン」に切り替えることができます。

「フリモメン」の渋い声が意外に使える

 こちらが「VOICEPEAK」シリーズの一部に付属している「フリモメン」の音声です。こちらも一度聞いてみてください。

 調整はまったくしておらず、文章をただ入力しただけのものです。それでもこれだけ流暢に話すことができます。違和感があるのは「手に入る」のところくらいではないでしょうか。

AI画像生成 × AI音声合成 × AI動画生成

 AI画像にAI音声を付けて動画化してみました。このページを見てくださっている方は、騙されたと思って以下の動画(46秒)を最後までご覧ください。

 アクセントとイントネーションの調整は数箇所だけです。話す速度は全体的に速くしています。いかがでしょうか。

 詳しく知りたい方は以下のページも併せてご覧ください。

AIで生成した画像の人物をしゃべらせる方法
生成されたAI画像(または写真)の人物・キャラクターは、別のサービスと組み合わせることで誰でも簡単に喋らせることができます。

「VOICEPEAK 彩澄りりせ」の総合評価

 初期の状態でも大体の文章は綺麗に読んでくれるので、気になるところだけを調整するといった感じです。

 しかし、ときには読み方が明らかにおかしいと感じるところがあります。色々調整しても気になるのであれば、文章自体を大幅に変更してみることをおすすめします。ひとつの文章にこだわらずに言い回しを臨機応変に変えるのも有効な手です。

 また、ニュースの原稿のような文章を読み上げてもらう分には大した調整は不要ですが、アニメのキャラクターが喋るような口語のセリフは、細かい調整が節々で必要になると思われます。

 それにしても、これほど自然な読み上げは素晴らしい出来映えと言うほかないといった印象です。AI音声合成の技術はこれからさらに進歩していくと考えると今後が楽しみになってきます。

 今回紹介した「VOICEPEAK」シリーズの特徴はなんといってもシンプルなユーザーインターフェイスにあります。誰でもソフトウェアを導入してすぐに利用することができます。音声読み上げソフトで迷ったらこの製品といっても過言ではありません。個人的には ChatGPT よりも衝撃が大きかったです。おすすめ!! 色々な声の製品が発売されているようです。