Google AI Studio

【Google AI Studio】無料で音声教材を作る方法

教育現場や語学学習の教材作成に携わる方は、「ネイティブのような自然な会話音源を簡単に作れたら…」と思ったことがあるのではないでしょうか。

今回は、無料で音声教材が簡単に生成できるGoogle AI Studioの新機能「Native Speech Generation(ネイティブスピーチジェネレーション)」をご紹介します。

Native Speech Generationを使うと、テキストを入力するだけで、本物の会話のような音声ファイルを簡単に生成できます。しかも、作成したオーディオは簡単にダウンロード可能です。

リスニング教材や会話練習用の教材作成が、これまで以上に手軽になりそう!

本記事では、その使い方と便利なポイント、そしていくつかの注意点を解説します。

記事の内容は、以下の動画でも同じものを解説しています。「動画の方が好き」という方は、こちらの動画をご覧ください。

Google AI Studioへのアクセス方法

まずは、Google AI Studioにアクセスするところから始めます。

  1. Googleで「Google AI Studio」と検索してください。
  2. 検索結果に表示される、蝶々のような模様のロゴが付いた「Google AI Studio」をクリックします。

これで、Google AI Studioのトップページにたどり着けます。

「Native Speech Generation」機能の開始

Google AI Studioにアクセスしたら、以下の手順で目的の機能を探します。

現在(動画作成時点)は、「What’s New(新機能)」セクションの中に「Native Speech Generation」という項目がありますので、これをクリックします。

これで、音声生成の準備が整いました。

会話音声の作成手順

この機能の真骨頂は、複数の話者による会話音声を簡単に作成できる点にあります。

文章の入力

まず、左側の「Row Structure(ロー・ストラクチャー)」という部分に、読み上げさせたい文章をペーストします。入力すると、すぐに真ん中のScript Builder(スクリプト・ビルダー)という箇所にも同じ内容が反映されます。

話者の役割分担

会話を作成する場合、誰がどのセリフを話すかを設定します。人物名を入れてもいいですし、「Aさん」「Bさん」といった簡単な名前を入れておくことも可能です。

「Aさん」「Bさん」で会話を作成した場合には、右側の設定欄で、デフォルトの「スピーカー1」を「A」に、次に続く「スピーカー2」を「B」に変更します。これにより、AとBの会話が生成されます。

スクリプト・ビルダーの中の役割分担と、右端のボイス・セッティングの中の役割に同じ記号や名前を使うことがポイントです。

会話の追加・削除:

もし会話の途中でセリフを追加したい場合は、Raw Structureをそのまま編集するか、一番下にある「Add Dialogue(ダイアログを追加)」というプラスボタンを押すと、新しいセリフの入力欄を追加できます。

不要なセリフはゴミ箱ボタンを押すことで、簡単に削除することも可能です。

詳細設定の活用

右側の設定セクションでは、音声の品質や特性に関する詳細な設定が可能です。

Pro/Flash

「Pro」または「Flash」を選択することができます。Flashは「速さと効率」、Proは「深さと精度」に強みがあると言っていいでしょう。

Single Speaker/Multi Speaker

一人で話す「シングルスピーカー」も選択できますが、複数話者の会話教材作成には「マルチスピーカー」を選択します。

Temperature(温度)

生成するものに、どの程度の「創造性を加えるか」という機能です。高くしても低くしても、基本的には違いがそこまで感じられませんでしたが、基本的な違いは以下です。

  • 低いTemperature: より予測可能で、安定した、一貫性のある音声が生成されやすくなる。例)ニュースの読み上げや一般的な情報伝達など、感情的な起伏が少ない、安定したトーンが求められる場合によい。
  • 高いTemperature: より多様な抑揚、ピッチの変化、発話速度のバリエーションなど、より「人間らしい」あるいは「感情豊かな」音声が生成されやすくなる。物語の朗読や、特定のキャラクターの声をシミュレートする場合など、表現力が求められる場面で有効。ただし、過度に高くすると、不自然な抑揚やリズムになる可能性もあるので注意。

Voice Selection(ボイス選択)

「A」や「B」に割り当てたスピーカーの声を選ぶことができます。各声をクリックして再生ボタンを押し、どんな声かを確認しながら好みの声を選ぶと良いでしょう。

Google AI for Developers」というウェブサイトを開くと、それぞれの声がどのような性質を持っているか(例:「アップビートな感じ」「スムーズな感じ」「柔らかい感じ」など)が一覧でまとめられています。このサイトを参考にすると、よりイメージに合った声を選びやすくなります。

※注意点として、このサイトは日本語に翻訳できますが、翻訳の精度があまり高くないため、原文のまま参照することをお勧めしています。

音声の生成とダウンロード

設定が完了したら、いよいよ音声の生成です。

きちんと、Speakerが設定され、役割分担が反映されていることを確認してください。

音声の生成

  1. 真ん中にある青いボタン、「Run(ラン)」をクリックします。
  2. するとすぐに音声が生成され、比較的正確なアクセントで読み上げられることが確認できます。

音源のダウンロード

  1. 生成された音源が気に入ったら、右下にある三点リーダー(…)をクリックし、「ダウンロード」を選択すると、その音声ファイルをご自身のコンピューターに保存できます。

このようにして、リスニングの練習問題や会話練習の教材としてすぐに使える音声教材を作成できます。

知っておくべき注意点

非常に便利なこの機能ですが、いくつか知っておくべき注意点があります。

コロンの全角・半角問題

他の場所で作成した文章をペーストした際など、スピーカーの役割分担がうまく反映されないことがあります。

これは、話者を示す「A:」や「B:」といった箇所のコロンが「全角」になっている場合に発生しやすい問題です。

コロンは必ず「半角」で入力・修正してください。これにより、正しく役割が反映されるようになります。

アクセント・読み方の修正

残念ながら、現状では個々の単語のアクセントやイントネーションを細かく調整する機能は提供されていません。

もし読み方やアクセントが不自然な場合は、元の文章(左側の入力欄)を修正することで、読み方を調整できます。例えば、漢字の読み方が間違っている場合はひらがなにするなど、正しく読んでもらえるように文章自体を修正するのが吉。修正は右側にすぐに反映されます。

プロジェクトの保存機能について

「Native Speech Generation」で作成中の会話は、現時点ではプロジェクトとして保存することができません。

もし、作成中に別のページに移動してしまったり、ブラウザを閉じたりすると、作成中の会話データはすべて消えてしまいます。

Google AI Studioには「Native Image Generation」のような他の機能では、Googleドライブに自動保存される「オートセーブ」機能が搭載されていますが、「Native Speech Generation」にはこの機能はまだありません。

作成した音声はすぐにダウンロードして、ご自身のPCなどに保存するようにしてください。将来的には改善される可能性もありますので、今後のアップデートに乞うご期待!

まとめ

Native Speech Generationは、無料かつ手軽に高品質な会話音源を作成できるツールだと思います。

特に、リスニング教材や会話練習教材の作成において、教師の方々や学習コンテンツ制作者にとって非常に役立つのではないでしょうか。

もし、この動画を見て「こんなツールを待っていた!」と感じた方は、ぜひ一度、Google AI Studioにアクセスして体験してみてください。