Gemini内蔵の手軽さ: 追加のサインアップ不要。Geminiの会話画面から直接「音楽を作って」と依頼するだけで楽曲を生成。
Google品質: DeepMindが開発したLyriaモデルのv3。楽曲のクオリティが大幅に向上。
注意点: Sunoほど細かいパラメータ制御(歌詞入力や歌声指定)はまだ限定的。BGMや効果音の生成向き。
本日の目標:テキストから音楽・音声への変換技術の基礎をマスターする。
AI音楽生成ツール(Suno / Lyria 3)と音声合成ツール(Gemini TTS / ElevenLabs / MiniMax)を学びます。
本日の研修は、「テキストから音楽・音声への変換技術の基礎」です。
前半はAI音楽生成を学びます。世界No.1の音楽生成AI「Suno」と、Geminiに搭載された「Lyria 3」を使い、テキストだけで本格的な楽曲を作る方法を習得します。
後半はAI音声合成(TTS)を学びます。Geminiの革命的な音声AI、超流暢な日本語のElevenLabs、感情表現に優れたMiniMax Audioを比較しながら、最適なツール選びとプロンプト設計を身につけましょう!
Google AI Studioの音声生成機能の名前が変更されました。
旧名称: Turn text into audio with Gemini
新名称: Text to Speech (TTS)
受講生の方から完成度の高いまとめが共有されました!バイブコーディングを用いた動画編集の実践例です。ぜひ参考にしてみてください。
Canvaで資料を見るSunoはテキストプロンプトだけで歌詞付きの楽曲を丸ごと生成できるAI。ジャンル・楽器・歌声・テンポまで自在に指定可能で、BGM制作からSNS用ジングルまで幅広く活用できます。
動画・ポッドキャスト・プレゼンのBGMをプロンプト一発で生成。著作権フリーで安心。
TikTokやInstagramリール用の短い楽曲を量産。ブランドに合ったサウンドを瞬時に作成。
オリジナルソングをまるごと生成。歌詞を自分で書いてメロディに載せることも可能。
楽曲のアイデア出しや方向性の確認を素早く検証。アレンジの比較検討にも最適。
Gemini内蔵の手軽さ: 追加のサインアップ不要。Geminiの会話画面から直接「音楽を作って」と依頼するだけで楽曲を生成。
Google品質: DeepMindが開発したLyriaモデルのv3。楽曲のクオリティが大幅に向上。
注意点: Sunoほど細かいパラメータ制御(歌詞入力や歌声指定)はまだ限定的。BGMや効果音の生成向き。
✅ 歌詞付き楽曲を作りたい
✅ ジャンル・テンポを細かく指定
✅ リミックスやExtend機能を使いたい
✅ プロ品質の楽曲が必要
✅ 手軽にBGMを作りたい
✅ Geminiの会話の流れで生成
✅ 追加アカウント不要で気軽に
✅ Googleエコシステムに統一
前半の学習チェックリスト
Sunoの基本機能と活用シーンを理解する。
Lyria 3の特徴とSunoとの使い分けを把握する。
音楽生成のプロンプト構造を理解し、自分なりのプロンプトを作成する。
「読む」→「演じる」への進化: 従来の棒読みTTSとは次元が違う。文脈を理解し、感情を込めて「演じる」音声合成を実現。
完全無料: Google AI Studio上で無料利用可能。Gemini 2.5 Proの最新モデルで高品質な日本語音声を生成。
冒頭の声、全部AI: 動画冒頭のナレーションはすべてAI生成。言われなければAIだと気づかないレベル。
最新のv3モデルにより、日本語の自然さが劇的に向上。抑揚、アクセント、イントネーションすべてにおいて人間に限りなく近い品質を実現しています。
自分の声をアップロードして、AIに学習させることが可能。一度クローンすれば、どんなテキストでも自分の声で読み上げてくれます。ナレーション動画の量産に最適。
29言語以上に対応。1つの声で複数言語を自然に話せるクロスリンガル機能も。グローバルコンテンツ制作に威力を発揮します。
強力なAPIでアプリケーションに音声合成を組み込み可能。Webアプリ、チャットボット、ゲームなど様々なプロダクトに統合できます。
原稿を入力するだけでプロ品質のポッドキャストを自動生成。複数の声を使い分けも可能。
ゲームやアニメのキャラクターごとに異なる声を設定。感情の使い分けも自在。
1つの動画を複数言語に展開。元の声質を維持したまま、他言語に吹き替え可能。
マニュアル動画、教育コンテンツ、YouTube動画のナレーションを効率的に生成。
サウンドタグ: 笑い声、ため息、咳などの効果音を<laugh>のようなタグで挿入可能。音声に豊かな表現力を付加。
間の制御: 文中の任意の位置にポーズを挿入し、より自然で聞きやすいスピーチを実現。
2つのモデル: HD(高品質・低速)とTurbo(高速・リアルタイム向け)を用途に応じて使い分け。
💰 無料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ×
🔌 API ◎
💰 基本無料 / 有料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ◎
🔌 API ◎
💰 基本無料
🇯🇵 日本語 ○
😊 感情 ◎
🎭 Voice Clone ○
🔌 API ○
後半の学習チェックリスト
Gemini TTSの「演じる」音声合成の仕組みを理解する。
ElevenLabsのVoice Cloningと多言語対応を把握する。
MiniMax Audioのサウンドタグと感情制御を試す。