DAY 06

AI音楽・音声生成とプロンプト技術

本日の目標：テキストから音楽・音声への変換技術の基礎をマスターする。
AI音楽生成ツール（Suno / Lyria 3）と音声合成ツール（Gemini TTS / ElevenLabs / MiniMax）を学びます。

本日の研修ねらい

テキストベースのサウンドディレクターになる

本日の研修は、「テキストから音楽・音声への変換技術の基礎」です。

前半はAI音楽生成を学びます。世界No.1の音楽生成AI「Suno」と、Geminiに搭載された「Lyria 3」を使い、テキストだけで本格的な楽曲を作る方法を習得します。
後半はAI音声合成（TTS）を学びます。Geminiの革命的な音声AI、超流暢な日本語のElevenLabs、感情表現に優れたMiniMax Audioを比較しながら、最適なツール選びとプロンプト設計を身につけましょう！

主催者からのお知らせ

Google AI Studioの音声生成機能の名前が変更されました。
旧名称: Turn text into audio with Gemini
新名称: Text to Speech (TTS)

受講生コラム：バイブコーディングによるニュース動画制作

受講生の方から完成度の高いまとめが共有されました！バイブコーディングを用いた動画編集の実践例です。ぜひ参考にしてみてください。

Canvaで資料を見る

前半：AI音楽生成の世界

動画①：No.1音楽生成AI『Suno』の魅力を徹底解説

世界No.1の音楽生成AI「Suno」について詳しく解説。プロンプト入力だけで本格的な音楽を生成でき、バージョン5で品質が大幅に向上しています。

Sunoの主な特徴

Sunoはテキストプロンプトだけで歌詞付きの楽曲を丸ごと生成できるAI。ジャンル・楽器・歌声・テンポまで自在に指定可能で、BGM制作からSNS用ジングルまで幅広く活用できます。

Sunoの活用シーン

BGM制作

動画・ポッドキャスト・プレゼンのBGMをプロンプト一発で生成。著作権フリーで安心。

SNS用ジングル

TikTokやInstagramリール用の短い楽曲を量産。ブランドに合ったサウンドを瞬時に作成。

歌詞付き楽曲

オリジナルソングをまるごと生成。歌詞を自分で書いてメロディに載せることも可能。

プロトタイピング

楽曲のアイデア出しや方向性の確認を素早く検証。アレンジの比較検討にも最適。

🎵 Sunoプロンプト例

ジャンル: Lo-fi Hip Hop 楽器: ピアノ, アコースティックギター, ドラムマシンムード: 落ち着いた, ノスタルジック, 温かいテンポ: 80 BPM 歌詞: なし（インストゥルメンタル）用途: 深夜の作業用BGM

🎤 歌詞付きプロンプト例

ジャンル: J-Pop, シティポップムード: 爽やか, 夏の朝テンポ: 120 BPM 歌声: 女性ボーカル, 透明感のある声歌詞: [Verse] 朝焼けの光が窓から差し込んで新しい一日が始まる予感 [Chorus] 走り出そう風を切ってこの街が教えてくれた melody

動画②：Gemini「Lyria 3」音楽生成を徹底検証

GeminiにAI音楽生成機能「Lyria 3」が追加。Google純正ならではの手軽さと品質を検証します。

Lyria 3の特徴

Gemini内蔵の手軽さ: 追加のサインアップ不要。Geminiの会話画面から直接「音楽を作って」と依頼するだけで楽曲を生成。

Google品質: DeepMindが開発したLyriaモデルのv3。楽曲のクオリティが大幅に向上。

注意点: Sunoほど細かいパラメータ制御（歌詞入力や歌声指定）はまだ限定的。BGMや効果音の生成向き。

Suno vs Lyria 3 どう選ぶ？

🎵 Suno がおすすめ

✅ 歌詞付き楽曲を作りたい
✅ ジャンル・テンポを細かく指定
✅ リミックスやExtend機能を使いたい
✅ プロ品質の楽曲が必要

🎶 Lyria 3 がおすすめ

✅ 手軽にBGMを作りたい
✅ Geminiの会話の流れで生成
✅ 追加アカウント不要で気軽に
✅ Googleエコシステムに統一

AI音楽生成のプロンプト構造

🎸 ジャンル
Pop / Jazz / Lo-fi

＋

🎹 楽器
Piano / Guitar

＋

💫 ムード
Happy / Calm

↓

⏱ テンポ
BPM指定

＋

🎤 歌声
男女 / 年齢

→

🎵 楽曲生成

Q1 AI音楽生成で「歌詞付き楽曲」を最も得意とするツールは？

A. Gemini Lyria 3

B. MiniMax Audio

C. Suno

💡 解説：Sunoは歌詞入力・歌声指定・ジャンル制御など、楽曲生成に特化した機能が最も充実しています。Lyria 3はBGM向きで、MiniMax Audioは音声合成（TTS）ツールです。

MILESTONE 1：音楽生成の基礎

前半の学習チェックリスト

動画①の確認

Sunoの基本機能と活用シーンを理解する。
動画②の確認

Lyria 3の特徴とSunoとの使い分けを把握する。
プロンプト設計メモ（実習）

音楽生成のプロンプト構造を理解し、自分なりのプロンプトを作成する。

後半：AI音声合成（TTS）の実践

動画③：Gemini音声AI完全攻略 — 「読む」から「演じる」へ

Gemini 2.5 Pro TTSの特徴から実際の使い方まで。緊張した声、冷たい声、覚悟を決めた声——感情豊かな音声をAIが「演じる」時代へ。

Gemini TTSの革新ポイント

「読む」→「演じる」への進化: 従来の棒読みTTSとは次元が違う。文脈を理解し、感情を込めて「演じる」音声合成を実現。

完全無料: Google AI Studio上で無料利用可能。Gemini 2.5 Proの最新モデルで高品質な日本語音声を生成。

冒頭の声、全部AI: 動画冒頭のナレーションはすべてAI生成。言われなければAIだと気づかないレベル。

TTS音声パラメータ（タップで裏面を確認）

声のトーン

暖かい / 冷たい / 落ち着いた / 力強いなど。プロンプトで「落ち着いたニュースキャスターのように」と指定。

話速

ゆっくり / 普通 / 速めを指定可能。「間を取りながらゆっくり読んで」のような自然言語で制御。

感情表現

喜び / 悲しみ / 怒り / 驚きなど。Gemini TTSは文脈から自動で感情を推定する能力もあり。

間（ポーズ）

句読点や改行で間を制御。「ここで2秒の間をとって」と指示すると、自然なポーズを挿入。

🎙️ Gemini TTS プロンプト例

以下のテキストを、落ち着いた声のニュースキャスターのトーンで読み上げてください。句読点のところでは自然な間を入れ、重要なキーワードは少しゆっくり強調して。「2026年、生成AIの進化は私たちの働き方を根本から変えようとしています。特に注目すべきは、テキストから音声・音楽を生成する技術の飛躍的な向上です。」

動画④：ElevenLabs完全ガイド — 超流暢な日本語AI

圧倒的クオリティの音声生成AI「ElevenLabs」。最新モデルv3の日本語は、言われなければAIだと気づかないほど流暢です。

超流暢な日本語品質

最新のv3モデルにより、日本語の自然さが劇的に向上。抑揚、アクセント、イントネーションすべてにおいて人間に限りなく近い品質を実現しています。

Voice Cloning（声のクローン）

自分の声をアップロードして、AIに学習させることが可能。一度クローンすれば、どんなテキストでも自分の声で読み上げてくれます。ナレーション動画の量産に最適。

多言語対応

29言語以上に対応。1つの声で複数言語を自然に話せるクロスリンガル機能も。グローバルコンテンツ制作に威力を発揮します。

API連携

強力なAPIでアプリケーションに音声合成を組み込み可能。Webアプリ、チャットボット、ゲームなど様々なプロダクトに統合できます。

ElevenLabsの活用シーン

ポッドキャスト

原稿を入力するだけでプロ品質のポッドキャストを自動生成。複数の声を使い分けも可能。

キャラクターボイス

ゲームやアニメのキャラクターごとに異なる声を設定。感情の使い分けも自在。

多言語展開

1つの動画を複数言語に展開。元の声質を維持したまま、他言語に吹き替え可能。

ナレーション

マニュアル動画、教育コンテンツ、YouTube動画のナレーションを効率的に生成。

動画⑤：MiniMax Audio「Speech 2.8」感情表現が劇的向上

サウンドタグと間の制御が追加され、感情表現が劇的に進化。HDモデルとTurboモデルを用途に応じて選択可能。

Speech 2.8の進化ポイント

サウンドタグ: 笑い声、ため息、咳などの効果音を<laugh>のようなタグで挿入可能。音声に豊かな表現力を付加。

間の制御: 文中の任意の位置にポーズを挿入し、より自然で聞きやすいスピーチを実現。

2つのモデル: HD（高品質・低速）とTurbo（高速・リアルタイム向け）を用途に応じて使い分け。

TTS 3ツール徹底比較

Gemini TTS

💰 無料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ×
🔌 API ◎

ElevenLabs

💰 基本無料 / 有料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ◎
🔌 API ◎

MiniMax

MiniMax Audio

💰 基本無料
🇯🇵 日本語 ○
😊 感情 ◎
🎭 Voice Clone ○
🔌 API ○

Q2 「Voice Cloning（声のクローン）」機能が最も充実しているツールは？

A. Gemini TTS

B. ElevenLabs

C. MiniMax Audio

💡 解説：ElevenLabsはVoice Cloningのパイオニアで、わずか数分の音声サンプルから高品質なクローンボイスを生成できます。ナレーション動画の量産や、自分の声での多言語展開に最適です。

Q3 Google AI StudioのTTS機能、以前の名称は？

A. Turn text into audio with Gemini

B. Gemini Voice Lab

C. Audio Generator

💡 解説：Google AI StudioのTTS機能は、以前「Turn text into audio with Gemini」という名称でしたが、現在は「Text to Speech（TTS）」にリニューアルされています。

MILESTONE 2：音声合成の実践

後半の学習チェックリスト

動画③の確認

Gemini TTSの「演じる」音声合成の仕組みを理解する。
動画④の確認

ElevenLabsのVoice Cloningと多言語対応を把握する。
動画⑤の確認

MiniMax Audioのサウンドタグと感情制御を試す。

DAY 6 COMPLETE!

AI音楽生成＆音声合成の基礎をマスターしました

6日間の学びの軌跡

Day 1

AIの基本と対話術

Day 2

データ分析・業務効率化

Day 3

創造的ディレクション

Day 4

画像生成の極意

Day 5

動画生成と3D連携

Day 6

音楽・音声生成

課題提出のご案内

プロンプトを中心に作成した動画作品を3本以上作成し、Padletで提出しましょう。
📋 課題提出用Padletを開く

Keep Going!

テキスト→画像→動画→音楽・音声と、プロンプトで制御できるメディアの幅が一気に広がりました。
これらを組み合わせることで、あなたのクリエイティブの可能性は無限大です！

AI音楽・音声生成とプロンプト技術

本日の研修ねらい

テキストベースのサウンドディレクターになる

主催者からのお知らせ

受講生コラム：バイブコーディングによるニュース動画制作

前半：AI音楽生成の世界

動画①：No.1音楽生成AI『Suno』の魅力を徹底解説

Sunoの主な特徴

Sunoの活用シーン

BGM制作

SNS用ジングル

歌詞付き楽曲

プロトタイピング

動画②：Gemini「Lyria 3」音楽生成を徹底検証

🎵 Suno がおすすめ

🎶 Lyria 3 がおすすめ

AI音楽生成のプロンプト構造

MILESTONE 1：音楽生成の基礎

動画①の確認

動画②の確認

プロンプト設計メモ（実習）

後半：AI音声合成（TTS）の実践

動画③：Gemini音声AI完全攻略 — 「読む」から「演じる」へ

Gemini TTSの革新ポイント

TTS音声パラメータ（タップで裏面を確認）

声のトーン

話速

感情表現

間（ポーズ）

動画④：ElevenLabs完全ガイド — 超流暢な日本語AI

ElevenLabsの活用シーン

ポッドキャスト

キャラクターボイス

多言語展開

ナレーション

動画⑤：MiniMax Audio「Speech 2.8」感情表現が劇的向上

Speech 2.8の進化ポイント

TTS 3ツール徹底比較

Gemini TTS

ElevenLabs

MiniMax Audio

関連ツールリンク集

Google AI Studio

ElevenLabs

MiniMax Audio

HeyGen

Google Whisk

Hailuo AI

MILESTONE 2：音声合成の実践

動画③の確認

動画④の確認

動画⑤の確認

DAY 6 COMPLETE!

6日間の学びの軌跡

AIの基本と対話術

データ分析・業務効率化

創造的ディレクション

画像生成の極意

動画生成と3D連携

音楽・音声生成

課題提出のご案内

Keep Going!