Course Home
Day 6 Progress0%
DAY 06

AI音楽・音声生成とプロンプト技術

本日の目標:テキストから音楽・音声への変換技術の基礎をマスターする。
AI音楽生成ツール(Suno / Lyria 3)と音声合成ツール(Gemini TTS / ElevenLabs / MiniMax)を学びます。

本日の研修ねらい

テキストベースのサウンドディレクターになる

本日の研修は、「テキストから音楽・音声への変換技術の基礎」です。

前半はAI音楽生成を学びます。世界No.1の音楽生成AI「Suno」と、Geminiに搭載された「Lyria 3」を使い、テキストだけで本格的な楽曲を作る方法を習得します。
後半はAI音声合成(TTS)を学びます。Geminiの革命的な音声AI、超流暢な日本語のElevenLabs、感情表現に優れたMiniMax Audioを比較しながら、最適なツール選びとプロンプト設計を身につけましょう!

主催者からのお知らせ

Google AI Studioの音声生成機能の名前が変更されました。
旧名称: Turn text into audio with Gemini
新名称: Text to Speech (TTS)

受講生コラム:バイブコーディングによるニュース動画制作

受講生の方から完成度の高いまとめが共有されました!バイブコーディングを用いた動画編集の実践例です。ぜひ参考にしてみてください。

Canvaで資料を見る

前半:AI音楽生成の世界

動画①:No.1音楽生成AI『Suno』の魅力を徹底解説

世界No.1の音楽生成AI「Suno」について詳しく解説。プロンプト入力だけで本格的な音楽を生成でき、バージョン5で品質が大幅に向上しています。

Sunoの主な特徴

Sunoはテキストプロンプトだけで歌詞付きの楽曲を丸ごと生成できるAI。ジャンル・楽器・歌声・テンポまで自在に指定可能で、BGM制作からSNS用ジングルまで幅広く活用できます。

Sunoの活用シーン

BGM制作

動画・ポッドキャスト・プレゼンのBGMをプロンプト一発で生成。著作権フリーで安心。

SNS用ジングル

TikTokやInstagramリール用の短い楽曲を量産。ブランドに合ったサウンドを瞬時に作成。

歌詞付き楽曲

オリジナルソングをまるごと生成。歌詞を自分で書いてメロディに載せることも可能。

プロトタイピング

楽曲のアイデア出しや方向性の確認を素早く検証。アレンジの比較検討にも最適。

🎵 Sunoプロンプト例
ジャンル: Lo-fi Hip Hop 楽器: ピアノ, アコースティックギター, ドラムマシン ムード: 落ち着いた, ノスタルジック, 温かい テンポ: 80 BPM 歌詞: なし(インストゥルメンタル) 用途: 深夜の作業用BGM
🎤 歌詞付きプロンプト例
ジャンル: J-Pop, シティポップ ムード: 爽やか, 夏の朝 テンポ: 120 BPM 歌声: 女性ボーカル, 透明感のある声 歌詞: [Verse] 朝焼けの光が 窓から差し込んで 新しい一日が 始まる予感 [Chorus] 走り出そう 風を切って この街が教えてくれた melody

動画②:Gemini「Lyria 3」音楽生成を徹底検証

GeminiにAI音楽生成機能「Lyria 3」が追加。Google純正ならではの手軽さと品質を検証します。

Lyria 3の特徴

Gemini内蔵の手軽さ: 追加のサインアップ不要。Geminiの会話画面から直接「音楽を作って」と依頼するだけで楽曲を生成。

Google品質: DeepMindが開発したLyriaモデルのv3。楽曲のクオリティが大幅に向上。

注意点: Sunoほど細かいパラメータ制御(歌詞入力や歌声指定)はまだ限定的。BGMや効果音の生成向き。

Suno vs Lyria 3 どう選ぶ?

🎵 Suno がおすすめ

✅ 歌詞付き楽曲を作りたい
✅ ジャンル・テンポを細かく指定
✅ リミックスやExtend機能を使いたい
✅ プロ品質の楽曲が必要

🎶 Lyria 3 がおすすめ

✅ 手軽にBGMを作りたい
✅ Geminiの会話の流れで生成
✅ 追加アカウント不要で気軽に
✅ Googleエコシステムに統一

AI音楽生成のプロンプト構造

🎸 ジャンル
Pop / Jazz / Lo-fi
🎹 楽器
Piano / Guitar
💫 ムード
Happy / Calm
⏱ テンポ
BPM指定
🎤 歌声
男女 / 年齢
🎵 楽曲生成
Q1 AI音楽生成で「歌詞付き楽曲」を最も得意とするツールは?
A. Gemini Lyria 3
B. MiniMax Audio
C. Suno
💡 解説:Sunoは歌詞入力・歌声指定・ジャンル制御など、楽曲生成に特化した機能が最も充実しています。Lyria 3はBGM向きで、MiniMax Audioは音声合成(TTS)ツールです。

MILESTONE 1:音楽生成の基礎

前半の学習チェックリスト

  • 動画①の確認

    Sunoの基本機能と活用シーンを理解する。

  • 動画②の確認

    Lyria 3の特徴とSunoとの使い分けを把握する。

  • プロンプト設計メモ(実習)

    音楽生成のプロンプト構造を理解し、自分なりのプロンプトを作成する。

後半:AI音声合成(TTS)の実践

動画③:Gemini音声AI完全攻略 — 「読む」から「演じる」へ

Gemini 2.5 Pro TTSの特徴から実際の使い方まで。緊張した声、冷たい声、覚悟を決めた声——感情豊かな音声をAIが「演じる」時代へ。

Gemini TTSの革新ポイント

「読む」→「演じる」への進化: 従来の棒読みTTSとは次元が違う。文脈を理解し、感情を込めて「演じる」音声合成を実現。

完全無料: Google AI Studio上で無料利用可能。Gemini 2.5 Proの最新モデルで高品質な日本語音声を生成。

冒頭の声、全部AI: 動画冒頭のナレーションはすべてAI生成。言われなければAIだと気づかないレベル。

TTS音声パラメータ(タップで裏面を確認)

声のトーン

暖かい / 冷たい / 落ち着いた / 力強いなど。プロンプトで「落ち着いたニュースキャスターのように」と指定。

話速

ゆっくり / 普通 / 速めを指定可能。「間を取りながらゆっくり読んで」のような自然言語で制御。

感情表現

喜び / 悲しみ / 怒り / 驚きなど。Gemini TTSは文脈から自動で感情を推定する能力もあり。

間(ポーズ)

句読点や改行で間を制御。「ここで2秒の間をとって」と指示すると、自然なポーズを挿入。
🎙️ Gemini TTS プロンプト例
以下のテキストを、落ち着いた声のニュースキャスターのトーンで読み上げてください。 句読点のところでは自然な間を入れ、重要なキーワードは少しゆっくり強調して。 「2026年、生成AIの進化は私たちの働き方を根本から変えようとしています。 特に注目すべきは、テキストから音声・音楽を生成する技術の飛躍的な向上です。」

動画④:ElevenLabs完全ガイド — 超流暢な日本語AI

圧倒的クオリティの音声生成AI「ElevenLabs」。最新モデルv3の日本語は、言われなければAIだと気づかないほど流暢です。

超流暢な日本語品質

最新のv3モデルにより、日本語の自然さが劇的に向上。抑揚、アクセント、イントネーションすべてにおいて人間に限りなく近い品質を実現しています。

Voice Cloning(声のクローン)

自分の声をアップロードして、AIに学習させることが可能。一度クローンすれば、どんなテキストでも自分の声で読み上げてくれます。ナレーション動画の量産に最適。

多言語対応

29言語以上に対応。1つの声で複数言語を自然に話せるクロスリンガル機能も。グローバルコンテンツ制作に威力を発揮します。

API連携

強力なAPIでアプリケーションに音声合成を組み込み可能。Webアプリ、チャットボット、ゲームなど様々なプロダクトに統合できます。

ElevenLabsの活用シーン

ポッドキャスト

原稿を入力するだけでプロ品質のポッドキャストを自動生成。複数の声を使い分けも可能。

キャラクターボイス

ゲームやアニメのキャラクターごとに異なる声を設定。感情の使い分けも自在。

多言語展開

1つの動画を複数言語に展開。元の声質を維持したまま、他言語に吹き替え可能。

ナレーション

マニュアル動画、教育コンテンツ、YouTube動画のナレーションを効率的に生成。

動画⑤:MiniMax Audio「Speech 2.8」感情表現が劇的向上

サウンドタグ間の制御が追加され、感情表現が劇的に進化。HDモデルとTurboモデルを用途に応じて選択可能。

Speech 2.8の進化ポイント

サウンドタグ: 笑い声、ため息、咳などの効果音を<laugh>のようなタグで挿入可能。音声に豊かな表現力を付加。

間の制御: 文中の任意の位置にポーズを挿入し、より自然で聞きやすいスピーチを実現。

2つのモデル: HD(高品質・低速)とTurbo(高速・リアルタイム向け)を用途に応じて使い分け。

TTS 3ツール徹底比較

Gemini TTS

Gemini TTS

💰 無料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ×
🔌 API ◎

ElevenLabs

ElevenLabs

💰 基本無料 / 有料
🇯🇵 日本語 ◎
😊 感情 ◎
🎭 Voice Clone ◎
🔌 API ◎

MiniMax

MiniMax Audio

💰 基本無料
🇯🇵 日本語 ○
😊 感情 ◎
🎭 Voice Clone ○
🔌 API ○

Q2 「Voice Cloning(声のクローン)」機能が最も充実しているツールは?
A. Gemini TTS
B. ElevenLabs
C. MiniMax Audio
💡 解説:ElevenLabsはVoice Cloningのパイオニアで、わずか数分の音声サンプルから高品質なクローンボイスを生成できます。ナレーション動画の量産や、自分の声での多言語展開に最適です。
Q3 Google AI StudioのTTS機能、以前の名称は?
A. Turn text into audio with Gemini
B. Gemini Voice Lab
C. Audio Generator
💡 解説:Google AI StudioのTTS機能は、以前「Turn text into audio with Gemini」という名称でしたが、現在は「Text to Speech(TTS)」にリニューアルされています。

関連ツールリンク集

Google AI Studio

TTS / Lyria 3など

無料で開く

ElevenLabs

招待リンク(無料枠あり)

招待リンクで登録

MiniMax Audio

Speech & Music生成

サイトを開く

HeyGen

リップシンク動画(月3本/3分)

サイトを開く

Google Whisk

画像生成(2026/4/30まで無料)

サイトを開く

Hailuo AI

MiniMax社の動画生成AI

サイトを開く

MILESTONE 2:音声合成の実践

後半の学習チェックリスト

  • 動画③の確認

    Gemini TTSの「演じる」音声合成の仕組みを理解する。

  • 動画④の確認

    ElevenLabsのVoice Cloningと多言語対応を把握する。

  • 動画⑤の確認

    MiniMax Audioのサウンドタグと感情制御を試す。

DAY 6 COMPLETE!

AI音楽生成&音声合成の基礎をマスターしました

6日間の学びの軌跡

Day 1

AIの基本と対話術

Day 2

データ分析・業務効率化

Day 3

創造的ディレクション

Day 4

画像生成の極意

Day 5

動画生成と3D連携

Day 6

音楽・音声生成

課題提出のご案内

プロンプトを中心に作成した動画作品を3本以上作成し、Padletで提出しましょう。
📋 課題提出用Padletを開く

Keep Going!

テキスト→画像→動画→音楽・音声と、プロンプトで制御できるメディアの幅が一気に広がりました。
これらを組み合わせることで、あなたのクリエイティブの可能性は無限大です!