COLUMN
コラム
054-286-3161 平日 9:00 ~ 18:00
(土・日・祝日を除く)
COLUMN
コラム
2025年6月23日
「AIだけでCMが作れる時代が来た」
そんな言葉が聞こえてくるようになり、様々な動画生成AIが登場してきて久しいですが、現段階では、まだまだ完全に生成AIでCMを作るという試みには風当たりが厳しい部分もあると感じています。
けれど生成AIの進歩はすさまじく、今後はどんどんCMに生成AIを取り入れる企業が増え、生成AIを編集に取り入れるのが当たり前になる、そんな未来はもう現実になりつつあると感じています。
今回、私たちは生成AIに触れたことが無い段階から、ChatGPT、Sora、VOICEVOX、Adobe Premiere Proの生成機能など複数のAIツールを組み合わせ、生成AI制作による企業CMを1週間で完成させる試みを行いました。
脚本から映像生成、ナレーション、編集に至るまで、一部を除きほぼすべての工程でAIの力を借りて構成したCMです。
今回の挑戦は、
「AIって実際どこまで使えるの?」
「使ってみたけど、思い通りにならなかった…」
そんな疑問や経験を持つ方にも、きっとヒントになるはずです。
本記事では、実際にAIツールを活用してCM制作を行ったプロセスと、各ツールで得られた知見、今後の活用の可能性までをリアルな経験ベースで詳細にご紹介します。
目次
今回のAIによる映像制作の第一歩は、「AIを使ってどんなCMをつくるのか」「何をどう描きたいのか」を明確に言語化することから始まりました。
そこで企画の段階からChatGPTと一緒に考えることにしました。
今の弊社の状況やAIの現状など、様々な前提条件をChatGPTに指定し、その後、実際に今現状のスキルや状況を考慮して自社CMを制作する上で、企画の主軸に据えたのは「鷹」を主人公にする案でした。
現状のAI生成では人物の描写に不自然さが残ったり、同じ人物を数カットにわたって描くことが難しいことも多いため、今回はあえて静岡を象徴する富士山とも縁の深い“鷹”を主人公とし、「新しい時代に大きく羽ばたく」未来の象徴として描きました。
そして、その案をもとに映像を生成していくことにしました。
SoraやRunwayなどの生成AIは、与えられた“プロンプト(テキスト指示)”をもとに映像を生成しますが、このプロンプトの質が、完成映像の質を大きく左右します。
とはいえ、いきなり「映像のプロンプトを書いてください」と言われても、私たちもどういうプロンプトであれば、思い通りに近い動画が生成されるのかという経験がありません。
そこでChatGPTが大いに活躍してくれました。
今回の制作では、AIの事はAIに聞こうという事で、動画生成に「Sora」を使用するということもあり、同じOpenAIが提供している「ChatGPT」にプロンプトを考えてもらう事にしました。
「鷹」「未来へ羽ばたく」「静岡にある会社を象徴するような映像」といった漠然としたイメージやニュアンスを伝えるだけで、ChatGPTはそれをベースに生成AIが理解しやすい形式のプロンプトを作成してくれました。
🔴ユーザー:Soraを使って、「鷹」「未来へ羽ばたく」「静岡にある会社を象徴するような映像」というキーワードで動画を作りたいからプロンプトを考えてください。
🔵 ChatGPT:A majestic hawk soaring gracefully across the sky, captured from a wide-angle cinematic view with Mount Fuji in the distant background. The scene is high-resolution, photorealistic, using natural lighting with soft shadows. The composition evokes a sense of silent power and timeless beauty, symbolizing a leap into a new era. The atmosphere is clear, with light wind stirring feathers mid-flight. Slow, elegant camera movement, 16:9 aspect ratio, seamless horizon blending sky and earth.(雄大な鷹が優雅に空を舞う姿を、広角のシネマティックな視点で捉えたシーン。遠景には富士山が映り込み、自然光と柔らかな影を活かした高解像度かつフォトリアルな描写となっている。構図は静かな力強さと時を超えた美しさを感じさせ、新たな時代への飛躍を象徴する。澄み切った空気の中、羽をかすかに揺らす風が漂い、ゆったりとしたエレガントなカメラワークで16:9の画角に収められている。空と大地が自然に溶け合う、シームレスな地平線も印象的な演出となっている。)
ChatGPTによって、プロンプトには以下のような要素が組み込まれました:
・鷹が空を舞うシーン
・富士山を遠景に捉えた構図
・高解像度/シネマティック/自然光などの描写スタイル
・「リアル感」「新時代への飛躍」といった抽象的な演出
ChatGPTは、こうした言葉になりづらい感覚や演出意図を肉付けし、AI向けに翻訳する役割を果たしてくれます。
今回、人物を主人公にしなかったのは、現段階の生成AIでは、手や指の描写、人物の動きに不自然さが残るリスクが高いと判断したためです。
指が6本あったり、腕や体の動きに違和感があったり、同じ人物を複数カットに渡って登場させるのは現時点では難しかったりと、全てAIで創る上でのハードルと感じました。
そこで着目したのが「鷹」。
鷹は縁起物として古くから親しまれ、“一富士二鷹三茄子”のことわざでも知られる通り、富士山との親和性も高く、静岡の象徴とするには最適なモチーフでした。
さらに、「大きく羽ばたく」「新たな時代に飛び立つ」という企業メッセージと重ね合わせることで、意味のあるビジュアル演出にもなりました。
先ほどのプロンプトで生成した時にも、実は1回で理想の映像が出るわけではありませんでした。
「この構図はいいけど、もう少しカメラを引きたい」
「途中で鷹が2羽に増えてるから1羽にしたい」
「羽の動きに違和感があるから改善してほしい」
といった微調整のフィードバックをChatGPTに返し、Soraでの動画生成をしながら、何度もブラッシュアップしていきました。ブラッシュアップをしていく内に、これまでの会話で必要だった要素を覚えていき、最終的に納得のいく映像が生成されました。
「映像生成AIが理解しやすいプロンプト言語」になるように、色々と肉付けして、改善点を伝えればすぐに新しい案を考え、さらに改善点は次の映像を作成する際にも反映されている点には驚きました。
ChatGPTで整えたプロンプトを生成AI「Sora」に入力して、映像生成をしました。
ここが、言葉が映像として立ち上がる“一番ワクワクする瞬間”。
とはいえ、いくつかの工夫と割り切りも必要でした。
Soraで生成された映像の第一印象は、「想像以上にリアルで美しい」という一言に尽きます。
今回のテーマである「鷹と富士山」のような自然風景やドローン視点の動きは、実写と錯覚するほどのクオリティでした。(ただし、実際に撮影しようと思ったらかなり難しいレベルの映像でCGで制作する必要があるようなもの)
特に、以下のような要素に対してSoraは強さを発揮しました。
・光の演出(夕暮れ・逆光・雲の抜け方などの描写)
・ダイナミックなカメラワーク(パン・ズーム・俯瞰)
・シネマティックな構図の自動生成
そのまま企業CMに使えるレベルのリアルな映像を、わずか数分で得られると感じたことが一番の驚きでした。
ただし、人物ではなく“鷹”を選んだ理由でもお伝えしましたが、やはりAI生成特有の「破綻」も少なくありませんでした。
たとえば:
・鷹の翼が3枚になってしまう
・羽ばたく動きが物理的に不自然(ありえない方向に折れたり、硬直したり)
・頭部が途中で消える/テクスチャがぐにゃりと崩れる
こうした問題のあるカットは、Premiere Proの編集で排除し、必要な部分だけを切り出して使用しました。
また、今回、より自由度を高めるために、「背景」と「鷹」を別々に生成して合成するというアプローチも試みました。
この際に、鷹の背景をグリーンバックで生成しようとしましたが、
Soraではグリーンの背景と指定すると背景のグリーン部分はグラデーションがかかったものが生成されました。その為、綺麗な切り抜きが難しいという結論に至りました。
グリーンバックのある素材を生成する際の注意としては:
・単色のグリーンバックではなく、微妙なグラデーションが発生しやすい
・被写体と背景の境界が曖昧になり、クロマキー処理が難航する
結果として、完璧な切り抜き合成は断念し、Premiereのキーイングの設定で調整しごまかして合成しました。
Soraで生成される映像は、現状5秒~20秒単位が基本(プランにより尺が変わる)。
そのため、映像全体の流れを作るには、複数の短尺カットをつなぎ合わせる必要があります。
また、一部のカットは、Adobe Premiere Proの「生成拡張」機能を使用して引き延ばしました。
・2秒以上の素材であれば最大5秒の引き延ばしが可能
・フレーム補間によって違和感なく映像を伸ばせる
・ただし、動きが複雑なカットでは不自然さが出ることも
この工程を通じて、「AIが生成した“核となる映像”」を人の手で補完・演出する編集フェーズの重要性を再認識しました。
Soraの登場によって、「想像を即座に映像化する」ことは本当に可能になったと感じました。
しかしその一方で、現段階では思い通りにならないカットもあり、完成映像には必ず“人の編集の手”が必要でした。
それでも、
「構想 → プロンプト作成 → 映像生成」までが1日以内に完了する、
この圧倒的なスピード感は、今後、映像制作の在り方を根本から変えていくと感じました。
今回は、無料で使える日本発のオープンソースAI音声合成ソフト「VOICEVOX(ボイスボックス)」を使い、ナレーション音声を作成しました。
VOICEVOXは、誰でも無料で使える音声合成ツールです。
特徴としては
・無料で20種類以上の音声キャラクターが利用可能
・セリフごとのイントネーション・話速・音高の微調整が可能
・商用利用もOK(クレジット表記や利用規約は確認必須)
VOICEVOXの音声は、いわゆるプロのナレーター風とは少し異なり、アニメっぽさやキャラの個性が強め。
しかしこれは一長一短で、映像の世界観に合わせて“色を持った声”を選べる自由度が高いとも言えます。
今回は、女性と男性の声を組み合わせて使用しました。
理由は、セリフによって聞き取りにくさの出方が違い、それぞれの“得意な音域”を活かして調整しようと考えたためです。
・情緒的・語りかけるようなパート → 女性声
・キーの高い音が聞き取りにくい箇所 → 男性声で補完
・逆に男性の声の聞き取りにくい箇所 → 2人で喋るように変更
といったように、シーンごとの聞きやすさを優先して“いいとこ取り”の分担を行いました。
VOICEVOXでは、以下の要素を簡単に操作できます:
・ピッチ(高さ)
・スピード(話す速さ)
・ボリューム
・イントネーションの山/谷を手動で編集できる
特に効果的だったのは、「句読点ごとのリズム調整」。
たとえば、
「アイデアは、描けない」を超えていく。」
というセリフも、「、」の後の間の取り方ひとつで、印象が大きく変わりました。
映像は、もっと自由でいい。 想像の、さらに先へ。 アイデアは、「描けない」を超えていく。 思い描いた世界が鮮やかに動き出す。 静岡テレビセンター
こうした短いセンテンスを、テンポよく聞き取りやすく届けるための音声分けとイントネーション調整が鍵でした。
今回の試みで得た気づきは、ナレーションソフトを使う事で、手軽さや金額面での優位さはあるが、CMなどの映像においては、まだまだプロのナレーターの方が勝るという事でした。
少しでもイントネーションの違和感があると内容が入って来ないのがCMです。
今回は、2つの声を重ねることで、聞き取りにくい部分を人の手で修正し、最終的には、人の感覚でなんとか「伝わる声」に仕上げました。
ナレーションは単なる音ではなく、映像の印象やメッセージの届き方を左右する大切な要素です。
今回の試みを通して実感したのは、AIナレーションを使えば手軽かつ低コストでナレーションを入れられるという利点がある一方で、CMごとに伝えたいニュアンスや感情の機微を表現するには、やはりプロのナレーターの力が欠かせないということです。
技術がどれだけ進歩しても、「どう伝えたいか」を丁寧に考えた上で、ナレーションの手法を選ぶ必要があると改めて感じました。
映像作品において、BGMは“感情”や“雰囲気”を演出する重要な要素です。
視覚的なインパクトが強いAI生成映像に、どんな音を載せるか——
それだけで作品の印象はまるで変わってきます。
今回は、商用BGMサブスクリプションサービス「Audiostock(オーディオストック)」を使って楽曲を選定しました。
今回BGM選定に使用したのは、日本最大級の商用BGMサブスクリプションサービス「Audiostock」。
サブスクリプションプランで楽曲を選び放題という手軽さと、商用利用可能なライセンスが魅力です。
特徴は
・高品質な音源が1万点以上
・ジャンルや雰囲気、テンポ、使用目的から検索可能
・映像の尺に合うループ対応・ショート版も豊富
・企業VP・CM用途に特化したカテゴリもあり、選びやすい!
制作段階において、今話題の音楽生成AI「Suno」で曲を作るという案もありましたが、
希望したジャンルの音楽がうまく生成できなかった事と、そもそも商用利用の観点で不安があった為、使用を断念し、普段使い慣れているサブスクリプションのサービスを選択しました。
■ 実際に試したジャンル
今回の工程において、唯一AIを使用しなかったのが音楽選定でした。
その理由は、映像や音源の「雰囲気」をChatGPTなどのAIに正確に伝えることが難しいためです。
厳密には、AIに映像や音源データを解析させることは技術的には可能です。
しかし、その解析結果をもとに本当の意味で「感覚」や「伝えたい空気感」を理解し、適切な楽曲を提案できるかという点では、現時点のAIには限界があります。
さらに、使用する音源データ自体をアップロードする行為が、サービス規約上の問題となる可能性もあり、慎重な判断が求められます。
今回の動画に合わせて、いくつか合いそうなジャンルを選出し、その中で音源をピックアップするという形で音源の選定をしました。
・映画音楽風
・ドキュメンタリー風
・ テクノ/フューチャー系
・クラシカル
・企業VP風
最終的には、「企業VP風」のBGMを採用しました。
映像における“信頼感”や“期待感”を重視した結果、このジャンルがもっとも適していると判断したためです。
AIで生成された映像素材・ナレーション・BGMが揃ったら、
いよいよ編集ソフトで1本の映像に仕上げていく工程です。
今回は、業界標準の映像編集ソフト「Adobe Premiere Pro」を使用しました。
今回、最も手間がかかったのが「Soraで生成した映像パートの活用」です。
高品質ながら、5秒ほどの短尺クリップしか生成できなかったため(Proプランであれば20秒まで)、
もう少し尺が欲しいという映像が複数ありました。
そこで活躍したのがPremiere ProのAI機能「生成拡張」。
・映像クリップを最大5秒間引き延ばし可能
・自然な動きで補完されるため、映像の質感が保たれる
・条件:最低2秒以上の元素材が必要
たとえば、羽ばたく鷹の映像をオープニングで使いたいが、
捨てカットも含めると本編では2秒しか使用できない場合、
それをさらに5秒に引き延ばすことで、尺を伸ばした自然なカットになり、
他のナレーション・音楽とテンポを合わせることができました。
前述のとおり、生成AIならではの難点でもある「破綻」した映像が多々ありました。
鷹の羽が3枚に見えたり、逆関節で羽ばたくような不可解なフレーム、飛んでる鷹の頭が無くなるなど。
そのため、
・不自然なフレームを手動でカット
・Premiereの生成拡張で修正箇所を補完
といった映像のカットと生成拡張を駆使して修正しました。
Soraの出力は高品質ですが、“すべてのカットが使える”わけではないと感じました。
現段階では、人間の手による“取捨選択”が仕上がりを左右します。
AI映像制作は現実的な選択肢になってきたと実感しています。
ただし、現段階ではまだ、映像編集の部分は人の手が必要です。
「最終的に、どの順でどう見せるか」は人間の編集力次第。
Premiere Proのような柔軟でAI対応も進んだツールがあるからこそ、
それをどう使うのか?は、人間の判断で決めていく必要があります。
すべての工程を経て完成した今回の自社CMは、
構成・映像・ナレーション…その大部分をAIで制作されたことが社内で大きな話題となりました。
制作期間はたった約5日間。
通常、1本のCMを作るには打ち合わせ・撮影・編集と1ヶ月以上かかるケースも少なくありません。
しかし今回は、
・ChatGPTでプロンプトと構成を生成
・Soraで映像素材を即日生成
・VOICEVOXでナレーションを作成
・Audiostockで高品質BGMを選定
・Premiere Proでスピード編集&AI補完
という工程をスピーディーに連携することで、短納期・高クオリティを両立できました。
完成映像を見た社員から、真っ先に出たのは、
「マジで全部AI?5日で作ったの?」
という言葉
特に、Soraで生成した鷹の映像のリアルさに多くの人が驚き好評でした。
今回の映像は急遽自社CMを番組内で流す必要があるという所からのスタートでした。
「AI活用の具体的成果物」として非常に強いインパクトを残せたと感じました。
・「いまAIを使ってここまでできる」という未来の可能性を見せられる
・制作コストやスケジュールに課題を持つ他社にとって、非常に魅力的な提案に映った
・「映像制作の新しい選択肢」として、自社の強みが増したと実感
ただ作品を見せるだけでなく、
・どうやってAIで作ったのか
・どのツールをどう使い分けたのか
・どんな工夫や注意点があったのか
こうした“制作の裏側”まで語れること自体が価値”になる時代が、もう来ています。
今回の映像は「ただのAI生成の体験」ではなく、
「人の意図 × AIの可能性 × 実行力」が融合した、新しい映像表現の形として、今後の武器になると感じています。
今回のCM制作を通じて、AIを使った映像制作の可能性に手応えを感じた一方で、
まだまだチャレンジしてみたいAIツールや映像表現も数多くあります。
Googleが提供Google DeepMind が開発した最新の動画生成AI。他のツールに比べて高額ながら、映像のクオリティ面で他から圧倒的に抜けてると評価されている。
Soraよりもよりリアルな映像を生成できると注目のAIツール。
より“自然な人物の動き”や、“滑らかなアニメーション”を生成できる。
既に業界でも話題のAI動画編集・生成ツール。
特に「text to video」の進化スピードがすさまじく、今後より直感的な映像制作が可能になると注目。
画像から動画生成の機能が強く。人物のリップシンクが得意なAI。
Midjourneyで作った静止画と組み合わせ、「世界観ごと創る」ような映像表現にトライしたい。
Midjourneyで生成した静止画を動画生成AIで動かす事により芸術的な映像やリアルな映像を表現可能。
「1枚絵から物語を紡ぐ」ような詩的でアート性の高い映像表現も、今後挑戦したい領域です。また、Midjourney自体も動画生成機能を取り入れたというニュースも出てきました。
現在のSora以外の他ツールでは人物描写にも革新的なものが多数ありました、
今後はリアルなリップシンク(口の動き)や感情の表現が可能なツールも続々登場しています。
・実在しないキャラクターに自然な演技をさせる
・実際の写真の人物を多言語で喋らせる
・動画内でリアルタイムに会話するAIキャラを登場させる
といった、まるで“実際に撮影した人物”を生成AIで呼び出すのも夢ではなくなりつつあります。
これからの映像制作は、「カメラが回せない場所でも作れる」時代になってきています。
例えば:
・実写では撮れない空想の都市
・空を飛ぶ動物や架空の生物
・実在しない人物が語るストーリー
・人が撮影するのは困難な深海やはるか上空の映像
こういったものを、“AIと想像力の力”でCG技術がなくてもリアルに表現できるようになりました。
今回ご紹介した、「全編AIで制作した自社CM」プロジェクトは、
単なる「AIの実験」ではありませんでした。
むしろこれは、今後の映像制作のを考えるキッカケとなる体験であり、
AIが本格的に「共創パートナー」となり得ることを証明する第一歩でした。
この先、さらに多彩なAIツールが登場し、映像制作のハードルはどんどん下がるでしょう。
でも、「どんな映像に仕上げるか」は、人にしか決められません。
「想像のさらに先へ」
今回のプロジェクトで掲げたこのテーマは、まさにAI時代の映像制作にぴったりの言葉でした。
この記事が、これからAIを使った映像制作に挑戦してみたい方にとって、
少しでも参考になったなら嬉しいです。
次に何かを始めようと思ったときに、
「まずはChatGPTに相談してみよう」
そう思ってもらえたら、もうAI時代の第一歩は踏み出せています。
AIと人の“想像力”が共鳴する時代へ。AIを使ったあなたの映像手法が、次のスタンダードになるかもしれません。