
こんにちは、「動画生成AI研究所」の所長原田です。
日々、映像制作の現場で試行錯誤を続けている皆さん。そして『自分にしかできない表現を、いつか形にしたい』と情熱を灯し続けてきたクリエイターの皆さん。今、私たちの目の前には、これまでの常識を塗り替えるような新しい可能性が広がっています。
これまでのVコン(ビデオコンテ)制作は、孤独で根気のいる作業でした。イメージに近い素材を求めてストックサイトを何時間も彷徨い、見つからなければ拙い絵を描いて補足する。クライアントに「完成形はもっと良くなります」と説明しながら、自分の頭の中にあるビジョンが100%伝わらないもどかしさを、誰もが感じてきたはずです。
しかし、2026年現在、GeminiとVeo 3.1やKLING AIがもたらしたのは、単なる効率化ではありません。無駄な手間に奪われていた時間を、『本当にやるべきことに集中できる時間』として、取り戻してくれたのです。
今回は、架空の旅行アプリ『Tabi-AI』の30秒CMを例に、「プロの感性を最短距離で形にする、スマートなワークフロー」を丁寧に解説していきます。
今回のブログは、現場で役立つノウハウを詰め込んだ結果、いつもより少しだけボリュームが大きめです。ですが、最後まで読み進めていただければ、驚くほどハイエンドなVコンが形になります。完成までのプロセスを楽しみながら、ぜひ最後までお付き合いください。

1. 構想フェーズ:Geminiは、あなたのビジョンを広げる「対話型のパートナー」
Vコン作りで最も大切なのは、全体を貫く「トーン&マナー」の統一感です。ここでGeminiを、単なる効率化ツールではなく、あなたのアイデアをより深く、より具体的に磨き上げてくれる「クリエイティブ・パートナー」として活用しましょう。
まずは、あなたの頭の中にある断片的なイメージを、Geminiに話しかけてみてください。
所長のポイント: ターゲットのインサイト(悩みや願望)をGeminiと共有してみましょう。そうすることで、表面的な美しさだけでなく、意味のある構成が生まれます。
【Geminiへの相談例】

Geminiはこれに対し、秒単位のカット構成やナレーション案だけでなく、「なぜこの演出がターゲットの心に響くのか」という理論的な裏付けまでセットで提案してくれます。この対話を通じて、自分一人では気づかなかった新しい視点が加わり、プロジェクトの「芯」がより強固なものになります。
2. 制作フェーズ:丁寧な「1枚の画像」から、映像に魂を宿す
構成が決まったら、いよいよビジュアル化です。当研究所が推奨するのは、『まずGeminiで各カットの理想の1枚(写真)を完成させ、それをVeoやKLING AIで動かす』という手順です。まるで、最高の設計図を描いてから建築に取り掛かるような、確実でクオリティを外さない進め方です。
3. 【なぜ「直プロンプト」ではなく「画像経由」なのか?——現場で気づいたリスク管理の重要性】
ここで、私が多くの試行錯誤を経て辿り着いた「実務における重要な気づき」を共有させてください。
Veo 3.1やKLING AIには、テキストを打ち込むだけで動画が作れる「Text-to-Video」機能があります。しかし、私はあえて「Geminiで静止画を決め打ちし、それを読み込ませて動画化する(Image-to-Video)」というフローを徹底しています。
一見遠回りに見えるこの手法をとるのには、プロの現場で無視できない「3つの現実的な理由」があります。
1. Veo 3.1の「1日3回」という極限の制約
最高峰の質感を持つVeo 3.1ですが、2026年現在のProプランであっても、1日の生成回数はわずか3回という非常にタイトな制約があります。 もしテキストから直接生成して、構図やキャラクターがイメージと違った場合、それだけでその日の貴重なリソースを1回分ドブに捨てることになります。 まずGeminiで「これだ!」という1枚を固定し、それをVeoに読み込ませることで、失敗のリスクを最小限に抑え、確実に「当たり」を引き当てる。 これが、限られた回数の中でクオリティを担保するための鉄則です。


2. KLING AIにおける「日本人描写」の壁
ダイナミックな動きに定評のあるKLING AIですが、実はテキストプロンプトだけで「日本人の自然な表情や質感」を出すのは、現時点ではまだ難易度が高いという側面があります。直接プロンプトを打つと、どうしても意図しないルックになり、リテイクを繰り返すうちにクレジットを無駄に消費してしまいがちです。 そこで、日本人の描写に極めて強いGemini(Nano Banana 2)で完璧なキービジュアルを作り、それを「参照画像」としてKLINGに渡す。このワンクッションを置くだけで、クレジットの浪費を防ぎながら、日本市場に刺さるルックを瞬時に手に入れることができます。
3. 「工数」を削るための「急がば回れ」
動画生成は静止画に比べて時間もクレジットも消費します。生成を待った挙句に「顔が別人」「構図が全く違う」という事態は、プロのワークフローとしては避けたいところ。 「Geminiでビジュアルの正解を確定させる(静止画数秒)」→「動画AIで動きをつける(本番生成)」。 この分業こそが、結果として最も工数を削減し、クリエイティブの純度を高く保つための、現時点での「最適解」なのです。
4. 実践:心を動かす『Tabi-AI』Vコンのレシピ
それでは、実際に『Tabi-AI』の30秒のVコンをどう組み上げるか。各ツールの強みを活かした、具体的なプロンプトと制作のヒントを見ていきましょう。
※今回の動画はサクッと制作したものなので、
クオリティについてはご愛嬌ということでご覧ください。 笑
シーン1:日常の喧騒(0~6秒)

Image (Gemini) Prompt: A Japanese businessman in a neat suit in a cozy but slightly cluttered home office, looking thoughtful and looking at a travel magazine. Cool, soft blue morning light through the window. 16:9.(窓から差し込む、透明感のあるブルーの朝の光。居心地は良いが、クリエイティブな資料や本で少し散らかった仕事部屋に座る、洗練されたきちんとしたスーツを着た日本のビジネスマン。手元にある旅行雑誌に目を落とし、ふっと物思いにふけっている。考え深げな表情。シネマティックなライティング、フォトリアル、ハイエンドな広告写真の質感、8k解像度。16:9。)
Video (Veo 3.1) Prompt: Slow zoom in towards the person’s face. They take a slow, deep breath. Natural and subtle facial expressions. 4K.
(人物の顔に向かってゆっくりとズームイン。深く、重みのある呼吸。息を吸い込む際に胸がゆっくりと上下し、吐き出すと共に肩の力がスッと抜けていく。微細で自然な表情の変化。4K、シネマティックな質感、フォトリアル。)
所長のコツ: Veo 3.1は表情の機微がとても得意です。派手な動きよりも「静かな息遣い」を意識しましょう。
シーン2:新しい発見(7~15秒)

Image (Gemini) Prompt: The same person looking surprised and inspired. A beautiful holographic 3D travel itinerary floating from their smartphone. Golden particles of light dancing around the room. Warm, energetic lighting.(先ほどのクリエイターが、驚きと期待に満ちた明るい表情で見つめている。手元のスマートフォンから、美しい3Dホログラムの旅行プランがふわりと立体的に浮かび上がっている。部屋の中には黄金の光の粒子(パーティクル)が優雅に舞い、空間全体を温かく、ポジティブなエネルギーに満ちた光が包み込んでいる。フォトリアル、ハイエンドな映像美、シネマティックなライティング、8k解像度。16:9。)
Geminiで同じ人物を画像生成する際のポイント💡
必ず前のカットの画像を参照させること!テキストで指示はしなくてよいですが、プロンプトと一緒に画像を参照させましょう💡でないと、全く違う人物が生成されてしまいます。

Video (Veo 3.1) Prompt: The holographic orb spins smoothly and glows gently. Golden light particles float around the smartphone. Background environment begins to softly dissolve into a beach scene.(ホログラムの球体が優雅に自転しながら、柔らかな光を放っている。スマートフォンの周囲には、黄金色の光の粒子(パーティクル)が幻想的に舞い踊る。現実の部屋の背景は、ゆっくりと、そして滑らかに、美しい南国のビーチの風景へとシームレスに溶け込んでいく(ディゾルブ)。4K、フォトリアル、魔法のような光の演出。)
所長のコツ: 「Spins smoothly(滑らかに回る)」や「Glows gently(優しく光る)」といった言葉で、上品な魔法感を演出します。
シーン3:圧倒的な旅体験(16~20秒)

Image (Gemini) Prompt: Aerial drone photography of a breathtaking tropical island, pristine white sand beach, lush green palm trees, crystal clear turquoise lagoon, vibrant coral reef visible underwater, clear transition from shallow turquoise to deep navy blue ocean, bright sunny day, partly cloudy sky, photorealistic, cinematic lighting, high contrast, 8k resolution, highly detailed, stunning landscape.(息をのむほど美しい熱帯の島のドローン空撮。汚れのない真っ白な砂浜、青々としたヤシの木、そして透き通ったターコイズブルーのラグーン。水面下には鮮やかなサンゴ礁が透けて見え、浅瀬の明るい色から深海の濃いネイビーブルーへと移り変わる見事なグラデーション。明るく晴れ渡った空にわずかな雲が浮かび、シネマティックな光が風景を際立たせている。フォトリアルで高コントラストな8K解像度の詳細な景観。)
Video (KLING AI) Prompt: A breathtaking drone cinematic shot. Flying over a hidden tropical island with crystal clear turquoise water and white sandy beaches. Cinematic camera movement, panning across the coastline. 4K, vivid colors.(息をのむほど美しいドローンのシネマティックショット。透明度の高いターコイズブルーの海と白い砂浜が広がる、隠れた南国の島の上空を飛行する。海岸線に沿ってゆっくりとパンしていくシネマティックなカメラワーク。4K解像度、鮮やかで美しい色彩。)
所長のコツ: ダイナミックな「空撮(Drone shot)」や、波の動きなどにはKLING AIが非常に高いパフォーマンスを発揮します。
シーン4:旅体験への没入感(20~25秒)

Image (Gemini) Prompt: A detailed, high-resolution, photorealistic photograph of a relaxed Asian man reclining on a cushioned wooden lounge chair on a tropical beach in the Maldives. He wears an open-buttoned pale green linen shirt and white shorts, with a blue fitness tracker on his right wrist. His right leg is crossed over his left. In his left hand, he holds a tall glass containing a green cocktail with a straw and a lime wedge. His right arm is bent, resting his head. He is looking out at the scene with a content smile. A palm tree arch spans over him. In the foreground, on a small wooden side table, are a magazine with “EXPLORE” titled on its cover (which features a beach scene) with a blue border, a smartphone, and sunglasses. The background features pristine white sand, turquoise ocean lagoon water, a small distant island, and a sandy spit. Natural daylight. Clear sky. Luxurious vacation atmosphere.(写実的な、高解像度の写真。モルディブのトロピカルなビーチで、クッション付きの木製ラウンジチェアにリラックスして寝そべるアジア人男性の詳細なショット。彼は淡い緑色のリネンシャツ(ボタンは開いている)と白いショートパンツを着用し、右手首には青いフィットネストラッカーを付けている。右足を左足の上に組んでいる。左手には、ストローとライムが添えられた緑色のカクテルが入った背の高いグラスを持っている。右腕は曲げて頭を支えている。彼は満足げな笑顔で景色を見ている。ヤシの木のアーチが彼の上に架かっている。前景の小さな木製サイドテーブルには、青い縁取りと海景の表紙を持つ「EXPLORE」というタイトルの雑誌、スマートフォン、サングラスが置かれている。背景には、真っ白な砂浜、透明なターコイズブルーの海(ラグーン)、遠くの小さな島、そして砂州が広がっている。自然光、晴れた空。贅沢な休暇の雰囲気。)
Video (KLING AI) Prompt: The Asian man from the image is relaxing on a beach lounge chair. He slowly turns his head to gaze at the turquoise ocean with a peaceful expression, then brings the green cocktail to his lips and takes a slow sip through the straw. The palm trees above him sway gently in the tropical breeze, and soft waves lap against the white sand in the background. Cinematic slow motion, photorealistic, 4k, high detail, natural lighting.(画像のアジア人男性がビーチのラウンジチェアでくつろいでいる。彼は穏やかな表情でゆっくりと頭を動かし、ターコイズブルーの海を眺め、それから手元の緑色のカクテルを口元に運び、ストローでゆっくりと一口飲む。彼の上のヤシの木は南国の微風に優しく揺れ、背景では穏やかな波が白い砂浜に打ち寄せている。シネマティックなスローモーション、フォトリアル、4k、高詳細、自然光。)
シーン5:余韻とロゴ(25~30秒)

Image (Gemini) Prompt: An aesthetic wooden cafe table with a coffee cup and the smartphone displaying the Tabi-AI logo. Soft morning sunlight with moving leaf shadows. Minimalist composition. 16:9.(木の質感が美しいカフェのテーブル。その上に、一杯のコーヒーと『Tabi-AI』のロゴが鮮やかに表示されたスマートフォンが置かれている。窓からは柔らかな朝の光が差し込み、揺れる木の葉の影(木漏れ日)がテーブルの上を優しく彩っている。ミニマリズムを感じさせる、シンプルで洗練された構図。シネマティックなライティング、フォトリアル、ハイエンドなプロダクト広告の質感、8k解像度。16:9。)
Video (Veo 3.1) Prompt: A very slow camera pan across the table. Natural sunlight shifts slightly, creating a calm and peaceful atmosphere. The logo fades in elegantly.(テーブルの上をなぞるような、極めて緩やかで優雅なカメラのパン。差し込む自然光がわずかに移ろい、静謐で穏やかな空気感を醸し出す。その心地よい余韻の中で、画面の中央にアプリのロゴがシームレスかつ上品にフェードインしてくる。4K、フォトリアル、上質なシネマティック・ルック。)
所長のコツ: 最後は「光の移ろい」で、ゆったりとした時間の流れを表現しましょう。
5. プロの仕上がりに近づける「3つのこだわり」

Vコンを「単なる資料」から「心を揺さぶる映像」へと昇華させるためのポイントです。
① 「16:9」の構図を大切にする
映像制作において、サイズ感は世界観そのものです。Geminiで画像を作る時から 16:9 を徹底することで、後で動画にした際に構図の美しさが損なわれず、安定したプロの映像になります。
② 「キャラクターの同一性」を守る
Geminiでキャラクターを固定するためには、まず、気に入った顔が生成できたら、その画像を「参照画像」としてGeminiにアップロードします。
-
やり方: 生成された画像の下にある「+(プラス)」ボタンなどから画像をアップロードし、「この画像を基準にして、別のポーズや服装を生成して」と指示します。Geminiは元の画像を「正解」として見てくれるため、顔がブレにくくなります。また、必ず「同じスレッド内」で、「今のキャラクターのまま、背景だけ変えて」「今の顔のままで、怒った表情にして」と会話を続けることで、Geminiは前の生成結果の文脈(顔の特徴)を維持しようとしますので、毎回新規チャットで生成しないようにすることをお勧めします。
③ Lyria 3で「耳」からも伝える
視覚だけでなく、聴覚もAIに手伝ってもらいましょう。Googleの音楽生成AI Lyria 3 で、「期待感のある爽やかなアコースティック曲」などを生成。映像と音が重なった瞬間、Vコンは一つの完成された世界になります。
6.仕上げ
Adobe Premiere Proで4つのシーンを結合した結果、クライアントにそのまま本制作のクオリティを確信させるほどの、ハイエンドなVコンが完成しました。
視覚的な説得力はこれで十分です。しかし、プレゼンにおいて決定打となるのは、聴覚へのアプローチ、つまり『音の演出』です。
既成のフリー素材で妥協するのではなく、Googleの『Lyria 3』でこのVコンのためだけのオリジナル楽曲を生成し、映像ソフトで合成していきましょう。一気に没入感が深まるはずです。

出来上がった音楽がこちら!
Coffee_at_the_Edge
https://easyease.net/wp-content/uploads/2026/07/nedad1b9a0cb2_a262d503ca98d2c0615de53cdc199bf4.mp3
動画生成した際に一緒に生成された音楽も良いのですが、
BGMが重なってしまうため、今回は使用せずGoogleの『Lyria 3』で作ったBGMを挿入しました。
※「ため息」の音だけボーカルリムーバーで抜き取り使用しました。
💡映像ソフトで、動画と音楽を合成。トランジションも少し加えてみました。

完成したVコンはこちら!✨
いかがでしょうか?これまでのVコンは素材をつなぎ合わせたものが多く、完成形のイメージを伝えるのが困難でした。しかし、動画生成AIならキャラクターを統一した高品質な映像を作成できます。
これによりクライアントが完成後の姿を明確に想像でき、認識のズレも解消されます。提案の説得力が劇的に高まり、プロジェクトの合意形成が圧倒的にスムーズになるはずです。
7. 比較:Veo 3.1 と KLING AI の使い分け
プロの現場で問われるのは、ツールの優劣ではなく、演出の意図に対して『どのAIが最短距離で正解(ビジュアル)を出せるか』を見極める審美眼です。一貫性を死守すべきカットか、ダイナミズムを優先すべきカットか。その瞬時の判断が、Vコンの、ひいては本編の完成度を左右します。


8. 結びに:映像制作を、もっと「自由」にするために
かつては、多額の予算や多くのスタッフがいなければ形にできなかった「高品質な映像のイメージ」が、今やあなたの手元で、あなたの感性のままに作り出せるようになりました。
これは、作業を楽にするためだけのものではありません。「技術的な制約に縛られず、あなたの純粋なアイデアを、真っ先に形にするため」のツールなのです。
Geminiで対話し、Veoで命を吹き込む。この新しいワークフローが、あなたのクリエイティブな日常をより豊かに、そしてより自由にしてくれることを願っています。
世界は、あなたの頭の中にあるその美しい景色を待っています。
「動画生成AI研究所」所長がお届けしました。 さあ、あなただけの素晴らしい映像体験を、今ここから始めてみましょう。
さて、本記事でご紹介したGoogle Veo 3.1やKLING AIのような、最先端の生成AI技術。
私たち「EasyEase」では、まさにこうした生成AIをビジネスで最大限に活用するための、様々な支援事業を行っております。
「自社でも生成AIを活用したいが、何から始めればいいか分からない」「動画制作を効率化したい」といったご相談も大歓迎です。ご興味のある方は、ぜひお気軽にお問い合わせください。
動画生成AI研究所 所長 原田