【Google Veo失敗談】「坂道」が「平坦」に！AIが指示通りに動かない原因とプロンプト修正の沼

動画を作ろうとしている。

画像生成は、てきとうにやったことはあるが、

動画生成は、まだ、よくわからない。

わからないというか、

トライする回数が少ない。

チャットGPTのsoraを何度か触ったことあるが、

自分が思ったイメージなんぞ、まるで作れない。何度も繰り返して自分の脳内の映像、

に近づけようとするが、「徒労」に終わる。

徒労に終わる回数が増えれば増えるほど、

俺の「やる気」メーターは下がり、

ある一定以下まで下がると、

やらなくなる。

それが、俺の、

今現在の動画生成AIとの関わり方だった。

しかし、Veoなんとかは、

少し様子が違う感じに見えた。まず「話す」

多少説明くさくなるだろうが、

キャラクターを手間をかけずに話せることは大きい。あと、soraよりも

随分マシに生成できるような気がして、

やる気度があがった。

だからこうしてドメインを取得して、

何をしたのか記録しようと思ったのだ。

Scene Overview:



Three real-life Japanese high school girls with flashy gyaru style are standing side by side at the base of a long, steep hill in a suburban Japanese neighborhood. From left to right: the girl on the left has blonde hair, the one in the center has dark black hair with tanned skin, and the girl on the right has bright red hair. All three wear heavy and glamorous gyaru makeup—false lashes, contouring, glossy lips, and decorated nails. They are dressed in short-sleeved, slightly altered sailor-style school uniforms and colorful sneakers. The atmosphere is loud, playful, and full of energy, under a bright summer sky with cicadas humming in the background.

Spoken Line (in Romaji):



"Kyou wa kono saka wo dasshu de noborikiritai to omoimaasu!"

Camera Direction:



Begin with a handheld low-angle shot from behind the girls, looking up the steep hill to show its scale. As the girls turn to face the camera, the shot switches to a medium front view, capturing their expressive faces and unique styles. As they cheer their line in unison, the camera pushes in slightly to a close-up, emphasizing their bold makeup and excitement. Then, pull back swiftly to a wide angle, preparing for the moment they start their sprint up the hill.

まずは、ギャル風の女子高生が坂道を走ってるシーンを生成してみようと思った。グーグルのAIだから、どうせちょっとでも性的な匂いを嗅ぎ取るとエラーになる。だからあわよくば、パンチラなんかしないかなーなんて期待を胸に、坂道を走らせたのだ。

しかし、上動画を見ればわかる通り、坂道、と設定したにもかかわらず平坦な道をダッシュする有り様になってしまった。

Gemini内で、日本語で修正を依頼してみた。まだ、どうやるとどんな反応になるか、さっぱりわかってないが、Gemini内で作るときは、日本語でも結構いけるのかもしれない。

いずれにせよ、日本語で指定した部分は反映されているが、登場キャラの風貌も若干変化するし、表情も異なる。更に手の動きも違う。

また、音声も今回は、みんなが声を揃えているように聞こえるし、なにやらテンションも高い。いじってないのに変わるのは、実にストレスである。

なんでストレスかって言えば、制御できてない様子がムカつくからだ。勝手なことをされるのってムカつくよね？この制御できない部分、「変えるな」と指示すれば、それなりに固定できるのだろうか？画像生成の感じから想像すると、大して効果ないと思ってる。大枠は同じで維持できるだろうが、細かい部分は毎回変化してしまうようだ。

で肝心のダッシュだが、後退していった。