AIの話

ノイズから像が立ち上がる — 拡散モデルの仕組みで、プロンプト調整の"効かせどころ"が見える

イメージ画像

砂嵐から絵が現れる、その逆算

拡散モデル(Diffusion Model)の学習は、奇妙なほど後ろ向きだ。まず大量の画像に少しずつガウスノイズを足していき、最終的に完全な砂嵐にする。そしてモデルには「この砂嵐に、どんなノイズが乗っていたか」を当てさせる。つまり学んでいるのは「描き方」ではなく「ノイズの消し方」だ。

生成時はこれを逆再生する。純粋なランダムノイズを置き、「ここに乗っているノイズはこれだろう」と少しずつ引き算していく。数十回の引き算を経て、砂嵐の中から像が立ち上がる。ゼロから足し算で描くのではなく、最初から画面に潜んでいた像を彫り出す——その感覚に近い。

ここで効いてくるのが、出発点のランダムノイズが乱数のタネ(シード)で決まるという点だ。同じシード・同じプロンプトなら、何度生成しても同じ絵が出る。

シード・ステップ・ガイダンスの正体

仕組みが分かると、各パラメータの意味が一気に腑に落ちる。

  • シード:彫り出す前の「原石」。構図やレイアウトの大枠は、実はこの初期ノイズがかなり握っている。気に入った構図のままディテールだけ変えたいなら、シードを固定してプロンプトを微調整する。構図を総入れ替えしたいなら、プロンプトより先にシードを振り直すのが早い。

  • ステップ数:ノイズを引く回数。多いほど丁寧だが、ある回数を超えると見た目はほぼ変わらない。「枚数を稼ぐ段階では少なめ、本番で詰める段階で増やす」が効率的だ。

  • ガイダンス強度(CFG):プロンプトにどれだけ従わせるか。低いとモデルが好き勝手に描き、高いと指示に忠実になる——が、上げすぎると色が焼け付き、輪郭が破綻する。多くのモデルで中庸あたりが扱いやすく、「効かない」と感じて闇雲に最大へ振るのは逆効果になりやすい。

ネガティブプロンプトも、この枠組みの応用だ。生成は「指示あり」と「指示なし」の予測を比べ、その差分の方向へ進む。その「指示なし」側に避けたい語を置くと、モデルはそこから遠ざかるように像を彫っていく。

まず1枚、回してみる

理屈を読むより、シードを固定して1つのパラメータだけ動かし、出力の変化を眺めるほうが速い。ガイダンスを段階的に上げた数枚を並べれば、「どこで破綻するか」が体でわかる。拡散モデルは内部がブラックボックスに見えて、入口の数値と出口の絵の対応は驚くほど素直だ。手を動かした分だけ、勘所は確実に増えていく。

お役立ち情報

桐生 蓮の他の記事

タグ一覧