ノイズから像が立ち上がる — 拡散モデルの仕組みで、プロンプト調整の"効かせどころ"が見える

砂嵐から絵が現れる、その逆算
拡散モデル(Diffusion Model)の学習は、奇妙なほど後ろ向きだ。まず大量の画像に少しずつガウスノイズを足していき、最終的に完全な砂嵐にする。そしてモデルには「この砂嵐に、どんなノイズが乗っていたか」を当てさせる。つまり学んでいるのは「描き方」ではなく「ノイズの消し方」だ。
生成時はこれを逆再生する。純粋なランダムノイズを置き、「ここに乗っているノイズはこれだろう」と少しずつ引き算していく。数十回の引き算を経て、砂嵐の中から像が立ち上がる。ゼロから足し算で描くのではなく、最初から画面に潜んでいた像を彫り出す——その感覚に近い。
ここで効いてくるのが、出発点のランダムノイズが乱数のタネ(シード)で決まるという点だ。同じシード・同じプロンプトなら、何度生成しても同じ絵が出る。
シード・ステップ・ガイダンスの正体
仕組みが分かると、各パラメータの意味が一気に腑に落ちる。
-
シード:彫り出す前の「原石」。構図やレイアウトの大枠は、実はこの初期ノイズがかなり握っている。気に入った構図のままディテールだけ変えたいなら、シードを固定してプロンプトを微調整する。構図を総入れ替えしたいなら、プロンプトより先にシードを振り直すのが早い。
-
ステップ数:ノイズを引く回数。多いほど丁寧だが、ある回数を超えると見た目はほぼ変わらない。「枚数を稼ぐ段階では少なめ、本番で詰める段階で増やす」が効率的だ。
-
ガイダンス強度(CFG):プロンプトにどれだけ従わせるか。低いとモデルが好き勝手に描き、高いと指示に忠実になる——が、上げすぎると色が焼け付き、輪郭が破綻する。多くのモデルで中庸あたりが扱いやすく、「効かない」と感じて闇雲に最大へ振るのは逆効果になりやすい。
ネガティブプロンプトも、この枠組みの応用だ。生成は「指示あり」と「指示なし」の予測を比べ、その差分の方向へ進む。その「指示なし」側に避けたい語を置くと、モデルはそこから遠ざかるように像を彫っていく。
まず1枚、回してみる
理屈を読むより、シードを固定して1つのパラメータだけ動かし、出力の変化を眺めるほうが速い。ガイダンスを段階的に上げた数枚を並べれば、「どこで破綻するか」が体でわかる。拡散モデルは内部がブラックボックスに見えて、入口の数値と出口の絵の対応は驚くほど素直だ。手を動かした分だけ、勘所は確実に増えていく。
お役立ち情報
- 📄 Qiita - 拡散モデル (Diffusion Model) の直感的理解と数式
- 生成AIが砂嵐のようなノイズから徐々に鮮明な画像を復元していくステップ(拡散プロセス)を直感的に図解した日本語解説。
- 🛠️ Hugging Face - Stable Diffusion デモ
- ブラウザ上でStable Diffusionによる画像生成を試せる公式Webデモ。