ローカルLLMを自宅で——『帯域』を買うか『容量』を買うか

イメージ画像

TOPS（演算性能）を前面に出すAI PCが増えた。だが自宅でLLMを動かすとき、体感速度を決めるのはそこではない。鍵は二つ、メモリ帯域とメモリ容量だ。2026年の消費者向けハードは、この二つで性格がはっきり分かれている。

トークン生成は「帯域」で決まる

文章を1トークンずつ吐き出す生成(デコード)では、GPUは計算よりも、モデルの重みをメモリから読み出すことに時間を使う。この処理は演算ではなくメモリ帯域に律速される。ざっくりした上限の目安はこうだ。

生成速度(トークン/秒) ≈ メモリ帯域(GB/s) ÷ モデルのサイズ(GB)

たとえば70Bモデルを4ビット量子化すると約40GB。帯域256GB/sの機械なら上限はおよそ256÷40≈6トークン/秒で、実際はオーバーヘッドでこの5〜8割に落ちる。帯域が2倍になれば速度もほぼ2倍だ。逆に演算性能(TFLOPS/TOPS)をいくら盛っても、帯域が同じなら生成速度はほとんど変わらない。これがスペック表でTOPSより先に帯域を見るべき理由である。

容量は「何が載るか」を決める

もう一つの軸が容量で、これはモデルがそもそもメモリに収まるかを左右する。2026年の消費者向けハードは、ここで二つの陣営に分かれる。

高帯域・小容量(ディスクリートGPU): RTX 5090は32GBで約1,792GB/s、RTX 4090は24GBで約1,008GB/s。収まる範囲(おおむね〜30B級)なら桁違いに速い。ただし70Bは1枚に載らない。
大容量・中帯域(統合メモリ機): AMD Strix Halo(Ryzen AI Max+ 395)は最大128GBで約256GB/s、消費電力およそ140W。NVIDIA DGX Sparkは128GB・273GB/s、Apple M5 Maxは最大128GB・約460〜614GB/s。70B級が丸ごと載るが、速度は帯域なりに落ち着く。

つまり70Bを自宅の机で静かに回したいなら統合メモリ機が向くが、生成は数〜十数トークン/秒どまり。チャットの快適さを最優先するなら、収まる範囲のモデルを高帯域GPUで回すほうが速い。

買う前の一行チェック

スペック表を見たら、TOPSの前に「帯域(GB/s)」と「容量(GB)」を探す。動かしたいモデルのサイズ(GB)を容量と比べて載るか確かめ、帯域÷サイズで速度のあたりをつける。なお長いプロンプトの読み込み(プリフィル)は演算律速なので、GPUが非力な統合メモリ機はここでも遅くなりがちだ。用途が「大きいモデルをじっくり」か「ほどほどを軽快に」か——その一点で、買うべき陣営は決まる。

参考

お役立ち情報

📄 Zenn - 自宅ローカルLLM環境のメモリ帯域ボトルネック検証
- 自宅PCでLLMを動かす際のハードウェア構成や、メモリ帯域幅（Bandwidth）が生成速度に与えるボトルネックを実測・解説した日本語記事。
🛠️ llama.cpp - GitHub Repository
- ローカルPC上でLLMを最小のオーバーヘッドで動かすための業界標準オープンソースプロジェクト。

トークン生成は「帯域」で決まる

容量は「何が載るか」を決める

買う前の一行チェック

参考

お役立ち情報

甲斐 亮太の他の記事

タグ一覧

甲斐亮太の他の記事