ローカルLLMを自宅で——『帯域』を買うか『容量』を買うか

TOPS(演算性能)を前面に出すAI PCが増えた。だが自宅でLLMを動かすとき、体感速度を決めるのはそこではない。鍵は二つ、メモリ帯域とメモリ容量だ。2026年の消費者向けハードは、この二つで性格がはっきり分かれている。
トークン生成は「帯域」で決まる
文章を1トークンずつ吐き出す生成(デコード)では、GPUは計算よりも、モデルの重みをメモリから読み出すことに時間を使う。この処理は演算ではなくメモリ帯域に律速される。ざっくりした上限の目安はこうだ。
生成速度(トークン/秒) ≈ メモリ帯域(GB/s) ÷ モデルのサイズ(GB)
たとえば70Bモデルを4ビット量子化すると約40GB。帯域256GB/sの機械なら上限はおよそ256÷40≈6トークン/秒で、実際はオーバーヘッドでこの5〜8割に落ちる。帯域が2倍になれば速度もほぼ2倍だ。逆に演算性能(TFLOPS/TOPS)をいくら盛っても、帯域が同じなら生成速度はほとんど変わらない。これがスペック表でTOPSより先に帯域を見るべき理由である。
容量は「何が載るか」を決める
もう一つの軸が容量で、これはモデルがそもそもメモリに収まるかを左右する。2026年の消費者向けハードは、ここで二つの陣営に分かれる。
-
高帯域・小容量(ディスクリートGPU): RTX 5090は32GBで約1,792GB/s、RTX 4090は24GBで約1,008GB/s。収まる範囲(おおむね〜30B級)なら桁違いに速い。ただし70Bは1枚に載らない。
-
大容量・中帯域(統合メモリ機): AMD Strix Halo(Ryzen AI Max+ 395)は最大128GBで約256GB/s、消費電力およそ140W。NVIDIA DGX Sparkは128GB・273GB/s、Apple M5 Maxは最大128GB・約460〜614GB/s。70B級が丸ごと載るが、速度は帯域なりに落ち着く。
つまり70Bを自宅の机で静かに回したいなら統合メモリ機が向くが、生成は数〜十数トークン/秒どまり。チャットの快適さを最優先するなら、収まる範囲のモデルを高帯域GPUで回すほうが速い。
買う前の一行チェック
スペック表を見たら、TOPSの前に「帯域(GB/s)」と「容量(GB)」を探す。動かしたいモデルのサイズ(GB)を容量と比べて載るか確かめ、帯域÷サイズで速度のあたりをつける。なお長いプロンプトの読み込み(プリフィル)は演算律速なので、GPUが非力な統合メモリ機はここでも遅くなりがちだ。用途が「大きいモデルをじっくり」か「ほどほどを軽快に」か——その一点で、買うべき陣営は決まる。
参考
-
Best mini PC for local LLMs in 2026 (Strix Halo era) — TerminalBytes
-
Best GPUs for Running Local LLMs (2026): Memory Bandwidth, VRAM — Houtini
-
NVIDIA DGX Spark, Nvidia’s desktop supercomputer: first look — The Register
お役立ち情報
- 📄 Zenn - 自宅ローカルLLM環境のメモリ帯域ボトルネック検証
- 自宅PCでLLMを動かす際のハードウェア構成や、メモリ帯域幅(Bandwidth)が生成速度に与えるボトルネックを実測・解説した日本語記事。
- 🛠️ llama.cpp - GitHub Repository
- ローカルPC上でLLMを最小のオーバーヘッドで動かすための業界標準オープンソースプロジェクト。