GTX 750 Tiで動くローカルLLMは？ | 第８ラボラトリーズ

NVIDIA GeForce GTX 750 Ti (2GB) で動くローカルLLMを教えてください。

Geminiの回答：

NVIDIA GeForce GTX 750 Ti（VRAM 2GB）という環境は、現在のローカルLLM（大規模言語モデル）の動作要件から見るとかなり厳しいスペックですが、工夫次第で動かすこと自体は可能です。

現在のローカルLLMは最軽量クラスでも通常3GB〜4GB以上のVRAMを要求するため、GPUのメモリ（VRAM 2GB）だけにモデルを載せることはできません。そのため、CPUとメインメモリ（RAM）に処理を肩代わりさせる（オフロードする）方法をとります。

この条件で実用性（速度と実用的な日本語能力）のバランスが取れる選択肢をまとめました。

1. おすすめの超軽量モデル（日本語対応）

VRAM 2GBの環境では、パラメーター数が1B（約10億）〜1.8B（約18億）の超軽量モデルが現実的な選択肢になります。

モデル名	特徴	必要なメインメモリ(RAM)目安
Llama-3-8B（量子化版: Q2_K または Q4_K）	推論速度は非常に遅くなりますが、メインメモリが16GB以上あれば、CPUに処理を逃がすことで最も賢い日本語の会話が期待できます。	8GB 〜 16GB
Qwen2.5-1.5B-Instruct (GGUF版)	現在、軽量モデルの中で圧倒的に日本語能力が高いモデルです。2GBのVRAMにも一部収まり、残りはメインメモリで高速に動作します。	8GB以上
Stability AI StableLM-2-1.6B	日本語に対応した軽量モデル。比較的スムーズに動作します。	8GB以上

💡 結論としての一番の推奨：
まずは Qwen2.5-1.5B-Instruct のGGUF形式（Q4_K_Mなどの量子化版） を試すのが最もおすすめです。速度と賢さのバランスが一番取れています。

2. 動かすための必須ツール（推論エンジン）

GTX 750 Tiで動かす場合、Pythonでコードを書くよりも、CPU/GPUのハイブリッド処理（オフロード）が最初から最適化されているツールを使うのが一番楽で確実です。

🛠️ LM Studio（初心者向け・GUI）

視覚的にモデルを検索・ダウンロードでき、チャット画面も付いている一番人気のツールです。

設定のコツ： 右側の設定パネルにある「Hardware Settings」で GPU Acceleration (llama.cpp) をONにします。GTX 750 TiはVRAMが2GBしかないので、「GPU Offload」のスライダーを最大（モデルの全レイヤー）にせず、10〜15レイヤー程度だけをGPUに割り当て、残りをCPUに処理させるように調整してください（全割り当てするとVRAM不足でクラッシュします）。

🛠️ Ollama（CUI / コマンドライン）

バックグラウンドで軽量に動作するツールです。

コマンドプロンプト等で ollama run qwen2.5:1.5b と入力するだけで、自動的にモデルのダウンロードから起動まで行ってくれます。システムが自動でVRAMとRAMの割り当てを最適化してくれます。

⚠️ 動作させる上での注意点

生成速度（トークン速度）は遅い最新のGPUのように「文字が流れるようにドバドバ出る」レベルの速度は出ません。CPUメインの処理になるため、「1秒間に数文字〜10文字程度」のタイピング速度のような出力になります。
モデルは「GGUF形式」を選ぶローカルLLMには様々なファイル形式がありますが、GTX 750 Ti＋CPUの組み合わせで動かすには、メインメモリを併用できるGGUF形式（かつ4bit量子化されたもの）が絶対条件になります。

まずは Ollamaで qwen2.5:1.5b を試す か、LM Studioで Qwen2.5-1.5B-Instruct-GGUF を探して動かしてみるのが、現在のAIシーンで最も打率が高い方法です。試してみてはいかがでしょうか？

CPU が Core 2 Quad なので LM Studio は無理かと。。。

Geminiの回答：

おっしゃる通りです！非常に鋭いご指摘です。こちらの配慮が足りず失礼いたしました。

Core 2 Quad（および当時のマザーボード）は、現代のLLMの動作に必須となる「AVX」や「AVX2」といったCPUの拡張命令セットに対応していません。そのため、現在の公式バージョンの LM Studio や Ollama は、起動すらしない（あるいはモデルのロード時にクラッシュする）仕様になっています。

しかし、GTX 750 Ti と Core 2 Quad の組み合わせでも、ツールを選べばまだローカルLLMを動かす道は残されています。

非AVX環境でも動作する具体的な代替案をまとめました。

💡 代替案1：Jan（別のGUIツール）を使う

LM Studioによく似たオープンソースのAIクライアント「Jan（ジャン）」は、古いCPUへの配慮がなされています。

特徴： 設定から「推論エンジン（llama.cpp）」のタイプとして、AVX2を使わない「Fallback（プレーンなCPU処理）」や古い命令セット向けのバイナリを選択できる仕組みを持っています。
使い方： Janを公式サイトからインストールし、設定でGPU（CUDA / GTX 750 Ti）を有効にしつつ、CPU側の設定を低互換モード（AVX非使用）に合わせることで動作させられます。

💡 代替案2：Cobalt（旧KoboldCPP）などの非AVX版を使う

ローカルLLMコミュニティでは、AVXを持たない古いPC（Core 2世代や初期のXeonなど）向けに、命令セットを無効化してコンパイルされた推論エンジンが有志によって配布されています。

特に KoboldCPP（現在は後継プロジェクトなど含む）のコミュニティビルドには、no-avx（AVXなし）版の実行ファイル（.exe）が用意されていることがあります。

GitHubなどの配布ページから koboldcpp-nocuda.exe または no-avx と名のつくexe をダウンロードする。
コマンドラインやシンプルなGUIからGGUFモデル（Qwen2.5-1.5Bなど）を指定して起動する。

⚠️ この環境での実際の挙動

Core 2 Quad ＋ GTX 750 Ti で動かす場合、処理の大部分を「VRAM 2GBを超えた分を肩代わりするメインメモリ（DDR2またはDDR3）」と「Core 2 Quad」で処理することになります。

拡張命令（AVX）がないため、計算スピードはかなり厳しくなり、「1文字出力されるのに数秒〜数十秒かかる」といった、超スローペースな動作（0.5〜1 token/sec 以下）になる可能性が極めて高いです。

実用性としてはかなり厳しい戦いになりますが、「この時代のパーツ構成で、最新のAI（2026年現在のQwen2.5など）の思考をローカルで動かす」というロマン・実験としては非常に面白い試みになります。もし挑戦される場合は、AVX要求を回避できる「Jan」や「KoboldCPP (no-avx)」をお試しください。