自分のPCで動くローカルAIモデルは?

以下のPCで動くローカルAIモデルをすべて列挙して。 快適に動かせるか、かろうじて動くか、といった説明も付けてください。
CPU: Intel Core i9 13900F
GPU: NVIDIA GeForce RTX 4070 Ti (12GB版)
メモリ: DDR4 64GB

ChatGPTの回答:

その構成(i9-13900F / RTX 4070 Ti 12GB / RAM 64GB)は、2026年時点でもかなり強力なローカルAI環境です。

ただし「すべて列挙」は不可能です。公開されているモデルだけでも数千種類あります。

そこで実用的な主要モデルを、

  • ◎ 快適
  • ○ 実用的
  • △ なんとか動く
  • × 非現実的

で分類します。

テキスト生成LLM

◎ 快適に動く

Llama 3.3 8B

  • Q4~Q8量子化
  • VRAM 5~8GB程度
  • 非常に快適
  • 生成速度 50~100 token/s級

Gemma 3 12B

  • Q4量子化でVRAM約8GB
  • 十分快適
  • 日本語も強い

Qwen3 8B

  • 快適
  • 日本語性能高め
  • コーディングも強い

Mistral 7B

  • 軽量
  • 超高速

DeepSeek-R1-Distill-Qwen-7B

  • 推論能力高い
  • 快適

○ 実用的に動く

Qwen3 14B

  • Q4量子化でVRAM 10~11GB
  • ほぼGPUだけで動く

Gemma 3 27B

  • 一部RAMオフロード
  • 十分実用的

Llama 3.1 70B

  • GGUF量子化
  • RAM主体
  • 3~10 token/s程度

Qwen3 32B

  • CPU+GPU混成
  • 実用範囲

DeepSeek-R1-Distill-Qwen-32B

  • 推論能力かなり高い
  • 実用速度

△ かろうじて動く

DeepSeek-R1 671B

  • 量子化しても100GB級
  • RAM 64GBでは不足気味
  • 一部のみロード可能

Qwen3 235B

  • 動くが非常に遅い
  • 現実的ではない

Llama 4 Maverick

  • 大幅なRAMオフロード必要

× 非現実的

GPT-4 class frontier models

  • 数百GB~TB級
  • 個人PC不可

Claude Opus class models

  • 個人PC不可

コーディングAI

◎ 快適

Qwen3-Coder 30B-A3B

  • 4070Tiと相性良い

DeepSeek-Coder-V2 Lite

  • 非常に快適

CodeLlama 13B

  • 快適

画像生成

◎ 快適

Stable Diffusion XL

  • 余裕

FLUX.1 Schnell

  • 快適

FLUX.1 Dev

  • 実用速度

Stable Diffusion 3 Medium

  • 快適

○ 実用

DiffusionGemma

  • 12GB VRAMで動作可能
  • 解像度やバッチサイズ制限あり

FLUX Kontext

  • 量子化で運用可能

音声AI

◎ 快適

Whisper Large-v3

  • 高速

Faster-Whisper

  • リアルタイム近い速度

XTTS-v2

  • 快適

Kokoro

  • 非常に軽量

動画生成

○ 実用

Wan 2.1 14B

  • 低解像度なら可能

Hunyuan Video

  • 時間はかかるが動く

為替予測向け

現在の構成で最も有望なのは、

  1. Qwen3 14B
  2. Gemma 3 27B
  3. DeepSeek-R1-Distill-Qwen-32B
  4. DiffusionGemma

です。

特にDiffusionGemmaは「未来の値動き分布を生成する」という発想と相性が良く、単純な上昇・下降予測よりも「1時間後のローソク足全体を生成する」方向で活用できます。

4070 Ti 12GB環境なら、2026年現在のローカルAIの約90%以上は何らかの形で動作可能ですが、「快適」の上限は概ね30B級、「頑張れば使える」の上限は70B級と考えると分かりやすいです。

Geminiの回答:

ご提示いただいたPCスペック(Core i9 + RTX 4070 Ti 12GB + メモリ64GB)は、「VRAM 12GBの壁」を意識しつつ、64GBの超大容量メインメモリを活かした運用ができる、非常に強力なミドルハイ構成です。

この環境で動作する主要なローカルAIモデルと、その快適度・動作の目安をジャンル別に列挙します。

1. テキスト生成・対話AI(LLM)

ローカルLLMは、モデルのデータが「GPUのVRAM(12GB)」に収まるかどうかで速度が劇的に変わります。VRAMに収まれば爆速、溢れるとメインメモリ(DDR4)を共有するため低速(かろうじて動く状態)になります。

快適に動く(実用速度:秒間 40〜80トークン以上)

GPUのVRAM(12GB)にすべてのデータを載せて処理できるため、ChatGPTの有料プラン並みかそれ以上の速度でレスポンスが返ってきます。

  • 8B(約80億パラメータ)クラス以下のモデル
    • 主なモデル: Llama-3.1-8B, Qwen2.5-7B / 14B (Q4量子化), Gemma 2 9B など
    • 状態: 4〜8ビットの量子化版(GGUFやEXL2形式)であれば、12GBのVRAMに余裕で収まります。文脈(コンテキスト)を長めにとってもビクともせず、プログラミング支援や日常のテキスト処理がストレスフリーで行えます。

実用レベルで動く(実用速度:秒間 15〜30トークン)

少し速度は落ちますが、人間が文章を読む速度よりは速く、実用性に問題ないラインです。

  • 20B〜32B(200億〜320億パラメータ)クラスのモデル
    • 主なモデル: Qwen2.5-32B (Q2〜Q3量子化), Command R など
    • 状態: 強めに量子化(圧縮)されたGGUF形式を使い、大部分をGPUに、溢れた数レイヤーを64GBのメインメモリに割り振る(オフロードする)ことで動作します。

かろうじて動く(実用速度:秒間 1〜3トークン)

「1秒に1〜2単語」がポツポツと出力されるレベルです。チャット用途ではストレスが溜まりますが、複雑なタスクの検証用としては動くことに価値があります。

  • 70B(700億パラメータ)クラスの巨大モデル
    • 主なモデル: Llama-3.3-70B, Qwen2.5-72B のGGUF形式
    • 状態: 12GBのVRAMには到底収まりませんが、搭載されている「DDR4 64GB」という大容量メモリのおかげで、PCがクラッシュすることなく起動・動作します。 処理の大部分をCPUとメインメモリで行うため非常に低速ですが、「どうしても賢い大型モデルの出力結果がローカルで欲しい」という時には動かせるアドバンテージがあります。

2. 画像生成AI(Stable Diffusion / Flux)

画像生成AIは、RTX 4070 Tiの強力なTensorコアをフルに活かせるため、非常に得意な領域です。

爆速・快適に動く

  • Stable Diffusion 1.5 / XL (SDXL)
    • 状態: VRAM 12GBあれば、SDXL(解像度 1024×1024)ベースの生成でも、1枚あたり数秒〜10秒前後で生成可能です。LoRA(追加学習モデル)を複数枚同時に読み込んでも、VRAM容量的に十分快適に動作します。

快適に動く

  • Flux.1 (schnell / dev) ※GGUF・NF4等の軽量化版
    • 状態: 現在の主流である高画質モデル「Flux.1」の標準版(FP16)はVRAMを20GB以上消費するため厳しいですが、「NF4」という圧縮形式や「GGUF版」を使用すれば、12GBのVRAMに綺麗に収まります。 * 解像度 1024×1024 の美麗な画像を、1枚あたり十数秒〜30秒程度で快適に生成可能です。

3. 音声認識・その他のAI(Whisperなど)

爆速・快適に動く

  • OpenAI Whisper (Large-v3 / Turbo)
    • 状態: 高性能な音声文字起こしAIですが、最高精度の「Large」モデルでも必要なVRAMは約5〜6GBです。RTX 4070 Tiであれば、1時間の音声ファイルをわずか数分で完璧にテキスト化(文字起こし)できます。
  • 音声合成・ボイスチェンジャー(Style-Bert-VITS2 / VCclient)
    • 状態: 非常に軽量に動作します。AIボイスチェンジャーによる「リアルタイムの声質変換(遅延なし)」も、GPUパワーに余裕があるためゲームをしながらでも快適に動作します。

💡 このPC構成のまとめとアドバイス

  • 強み: CPU(Core i9)とメインメモリ(64GB)が超一級品のため、「普通のPCならメモリ不足で落ちるような大型LLM(70B)」でも、速度を犠牲にすれば動かせてしまうタフさを持っています。また、画像生成や8BクラスのLLM、文字起こしは非の打ち所がないほど爆速です。
  • ボトルネック: 唯一の壁は「GPUのVRAMが12GB」である点です。もし今後、より巨大な画像生成モデル(Fluxのフルサイズなど)や、20B以上のLLMを日常的に秒間数十トークンでサクサク動かしたくなった場合は、VRAMが16GB以上のGPU(RTX 4080やRTX 50シリーズの上位など)への換装が視野に入ります。

現状、日常的なAIツールの利用、プログラミング支援、趣味の画像生成においては、設定さえ間違えなければほぼ全てのローカルAIを快適に恩恵を受けられる素晴らしいスペックです。


先ほどの「VRAM 12GB」と「メインメモリ 64GB」という条件をベースに、現在ローカルで動かせる具体的なAIモデル名を、快適度のランク別に挙げていきます。

1. テキスト生成AI(LLM)

ローカルLLMを動かす場合は、標準の「Ollama」や「LM Studio」などのツールを使うことを想定しています。

🚀 爆速・超快適(VRAMに100%収まる)

ChatGPTの有料版並み、あるいはそれ以上の速度(1秒間に50〜100文字以上)で文字が溢れ出てくるレベルです。会話、要約、プログラミング支援など、何をやらせてもストレスがありません。

  • Gemma 2 9B (Instruct)
    • 評価: Google製。このサイズ(90億パラメータ)としては頭一つ抜けて賢く、日本語も非常に自然です。12GBのVRAMに余裕で収まり、最も常用に向いています。
  • Llama 3.1 8B (Instruct)
    • 評価: Meta製。グローバルで最も標準的なモデルです。文脈を理解する能力(コンテキスト長)が広いため、長文の要約や大量のコードを読み込ませる用途で大活躍します。
  • Qwen 2.5 7B / 14B (Instruct)
    • 評価: Alibaba製。漢字の文化圏で作られているため、日本語の表現力や文字起こしの修正能力が極めて高いです。14Bモデルの「Q4_K_M(4ビット量子化)」形式であれば、12GBのVRAMにギリギリ滑り込み、驚くほど賢く動きます。

◯ 快適・実用レベル(一部をメインメモリに逃がして動かす)

人間が文章を読む速度(1秒間に20〜30文字)と同等か、それより少し速いペースで出力されます。多少複雑な思考や、専門的な創作をさせたい場合におすすめです。

  • Qwen 2.5 32B (Instruct / GGUF版)
    • 評価: 320億パラメータの中型モデル。そのままではVRAMを超えますが、「GGUF」という形式で「Q4_K_M」などの量子化(圧縮)を行い、処理の3分の2をGPU、残りを64GBのメモリに割り振ることで、実用的な速度で動作します。8Bクラスより明らかに推論能力が上がります。
  • Command R (35B)
    • 評価: Cohere製。ビジネス文書やRAG(手元のPDFや書類を読み込ませて回答させるシステム)に特化したモデルです。これもQ4量子化のGGUF形式にすることで、テンポよく動かせます。

🐢 かろうじて動く(1秒に2〜3文字、検証用)

PCのファンが激しく回り、ポツ、ポツ、と文字が出力されます。チャットとしては遅すぎて使えませんが、PCの「メインメモリ 64GB」という力技のおかげで、フリーズせずに最後まで回答をひねり出すことができます。

  • Llama 3.3 70B (Instruct / GGUF版)
    • 評価: 現在のオープンソースにおける最高峰の超大型モデル。賢さはGPT-4クラスですが、動作の9割が遅いメインメモリ(DDR4)で行われるため、超スローモーションになります。
  • Qwen 2.5 72B (Instruct / GGUF版)
    • 評価: 日本語能力が非常に高い怪物モデル。「速度は問わないので、ローカル環境で限界まで正確な答えや、高度なプログラミングコードを出力させたい」という一発勝負のタスクでのみ出番があります。

2. 画像生成AI

画像生成は、WebUI(Fooocus、ComfyUI、Automatic1111など)を使って動かす主要モデルです。

🚀 爆速・超快適(1枚 2〜5秒)

  • Stable Diffusion 1.5 (SD 1.5)
    • 代表的な派生モデル: Beautiful Realistic Asians (BRAv7), Counterfeit-V3.0 など
    • 評価: イラストや実写風など、日本国内で最も多くのカスタムモデル(LoRA)が出回っています。RTX 4070 Tiなら一瞬で生成が終わるため、大量のガチャ(連続生成)が快適です。

◯ 快適(1枚 5〜15秒)

  • SDXL (Stable Diffusion XL)
    • 代表的な派生モデル: Pony Diffusion V6, Animagine XL V3.1 など
    • 評価: 1024×1024の高解像度が標準のモデル。4070 Tiのパワーがあれば、高画質化(アップスケール)を挟んでもストレスなく美麗な画像が作れます。
  • Flux.1 Schnell (GGUF版 または NF4版)
    • 評価: 圧倒的なプロンプト(指示文)の理解力と、破綻しない手の描写で話題の次世代モデル。「Schnell(高速版)」であれば、わずか4ステップ(数秒)で写真クオリティの絵が出ます。12GBのVRAMに収まるよう、NF4形式やGGUF形式で動かすのが鉄則です。

🔺 かろうじて動く(1枚 1分以上)

  • Flux.1 Dev (標準FP16版)
    • 評価: Fluxの最高画質版ですが、生データのまま(FP16)動かそうとするとVRAMが24GB以上必要なため、VRAMからメインメモリへデータが溢れ、生成に数分かかります(ただし、これもLLM同様、メインメモリが64GBあるのでエラー落ちせずに動きます)。
    • 対策: Devを動かしたい場合も、おとなしく「GGUF版(Q4やQ8)」や「NF4版」を選べば、「快適」ランク(1枚 15〜30秒)までスピードが跳ね上がります。

3. 音声認識・音声合成AI

🚀 爆速・超快適

  • Whisper Large-v3 / Whisper Turbo
    • 評価: OpenAI製の文字起こしAI。12GBのVRAMがあれば最高精度の「Large-v3」や、超高速な「Turbo」が余裕で動きます。
  • Style-Bert-VITS2
    • 評価: 非常に自然なイントネーションで喋る音声合成(音読)AI。GPUの負荷は一瞬で、一瞬で音声ファイルが生成されます。

Qwen 2.5 32B (Instruct / GGUF版) や Command R (35B) は無料版Geminiと比較してどうですか?

Geminiの回答:

無料版のGemini(現在Webなどで無料で使えるベースモデルのGemini Flashクラス)と、ローカルで動かす中型モデルの Qwen 2.5 32BCommand R (35B) を比較すると、「賢さ(知能)」「プライバシー」「動作スピードと快適さ」の面で明確なトレードオフ(一長一短)があります。

具体的な違いを、いくつかの視点で比較してみましょう。

1. 総合的な「賢さ」の比較

結論から言うと、純粋な知識量や推論の正確さ、プログラミング能力では「Qwen 2.5 32B」が無料版Geminiを上回る場面がかなり多いです。

モデル名得意なこと・賢さの傾向無料版Geminiとの比較
Qwen 2.5 32B緻密なロジック、高度なプログラミング(コーディング)、日本語の細かなニュアンスの理解。【Qwenの勝ち】
320億という十分なサイズがあるため、無料版の軽量Geminiよりも複雑なコードの生成や、論理的な破綻のない長文テキストの作成が得意です。
Command R (35B)複数言語の翻訳、ビジネス文書の作成、RAG(手元の資料を検索して回答させる機能)。【引き分け〜用途次第】
一般的な会話や知識量は無料版Geminiと同等レベルですが、社内文書の整理や、特定のフォーマットに沿った書類作成能力、多言語処理は非常に強力です。
無料版Gemini
(Flash系)
最新情報の検索、超長文の読み込み、画像や音声の認識(マルチモーダル)。【Geminiの勝ち】
複雑なパズル問題や長文コーディングでは32Bクラスに一歩譲りますが、フットワークの軽さと機能の多彩さで勝ります。

2. 無料版Geminiが「圧倒的に勝っている」ポイント

ローカルAI(特にご提示のPC環境で動かす32B〜35Bクラス)がどうしても敵わない、クラウド(Google)ならではの強みが3つあります。

  • 超巨大なコンテキスト(100万トークン)無料版Geminiは、本一冊分や長い動画、大量のソースコードを丸ごと放り込んでも記憶して処理できます。ローカルで32Bモデルを動かす場合、VRAM(12GB)の制限があるため、現実的には数千〜1万数千トークン(一般的な会話の数往復〜書類数ページ分)が限界です。
  • マルチモーダル(画像・音声の理解)無料版Geminiは「この画像の中の文字を読んで」「この音声を聞いて文字起こしして」といった処理が標準でハイレベルにこなせます。ローカルのQwen 2.5 32BやCommand Rは基本的に「テキスト専用」です。
  • リアルタイムの検索と最新情報GeminiはGoogle検索と連携して「今日のニュース」や「最新のプログラミングライブラリの仕様」を答えてくれます。ローカルAIは訓練された時点(過去)の知識しか持っていません。

3. ローカル(Qwen 32B / Command R)が「圧倒的に勝っている」ポイント

  • 完全なプライバシーとセキュリティローカルAI最大の強みです。機密性の高い個人情報、社外秘のソースコード、プライベートな創作など、「絶対に外部のサーバー(Googleなど)に送信したくないデータ」を完全に遮断されたオフライン環境で安全に処理できます。
  • 表現の規制(検閲)がないクラウドのAIは規約による安全フィルターが厳しく、少しでも医療・暴力・性的なニュアンス、または攻撃的と誤認される表現が含まれると回答を拒否(拒絶)されます。ローカルモデルは、システムプロンプトの調整次第で一切の検閲なしに自由な創作やシミュレーションが可能です。

4. ご提示のPC(VRAM 12GB / メモリ 64GB)で動かしたときの「体感スピード」

前述の通り、32Bや35Bのモデルを動かす場合、VRAM 12GBからはデータが溢れます。そのため、不足分は「DDR4 64GB」のメインメモリに割り振る(オフロードする)ことになります。

  • 無料版Gemini: クラウド処理なので、通信環境さえ良ければいつでも爆速(1秒に数十〜100文字以上)で返ってきます。
  • ローカル(32B / 35B): GPUとCPU/メインメモリをまたいで処理するため、速度は「人間が音読するくらいのペース(1秒に15〜30文字程度)」まで落ちます。チャットでギリギリ実用的な速度ですが、Geminiのサクサク感に慣れていると「少し遅いな」と感じるはずです。

⚖️ まとめ:どう使い分けるべき?

ご自身の現在の用途に合わせて、以下のように使い分けるのが最も賢い方法です。

  • 「一般的な調べ物」「最新情報の検索」「画像・動画の解析」「数万行のコードの読み込み」👉 無料版Gemini を使うのが圧倒的に快適でスマートです。
  • 「機密コード・個人データの分析・修正」「検閲なしの自由な文章執筆」「オフライン環境での作業」👉 PCの64GBメモリを活かして、手元で Qwen 2.5 32B (GGUF版) などをじっくり動かすのが最強の選択肢になります。