← 返回首页

🤖 模型匹配

STT · TTS · OCR · 图像 · 代码 · 对话 · 更新:2026-04-17

R02 模型调研报告:按域分类的本地 AI 最优模型

调研日期:2026-04-17 | 数据有效期:2026 Q2 | 状态:✅ 完成


一、STT / 语音输入

模型 大小 VRAM/RAM 中文准确率 速度 备注
Whisper Large V3 Turbo 1.6GB 3GB VRAM ⭐⭐⭐⭐⭐ 实时 首选,速度与精度最优平衡
FunASR Paraformer-ZH 0.4GB 1GB RAM ⭐⭐⭐⭐⭐ 实时 阿里出品,普通话最优,纯离线
SenseVoice Small 0.28GB 1GB RAM ⭐⭐⭐⭐ 极快 支持方言+情绪识别,超轻量

关键结论:
- 中文普通话首选 FunASR Paraformer-ZH(阿里出品,离线最优)
- 多语言混合首选 Whisper Large V3 Turbo(1.6GB,速度提升2x vs 原版)
- 手机端首选 SenseVoice Small(280MB,方言+情绪)
- HuggingFace: openai/whisper-large-v3-turbo | FunAudioLLM/SenseVoiceSmall


二、TTS / 语音合成

模型 大小 VRAM/RAM 中文音质 克隆能力 备注
CosyVoice 3.0 2.5GB 6GB VRAM ⭐⭐⭐⭐⭐ 3秒克隆 阿里出品,中文最自然
Fish Audio S2 Pro 1.2GB 4GB VRAM ⭐⭐⭐⭐⭐ 10秒克隆 多语言,速度快
ChatTTS 0.9GB 2GB VRAM ⭐⭐⭐⭐ 有限 开源轻量,情感表达好

关键结论:
- 中文自然度首选 CosyVoice 3.0(3秒声音克隆)
- 多语言/轻量首选 Fish Audio S2 Pro
- HuggingFace: FunAudioLLM/CosyVoice3-0.5B | fishaudio/fish-speech


三、OCR / 文档识别

模型 大小 运行需求 准确率 速度 备注
Marker 2.1GB 4GB VRAM ⭐⭐⭐⭐⭐ PDF→Markdown,保留格式
PaddleOCR 3.0 0.12GB CPU 可运行 ⭐⭐⭐⭐⭐ 实时 百度出品,中文最优,超轻量
Surya 1.8GB 4GB VRAM ⭐⭐⭐⭐ 中等 多语言90+,版式分析强

关键结论:
- PDF 处理首选 Marker(输出 Markdown,保留表格/图表)
- 纯 OCR 中文首选 PaddleOCR 3.0(CPU 可运行,极速)
- 手机/嵌入式首选 PaddleOCR(仅 120MB)
- HuggingFace: VikParuchuri/marker | PaddlePaddle/PaddleOCR


四、文生图 / Image Generation

模型 大小 VRAM 中文提示词 质量 备注
FLUX.1-dev 23.8GB 12GB+ 需翻译 ⭐⭐⭐⭐⭐ 当前开源最高质量
FLUX.2 Klein (量化) 6.1GB 8GB 需翻译 ⭐⭐⭐⭐ FLUX.1 量化版,8GB 可跑
Kolors 8.3GB 10GB ⭐⭐⭐⭐⭐ 原生 ⭐⭐⭐⭐⭐ 快手出品,中文提示词最优

关键结论:
- 英文提示词最高质量:FLUX.1-dev(需 12GB+ VRAM)
- 显存受限(8GB):FLUX.2 Klein 量化版
- 中文提示词原生支持:Kolors(快手出品,专为中文优化)
- HuggingFace: black-forest-labs/FLUX.1-dev | Kwai-Kolors/Kolors


五、VLM / 图像理解

模型 大小 VRAM 中文理解 文档理解 备注
MiniCPM-V 2.6 8B / 5.5GB 8GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 综合最强,支持视频
Qwen2.5-VL 32B 32B / 20GB 20GB+ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 旗舰级,文档理解最强
InternVL3-8B 8B / 5.8GB 8GB ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 学术强,多图处理

关键结论:
- 8GB 显存最优:MiniCPM-V 2.6(支持视频,OCR、图表识别强)
- 旗舰级(20GB+):Qwen2.5-VL 32B(文档/PDF 理解最强)
- HuggingFace: openbmb/MiniCPM-V-2_6 | Qwen/Qwen2.5-VL-32B-Instruct


六、视频生成

模型 大小 VRAM 质量 速度 备注
Wan2.1 14GB 16GB ⭐⭐⭐⭐⭐ 中等 阿里出品,当前开源最强
CogVideoX-5B 9GB 12GB ⭐⭐⭐⭐ 清华出品,文本理解强

关键结论:
- 视频生成门槛高,16GB VRAM 是最低要求
- 质量首选 Wan2.1(5秒1080p,细节最优)
- 显存有限(12GB):CogVideoX-5B
- HuggingFace: Wan-AI/Wan2.1-T2V-14B | THUDM/CogVideoX-5b


七、通用对话 / Chat(≤7B 本地可运行)

模型 大小 VRAM 中文能力 推理能力 备注
Qwen3-7B 7B / 4.5GB 6GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 中文最优,思维链支持
Llama 3.2-3B 3B / 2.0GB 3GB ⭐⭐⭐ ⭐⭐⭐⭐ 手机端首选
Gemma 3-4B 4B / 2.5GB 4GB ⭐⭐⭐ ⭐⭐⭐⭐ Google出品,多语言强

关键结论:
- 中文对话首选 Qwen3-7B(阿里 Q2 2025,推理+中文双强)
- 手机/低显存:Llama 3.2-3B(2GB 可运行)
- Ollama 直接拉取:ollama pull qwen3:7b | ollama pull llama3.2:3b


八、代码辅助 / Code

模型 大小 VRAM 代码质量 补全速度 备注
DeepSeek-Coder-V2-Lite 16B / 9.7GB 10GB ⭐⭐⭐⭐⭐ 代码综合最强,MIT协议
Qwen2.5-Coder-7B 7B / 4.5GB 6GB ⭐⭐⭐⭐⭐ 7B中代码最强

关键结论:
- 10GB+ 显存首选 DeepSeek-Coder-V2-Lite(HumanEval 81.1%)
- 6GB 显存首选 Qwen2.5-Coder-7B(7B 中最强代码模型)
- VS Code 插件:Continue.dev 配合 Ollama 使用
- HuggingFace: deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct | Qwen/Qwen2.5-Coder-7B-Instruct


九、Embedding / 向量检索

模型 大小 内存 检索精度 多语言 备注
BGE-M3 570MB 2GB RAM ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 中英双语最优,MTEB No.1
Nomic Embed v2 548MB 1.5GB RAM ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 开源Apache,RAG最优

关键结论:
- 中英双语 RAG 首选 BGE-M3(北航出品,支持稀疏+稠密双检索)
- 纯英文 RAG:Nomic Embed v2(Apache 许可,完全开源)
- Ollama 拉取:ollama pull bge-m3 | ollama pull nomic-embed-text


十、Memory / 长期记忆

方案 类型 部署复杂度 功能 备注
Mem0 库/服务 ⭐⭐ 低 自动提取+更新记忆 开源,支持本地存储
Letta (MemGPT) Agent框架 ⭐⭐⭐ 中 无限上下文, 自我编辑记忆 最强记忆框架

关键结论:
- 轻量集成首选 Mem0(pip 安装,3行代码,本地 SQLite 存储)
- 复杂 Agent 场景:Letta(支持 64K+ 上下文,自动记忆管理)
- GitHub: mem0ai/mem0 | letta-ai/letta


硬件-模型匹配速查

设备/显存 推荐组合
手机 (8GB RAM) SenseVoice + Llama 3.2-3B + PaddleOCR
PC 8GB VRAM Whisper Large V3T + Qwen3-7B + BGE-M3 + MiniCPM-V 2.6
PC 12GB VRAM 上述全部 + DeepSeek-Coder-V2-Lite + CogVideoX-5B
PC 16GB VRAM 上述 + Wan2.1 视频生成 + FLUX.1-dev 图像生成
社区端 Mac Mini M4 48GB Qwen3-32B + Wan2.1 + FLUX.1 + 所有工具全量版本

中国大陆访问渠道

原地址 国内镜像
HuggingFace hf-mirror.com 或 ModelScope (modelscope.cn)
魔搭社区 modelscope.cn(阿里出品,国内最全)
始智AI wisemodel.cn

主要信息来源