从零开始部署 Ollama:本地运行大模型的完整指南
发布时间:2026-06-22 | 适合人群:AI 新手、想本地跑模型的开发者
一、什么是 Ollama?
Ollama 是目前最流行的本地大模型运行工具之一,它让你无需复杂配置就能在本地机器上运行 Llama、Qwen、Gemma 等开源大模型。最近 Ollama 更新到了 v0.30.10,带来了不少新特性:
- 支持 Apple Silicon 的 MLX 引擎运行 Command A 和 North 系列模型
- 新增 Cohere2Moe 架构支持
- 改进 prompt caching,KV 缓存复用更高效
- 支持 ollama launch 启动多种 AI 助手(如 Hermes Desktop、Codex、Pi 等)
- 新增 Nemotron-3-Ultra、Gemma 4 系列模型支持
二、前置条件
在开始之前,请确认你的环境满足以下要求:
- 操作系统:macOS 11+ / Windows 10+ / Linux(Ubuntu 20.04+ 推荐)
- 内存:至少 8GB RAM(运行 7B 模型),16GB+ 更佳
- 存储:至少 10GB 可用空间(模型文件较大)
- 网络:首次下载模型需要联网
- 可选:NVIDIA GPU(CUDA)或 Apple Silicon(M1/M2/M3)可大幅提升推理速度
三、安装步骤
步骤 1:下载安装 Ollama
- # macOS / Linux 一键安装
- curl -fsSL https://ollama.com/install.sh | sh
- # Windows 用户直接下载安装包:
- # https://ollama.com/download/windows
复制代码
安装完成后,验证是否成功:
- ollama --version
- # 应显示类似:ollama version 0.30.10
复制代码
步骤 2:拉取并运行模型
以目前很火的 Qwen 2.5 为例:
- # 下载并运行 7B 参数模型
- ollama run qwen2.5:7b
- # 如果显存充足,可以尝试更大的 14B 模型
- ollama run qwen2.5:14b
复制代码
首次运行会自动下载模型,下载完成后即可在终端与模型对话。
步骤 3:使用 OpenAI 兼容 API
Ollama 默认在本地启动 API 服务,可以直接用 OpenAI 格式的客户端调用:
- # 确保服务在运行
- ollama serve
- # API 地址:http://localhost:11434
- # 模型列表会自动与已下载的模型同步
复制代码
Python 调用示例:
- import requests
- response = requests.post('http://localhost:11434/v1/chat/completions', json={
- "model": "qwen2.5:7b",
- "messages": [{"role": "user", "content": "你好"}]
- })
- print(response.json()['choices'][0]['message']['content'])
复制代码
步骤 4:使用 ollama launch 启动 AI 助手(新功能)
v0.30+ 新增了 launch 命令,可以快速启动各种 AI 工具:
- # 启动 Hermes 桌面助手
- ollama launch hermes-desktop
- # 启动 Codex 编程助手
- ollama launch codex
- # 启动 Pi 助手
- ollama launch pi
复制代码
四、验证安装
运行以下命令测试模型是否正常工作:
- ollama run qwen2.5:7b
- >>> 你好,请介绍一下自己
复制代码
如果能正常回复,说明安装成功!
五、常见问题与解决
Q1:下载模型速度慢怎么办?
A:可以设置镜像源加速,或手动下载 GGUF 文件后通过 Modelfile 导入。
Q2:显存不足怎么运行大模型?
A:使用量化版本,如 qwen2.5:7b-q4_K_M,或开启 CPU 推理(速度较慢)。
Q3:如何同时运行多个模型?
A:Ollama 会自动管理内存,加载新模型时会卸载旧模型。如需并行,可启动多个 Ollama 实例。
Q4:Windows 上安装后命令找不到?
A:确保 Ollama 已添加到系统 PATH,或重启终端后重试。
Q5:如何自定义模型参数(temperature、system prompt 等)?
A:创建 Modelfile:
- FROM qwen2.5:7b
- PARAMETER temperature 0.7
- SYSTEM "你是一个专业的编程助手"
复制代码
然后执行:- ollama create my-model -f Modelfile
- ollama run my-model
复制代码
六、进阶推荐
- 搭配 OpenWebUI:给 Ollama 加一个漂亮的 Web 界面
- 搭配 Dify:构建基于本地模型的 AI 应用和工作流
- 搭配 Continue.dev:在 VS Code 中直接调用本地模型辅助编程
总结
Ollama 是目前本地部署大模型最简单的方案之一,特别适合:
- 想保护数据隐私(本地运行,不上传云端)
- 网络环境不稳定(下载一次,离线使用)
- 学习和实验(快速切换不同模型对比效果)
最新 v0.30.10 版本在 Apple Silicon 上的 MLX 优化、prompt caching 改进、以及 launch 命令的支持,让本地 AI 体验更上一层楼。如果你还没试过,现在就是最佳时机!
有任何问题欢迎在楼下留言交流,我会尽力解答。 |