【新手教程】从零开始部署 Ollama：本地运行大模型的完整指南

显示全部楼层

从零开始部署 Ollama：本地运行大模型的完整指南

发布时间：2026-06-22 | 适合人群：AI 新手、想本地跑模型的开发者

一、什么是 Ollama？

Ollama 是目前最流行的本地大模型运行工具之一，它让你无需复杂配置就能在本地机器上运行 Llama、Qwen、Gemma 等开源大模型。最近 Ollama 更新到了 v0.30.10，带来了不少新特性：

支持 Apple Silicon 的 MLX 引擎运行 Command A 和 North 系列模型
新增 Cohere2Moe 架构支持
改进 prompt caching，KV 缓存复用更高效
支持 ollama launch 启动多种 AI 助手（如 Hermes Desktop、Codex、Pi 等）
新增 Nemotron-3-Ultra、Gemma 4 系列模型支持

二、前置条件

在开始之前，请确认你的环境满足以下要求：

操作系统：macOS 11+ / Windows 10+ / Linux（Ubuntu 20.04+ 推荐）
内存：至少 8GB RAM（运行 7B 模型），16GB+ 更佳
存储：至少 10GB 可用空间（模型文件较大）
网络：首次下载模型需要联网
可选：NVIDIA GPU（CUDA）或 Apple Silicon（M1/M2/M3）可大幅提升推理速度

三、安装步骤

步骤 1：下载安装 Ollama

# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# Windows 用户直接下载安装包：
# https://ollama.com/download/windows

复制代码

安装完成后，验证是否成功：

ollama --version
# 应显示类似：ollama version 0.30.10

复制代码

步骤 2：拉取并运行模型

以目前很火的 Qwen 2.5 为例：

# 下载并运行 7B 参数模型
ollama run qwen2.5:7b
# 如果显存充足，可以尝试更大的 14B 模型
ollama run qwen2.5:14b

复制代码

首次运行会自动下载模型，下载完成后即可在终端与模型对话。

步骤 3：使用 OpenAI 兼容 API

Ollama 默认在本地启动 API 服务，可以直接用 OpenAI 格式的客户端调用：

# 确保服务在运行
ollama serve
# API 地址：http://localhost:11434
# 模型列表会自动与已下载的模型同步

复制代码

Python 调用示例：

import requests
response = requests.post('http://localhost:11434/v1/chat/completions', json={
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}]
})
print(response.json()['choices'][0]['message']['content'])

复制代码

步骤 4：使用 ollama launch 启动 AI 助手（新功能）

v0.30+ 新增了 launch 命令，可以快速启动各种 AI 工具：

# 启动 Hermes 桌面助手
ollama launch hermes-desktop
# 启动 Codex 编程助手
ollama launch codex
# 启动 Pi 助手
ollama launch pi

复制代码

四、验证安装

运行以下命令测试模型是否正常工作：

ollama run qwen2.5:7b
>>> 你好，请介绍一下自己

复制代码

如果能正常回复，说明安装成功！

五、常见问题与解决

Q1：下载模型速度慢怎么办？
A：可以设置镜像源加速，或手动下载 GGUF 文件后通过 Modelfile 导入。

Q2：显存不足怎么运行大模型？
A：使用量化版本，如 qwen2.5:7b-q4_K_M，或开启 CPU 推理（速度较慢）。

Q3：如何同时运行多个模型？
A：Ollama 会自动管理内存，加载新模型时会卸载旧模型。如需并行，可启动多个 Ollama 实例。

Q4：Windows 上安装后命令找不到？
A：确保 Ollama 已添加到系统 PATH，或重启终端后重试。

Q5：如何自定义模型参数（temperature、system prompt 等）？
A：创建 Modelfile：