闲社
标题:
【新手教程】Ollama 本地部署大模型完全指南:从零搭建你的私有 AI 环境
[打印本页]
作者:
dcs2000365
时间:
3 小时前
标题:
【新手教程】Ollama 本地部署大模型完全指南:从零搭建你的私有 AI 环境
【新手教程】Ollama 本地部署大模型完全指南:从零搭建你的私有 AI 环境
为什么本地部署?
最近 AI 圈有个趋势越来越明显:大家不再只依赖云端 API,而是开始在自己的电脑/服务器上跑大模型。本地部署的好处很实在:
数据隐私完全可控,敏感信息不出本机
无需网络,离线也能用 AI
没有 API 调用费用,跑多少用多少
可以自定义模型参数,玩出各种花样
今天这篇教程,手把手教你用
Ollama
这个神器,在本地快速跑起各种开源大模型。
一、前置条件
1. 硬件要求
CPU:任意现代 x86_64 或 ARM64 处理器
内存:至少 8GB(推荐 16GB+,跑 7B 模型够用)
硬盘:至少 10GB 可用空间(模型文件比较大)
GPU:可选。有 NVIDIA/AMD 显卡可以加速推理,没有也能纯 CPU 跑
2. 系统要求
macOS 10.14+
Windows 10/11(WSL2 或原生)
Linux(Ubuntu 20.04+ 推荐)
二、安装 Ollama
macOS / Linux — 一键安装
打开终端,复制粘贴这条命令:
curl -fsSL https://ollama.com/install.sh | sh
复制代码
等待几分钟,Ollama 会自动下载安装。装完后验证一下:
ollama --version
复制代码
看到版本号就说明装好了。
Windows — 安装包方式
访问
https://ollama.com/download
下载 Windows 安装包
双击安装,按向导走就行
装完后打开 PowerShell,输入
ollama --version
验证
三、拉取并运行你的第一个模型
Ollama 的模型库非常丰富,从 Llama 到 Qwen 到 DeepSeek 都有。我们以
Llama 3.1 8B
为例:
ollama pull llama3.1:8b
复制代码
下载大概 4.7GB,视网速可能需要几分钟到十几分钟。下载完成后直接对话:
ollama run llama3.1:8b
复制代码
看到提示符后就可以输入问题了,比如:
你好,请介绍一下你自己
复制代码
按
Ctrl+D
或输入
/bye
退出对话。
四、常用模型推荐
根据你的硬件配置选择:
轻量级(8GB 内存)
llama3.1:8b
— Meta 开源,通用能力强
qwen2.5:7b
— 阿里出品,中文表现优秀
phi4:mini
— 微软小模型,速度快
中等配置(16GB 内存)
llama3.1:70b
— 大参数版本,推理更准
qwen2.5:14b
— 中文大模型,代码和逻辑都不错
deepseek-coder:6.7b
— 编程专用,写代码很溜
高配玩家(32GB+ 内存 / 高端显卡)
llama3.1:405b
— 目前开源最强,需要 200GB+ 显存/内存
mixtral:8x7b
— MoE 架构,性价比很高
五、进阶玩法
1. 使用 API 调用
Ollama 默认开启本地 API 服务(端口 11434),你可以用 curl 或任何 HTTP 客户端调用:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "写一首关于夏天的诗"
}'
复制代码
2. 搭配 Web UI 使用
命令行对话毕竟不够友好,推荐几个图形界面:
Open WebUI
— 功能最全面,类似 ChatGPT 的界面
ChatGPT-Next-Web
— 轻量快速,支持多平台
Lobe Chat
— 界面美观,插件丰富
安装 Open WebUI 最简单的方式是用 Docker:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
复制代码
然后浏览器访问
http://localhost:3000
就能用了。
3. 自定义系统提示词
创建你自己的模型变体:
ollama create my-assistant -f Modelfile
复制代码
Modelfile 内容示例:
FROM llama3.1:8b
SYSTEM 你是一个专业的编程助手,擅长 Python 和 JavaScript。回答要简洁,直接给出代码示例。
复制代码
六、常见问题与解决
Q1:下载模型特别慢怎么办?
A:Ollama 默认从官方仓库下载,国内用户可以用镜像加速。或者手动下载模型文件后放到
~/.ollama/models
目录。
Q2:CPU 跑模型很卡,怎么优化?
A:
换更小的模型(如 3B 或 1B 参数版本)
使用量化版本(如 q4_0、q5_K_M),文件更小、速度更快
确保 Ollama 使用了所有 CPU 核心(默认会自动优化)
Q3:Windows 上安装失败?
A:
确保 Windows 版本是 10 19041+ 或 Windows 11
检查是否开启了 WSL2(部分功能需要)
以管理员身份运行安装程序
关闭杀毒软件临时测试(有些会误报)
Q4:怎么查看已安装的模型?
A:
ollama list
复制代码
Q5:怎么删除不需要的模型?
A:
ollama rm llama3.1:8b
复制代码
七、总结
Ollama 把本地部署大模型的门槛降到了最低。以前需要折腾 CUDA、PyTorch、各种依赖,现在一条命令就能搞定。对于新手来说,这是入坑本地 AI 最好的起点。
下一步建议:
尝试不同的模型,找到最适合你场景的
学习用 API 把 Ollama 接入你自己的应用
探索 RAG(检索增强生成),让本地模型能读你的文档
搭配 Dify 或 FastGPT 搭建自己的 AI 工作流
有问题欢迎在楼下留言,我会尽量回复。也欢迎大家分享自己的部署经验和踩坑记录!
---
本教程基于 Ollama 最新版本编写,如有更新请以官方文档为准。
欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/)
Powered by Discuz! X5.0