返回顶部
o

ollama-herdOllama模型路由

Ollama multimodal model router for Llama, Qwen, DeepSeek, Phi, and Mistral — plus mflux image generation, speech-to-text, and embeddings. Self-hosted Ollama local AI (macOS, Linux, Windows) with 7-signal scoring, Ollama queue management, real-time dashboard, and Ollama health monitoring. Routes Ollama LLM, image, STT, and embedding requests across macOS, Linux, and Windows devices. Ollama本地推理路由 | Ollama enrutador IA local. Use when the user asks about their Ollama fleet, Ollama inference routing

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.5.3
安全检测
已通过
210
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ollama-herd

Ollama Herd 舰队管理器

您正在管理一个Ollama Herd舰队——一个智能的Ollama多模态路由器,可将Ollama AI工作负载分发到多个设备。Ollama Herd处理4种模型类型:Ollama LLM推理、图像生成(mflux)、语音转文本(Qwen3-ASR)和Ollama嵌入。Ollama评分引擎根据7个信号(热状态、内存适配度、队列深度、延迟历史、角色亲和性、可用性趋势、上下文适配度)评估节点,并将每个Ollama请求路由到最佳设备。

安装Ollama Herd

bash
pip install ollama-herd # 从PyPI安装Ollama Herd
herd # 启动Ollama路由器
herd-node # 启动Ollama节点代理(在每个设备上运行)

PyPI:ollama-herd | 源码:github.com/geeks-accelerator/ollama-herd

Ollama路由器端点

Ollama Herd路由器默认运行在http://localhost:11435。如果用户指定了不同的Ollama URL,则使用该URL。

Ollama API端点

使用curl与Ollama舰队交互:

Ollama舰队状态——所有Ollama节点和队列概览

bash

ollamafleetstatus — 检查Ollama节点健康状态

curl -s http://localhost:11435/fleet/status | python3 -m json.tool

返回:

  • - fleet.nodestotal / fleet.nodesonline — 舰队中Ollama设备数量
  • fleet.modelsloaded — 当前所有节点上加载的Ollama模型总数
  • fleet.requestsactive — 正在进行的Ollama请求总数
  • nodes[] — 每个节点的详细信息:Ollama状态、硬件、内存、CPU、磁盘、已加载的Ollama模型及上下文长度
  • queues — 每个Ollama节点:模型的队列深度(待处理、进行中、已完成、失败)

列出舰队中所有可用的Ollama模型

bash

ollamamodellist — 所有节点上的所有Ollama模型

curl -s http://localhost:11435/api/tags | python3 -m json.tool

将Ollama模型拉取到舰队

bash

ollamapullmodel — 拉取模型(自动选择最佳节点,流式传输进度)

curl -N http://localhost:11435/api/pull -d {name: codestral}

拉取到特定节点

curl -N http://localhost:11435/api/pull -d {name: llama3.3:70b, node_id: mac-studio}

非流式传输(阻塞直到完成)

curl http://localhost:11435/api/pull -d {name: phi4, stream: false}

列出当前加载到内存中的Ollama模型

bash

ollamaloadedmodels — GPU内存中的热Ollama模型

curl -s http://localhost:11435/api/ps | python3 -m json.tool

兼容OpenAI的Ollama模型列表

bash curl -s http://localhost:11435/v1/models | python3 -m json.tool

Ollama使用统计(每个节点、每个模型的每日汇总)

bash curl -s http://localhost:11435/dashboard/api/usage | python3 -m json.tool

最近的Ollama请求追踪

bash

ollama_traces — 最近的Ollama路由决策

curl -s http://localhost:11435/dashboard/api/traces?limit=20 | python3 -m json.tool

返回最近N个Ollama路由决策,包含:请求的模型、选择的节点、评分、延迟、令牌数、重试/回退状态、标签。

Ollama舰队健康分析

bash curl -s http://localhost:11435/dashboard/api/health | python3 -m json.tool

返回15项自动化Ollama健康检查:离线/降级节点、内存压力、未充分利用的节点、VRAM回退、KV缓存膨胀(OLLAMANUMPARALLEL过高)、版本不匹配、上下文保护、僵尸清理、Ollama模型抖动、请求超时、错误率、重试率、客户端断开连接和不完整流。

Ollama模型推荐

bash curl -s http://localhost:11435/dashboard/api/recommendations | python3 -m json.tool

返回基于硬件能力、Ollama使用模式和精选基准数据的每个节点AI驱动Ollama模型组合推荐。

Ollama设置

bash

查看当前Ollama配置和节点版本

curl -s http://localhost:11435/dashboard/api/settings | python3 -m json.tool

切换Ollama运行时设置(autopull, vramfallback)

curl -s -X POST http://localhost:11435/dashboard/api/settings \ -H Content-Type: application/json \ -d {auto_pull: false}

Ollama模型管理

bash

查看每个节点的Ollama模型详细信息,包含大小和使用情况

curl -s http://localhost:11435/dashboard/api/model-management | python3 -m json.tool

将Ollama模型拉取到特定节点

curl -s -X POST http://localhost:11435/dashboard/api/pull \ -H Content-Type: application/json \ -d {model: llama3.3:70b, node_id: mac-studio}

从特定节点删除Ollama模型

curl -s -X POST http://localhost:11435/dashboard/api/delete \ -H Content-Type: application/json \ -d {model: old-model:7b, node_id: mac-studio}

Ollama模型洞察(汇总统计)

bash curl -s http://localhost:11435/dashboard/api/models | python3 -m json.tool

每个应用的Ollama分析(需要请求标签)

bash curl -s http://localhost:11435/dashboard/api/apps | python3 -m json.tool

Ollama仪表板

Ollama Web仪表板位于http://localhost:11435/dashboard。它有八个标签页:

  • - 舰队概览 — 通过SSE实时显示Ollama节点卡片、队列深度和请求计数
  • 趋势 — Ollama每小时请求数、平均延迟和令牌吞吐量图表(24小时至7天)
  • 模型洞察 — 每个Ollama模型的延迟、令牌/秒、使用比较
  • 应用 — 每个标签的Ollama分析,包含请求量、延迟、令牌数、错误率
  • 基准测试 — Ollama容量随时间增长,包含每次运行的吞吐量和延迟百分位数
  • 健康 — 15项自动化Ollama舰队健康检查,包含严重级别
  • 推荐 — 每个节点的Ollama模型组合推荐,支持一键拉取
  • 设置 — Ollama运行时切换开关、只读配置表和节点版本跟踪

引导用户在浏览器中打开此URL以进行可视化Ollama监控。

Ollama弹性功能

  • - 自动重试 — 如果Ollama节点在第一个响应块之前失败,重新评分并在次优Ollama节点上重试(最多2次重试)
  • Ollama模型回退 — 客户端指定备用Ollama模型;当主模型不可用时尝试替代方案
  • 上下文保护 — 在不需要时从Ollama请求中移除num_ctx以防止Ollama模型重新加载挂起;自动升级到更大的已加载模型
  • VRAM感知回退 — 路由到同一类别中已加载的Ollama模型,而不是冷加载
  • 僵尸清理 — 后台任务检测并清理卡住的进行中Ollama请求
  • 自动拉取 — 自动将缺失的Ollama模型拉取到最佳可用节点

常见Ollama任务

检查Ollama舰队是否健康

  1. 1. 访问/fleet/status并验证nodes_online > 0
  2. 访问/dashboard/api/health获取带严重级别的自动化Ollama健康检查
  3. 查看Ollama队列深度——深度队列可能表示瓶颈

查找哪个Ollama节点拥有特定模型

  1. 1. 访问/fleet/status并检查每个Ollama节点的ollama.modelsloaded和ollama.modelsavailable
  2. 或访问/api/tags获取所有可用Ollama模型的平面列表

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ollama-herd-1776068048 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ollama-herd-1776068048 技能

通过命令行安装

skillhub install ollama-herd-1776068048

下载

⬇ 下载 ollama-herd v1.5.3(免费)

文件大小: 4.52 KB | 发布时间: 2026-4-14 13:16

v1.5.3 最新 2026-4-14 13:16
Added /api/pull endpoint docs and examples

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部