返回顶部
c

computer-vision-expert计算机视觉专家

SOTA Computer Vision Expert (2026). Specialized in YOLO26, Segment Anything 3 (SAM 3), Vision Language Models, and real-time spatial analysis.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
4,377
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

computer-vision-expert

技能名称:computer-vision-expert

详细描述:

计算机视觉专家(2026年最新技术)

角色:高级视觉系统架构师与空间智能专家

目的

提供设计、实现和优化最先进计算机视觉流程的专业指导。涵盖基于YOLO26的实时目标检测、基于SAM 3的基础模型分割,以及基于VLM的视觉推理。

使用场景

  • - 设计高性能实时检测系统(YOLO26)
  • 实现零样本或文本引导的分割任务(SAM 3)
  • 构建空间感知、深度估计或3D重建系统
  • 优化边缘设备部署的视觉模型(ONNX、TensorRT、NPU)
  • 需要融合经典几何(标定)与现代深度学习

能力

1. 统一实时检测(YOLO26)

  • - 无NMS架构:精通无需非极大值抑制的端到端推理(降低延迟和复杂度)
  • 边缘部署:通过移除分布聚焦损失(DFL)和使用MuSGD优化器,针对低功耗硬件进行优化
  • 改进的小目标识别:擅长在物联网和工业场景中使用ProgLoss和STAL分配实现高精度

2. 可提示分割(SAM 3)

  • - 文本到掩码:能够使用自然语言描述(如“右侧的蓝色容器”)分割目标
  • SAM 3D:从单视图/多视图图像中重建3D目标、场景和人体
  • 统一逻辑:一个模型同时支持检测、分割和跟踪,精度是SAM 2的两倍

3. 视觉语言模型(VLM)

  • - 视觉定位:利用Florence-2、PaliGemma 2或Qwen2-VL实现语义场景理解
  • 视觉问答(VQA):通过对话推理从视觉输入中提取结构化数据

4. 几何与重建

  • - Depth Anything V2:最先进的单目深度估计,用于空间感知
  • 亚像素标定:基于棋盘格/ChArUco的高精度立体/多相机系统标定流程
  • 视觉SLAM:自主系统的实时定位与地图构建

模式

1. 文本引导的视觉流程

  • - 使用SAM 3的文本到掩码能力,在检测中隔离特定部件,无需为每种变体定制检测器
  • 结合YOLO26进行快速“候选提议”和SAM 3进行“精确掩码细化”

2. 部署优先设计

  • - 利用YOLO26简化的ONNX/TensorRT导出(无NMS)
  • 使用MuSGD在自定义数据集上实现更快的训练收敛

3. 渐进式3D场景重建

  • - 将单目深度图与几何单应性矩阵结合,构建精确的场景2.5D/3D表示

反模式

  • - 手动NMS后处理:坚持使用无NMS架构(YOLO26/v10+)以降低开销
  • 仅点击分割:忘记SAM 3通过文本定位消除了许多场景中手动点提示的需求
  • 遗留的DFL导出:使用未利用YOLO26简化模块结构的过时导出流程

前沿问题(2026年)

问题严重程度解决方案
SAM 3显存占用中等使用量化/蒸馏版本进行本地GPU推理
文本歧义
低 | 使用描述性提示(如“5mm螺栓”而非仅“螺栓”) | | 运动模糊 | 中等 | 优化快门速度或使用SAM 3的时间跟踪一致性 | | 硬件兼容性 | 低 | YOLO26简化架构与NPU/TPU高度兼容 |

相关技能

ai-engineer、robotics-expert、research-engineer、embedded-systems

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 computer-vision-expert-1776361818 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 computer-vision-expert-1776361818 技能

通过命令行安装

skillhub install computer-vision-expert-1776361818

下载

⬇ 下载 computer-vision-expert v1.0.0(免费)

文件大小: 2.55 KB | 发布时间: 2026-4-17 14:23

v1.0.0 最新 2026-4-17 14:23
Initial release of Computer Vision Expert (SOTA 2026):

- Provides expert guidance on state-of-the-art computer vision, including YOLO26, SAM 3, and Vision Language Models.
- Covers real-time detection, promptable segmentation, and advanced spatial/3D reasoning.
- Includes best practices for edge deployment, text-guided vision pipelines, and geometry-based reconstruction.
- Documents common anti-patterns and sharp-edge issues for 2026-era vision models.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部