返回顶部
o

operating-autodl-training远程训练管理

Operates remote model training jobs on AutoDL Linux servers over SSH. Use when starting a training run, checking whether training is still alive, reviewing GPU/CPU/memory/disk usage, reading recent logs, diagnosing abnormal interruptions, or summarizing the latest training outcome with next-step recommendations.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
197
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

operating-autodl-training

操作AutoDL训练

使用此技能在AutoDL Linux服务器上进行远程训练操作。它专为开始训练、查看进度、检查资源、读取日志、诊断故障、决定下一步操作的高频工作流设计,同时将执行限制在配置的项目目录内。

技能功能

  • - 通过SSH在目标项目目录中启动配置的训练命令
  • 使用Conda或virtualenv回退方案激活远程Python环境
  • 结合进程、GPU和日志新鲜度信号检查训练是否仍在运行
  • 汇总GPU、CPU、内存和磁盘压力,而非输出原始命令结果
  • 读取最近日志并提取可能的指标,如epoch、step、loss、lr、gradnorm、valloss、accuracy、mAP和F1
  • 检测常见训练故障,如CUDA OOM、NCCL错误、NaN、磁盘已满、超时和段错误
  • 生成人类可读的训练摘要,并建议是继续、调整还是从检查点恢复

必需输入

在运行任何脚本前收集或确认以下值:

  • - host:AutoDL服务器主机名或IP
  • port:SSH端口,通常为22
  • username:远程Linux用户名
  • projectpath:远程服务器上的绝对项目目录,例如/root/autodl-tmp/your-project
  • 一个环境选项:envname、envactivate或venvpath
  • traincommand:训练启动命令,如python train.py、python -m torch.distributed.run ...或bash scripts/train.sh
  • 可选密码模式:当SSH密钥登录不可用时,将AUTOCLAWTRAINSSHPASSWORD作为环境变量或本地.env文件提供

优先使用从config.example.json复制到实际文件(如config.json)的配置文件,或基于.env.example的环境变量。

安全规则

  • - 仅在配置的project_path内操作
  • 不虚构缺失的SSH凭据或密钥
  • 不将明文密码写入文件
  • 优先使用SSH密钥或环境变量
  • 拒绝明显破坏性的启动命令,如rm -rf、reboot、shutdown、mkfs或fork炸弹
  • 不杀死无关进程或运行全局破坏性恢复命令

工作流程

1. 确认配置

阅读config.example.json和references/usage.md以了解预期字段。向用户询问任何缺失的值,而非猜测。

2. 开始或恢复训练

运行scripts/remote_train.py以启动后台作业或构建恢复命令:

bash
python scripts/remote_train.py --config config.json
python scripts/remote_train.py --config config.json --resume-from outputs/checkpoints/last.ckpt

当用户要求启动训练、中断后重新启动或从检查点恢复时使用此功能。

3. 检查实时状态

当用户询问训练是否仍在运行时,运行scripts/check_status.py:

bash
python scripts/check_status.py --config config.json

此脚本结合进程匹配、nvidia-smi和最近的日志更新,将运行状态分类为running、stopped、failed或unknown。

4. 检查资源压力

运行scripts/monitor_resources.py以汇总GPU/CPU/内存/磁盘使用情况:

bash
python scripts/monitor_resources.py --config config.json

使用输出中人类可读的瓶颈评估,而非粘贴原始命令输出,除非用户要求原始数据。

5. 读取日志和摘要

以下列模式之一运行scripts/summarize_log.py:

bash
python scripts/summarize_log.py --config config.json --action read --tail 200
python scripts/summarize_log.py --config config.json --action detect-failure --tail 400
python scripts/summarize_log.py --config config.json --action summarize --tail 400

使用read获取最近的摘录和指标,detect-failure进行异常诊断,summarize获取简洁的人类可读评估及后续步骤。

脚本映射

  • - scripts/remotetrain.py:启动训练,可选恢复模板,结构化启动结果
  • scripts/checkstatus.py:基于进程/GPU/日志的训练状态
  • scripts/monitorresources.py:GPU/CPU/内存/磁盘摘要和瓶颈提示
  • scripts/summarizelog.py:读取日志,检测故障,汇总收敛情况和后续操作
  • scripts/common.py:共享配置加载、SSH执行、安全路径检查、远程辅助函数
  • scripts/log_utils.py:可复用的日志解析、故障检测、趋势分析、推荐逻辑

参考资料

  • - 阅读references/usage.md了解设置步骤、示例配置和示例命令
  • 当SSH、环境激活、日志或训练恢复失败时,阅读references/troubleshooting.md

代理指南

  • - 从回答用户请求的最少侵入性操作开始
  • 当用户询问是/否状态问题时,在读取长日志前优先使用scripts/checkstatus.py
  • 当用户询问训练为何停止时,运行scripts/checkstatus.py,然后运行scripts/summarizelog.py --action detect-failure
  • 当用户询问是否继续训练时,运行scripts/summarizelog.py --action summarize,并在最终回复中包含脚本中的建议
  • 当提供检查点路径时,优先使用scripts/remote_train.py --resume-from ...,使恢复命令明确且可审计

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 autodl-train-1776108383 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 autodl-train-1776108383 技能

通过命令行安装

skillhub install autodl-train-1776108383

下载

⬇ 下载 operating-autodl-training v1.0.0(免费)

文件大小: 26.34 KB | 发布时间: 2026-4-15 11:48

v1.0.0 最新 2026-4-15 11:48
AutoDL remote training skill, initial release:

- Enables starting, monitoring, and diagnosing model training jobs on AutoDL Linux servers via SSH.
- Provides scripts for launching training, checking run status, monitoring GPU/CPU/memory/disk usage, reading recent logs, detecting failures, and summarizing outcomes.
- Uses safe practices: only operates in the designated project directory, avoids destructive commands, and secures credentials.
- Extracts key training metrics and produces actionable run summaries with next-step advice.
- Designed for fast, frequent remote training cycles with minimal user overhead.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部