返回顶部
f

f5tts_monitorF5-TTS训练监控

Monitor F5-TTS distributed training on the 9-GPU mining rig (Local-LLM) without interfering with the process.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
266
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

f5tts_monitor

F5-TTS 挖矿机监控技能

本技能为ADA提供安全监控9-GPU挖矿机(Local-LLM)上正在进行的F5-TTS训练过程的指令,且不会干扰数据或环境。

重要提示:

  1. 1. 训练数据集和检查点严格位于挖矿机硬盘的/mnt/toshiba/projects/F5-TTS/路径下。
  2. 请勿尝试在asus-z170k上本地运行训练。
  3. 与挖矿机上的Python环境交互时,请仅使用uv。

监控训练步骤

1. 检查GPU利用率

为确保所有9块GPU均在积极训练且未出现瓶颈或内存溢出,请通过SSH运行以下命令(若使用watch命令,请记得使用伪终端): bash ssh Local-LLM nvidia-smi

您应看到9个python3进程各自持续占用约11GB显存。

2. 检查训练轮次进度

查看Accelerate训练日志以了解当前轮次和全局步数: bash ssh Local-LLM tail -n 100 /mnt/toshiba/projects/F5-TTS/outputs/trainingminingrig.log

查找Epoch:和Step:的进度信息。

3. 检查系统内存和CPU负载

挖矿机仅配备双核奔腾CPU和16GB内存。请确保系统在DDP开销下未出现性能瓶颈: bash ssh Local-LLM free -h && uptime

4. 更新心跳信息

成功探测状态后,请在本地更新您的HEARTBEAT.md文件,向Master Seiya报告当前轮次、步数、GPU温度以及预计剩余时间。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 f5tts-monitor-1776204737 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 f5tts-monitor-1776204737 技能

通过命令行安装

skillhub install f5tts-monitor-1776204737

下载

⬇ 下载 f5tts_monitor v1.0.0(免费)

文件大小: 1.53 KB | 发布时间: 2026-4-15 11:06

v1.0.0 最新 2026-4-15 11:06
Initial release of f5tts_monitor skill:

- Provides instructions to safely monitor F5-TTS distributed training on the 9-GPU mining rig.
- Details steps to check GPU utilization, training log progress, and system resource load via SSH.
- Emphasizes not interfering with running processes or moving training to another machine.
- Specifies exclusive use of `uv` for Python environment management on the mining rig.
- Includes directions for updating heartbeat status to the project lead.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部