Parakeet TDT (Speech-to-Text)
Local transcription using NVIDIA Parakeet TDT 0.6B v3 with ONNX Runtime.
Runs on CPU — no GPU required. ~30x faster than realtime.
Installation
CODEBLOCK0
Default port is 5000. Set PARAKEET_URL to override (e.g., http://localhost:5092).
API Endpoint
OpenAI-compatible API at $PARAKEET_URL (default: http://localhost:5000).
Quick Start
CODEBLOCK1
Python / OpenAI SDK
CODEBLOCK2
Response Formats
| Format | Output |
|---|
| INLINECODE5 | Plain text |
| INLINECODE6 |
{"text": "..."} |
|
verbose_json | Segments with timestamps and words |
|
srt | SRT subtitles |
|
vtt | WebVTT subtitles |
Supported Languages (25)
English, Spanish, French, German, Italian, Portuguese, Polish, Russian,
Ukrainian, Dutch, Swedish, Danish, Finnish, Norwegian, Greek, Czech,
Romanian, Hungarian, Bulgarian, Slovak, Croatian, Lithuanian, Latvian,
Estonian, Slovenian
Language is auto-detected — no configuration needed.
Web Interface
Open $PARAKEET_URL in a browser for drag-and-drop transcription UI.
Docker Management
CODEBLOCK3
Why Parakeet over Whisper?
- - Speed: ~30x faster than realtime on CPU
- Accuracy: Comparable to Whisper large-v3
- Privacy: Runs 100% locally, no cloud calls
- Compatibility: Drop-in replacement for OpenAI's transcription API
技能名称: parakeet-stt
详细描述:
Parakeet TDT(语音转文本)
使用 NVIDIA Parakeet TDT 0.6B v3 与 ONNX Runtime 进行本地转录。
在 CPU 上运行——无需 GPU。速度比实时快约 30 倍。
安装
bash
克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai
使用 Docker 运行(推荐)
docker compose up -d parakeet-cpu
或直接使用 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000
默认端口为 5000。设置 PARAKEET_URL 可覆盖(例如 http://localhost:5092)。
API 端点
兼容 OpenAI 的 API,位于 $PARAKEET_URL(默认:http://localhost:5000)。
快速开始
bash
转录音频文件(纯文本)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F file=@/path/to/audio.mp3 \
-F response_format=text
获取时间戳和分段
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F file=@/path/to/audio.mp3 \
-F response
format=verbosejson
生成字幕(SRT)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F file=@/path/to/audio.mp3 \
-F response_format=srt
Python / OpenAI SDK
python
import os
from openai import OpenAI
client = OpenAI(
baseurl=os.getenv(PARAKEETURL, http://localhost:5000) + /v1,
api_key=not-needed
)
with open(audio.mp3, rb) as f:
transcript = client.audio.transcriptions.create(
model=parakeet-tdt-0.6b-v3,
file=f,
response_format=text
)
print(transcript)
响应格式
{text: ...} |
| verbose_json | 包含时间戳和单词的分段 |
| srt | SRT 字幕 |
| vtt | WebVTT 字幕 |
支持的语言(25 种)
英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、俄语、
乌克兰语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、捷克语、
罗马尼亚语、匈牙利语、保加利亚语、斯洛伐克语、克罗地亚语、立陶宛语、拉脱维亚语、
爱沙尼亚语、斯洛文尼亚语
语言自动检测——无需配置。
网页界面
在浏览器中打开 $PARAKEET_URL 即可使用拖放式转录界面。
Docker 管理
bash
检查状态
docker ps --filter name=parakeet
查看日志
docker logs -f <容器名称>
重启
docker compose restart
停止
docker compose down
为什么选择 Parakeet 而非 Whisper?
- - 速度:在 CPU 上比实时快约 30 倍
- 准确性:与 Whisper large-v3 相当
- 隐私性:100% 本地运行,无需云端调用
- 兼容性:可直接替代 OpenAI 的转录 API