返回顶部
g

gemini-live-phoneGemini实时通话

Bridge Twilio phone calls to Google Gemini Live API for real-time AI voice conversations. No STT/TTS middleware required. Includes VAD and echo suppression.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
248
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

gemini-live-phone

Gemini Live Phone Bridge

使用Google Gemini原生音频能力,通过电话实现实时语音AI交互。

架构

电话 ↔ Twilio ↔ WebSocket(μ律8kHz)↔ 桥接层(PCM转码)↔ Gemini Live API(24kHz PCM)

快速开始

bash

设置所需环境变量


export GOOGLEAPIKEY=your-key
export TWILIOAUTHTOKEN=your-token

运行桥接服务

python scripts/bridge.py --port 3335

端点

端点方法描述
/gemini-live/statusGET健康检查 + 活跃通话
/gemini-live/incoming
POST | 入站通话的TwiML(Twilio Webhook) | | /gemini-live/stream | WS | Twilio媒体流WebSocket | | /gemini-live/call | POST | 发起出站通话 | | /gemini-live/twiml | POST | 出站通话的TwiML | | /gemini-live/call-status | POST | Twilio通话状态Webhook |

出站通话API

bash
curl -X POST https://your-domain/gemini-live/call \
-H Content-Type: application/json \
-d {to: +1234567890, greeting: 你好!我是玛西亚。}

配置

所有设置可通过CLI参数或环境变量配置:

核心配置

  • - --model — Gemini模型(默认:gemini-2.5-flash-native-audio-latest)
  • --voice — Gemini语音:Puck、Charon、Kore、Fenrir、Aoede、Leda、Orus、Zephyr(默认:Kore)
  • --from-number — Twilio出站号码(默认:环境变量TWILIO_FROM)
  • --system-prompt — AI角色系统提示词
  • --max-duration — 最大通话秒数(默认:300)

VAD(语音活动检测)

  • - --vad-enabled / --no-vad — 切换服务端VAD(默认:开启)
  • --vad-silence-ms — 触发活动结束的静音时长(默认:500)
  • --vad-energy-threshold — RMS能量阈值(默认:0.01)
  • --vad-speech-min-ms — 触发活动开始前的最短语音时长(默认:100)

回声抑制

  • - --echo-multiplier — 代理语音期间的VAD阈值倍数(默认:3.0)
  • --echo-decay-ms — 代理停止说话后的衰减时间(默认:300)

Twilio设置

  1. 1. 在Twilio购买电话号码
  2. 设置语音Webhook:https://your-domain/gemini-live/incoming(HTTP POST)
  3. 设置通话状态URL:https://your-domain/gemini-live/call-status(HTTP POST)
  4. 确保目标国家/地区已启用地理权限

网络要求

桥接服务必须可从互联网访问(Twilio需连接至此服务)。
推荐:使用支持WebSocket的Caddy反向代理。

Caddy配置示例

handle /gemini-live/* { reverse_proxy localhost:3335 { flush_interval -1 transport http { read_timeout 0 write_timeout 0 } } }

性能表现

延迟基准测试(Gemini 2.5 Flash Native Audio):

配置中位数最小值最大值
无VAD,200ms缓冲区3,660ms2,360ms5,180ms
服务端VAD,50ms缓冲区
2,500ms | 2,080ms | 6,980ms |

服务端VAD可将中位数延迟降低约32%。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 gemini-live-phone-1776115480 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 gemini-live-phone-1776115480 技能

通过命令行安装

skillhub install gemini-live-phone-1776115480

下载

⬇ 下载 gemini-live-phone v1.0.1(免费)

文件大小: 9.92 KB | 发布时间: 2026-4-15 12:51

v1.0.1 最新 2026-4-15 12:51
- Added version field to SKILL metadata (now version 1.0.1)
- Updated description to be more concise and mention key features directly
- No functionality or endpoint changes; documentation only update
- No breaking changes for users or API consumers

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部