Install
openclaw skills install aim-digital-human-video当用户想要用一张图片生成数字人说话视频时使用此 skill。用户需提供图片和音频(或文案+克隆语音/预设语音),skill 通过 AEP 提交 /video2,智能轮询 TOS URL 等待结果就绪后返回视频公开链接。
openclaw skills install aim-digital-human-video用户说"帮我用这张图片做个数字人"时,使用此 skill。
--audio-path)--text)和一段语音样本(--voice-sample)以及样本对应的文字(--voice-sample-text)--text),可选预设声音(--voice-preset,默认"中文女",可选 "中文男"/"英文男"/"英文女")--quality high/normal)注意:动作描述 prompt 功能暂不主动暴露,除非用户主动要求。
[TTS(可选)] → 读取文件转base64 → AEP提交/video2 → 智能轮询TOS URL → 返回视频链接
/video2(传 base64,服务端自行存储,立即返回 TOS 公开 URL)skill 不接触任何内部存储(FFS),只需要 AEP 凭证即可运行。
根据音频时长预估视频生成时间(经验值:音频时长 × 25~50 + 30s 开销):
python scripts/gen_digital_human.py \
--image-path /path/to/image.png \
--audio-path /path/to/audio.mp3 \
--task-name "我的数字人视频"
python scripts/gen_digital_human.py \
--image-path /path/to/image.png \
--text "你好,欢迎来到我们的频道" \
--task-name "欢迎视频"
python scripts/gen_digital_human.py \
--image-path /path/to/image.png \
--text "你好,欢迎来到我们的频道" \
--voice-sample /path/to/voice_sample.wav \
--voice-sample-text "这段话是语音样本对应的原文" \
--task-name "克隆语音视频"
脚本输出 JSON,核心字段:videoUrl(TOS 公开 URL,可直接发送给用户)。
密钥只放一个地方:本 skill 根目录下的 .env,键名 aim-secret-key。脚本不看环境变量、不读家目录、不跨 agent 复用——就这一个文件。
agent 生成前先跑自检:
python scripts/gen_digital_human.py --check-config
aim_secret_key_configured: true → 继续生成流程aim_secret_key_configured: false → 引导用户:
.env 里的 aim-secret-key= 后面填上用户给的密钥(用户不自己改文件)AEP_BASE_URL:AEP 网关地址(默认 https://aep.focusaim.com)TTS_AEP_SERVICE_ID:TTS 服务标识(默认 speech_generation_service_pre)主脚本在 skill 目录下维护 .task-history.jsonl(已 gitignore,不会随 skill 分享),自动处理单次轮询 60 分钟超时但上游任务仍可能在跑的情形:
ready,显示在屏幕上expired(真的失败了)pendingpending;本次轮询成功转 ready;本次轮询 60 分钟超时不改状态,留给下次运行回扫python scripts/gen_digital_human.py --list-tasksscripts/gen_digital_human.py:主脚本,完成 TTS→提交→轮询→状态落盘 全流程.task-history.jsonl(运行时生成):任务状态表/video2(结果上传 TOS,返回公开 URL)