{"skill":{"slug":"moss-voice-generator","displayName":"MOSS Voice Generator 指令式音色生成","summary":"MOSI Studio 指令式音色生成（moss-voice-generator）：用自然语言描述想要的音色风格，无需指定预设 voice_id，模型根据描述实时生成对应的声音。触发词：指令式语音、按描述生成声音、自定义音色、描述一个声音、 \"voice generator\"、\"generate voice...","description":"---\nname: moss-voice-generator\nhomepage: https://studio.mosi.cn\nmetadata:\n openclaw:\n requires:\n env: [\"MOSI_TTS_API_KEY\"]\n primaryEnv: \"MOSI_TTS_API_KEY\"\ndescription: >\n MOSI Studio 指令式音色生成（moss-voice-generator）：\n 用自然语言描述想要的音色风格，无需指定预设 voice_id，\n 模型根据描述实时生成对应的声音。\n 触发词：指令式语音、按描述生成声音、自定义音色、描述一个声音、\n \"voice generator\"、\"generate voice\"、\"按风格生成\"、\n \"播音腔\"、\"用xxx风格的声音说\"、\"生成一个xx风格的语音\"。\n 与普通 TTS 的区别：不需要挑选 voice_id，用文字描述就能生成想要的音色。\n 在飞书渠道：生成完成后优先发送语音气泡，不要发文件附件，\n 不要只回文字说\"已生成\"。具体发送方法参见 mosi-tts skill 第 5 节。\n---\n\n# MOSS Voice Generator 指令式音色生成\n\n不需要挑选预设音色，直接用文字描述想要的声音风格，模型会按描述实时合成。\n\n---\n\n## 快速开始\n\n脚本路径：`~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh`\n\n```bash\nbash ~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh \\\n --text \"各位观众朋友们大家好，欢迎收看今天的节目。\" \\\n --instruction \"播音腔女声，专业、清晰、有亲和力\" \\\n --output ~/.openclaw/workspace/output.wav\n```\n\n---\n\n## instruction 风格描述示例\n\n`--instruction` 是核心参数，用中文或英文自由描述：\n\n| 效果 | instruction 示例 |\n|------|-----------------|\n| 专业播音 | `播音腔女声，专业、清晰、有亲和力` |\n| 温柔知性 | `温柔知性的女声，语速缓慢，像在讲故事` |\n| 活力男声 | `年轻有活力的男声，热情开朗，像综艺主持人` |\n| 低沉磁性 | `沉稳有力的男声，低沉磁性，像纪录片旁白` |\n| 甜美可爱 | `甜美可爱的女声，活泼轻快，像动漫配音` |\n| 老人声音 | `年迈的老爷爷声音，略带沙哑，语速较慢` |\n| 英文主持 | `professional female news anchor voice, clear and authoritative` |\n\n描述越具体，效果越接近预期；可以包含性别、年龄、情绪、场景等维度。\n\n---\n\n## 与普通 TTS 的区别\n\n| | moss-tts（普通 TTS） | moss-voice-generator |\n|-|---------------------|---------------------|\n| 音色来源 | 从预设列表挑 voice_id | 用文字描述即时生成 |\n| 稳定性 | 高（同一 voice_id 结果一致） | 中（每次略有差异） |\n| 灵活性 | 受限于预设音色 | 几乎无限制 |\n| 适合场景 | 需要稳定一致的品牌声音 | 一次性生成、探索新音色 |\n\n---\n\n## 完整参数说明\n\n```\n--text, -t 要合成的文字（必填）\n--instruction, -i 音色风格描述（必填）\n--output, -o 输出 WAV 路径\n （默认: ~/.openclaw/workspace/voice_gen_output.wav）\n--temperature 采样温度，控制随机性（默认: 1.5）\n--top-p 核采样阈值（默认: 0.6）\n--top-k Top-K 采样（默认: 50）\n--api-key, -k 覆盖 MOSI_TTS_API_KEY 环境变量\n```\n\n调节 `--temperature`：值越高越随机，值越低越保守稳定。\n一般保持默认即可，如果觉得音色太随意可以调低至 1.0。\n\n---\n\n## 环境准备\n\nAPI Key 配置同 `mosi-tts` skill，读取 `MOSI_TTS_API_KEY` 环境变量。\n详见 `mosi-tts` skill 的\"环境准备\"章节。\n\n依赖：`curl`、`jq`、`base64`（均为标准 Unix 工具，通常已预装）\n\n---\n\n## 常见问题\n\n**Q：生成的音色每次都一样吗？**\n不一定。同样的 instruction 每次生成会有轻微差异（由 temperature 控制）。\n如果需要完全稳定的音色，建议先用此工具探索满意的风格，\n再通过声音克隆（`mosi-tts` skill 的 Voice Clone 功能）固化为 voice_id。\n\n**Q：可以克隆某人的声音吗？**\n本工具是根据文字描述生成全新音色，不是克隆真实人声。\n克隆真实人声请使用 `mosi-tts` skill 的 Voice Clone 功能。\n\n**Q：输出是什么格式？**\nWAV（24kHz）。在飞书渠道必须转成语音气泡发送，\n参考 `mosi-tts` skill 第 5 节（飞书语音气泡）的 `mosi_feishu_voice.sh` 脚本：\n```bash\nbash ~/.openclaw/skills/mosi-tts/scripts/mosi_feishu_voice.sh \\\n --wav ~/.openclaw/workspace/voice_gen_output.wav \\\n --chat-id \"oc_xxxxxxxxxxxxxxxx\"\n```\n","tags":{"latest":"1.0.5"},"stats":{"comments":0,"downloads":725,"installsAllTime":1,"installsCurrent":1,"stars":0,"versions":6},"createdAt":1773391653370,"updatedAt":1778491876821},"latestVersion":{"version":"1.0.5","createdAt":1773717325359,"changelog":"Fix: use metadata.openclaw.requires.env and primaryEnv to declare MOSI_TTS_API_KEY","license":"MIT-0"},"metadata":{"setup":[{"key":"MOSI_TTS_API_KEY","required":true}],"os":null,"systems":null},"owner":{"handle":"mkkb473","userId":"s174hset0mwby06c5aeehg9bp983nexw","displayName":"YYL","image":"https://avatars.githubusercontent.com/u/39012250?v=4"},"moderation":null}