Install
openclaw skills install speech-paper-daily语音领域每日论文速递。搜索最新语音大模型(Speech LLM、TTS、ASR、codec、speech generation)和语音前端(speech enhancement、noise suppression、beamforming、source separation、dereverberation)预印本论文,以领域专家视角精读每篇论文,输出技术方案、实验结果、简介摘要和10分制评分,并将结果写入腾讯文档「每日论文速递」文件夹。触发场景:用户说"帮我找最新语音论文"、"搜语音预印本"、"语音论文速递"、"今天有什么语音论文"、"看看最新的 TTS/ASR/语音增强论文"等。
openclaw skills install speech-paper-daily搜索近 30 天语音领域 arXiv 预印本(20-30 篇),以领域专家视角精读,写入腾讯文档。
主要来源(优先使用):用 web_fetch 抓取 arXiv 官方每日列表页面,获取当天最新论文 ID:
https://arxiv.org/list/cs.SD/new — Sound 分类(仅今日新提交)https://arxiv.org/list/eess.AS/new — Audio and Speech Processing 分类(仅今日新提交)从页面中提取当天所有 arXiv ID,合并去重。/new 页面只列出今日新提交论文,无需按日期筛选。
⚠️ 页面只显示 ID,不含 abstract。提取 ID 后,用
read_arxiv_paper逐篇读取全文(含 abstract + 正文)。
补充来源(当天论文 < 5 篇时启用):使用 search_arxiv,date_from 往前推 7 天,关键词:
speech synthesis TTS neuralautomatic speech recognition ASRspeech enhancement noise suppressionspeech separation audio从官方列表获取的论文已属于 cs.SD 或 eess.AS,无需额外过滤分类。但需人工判断是否与语音/音频处理直接相关,丢弃以下类型:
保留所有 TTS、ASR、语音增强、语音分离、说话人识别/验证、音频语言模型、声码器、语音编解码等方向的论文。
合并两个页面结果,按提交日期降序,去重后全部保留(不设数量上限)。
对所有通过过滤的论文,无论评分高低,一律读取全文,策略如下:
web_fetch 抓取 https://arxiv.org/html/<ID>v1,文字质量更好、公式不乱码read_arxiv_paper 读 PDF读取全文时,注意提取论文中出现的 demo 页面链接(通常在 abstract 或 introduction 中,形如 demo page、audio samples、https://xxx.github.io 等)和代码仓库链接(形如 github.com/xxx)。
从语音领域专家视角输出:
## [序号] 论文标题
**arXiv ID**: 2501.xxxxx
**方向**: 语音大模型 / 语音前端
**作者**: 作者1, 作者2, 作者3 等
**机构**: xxx(作者所属单位,多机构用 / 分隔)
**发布日期**: YYYY-MM-DD
**论文链接**: https://arxiv.org/abs/2501.xxxxx
**PDF 链接**: https://arxiv.org/pdf/2501.xxxxx.pdf
**代码链接**: https://github.com/xxx/xxx(若论文未提供则填"暂无")
**Demo 链接**: https://xxx.github.io/xxx(若论文未提供则填"暂无")
### 📌 简介
2-3句话:解决什么问题,核心贡献是什么。
### 🔧 技术方案
**模型架构**:
- 整体框架(encoder/decoder结构、主干网络类型)
- 关键模块设计(注意力机制、特征提取方式、信号处理流程)
- 与 Transformer/Conformer/Mamba 等基础架构的关系
**核心创新**:
- 本文提出的新方法/新机制(与现有方法的本质区别)
- 解决了什么已有方法解决不了的问题
**训练策略**:
- 损失函数设计(感知损失、对抗损失、重建损失等)
- 数据预处理/增强方式
- 预训练 / 微调 / 多阶段训练策略(如有)
### 📊 实验结果
- 数据集 + 主要指标数值(与 baseline 对比)
- 是否开源
### ⭐ 评分:X/10
理由:创新性 / 实验充分性 / 实用价值
| 分数 | 标准 |
|---|---|
| 9-10 | 突破性,顶会水准(Interspeech/ICASSP/NeurIPS) |
| 7-8 | 有实质贡献,实验较充分 |
| 5-6 | 增量工作,有参考价值 |
| 3-4 | 实验不足或方法普通 |
| 1-2 | 质量较低,建议跳过 |
YUsookchBhki(「每日论文速递」文件夹,已确认)YYYY-MM-DD 语音smartcanvas(MDX 格式)步骤 1:用 write 工具将完整 MDX 内容写入临时文件(如 /tmp/speech_paper_YYYYMMDD.md)
步骤 2:用 write 工具创建 Python 脚本(如 /tmp/create_tdoc_YYYYMMDD.py),脚本内容固定为:
import subprocess, json
# 从文件读取内容(禁止用 f-string 拼接内容!)
with open("/tmp/speech_paper_YYYYMMDD.md", "r") as f:
content = f.read()
args = json.dumps({
"mdx": content, # 参数名必须是 mdx,不是 content
"parent_id": "YUsookchBhki", # 文件夹 ID,必须传
"title": "YYYY-MM-DD 语音" # 文档标题
})
result = subprocess.run(
["mcporter", "call", "tencent-docs", "create_smartcanvas_by_mdx", "--args", args],
capture_output=True, text=True
)
print(result.stdout)
print(result.stderr)
步骤 3:用 exec 工具执行 python3 /tmp/create_tdoc_YYYYMMDD.py
步骤 4:检查返回的 file_id 和 url,确认写入成功后告知用户。
mdx,不是 content——传错参数名腾讯文档返回 400001(content is empty)parent_id 必须传——不传则文档创建在根目录而非目标文件夹json.dumps 序列化# YYYY-MM-DD 语音论文速递
**共收录**: XX 篇 | **语音大模型**: XX 篇 | **语音前端**: XX 篇
> 今日 arXiv 语音相关论文(eess.AS / cs.SD / cs.CL)共命中 XX 篇。
---
## 🤖 语音大模型
[各篇论文内容]
---
## 🎙️ 语音前端
[各篇论文内容]
---
*由开心果 🍀 自动生成 · 数据来源:arXiv*
(上) / (下) 后缀