arXiv 每日论文精选 Skill
功能
每日自动搜集 arXiv 上 LLM/RAG/Agent/Context/Harness 等方向的最新高价值论文(2-5 篇),整理成易于阅读的简洁形式,通过飞书推送给用户。
触发方式
- 定时任务:每个工作日上午 9:00 自动执行
- 手动触发:用户发送"今日论文"、"arxiv 推荐"、"论文推送"、"看看今天的论文"等关键词
- 深度分析:用户发送"详解第 X 篇"、"分析 [arXiv ID]"、"用 ljg-paper 分析这篇"
执行流程
1. 搜集论文
使用 arXiv API 搜索以下方向的最新论文(过去 3 天内):
- Large Language Model (LLM)
- Retrieval Augmented Generation (RAG)
- AI Agent / Autonomous Agent
- Context Window / Context Management
- AI Harness / Agent Harness
- Transformer Architecture
- Language Model Reasoning
- Multimodal LLM
2. 筛选排序
- 过滤掉非 CS 领域(排除物理、生物、医学等)
- 优先选择 cs.CL, cs.AI, cs.LG, stat.ML 分类
- 根据标题关键词打分排序
- 去重后选择 Top 10(目录)+ Top 5(详解)
3. 机构信息提取
- 从机构数据库
affiliations_db.json 中查找(自动累积)
- 首次遇到的论文自动从 arXiv HTML 页面提取
- 支持知名机构识别:清华、北大、斯坦福、MIT、Google、Meta、华为等
4. 格式化输出
生成 Markdown 格式报告:
# 📚 今日 ArXiv 论文推送 (2026-04-16)
## 📋 目录
1. 论文标题 1
2. 论文标题 2
...
---
## 📖 论文详解
### 1. 论文完整标题
**arXiv**: 2604.13016v1 | 2026-04-14 | Tsinghua University + THUNLP
**作者**: Yaxuan Li, Yuxin Zuo, Bingxiang He et al.
**链接**: https://arxiv.org/abs/2604.13016v1
**中文摘要**:
> ...
**解决的问题**:
- ...
**核心创新**:
- ...
**为什么重要**:
- ...
**局限性**:
- ...
5. 推送
- 飞书推送:目录 + Top 5 详解(通过 Webhook)
- 文件保存:完整报告保存到
/tmp/arxiv_daily_YYYYMMDD.md
输出要求
- 紧凑目录:仅标题,快速浏览
- 详解格式:包含机构、作者、链接、摘要、问题、创新、重要性、局限性
- 机构信息:每篇论文必须显示机构(如"Tsinghua University + THUNLP")
- 中文友好:摘要保留英文原文,分析使用中文
配置
- 推送时间:工作日 09:00(Asia/Shanghai)
- 推送渠道:飞书(Webhook)
- 论文数量:目录 10 篇 + 详解 5 篇/天
- 时间范围:过去 3 天内的新论文
文件结构
arxiv-daily-skill/
├── SKILL.md # 本文件
├── fetch_arxiv.py # 核心脚本
├── deep_analyze.py # 深度分析工具
├── cron_run.sh # Cron 执行入口
├── run.sh # 手动测试
├── affiliations_db.json # 机构数据库(自动累积)
├── feishu_config.json # 飞书配置
└── README.md # 使用文档
依赖
- arXiv API(无需 API Key)
- Python 3.6+
- 飞书 Webhook(可选,用于推送)
- cron(定时任务)
高级功能
深度分析模式
对单篇论文进行详细解读:
python3 deep_analyze.py 2604.13016
或调用 ljg-paper skill:
- "用 ljg-paper 分析 2604.13016"
- "详解第 3 篇论文"
机构数据库
自动累积的机构信息保存在 affiliations_db.json:
{
"affiliations": {
"2604.13016": ["Tsinghua University", "THUNLP"],
"2604.13029": ["Huawei Technologies Co., Ltd."]
}
}
自定义搜索方向
修改 fetch_arxiv.py 中的 SEARCH_CONFIGS:
SEARCH_CONFIGS = [
{"query": "cat:cs.AI AND all:large language model", "label": "LLM", "max": 3},
# 添加新的搜索方向...
]
飞书配置
- 在飞书群聊中添加自定义机器人
- 复制 Webhook 地址
- 编辑
feishu_config.json,填入 webhook_url
- 测试推送:
./cron_run.sh
示例对话
用户: "今天有什么新论文?"
助理: 推送今日 ArXiv 论文目录 + Top 5 详解
用户: "详解第 3 篇"
助理: 调用 deep_analyze.py 或 ljg-paper 进行深度分析
用户: "用 ljg-paper 分析 2604.13016"
助理: 生成完整的中文解读报告(费曼翻译 + 核心概念 + 博导审稿)
版本: v5
最后更新: 2026-04-16
维护者: OpenClaw Agent