Install
openclaw skills install scholar-search-skills学术论文搜索与下载工具。当用户要求搜索某一主题的科研论文时触发此技能,支持从 arXiv、ICLR、ICML、NeurIPS 等来源搜索、筛选和下载论文,并生成结构化摘要和 BibTeX 引用。
openclaw skills install scholar-search-skills本技能用于系统性地搜索、筛选和下载学术论文,适用于研究课题调研、文献综述等场景。集成了 arxiv-search、docling 等工具,支持自动化摘要提取和引用追踪。
当用户提出以下需求时触发:
与用户确认以下信息:
Agent, Indirect Prompt Injection Attack, Black-box Defensemkdir -p ~/papers/<研究主题>/{core-papers,cited-papers,output}
创建文献清单文件:
PAPER_LIST.md - 论文列表PAPER_SUMMARIES.md - 论文摘要references.bib - BibTeX 引用格式# 安装的 arxiv-search 技能位置
ls ~/.agents/skills/arxiv-search/
如果 arxiv-search 可用,使用它进行搜索:
https://arxiv.org/search/?searchtype=all&query=<关键词>&start=0
# 下载 PDF
wget -q "https://arxiv.org/pdf/<arXiv_ID>" -O "<标题缩写>_<arXiv_ID>.pdf"
# 示例
wget -q "https://arxiv.org/pdf/2309.15817" -O "lm_agents_risks_2309.15817.pdf"
npx skills add existential-birds/beagle@docling -g -y
使用 docling 提取论文关键信息:
# docling 使用示例
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("paper.pdf")
# 提取结构化信息
为每篇论文创建摘要模板:
### <论文标题>
- **作者**: Authors
- **arXiv**: [ID](https://arxiv.org/abs/ID)
- **日期**: YYYY-MM
- **核心贡献**:
1. 贡献点1
2. 贡献点2
- **方法**:
- **实验结果**:
- **链接**: [PDF](./path/to/file.pdf)
- **BibTeX**:
```bibtex
@article{...}
### 步骤 7: 引用追踪 (Google Scholar)
1. 访问 Google Scholar 搜索核心论文
2. 获取 "Cited by" 列表
3. 筛选与研究主题相关的引用论文
4. 下载高相关度论文
```bash
# 搜索引用论文
# 使用 web_fetch 访问 Google Scholar
def relevance_score(title, abstract, keywords):
score = 0
for kw in keywords:
if kw.lower() in title.lower():
score += 3
if kw.lower() in abstract.lower():
score += 1
return score
| # | 论文标题 | arXiv ID | 相关度 | 日期 | 类型 |
|---|----------|----------|--------|------|------|
| 1 | Title | xxxx.xxxxx | ★★★★★ | 2024 | 核心 |
@article{ruan2023toolemu,
title={Identifying the Risks of LM Agents with an LM-Emulated Sandbox},
author={Ruan, Yangjun and Dong, Honghua and Wang, Andrew and others},
journal={arXiv preprint arXiv:2309.15817},
year={2023}
}
# <研究主题> 文献综述
## 1. 引言
## 2. 背景与相关工作
## 3. 核心文献分析
## 4. 最新研究进展
## 5. 未来研究方向
| Skill | 用途 |
|---|---|
| arxiv-search | 专业 arXiv 论文搜索 |
| docling | PDF 解析和信息提取 |
| academic-researcher | 学术研究工作流 |
| latex-paper-en | 论文格式模板 |
https://arxiv.org/search/?searchtype=all&query=<关键词>&start=0https://arxiv.org/search/?searchtype=all&query=<关键词>&date-filter_by=all_dates&size=50| 文件 | 说明 |
|---|---|
core-papers/ | 核心文献 PDF |
cited-papers/ | 引用文献 PDF |
PAPER_LIST.md | 论文清单 |
PAPER_SUMMARIES.md | 结构化摘要 |
references.bib | BibTeX 引用 |
literature_review.md | 文献综述大纲 (可选) |
本技能包含 scripts/score_papers.py 用于关键词相关性打分。
pip install scikit-learn rapidfuzz
# 单一论文打分
python3 scripts/score_papers.py \
--keywords "agent,LLM,security,prompt injection" \
--title "Identifying the Risks of LM Agents with an LM-Emulated Sandbox" \
--abstract "Recent advances in Language Model (LM) agents..."
# 批量打分 (CSV 格式)
python3 scripts/score_papers.py \
--keywords "agent,LLM,security" \
--papers paper_list.csv \
--output results.json
# 自定义权重
python3 scripts/score_papers.py \
--keywords "agent,defense" \
--title "xxx" \
--abstract "xxx" \
--title-weight 0.7 \
--abstract-weight 0.3
title,abstract,arxiv_id,year
论文标题,论文摘要,2309.15817,2023
...
最终分数 = 0.6 × 模糊匹配分 + 0.4 × TF-IDF分数
标题权重 = 0.6 (可调整)
摘要权重 = 0.4 (可调整)
================================================================================
arXiv ID 年份 最终分 标题
================================================================================
2309.15817 2023 0.8523 Identifying the Risks of LM Agents...
2403.14771 2024 0.7832 InjecAgent: Benchmarking Indirect...
...
================================================================================
匹配关键词统计:
agent: 15
LLM: 12
security: 8
在步骤 8 (自动化筛选评分) 中使用:
# 1. 生成 CSV
echo "title,abstract,arxiv_id,year" > paper_list.csv
# ... 添加论文信息 ...
# 2. 打分排序
python3 scripts/score_papers.py \
--keywords "agent,prompt injection,defense" \
--papers paper_list.csv \
--output scored_papers.json
# 3. 筛选高分论文 (分数 > 0.6)
jq '.[] | select(.final_score > 0.6)' scored_papers.json