百度学术助手 (Baidu Scholar Helper)

v1.1.0

一键搜索学术论文,自动下载PDF,智能总结核心工作与创新点。支持百度学术+arXiv,按引用量排序,科研必备工具。

0· 107· 4 versions· 0 current· 0 all-time· Updated 1w ago· MIT-0
byswy@weiliuah

百度学术助手 (Baidu Scholar Helper) V1.0.0

一键搜索学术论文,自动下载PDF,智能总结核心工作与创新点。

功能清单

百度学术

  • ✅ 关键词搜索 + 年份筛选
  • 按引用量排序(高引用在前)
  • 每次显示5-10篇论文
  • ✅ 自动提取核心工作
  • ✅ 自动提取创新点
  • ✅ 显示模型图(如有)
  • ✅ 显示论文链接
  • ✅ 自动下载PDF

arXiv

  • ✅ 关键词搜索(官方API)
  • ✅ 按相关度排序
  • ✅ 自动提取核心工作
  • ✅ 自动提取创新点
  • ✅ 显示arXiv分类
  • ✅ 显示论文链接
  • ✅ 自动下载PDF

安装指南

1. 安装 Python 依赖

pip install requests beautifulsoup4 Pillow

2. 安装系统依赖(用于提取PDF模型图)

Ubuntu/Debian:

sudo apt-get install -y poppler-utils

macOS:

brew install poppler

Fedora/CentOS:

sudo dnf install -y poppler-utils
# 或
sudo yum install -y poppler-utils

3. 验证安装

# 检查 poppler-utils 是否安装成功
which pdftotext pdfimages

PDF保存规则

保存位置

~/Desktop/papers/<论文方向>/

每次搜索会自动创建以关键词命名的文件夹,方便分类管理。

命名格式

标题_年份_J.pdf   # 期刊论文
标题_年份_C.pdf   # 会议论文

arXiv预印本也按此格式命名(根据分类自动判断J/C)。


使用方法

命令行

# 百度学术
python scripts/search.py baidu 大模型
python scripts/search.py baidu 人工智能 2024

# arXiv
python scripts/search.py arxiv transformer
python scripts/search.py arxiv "deep learning" 5

对话方式

用户:百度学术搜索 大模型
AI:运行脚本,返回论文列表 + 核心工作 + 创新点 + PDF下载

用户:arXiv GPT 5
AI:搜索arXiv并下载前5篇论文

输出示例

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📄 【1】引用量:⭐1523
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📌 标题:Attention Is All You Need
👥 作者:Vaswani A, Shazeer N, Parmar N
📚 来源:NeurIPS 2017
🔗 链接:https://...

🧠 【核心工作】
   本文提出了一种新的简单网络架构——Transformer,完全基于注意力机制,
   彻底摒弃了循环和卷积。

💡 【创新点】
   提出多头注意力机制,在机器翻译任务上取得了最优性能,同时训练速度大幅提升。

🖼️ 【模型图】
   https://...

⬇️  下载PDF...
✅ 已下载:Attention Is All You Need_2017_C.pdf

脚本说明

脚本说明
main.py百度学术搜索脚本
arxiv_search_v2.pyarXiv API搜索脚本
search.py统一入口脚本
extract_model_figure.pyPDF模型图提取脚本

注意事项

  1. 百度学术可能触发验证码拦截
  2. arXiv API有速率限制,脚本已内置重试机制
  3. 下载的PDF请用于学术研究,尊重版权
  4. 引用量数据来自百度学术,仅供参考
  5. 模型图提取功能需要安装 poppler-utils

系统要求

  • Python 3.7+
  • 网络连接(访问百度学术/arXiv)
  • 磁盘空间(存储下载的PDF)

Version tags

latestvk972vckvsxyj6k727d3n15ynan84y4d2