webpage-reader-skill

使用Google Chrome无头浏览器下载和读取网页内容，生成摘要并安全处理临时文件以保护隐私。

Install

openclaw skills install webpage-reader-skill

OpenClaw 网页下载器技能

技能描述

网页读取器技能是一个强大的工具，允许您使用Google Chrome的无头浏览器读取和分析网页内容。此技能可以：

检查系统是否安装了Google Chrome
如果未找到Chrome，自动尝试安装（在支持的平台上）
使用Chrome的无头模式和优化参数下载网页内容
读取和处理下载的HTML内容
生成网页内容摘要
安全处理临时文件以保护您的隐私

安装指南

先决条件

Python 3.8或更高版本
Google Chrome浏览器（将被自动检测，如果缺少将提供安装协助）

安装步骤

在OpenClaw中安装技能：
- 打开OpenClaw
- 进入技能管理器
- 点击"添加技能"
- 选择您下载此技能的目录
- 点击"安装"

平台特定说明

Windows：Chrome安装需要从Google Chrome手动下载
macOS：自动安装需要Homebrew。如果未安装Homebrew，需要手动安装。
Linux：支持在Ubuntu/Debian和Fedora/CentOS/RHEL发行版上自动安装。对于其他发行版，需要手动安装。

使用示例

基本用法

from webpage_reader import main

result = main("https://example.com")

if result['success']:
    print("网页下载成功！")
    print("摘要：")
    print(result['summary'])
    print("\n内容预览：")
    print(result['content'][:500] + "..." if len(result['content']) > 500 else result['content'])
else:
    print(f"错误：{result['message']}")

命令行用法

python webpage_reader.py https://example.com

OpenClaw界面用法

打开OpenClaw
选择网页读取器技能
在输入字段中输入URL
点击"运行"
在输出面板中查看结果

技术详情

Chrome命令参数

技能使用以下Chrome命令参数以获得最佳性能：

google-chrome --headless=new --no-sandbox --disable-gpu --disable-dev-shm-usage --virtual-time-budget=8000 --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36" --hide-scrollbars --blink-settings=imagesEnabled=true --dump-dom <url>

输出格式

技能返回具有以下结构的字典：

{
    "success": bool,          # 操作是否成功
    "message": str,           # 状态消息
    "content": str,           # 网页的完整HTML内容
    "summary": str            # 网页内容摘要
}

故障排除

常见问题

未找到Chrome
- 解决方案：从https://www.google.com/chrome/手动安装Google Chrome
权限错误
- 解决方案：以适当的权限运行技能，尤其是在Linux上安装Chrome时
超时错误
- 解决方案：技能有60秒的超时。对于大型网页，这可能不够。您可以在download_webpage函数中修改超时时间。
内容为空
- 解决方案：检查URL是否可访问，且未被CAPTCHA或其他反爬措施阻止
编码错误
- 解决方案：技能使用UTF-8编码。对于使用不同编码的网页，您可能需要修改read_webpage_content函数中的编码处理。

日志记录

技能生成详细的日志以帮助诊断问题。日志默认输出到控制台，但可以配置为写入文件（如果需要）。

贡献

欢迎贡献！请随时提交Pull Request。

许可证

此技能以MIT许可证发布。有关详细信息，请参阅LICENSE文件。

支持

如果您遇到任何问题或有疑问，请在GitHub存储库上打开一个issue。