{"skill":{"slug":"adaptive-web-analyzer","displayName":"adaptive-web-analyzer","summary":"通过指定接口获取网页内容，自适应抓取解析关键文本，并使用大模型进行智能梳理总结","description":"---\nname: adaptive-web-analyzer\ndescription: 通过指定接口获取网页内容，自适应抓取解析关键文本，并使用大模型进行智能梳理总结\nversion: 1.0.0\npermissions: [\"web.fetch\", \"web.scrape\", \"llm.chat\", \"file.write\", \"system.exec\"]\nauthor: your-name\ntags: [\"web-scraping\", \"content-analysis\", \"ai-summarization\", \"adaptive-parsing\"]\n---\n\n## 功能概述\n\n当用户需要获取网页内容并进行智能分析时，本技能将：\n1. 通过用户指定的API接口或URL获取原始网页内容\n2. 使用自适应解析器提取关键文本（自动处理反爬、动态渲染、布局变化）\n3. 将提取的文本发送给大模型进行结构化梳理和总结\n4. 返回格式化的分析报告\n\n## 触发场景\n\n用户输入包含以下意图时触发：\n- \"抓取[某网址]的内容并分析\"\n- \"获取[API接口]的数据并整理\"\n- \"分析网页[URL]的关键信息\"\n- \"爬取[网站]并用AI总结\"\n- \"提取[链接]的文本并梳理\"\n\n## 执行流程\n\n### 步骤1: 获取网页内容\n- 如果用户提供的是API接口：使用HTTP客户端发送请求（支持自定义Headers、Auth）\n- 如果用户提供的是普通URL：使用自适应浏览器抓取（处理JavaScript渲染、反爬机制）\n- 支持配置：超时时间、重试次数、User-Agent轮换、代理设置\n\n### 步骤2: 自适应内容解析\n使用以下策略提取关键文本：\n- **智能选择器**：基于内容相似度算法，自动定位正文区域（抗布局变化）\n- **反反爬处理**：自动绕过Cloudflare等基础防护（遵守robots.txt）\n- **动态渲染**：对SPA应用使用Playwright等待关键元素加载\n- **噪声过滤**：自动去除广告、导航栏、页脚等非内容元素\n- **多格式支持**：HTML、JSON API响应、Markdown页面\n\n### 步骤3: 内容结构化\n提取的文本按以下维度组织：\n- 标题/主题\n- 关键段落（按重要性排序）\n- 列表/表格数据\n- 时间戳/元数据\n- 链接引用\n\n### 步骤4: 大模型智能梳理\n将结构化文本发送给LLM，执行以下分析：\n- **摘要生成**：生成3-5句话的核心摘要\n- **要点提取**：列出3-7个关键要点\n- **分类标签**：自动标注内容类别（技术/新闻/产品/学术等）\n- **情感分析**：判断内容倾向（积极/中性/消极）\n- **实体识别**：提取人名、组织、产品、地点等关键实体\n- **行动建议**：根据内容类型提供后续建议（如需要）\n\n### 步骤5: 输出格式化\n返回包含以下字段的JSON/Markdown报告：\n```json\n{\n  \"source_url\": \"原始链接\",\n  \"fetch_time\": \"抓取时间\",\n  \"content_stats\": {\n    \"total_chars\": \"总字符数\",\n    \"extracted_chars\": \"提取字符数\",\n    \"confidence_score\": \"抓取置信度\"\n  },\n  \"analysis\": {\n    \"summary\": \"AI生成的摘要\",\n    \"key_points\": [\"要点1\", \"要点2\", \"要点3\"],\n    \"category\": \"内容分类\",\n    \"sentiment\": \"情感倾向\",\n    \"entities\": {\n      \"persons\": [\"人物名\"],\n      \"organizations\": [\"组织名\"],\n      \"products\": [\"产品名\"]\n    },\n    \"suggested_actions\": [\"建议操作1\", \"建议操作2\"]\n  },\n  \"raw_content_preview\": \"原始内容前500字（可选）\"\n}","tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":600,"installsAllTime":0,"installsCurrent":0,"stars":0,"versions":1},"createdAt":1773284232914,"updatedAt":1779076340424},"latestVersion":{"version":"1.0.0","createdAt":1773284232914,"changelog":"Parse the content of the specified webpage and return the main information.\n使用示例如下：\n基础用法：\n分析 https://example.com/article 这篇文章的内容\n带参数的高级用法：\n使用adaptive-web-analyzer技能抓取 https://api.example.com/data，\n方法用api，带上Authorization头，分析类型选detailed，\n输出格式要json\n处理反爬网站：\n抓取 https://protected-site.com/info 使用stealth模式，\n提取区域选 .main-content，整理关键信息","license":"MIT-0"},"metadata":{"setup":[],"os":null,"systems":null},"owner":{"handle":"maplee","userId":"s1784jyza51b65rybze7vq1rzd885nqr","displayName":"maplee","image":"https://avatars.githubusercontent.com/u/6022126?v=4"},"moderation":{"isSuspicious":false,"isMalwareBlocked":false,"verdict":"clean","reasonCodes":["review.llm_review"],"summary":"Review: review.llm_review","engineVersion":"v2.4.24","updatedAt":1780089845241}}