--- name: fetch-archive-to-lexiang description: 通用文章抓取与归档工具。抓取任意 URL（免费/付费/登录墙）的文章全文，转换为结构化 Markdown，并可选转存到乐享知识库。支持 Substack、Medium、知识星球等付费平台的登录态管理。支持 YouTube 视频下载（yt-dlp）、播客音频下载（小宇宙FM等）、音频转录（Whisper）、翻译（中英对照格式），并将音视频和文字稿上传乐享知识库（文字稿使用在线文档格式，支持按块编辑）。支持 PDF 文件/链接：自动提取文本+精确裁剪图形，非中文内容默认翻译为中英对照后转存乐享。支持微博帖子抓取（CDP 模式绕过登录墙）。关键词触发：抓取文章、获取全文、付费文章、转存知识库、乐享、保存原文、fetch article、归档、YouTube、视频转录、字幕提取、视频下载、播客、podcast、小宇宙、xiaoyuzhou、PDF、论文、arxiv、微博、weibo。 --- # 抓取链接内容 & 转存知识库 > **🎬 视频/音频上传到乐享**：必须用 `scripts/upload_video_via_openapi.py`（走 OpenAPI `/cgi-bin/v1/kb/files/upload-params`）。**不要**用 MCP 的 `file_apply_upload` 或 `docs/cos-param`——它们产出 `entry_type=file` 的条目，不触发 VOD 转码，视频无法播放。详见下方「YouTube 视频处理 → Step 2：上传到乐享知识库」章节。凭证存放于 `~/.lexiang/openapi.json`（不进 git）。 ## 概述将文章 URL（免费/付费/登录墙）抓取为结构化 Markdown，并自动转存到乐享知识库，实现素材归档和可追溯。 ### 最终产出物 1. `<项目子目录>/<原文标题>.md` — 完整文章 Markdown（含图片引用） 2. `<项目子目录>/<原文标题>_meta.json` — 结构化元信息（原文链接、作者、发布时间、抓取时间等） 3. `<项目子目录>/images/` — 所有文章配图 4. 乐享知识库中的文档副本（按天维度归档） ### 乐享文档链接格式（⚠️ 必须遵守）转存完成后，**必须**按以下格式输出可点击访问的链接： ``` https://lexiangla.com/pages/{entry_id}?company_from=e6c565d6d16811efac17768586f8a025 ``` - `entry_id`：`import_content` 或 `entry_create_entry` 返回的 `entry.id` - `company_from`：固定值 `e6c565d6d16811efac17768586f8a025`（凡哥的企业 ID，不可省略，省略后链接无法访问） - **禁止**使用 `mcp.lexiang-app.com/pages/...` 格式——这是 MCP 内部调试链接，用户无法直接访问 ### 文件命名规则（重要） - **必须使用原文标题命名**，不要用 `article.md` 等通用名称 - 文件名格式：`<原文标题>.md`、`<原文标题>_meta.json` - 示例：`How Notion uses Custom Agents.md`、`How Notion uses Custom Agents_meta.json` - 如果标题中包含文件名不合法字符（`/`、`\`、`:`等），替换为 `-` - 乐享知识库转存时也使用原文标题作为文档标题 ## 工作流程 ### Step 1：素材收集 #### 抓取方式决策树根据 URL 类型选择抓取方式（按优先级排列）： 1. **claude.com / anthropic.com 博客**（`claude.com/blog/*`、`anthropic.com/research/*`、`anthropic.com/news/*`）→ 直接用 `fetch_article.py`（已内置 Webflow SPA 支持，自动检测 `.u-rich-text-blog` / `.w-richtext` 容器并移除内嵌 `