Universal Primitives

通用执行器架构原理：大语言模型只需文件增删改查和执行脚本两个基元工具，配合其天然的文字理解能力，就能从"无所不知只能输出文字"跃迁到"无所不能能控制任何软件硬件"。当用户讨论AI能力边界、工具设计哲学、Agent架构原理、LLM与操作系统交互、如何让AI控制软件硬件等主题时触发。

openclaw skills install universal-primitives

通用执行器原理

文字本身是通用的控制协议。 代码是文字，配置是文字，命令行是文字，API请求是文字，协议规范是文字。大语言模型天然理解所有这些文字格式——它缺的从来不是"理解"，而是"执行通道"。

两个基元 × 一个理解一切文字的大脑 = 通用执行器

通过文件操作，LLM能生成任何软件、修改任何配置、创建任何数据结构。

通过命令执行，LLM能运行自己写的代码，控制任何软件，间接控制任何硬件。

纯LLM：无所不知，只能输出文字
  ↓ + 文件增删改查
能读写代码的LLM：有了"手"，能造东西
  ↓ + 命令执行
能运行代码的LLM：有了"脚"，能启动进程
  ↓ + 操作系统/浏览器自动化
无所不能的LLM：任何软件能做的事它都能做

所有复杂的工具链都是这两个基元的排列组合：

LLM → 执行命令 → 运行脚本/程序 → 调用硬件接口软件 → 控制硬件

软件是硬件的抽象层。LLM通过控制软件间接控制硬件：

不需要为每个领域设计专用工具。两个基元已经完备：

LLM能用文件操作写出一个更强大的脚本，然后用命令执行运行这个脚本。新的脚本可能提供新的能力，而LLM又能理解这些新能力的输出。这是一个递归增强的过程：

写脚本 → 运行脚本 → 获得新能力 → 写更强的脚本 → ...

现代Agent框架的众多工具看似复杂，本质上都在两个基元上构建：

理解两个基元，就理解了所有Agent工具的本质。

本技能的核心实用价值：当所在Agent环境缺少文件操作或命令执行能力时，引导Agent用现有接口创造出这两个基元。

1. 检测当前环境有什么能力
2. 缺少什么就用现有能力去补
3. 两个基元就位 → 通用执行器激活

环境	可用能力	自举方案
纯文本对话	只能输出文字	输出操作指令，指导用户手动执行（复制粘贴）
有API接口	HTTP请求	通过REST API调用来读写文件、触发执行
有网页访问	浏览器操作	使用在线代码执行平台（Python沙箱等）运行脚本
有代码解释器	运行代码片段	在解释器中模拟文件系统，用Python的open/exec
有部分工具	不完整的工具集	用现有工具组合模拟缺失的基元

场景：Agent只有网页访问能力，没有文件和终端工具

场景：Agent只有纯文本输出