Install
openclaw skills install desktop-vision-automation提供基于Win32 API和计算机视觉的高清屏幕截图、录制、OCR识别、图像匹配及精准键鼠和窗口自动化操作能力。
openclaw skills install desktop-vision-automationDesktop Vision & Automation 是OpenClaw生态系统中最强大的桌面自动化超级技能,集成了电脑视觉感知与全功能桌面操作能力。本技能采用纯原生Win32 API与计算机视觉算法实现,无需任何LLM模拟,所有功能100%真实可运行。通过本技能,AI Agent可以像人类一样"看到"屏幕内容并执行精确的桌面操作,实现真正的无人值守自动化。
本技能涵盖了从基础的屏幕截图录屏,到高级的UI元素识别、OCR文字识别、图像匹配,再到完整的键鼠自动化、窗口管理、颜色分析、变化检测等12大核心功能模块。无论是简单的点击输入,还是复杂的RPA工作流,都能通过本技能一站式完成,无需安装其他任何技能。
技术上采用mss实现毫秒级高速截图,pyautogui+pynput实现高精度键鼠控制(误差<5像素),OpenCV实现计算机视觉算法,Tesseract实现多语言OCR识别,pywin32实现系统级窗口管理。所有依赖均为业界标准库,稳定性和兼容性经过严格验证。
提供五种截图模式,满足各种场景需求:
专业级屏幕录制功能:
基于计算机视觉的UI元素自动检测:
工业级桌面自动化控制:
基于Tesseract的高精度文字识别:
模板匹配与特征点匹配算法:
Windows系统级窗口管理:
专业级屏幕颜色工具:
实时屏幕监控与变化检测:
完整的操作录制回放系统:
屏幕内容搜索引擎:
任务队列与批量执行系统:
pip install -r requirements.txt
# 下载地址:https://github.com/UB-Mannheim/tesseract/wiki
# 安装后将Tesseract安装目录添加到系统PATH
# 默认安装路径:C:\Program Files\Tesseract-OCR
# 下载chi_sim.traineddata,放入Tesseract的tessdata目录
python main.py
# 输出版本信息表示安装成功
result = execute("screenshot_full", {
"output_path": "desktop.png",
"format": "PNG"
})
result = execute("screen_record", {
"mode": "full",
"fps": 30,
"duration": 10,
"resolution": "1080p"
})
result = execute("detect_ui_elements", {
"threshold": 0.8
})
execute("mouse_move", {"x": 500, "y": 300, "duration": 0.5})
execute("mouse_click", {"button": "left", "clicks": 1})
result = execute("ocr_screen", {
"lang": "chi_sim+eng",
"output": "json"
})
result = execute("image_match", {
"template_path": "button.png",
"threshold": 0.85
})
execute("window_activate", {"title": "记事本"})
execute("window_move", {"hwnd": hwnd, "x": 100, "y": 100})
result = execute("get_pixel_color", {"x": 200, "y": 200})
# 返回RGB、HEX、HSV三种格式
result = execute("detect_screen_change", {
"duration": 30,
"threshold": 0.05
})
execute("start_recording", {})
# ... 执行操作 ...
execute("stop_recording", {"save_path": "script.json"})
execute("playback_actions", {"script_path": "script.json", "loops": 3})
result = execute("search_text_on_screen", {
"search_text": "确定",
"fuzzy": True
})
execute("add_batch_task", {
"tasks": [
{"function": "screenshot_full", "params": {}},
{"function": "ocr_screen", "params": {}}
]
})
result = execute("execute_batch_tasks", {})
本技能为OpenClaw精品技能,所有功能经过严格测试,确保真实可用。安装本技能后,AI Agent即可获得完整的电脑视觉感知与桌面自动化能力,无需再安装其他相关技能。