Alibabacloud Sysom Diagnosis

v0.0.2

面向 Linux 对内存、网络、IO、负载等问题做深度分析与诊断。当出现如下问题时使用:内存含内存高/不足、OOM、oom-killer、Java 应用内存与内存全景大图(含 socket 队列与 TCP 内存视角);网络含丢包与时延抖动(与 memgraph 互补);IO 含磁盘统计与慢 IO;负载含调度延迟与...

0· 102· 2 versions· 0 current· 0 all-time· Updated 7h ago· MIT-0
byalibabacloud-skills-team@sdk-team

Install

openclaw skills install alibabacloud-sysom-diagnosis

SysOM 诊断(sysom-diagnosis)

sysom-diagnosis/(技能根)下使用 ./scripts/osops.sh 做诊断。stdout 为 JSON 信封,默认本机快速排查不调云;远程专项由 --deep-diagnosis(内存域)或 io/net/load 子命令触发,内建环境检查。

Installation

Pre-check: Aliyun CLI >= 3.3.3 required Run aliyun version to verify >= 3.3.3. If not installed or version too low, run curl -fsSL https://aliyuncli.alicdn.com/setup.sh | bash to update. Then [MUST] run aliyun configure set --auto-plugin-install true to enable automatic plugin installation. Then [MUST] run aliyun plugin update to ensure local plugins are up-to-date.

At the start of the Core Workflow (before any CLI invocation): [MUST] Enable AI-Mode — AI-mode is required for Agent Skill execution.

aliyun configure ai-mode enable
aliyun configure ai-mode set-user-agent --user-agent "AlibabaCloud-Agent-Skills/alibabacloud-sysom-diagnosis"

At the end of the workflow (after success or failure): [MUST] Disable AI-Mode — AI-mode must be disabled after skill execution completes.

aliyun configure ai-mode disable

Agent 核心行为

  1. 本机优先:先跑 memory quick,不要默认索要 region/instance。
  2. 意图路由
    • 内存域:占用高/大图 → memgraph;OOM/oom-killer → oom;Java → javamem;不明 → classify。详见 memory-routing.md
    • 非内存域:IO/网络/负载 → 对应 io/net/load 子命令,直接走远程专项。详见 non-memory-routing.md
    • 远程专项硬约束:凡是 --deep-diagnosisio/*net/*load/* 场景,必须通过 ./scripts/osops.sh 触发 SysOM InvokeDiagnosis;禁止退化为 ECS 通用诊断 API、Ecs.RunCommand/Cloud Assistant 手工采集(如 top/ps/iostat)替代专项诊断。
  3. 服从信封指令:始终读 agent.summary 并执行 agent.next。quick 输出仅为信号检测,agent.next 有命令时必须先执行,再向用户总结。
  4. 信封即结果:诊断结论以信封 data 为准,无需自行采集额外信息。
  5. 网络延迟 + socket 队列积压:已跑 net netjitter/net packetdrop 且结果正常,但 ss 显示 Send-Q/Recv-Q 偏大时,须交叉 memory memgraph --deep-diagnosis

完整约定(执行目录、凭证安全、precheck 降噪等)见 agent-conventions.md

信封输出

CLI stdout 为 JSON 信封(format: sysom_agent, version: 3.4)。Agent 直接消费 agent.summary(摘要)、agent.findings(关键指标)、agent.next(下一步命令,应在技能根用 Bash 执行);业务载荷在 data.routingdata.localdata.remote。详见 output-format.md

Precheck / 认证失败

认证失败时信封含 data.remediation(独立 precheck)或 data.precheck_gate.remediation(deep-diagnosis 合并),按信封指令引导用户完成配置。详见 agent-conventions.md

子命令速查

内存域

子命令能力专文
memory memgraph内存全景/大盘,含 TCP 内存与 socket 队列memgraph.md
memory oomOOM / oom-killer 专项oomcheck.md
memory javamemJava 内存javamem.md
memory classify综合归类(不明时兜底)路由见 memory-routing.md

IO 域

子命令能力专文
io iofsstatIO 大盘(磁盘统计)iofsstat.md
io iodiagnoseIO 深度(慢 IO、延迟)iodiagnose.md

网络域

子命令能力专文
net packetdrop丢包(rtrace)packetdrop.md
net netjitter抖动(时延波动)netjitter.md

负载域

子命令能力专文
load delay调度延迟(nosched)delay.md
load loadtask系统负载loadtask.md

快速开始

cd <sysom-diagnosis>
./scripts/osops.sh memory classify                                          # 本机归类
./scripts/osops.sh memory memgraph                                          # 本机内存大图
./scripts/osops.sh memory memgraph --deep-diagnosis --channel ecs --timeout 300  # 远程内存专项
./scripts/osops.sh io iofsstat --channel ecs --timeout 300                  # IO 大盘
./scripts/osops.sh net packetdrop --channel ecs --region cn-hangzhou --instance i-xxx  # 丢包诊断
./scripts/osops.sh load delay --channel ecs --params '{"duration":30}'      # 调度延迟

其它实例加 --region <id> --instance <i-xxx>。首次使用先 ./scripts/init.sh

远程 OpenAPI 三要素

要素说明
身份AK/SK 或实例 RAM Role
策略AliyunSysomFullAccess
开通与 SLR控制台开通 SysOM;SLR 见 service-linked-role-subaccount.md

关键路径索引

需求文档
内存意图→子命令映射memory-routing.md
IO/网络/负载路由non-memory-routing.md
远程调用契约 / CLI 选项 / 元数据invoke-diagnosis.md
权限 / 凭证 / precheckpermission-guide.mdopenapi-permission-guide.md
输出信封格式output-format.md
Agent 行为约定agent-conventions.md
各诊断 params 字段diagnoses/README.md

Version tags

latestvk9729cpwd2xdx9jh2gnvjm23xs84za8f