Install
openclaw skills install evidence-cleanerLLM通用证据清洗技能。将原始搜索结果、网页片段、OCR残片等原始材料清洗为可用证据,减少脏输入、伪实体、重复片段和错域材料对后续判断的污染。在搜索结果返回后、进入freshness判定或叙事生成前使用。触发条件:搜索结果质量差、证据量大但信噪比低、需要标准化证据格式。
openclaw skills install evidence-cleaner将原始材料(搜索结果、网页片段、OCR残片、RSS条目等)清洗为标准化可用证据。
做什么:
不做什么:
| 字段 | 类型 | 必需 | 说明 |
|---|---|---|---|
raw_evidence_items[] | array | ✅ | 原始证据条目,每条含 source_url、title、snippet、raw_text(可选) |
primary_subject | string | ✅ | 本次任务的主体对象(用于判断相关性) |
canonical_time_frame | object | ❌ | {start, end, granularity} 时间框架,供下游 freshness-judge 使用 |
cleaning_goal | string | ✅ | 清洗目标,如 "为新闻分析准备证据" / "为技术调研去噪" |
{
"cleaned_evidence": [
{
"id": "ev_001",
"source_url": "https://...",
"title": "...",
"cleaned_snippet": "标准化后的文本",
"source_reliability": "A",
"cleaning_actions": ["dom_stripped", "truncated_restored"],
"original_index": 0
}
],
"removed_noise": [
{
"id": "noise_001",
"original_snippet": "被移除的内容摘要",
"removal_reason": "pure_advertisement",
"noise_category": "ad"
}
],
"downranked_items": [
{
"id": "ev_002",
"original_rank": 1,
"new_rank": 15,
"downrank_reason": "secondary_repost",
"warning": "内容可能被篡改,建议交叉验证"
}
],
"warnings": [
"3条证据包含疑似AI幻觉引用",
"2条证据来源为匿名账号,建议谨慎使用"
],
"cleaning_stats": {
"total_input": 25,
"kept": 18,
"removed": 4,
"downranked": 3,
"snr_ratio": 0.72
}
}
从网页抓取结果中移除非内容噪声。
检测证据中引用的人物、机构、事件是否真实存在。
当多条证据来自同一机构/作者/数据源,且结论相互矛盾时,标记为同源矛盾。
检测规则:
处理方式:
same_source_contradiction 标记warnings[] 中记录矛盾描述和来源cleaning_stats 中新增 same_source_contradictions 计数输出示例:
{
"cleaned_evidence": [
{
"id": "ev_003",
"flags": ["same_source_contradiction"],
"contradiction_note": "与ev_007同源(MIT),结论方向相反"
}
],
"warnings": [
"同源矛盾: MIT的两项研究(ev_003 vs ev_007)结论方向相反,建议交叉验证"
],
"cleaning_stats": {
"same_source_contradictions": 1
}
}
识别并合并重复或高度相似的证据条目。
removed_noise 并标注 removal_reason: "duplicate"对来源不权威或与主题不完全匹配的证据进行降权。
primary_subject 相关度 < 60%:降权 2 级将保留的证据条目格式化为统一结构。
& → &、' → ' 等 HTML 实体)[TRUNCATED])source_reliability 评级(S/A/B/C)| 证据状况 | 处理方式 |
|---|---|
| 微格式错误、截断、编码问题 | Clean — 保留但修正 |
| 二手转载、匿名来源、缺时间 | Downrank — 保留但降权 |
| 纯广告、完全无关、纯噪声 | Drop — 彻底移除 |
| 伪实体引用、AI幻觉 | Drop + Warning — 移除并记录警告 |
| 高度重复 | Merge — 合并保留最佳版本 |
完整决策树见 references/clean-vs-drop-rules.md。