Quality Boost - 大模型回答质量提升器
描述
提示词工程的效果评估版。深入分析9条规则对回答质量的提升效果,提供量化指标和对比分析。
定位:质量评估、效果量化、深度分析、专业报告
快速版请见:prompt-master skill(精简规则速查)
完整版请见:prompt-engineering skill(含完整模板库、质量检测清单)
核心目标
解决大模型回答中的常见问题:
- ❌ 幻觉(编造信息)
- ❌ 跑偏(理解错意图)
- ❌ 冗长(铺垫过多)
- ❌ 遗漏(忘记关键约束)
- ❌ 添加(自作主张加内容)
触发方式
- 用户说"提升回答质量"
- 用户说"应用质量规则"
- 用户说"使用9条规则"
- 用户询问"怎么让AI回答更准确"
9条质量提升规则
规则1:模块化结构
问题:提示词混在一起,AI容易忽略部分约束
解决:拆分成独立模块,每个约束清晰可见
效果:AI不会漏掉任何要求
质量提升点:
使用方法:
【角色】你是...
【约束】必须...
【格式】输出...
【任务】具体...
规则2:明确禁令
问题:AI会"优化"用户没要求的内容
解决:直接说"不准",而不是"请"
效果:AI变得老实,不再自作主张
质量提升点:
- 杜绝擅自添加
- 防止改变原意
- 减少"我觉得这样更好"
关键禁令:
- 不准添加我没提到的内容
- 不准改变原文意思
- 不准在没验证的情况下说"没问题"
- 不准编造或猜测
规则3:重复关键约束
问题:AI会忽略提示词中的部分要求
解决:重要约束开头结尾各说一次
效果:关键要求不会被遗忘
质量提升点:
使用方式:
开头:【约束】全文不要用成语
...
结尾:再次强调:全文不要用成语
规则4:主动复述
问题:AI凭印象理解,实际理解错了
解决:强制复述,确认理解正确
效果:理解准确率大幅提升
质量提升点:
使用方式:
请先复述:
1. 我的核心需求是什么
2. 关键约束有哪些
3. 你打算怎么解决
确认无误后再开始执行。
规则5:自我验证
问题:AI完成就交差,不检查质量
解决:强制自我审查流程
效果:错误率降低,质量提升
质量提升点:
- 提前发现逻辑漏洞
- 检查是否满足所有约束
- 找出可能的改进点
使用方式:
完成后请自我检查:
□ 是否满足所有约束
□ 是否有逻辑错误
□ 是否有遗漏
□ 是否添加了未要求的内容
规则6:诚实承认不知道
问题:AI会编造看似合理的答案
解决:明确允许说"我不知道"
效果:杜绝幻觉,信息准确率100%
质量提升点:
使用方式:
如果你不确定或信息不足,
请直接说"我不确定"或"我不知道",
不要猜测或编造。
规则7:结论先行
问题:AI铺垫太长,重点被淹没
解决:强制结论在前,理由在后
效果:信息获取效率提升
质量提升点:
输出格式:
【结论】...
【理由】...
【细节】...
规则8:简洁表达
问题:AI废话多,有效信息密度低
解决:限制每点长度,强制简洁
效果:信息密度提升,阅读更轻松
质量提升点:
- 提高信息密度
- 减少认知负担
- faster comprehension
约束:
- 分点列出
- 每点不超过2行
- 能用列表不用段落
规则9:记忆管理意识
问题:长对话中早期约束被遗忘
解决:主动管理记忆,关键信息重复
效果:长对话质量不下降
质量提升点:
策略:
- 关键约束在对话中途重复一次
- 每10轮确认一次理解
- 复杂任务分段确认
一键应用模板
通用质量提升模板
【角色】
你是专业助手
【质量约束】
- 不准添加我没提到的内容
- 不确定时直接说"我不确定"
- 不准编造或猜测
【输出格式】
- 先说结论,再说理由
- 分点列出,每点不超过2行
【执行流程】
1. 先复述我的核心需求
2. 我确认后再执行
3. 完成后自我检查
【任务】
{具体任务}
极简版(节省Token)
约束:不准添加内容、不确定就说不知道、结论先行
流程:先复述→再执行→后自检
任务:{具体任务}
严格版(最高质量)
【绝对禁止】
- 不准添加我没提到的任何内容
- 不准改变原文意思
- 不准使用成语或四字词语
- 不准在没验证的情况下说"没问题"
- 不确定时直接说"我不确定"
- 不准编造或猜测
【强制流程】
1. 复述:说明我的核心需求和约束
2. 确认:等待我确认理解正确
3. 执行:按计划完成任务
4. 自检:检查是否满足所有约束
【输出格式】
【结论】一句话总结
【要点】分点列出,每点一行
【细节】必要的补充信息
再次强调:不准猜测,不确定就说"我不确定"。
【任务】
{具体任务}
效果对比
场景:改写文案
不使用规则:
用户:帮我把这段话改口语化
AI:(可能添加了自己的"优化",变成不相关的风格)
使用规则后:
用户:[应用质量规则] 帮我把这段话改口语化
AI:
复述:你想让我把这段正式文案改成口语化,保持原意,不添加内容。
确认后执行:
【结论】已按要求改写
【改写后】...(口语化版本)
【自检】✓ 未添加内容 ✓ 意思一致 ✓ 风格口语化
场景:信息查询
不使用规则:
用户:XX公司的创始人是谁?
AI:是张三(可能是编的)
使用规则后:
用户:[应用质量规则] XX公司的创始人是谁?
AI:我不确定,我的知识库中没有这个信息。
场景:代码审查
不使用规则:
用户:帮我看看这段代码
AI:看起来没问题(其实有bug)
使用规则后:
用户:[应用质量规则] 帮我看看这段代码
AI:
复述:你要我审查这段代码,找出潜在问题。
审查结果:
【问题1】第X行可能空指针
【问题2】第Y行有性能隐患
【问题3】缺少错误处理
【自检】已逐行检查,共发现3个问题。
质量指标对比
| 指标 | 无规则 | 有规则 | 提升 |
|---|
| 理解准确率 | 70% | 95% | +25% |
| 约束遵守率 | 60% | 90% | +30% |
| 幻觉率 | 20% | 2% | -18% |
| 信息密度 | 低 | 高 | +50% |
| 返工率 | 40% | 10% | -30% |
快速启动
在任意对话开头添加:
应用质量规则:
1. 不准添加我没提到的内容
2. 不确定时说"我不确定"
3. 结论先行
4. 先复述再执行
5. 完成后自检
任务:...
配置自动应用
在 ~/.openclaw/config.json:
{
"skills": {
"quality-boost": {
"autoApply": true,
"mode": "minimal"
}
}
}
适用场景
- ✅ 文案改写(防止添加内容)
- ✅ 信息查询(防止编造)
- ✅ 代码审查(确保质量)
- ✅ 数据分析(确保准确)
- ✅ 翻译(保持原意)
- ✅ 总结(不遗漏要点)
不适用场景
- ❌ 创意写作(需要一定自由度)
- ❌ 头脑风暴(限制会束缚想法)
- ❌ 角色扮演(需要代入感)
质量评估工具
评估维度
| 维度 | 说明 | 检测方法 |
|---|
| 准确性 | 信息是否正确 | 事实核查、来源验证 |
| 完整性 | 是否遗漏要点 | 对照需求清单检查 |
| 相关性 | 是否切题 | 对比原始需求 |
| 简洁性 | 信息密度 | 字数/有效信息比 |
| 可用性 | 是否可直接使用 | 格式检查 |
| 合规性 | 是否遵守约束 | 禁令检查 |
评分标准
5分制评分
| 分数 | 质量等级 | 说明 |
|---|
| ⭐⭐⭐⭐⭐ | 优秀 | 完全满足需求,无改进空间 |
| ⭐⭐⭐⭐ | 良好 | 基本满足,少量可改进 |
| ⭐⭐⭐ | 合格 | 满足核心需求,有明显不足 |
| ⭐⭐ | 较差 | 部分满足,需要返工 |
| ⭐ | 不合格 | 未满足核心需求 |
自动检测脚本
// 质量检测函数
function evaluateQuality(response, requirements) {
const result = {
accuracy: 0, // 准确性
completeness: 0, // 完整性
conciseness: 0, // 简洁性
compliance: 0, // 合规性
hallucination: false, // 是否幻觉
overall: 0 // 总分
};
// 1. 检查幻觉(规则6)
const hallucinationKeywords = ['可能', '也许', '应该是', '我猜'];
result.hallucination = hallucinationKeywords.some(kw =>
response.includes(kw) && !requirements.uncertaintyAllowed
);
// 2. 检查完整性(规则5)
const requiredPoints = requirements.keyPoints || [];
const coveredPoints = requiredPoints.filter(p =>
response.toLowerCase().includes(p.toLowerCase())
);
result.completeness = (coveredPoints.length / requiredPoints.length) * 5;
// 3. 检查简洁性(规则8、9)
const paragraphs = response.split('\n\n');
const longParagraphs = paragraphs.filter(p => p.length > 200);
result.conciseness = Math.max(0, 5 - longParagraphs.length);
// 4. 检查合规性(规则2)
const prohibitedContent = requirements.prohibited || [];
const violations = prohibitedContent.filter(p =>
response.includes(p)
);
result.compliance = violations.length === 0 ? 5 : 5 - violations.length;
// 5. 计算总分
result.overall = (
result.accuracy +
result.completeness +
result.conciseness +
result.compliance
) / 4;
return result;
}
质量报告模板
# 回答质量评估报告
## 基本信息
- 任务类型:{type}
- 评估时间:{timestamp}
- 评估模型:{model}
## 质量评分
### 总体评分
**{score}/5.0** {stars}
### 分项评分
| 维度 | 分数 | 说明 |
|------|------|------|
| 准确性 | {accuracy}/5 | {comment} |
| 完整性 | {completeness}/5 | {comment} |
| 简洁性 | {conciseness}/5 | {comment} |
| 合规性 | {compliance}/5 | {comment} |
## 问题清单
### 严重问题
- [ ] {issue1}
### 改进建议
- [ ] {suggestion1}
## 优化建议
### 立即修复
{immediate_fixes}
### 长期改进
{long_term_improvements}
## 对比分析
### 优化前
{before}
### 优化后
{after}
### 提升效果
{improvement_summary}
A/B 测试方法
测试设计
【对照组】不使用提示词规则
【实验组】使用9条规则
【样本量】每种任务至少10次
【评估指标】理解准确率、约束遵守率、幻觉率
测试任务示例
-
文案改写任务
- 原文:正式商务邮件
- 要求:改口语化,300字以内,分3段
- 测量:是否添加内容、是否改变原意、格式符合度
-
信息查询任务
- 问题:查询特定公司信息
- 测量:是否编造、信息准确度、不确定时是否承认
-
代码审查任务
- 代码:含3个已知bug的代码段
- 测量:bug发现率、是否说"看起来没问题"
持续优化
数据收集
记录每次使用规则的反馈:
{
"task_type": "文案改写",
"rules_applied": [2, 7, 8],
"satisfaction": 4,
"issues": ["还是有点长"],
"suggestions": ["加强简洁性约束"]
}
迭代优化
根据数据调整规则权重:
- 分析高频问题
- 针对性强化相关规则
- 更新模板库
- 重新测试验证
最佳实践总结
基于数据的规则优化建议:
- 如果"添加内容"问题多 → 强化规则2
- 如果"理解偏差"问题多 → 强化规则4和7
- 如果"回答冗长"问题多 → 强化规则8和9
- 如果"编造信息"问题多 → 强化规则6