AI审AI
上一个AI做的数据,让下一个AI来审,结果抓出一堆毛病。 做工资专户数据录入。导出平台数据一看,有几个人的月薪高得离谱——普通工人月入七万?不是工人工资高,是上一个智能体把数据做坏了。应发那列明明写的是两千多,实发列被填成了七万多。数字前面凭空多了一位。几个人,几个月,几十条记录,全部污染。 壹 · 四件套上场 不是随便看一眼就改。用的是审计四件套——四道关卡一轮轮过。 ① 规则脚本:字段级硬查。日期格式对不对、金额是不是正数、进账有没有对方账户。秒级跑完,数百条逐一筛查。 ② LangGraph:多步骤结构化审计。把收支表月出账总额和支付明细月实发总额逐月对比——有的月份差了好几万,有的月份干脆是零对十几万。 ③ 代码审查:让另一个Agent看生成脚本。边界情况、类型转换陷阱——脚本的bug和业务数据的问题,两回事,都要查。 ④ CrewAI:最后一道,多Agent协作做业务逻辑终审。 贰 · 到底谁靠谱 跑完第一轮发现问题 → 修 → 再跑验证 → 全绿。 不是AI靠不靠谱,是单靠一个AI不靠谱,三个互相审才靠谱。 那个把两千写成七万的智能体,单独干活的时候没人盯着。现在有了四件套——四个方向,四个工具,同时看。 任何一个方向的检查单独拿出来都有盲区。规则脚本看不出"这个人月薪不太对",代码审查发现不了"进账比出账少"。但四个凑在一起,盲区就重叠不起来了。 叁 · 最后 不是什么高深的技术。就是把"多看一眼"这件事制度化了。四个维度,四个工具,跑完验证,不绿不交。 别信任何一个AI的第一次输出。多过几道关,才是对数据负责。格式零错误,金额全对上,四件套跑完,全绿入库。 这跟《AI说不行的时候》讨论的是同一个底层逻辑——AI的能力不是问题,问题是你有没有给它足够的检查和反馈机制。单独一个AI的盲区,只有在多角度的交叉审视中才会暴露。 核心要点 单靠一个AI不靠谱,三个互相审才靠谱。 任何一个方向的检查单独都有盲区,四个凑在一起盲区就重叠不起来。 审计不是查一次,是制度化。 把"多看一眼"变成四道关卡:规则→LangGraph→代码审查→CrewAI,不绿不交。 数据质量是底线。 一个数字多一位、一个月份对不上,就会污染几十条记录。格式零错误,金额全对上。 写于永德 · 2026.06.10