虎嗅

复杂业务场景下RCA Agent 的探索实践

该文章尚未提供 Русский 解读,以下为中文版内容。

核心内容总结

这篇文章围绕“AI排障(RCA Agent)”展开,核心逻辑是:AI编码已提升个人效率,但组织效能仍低,排障成了新的生产力瓶颈。随着AI生成代码增多,人对系统的掌控力下降,AI排障从“可选”变成“必选”。文章重点讲了落地RCA Agent时遇到的4大挑战(让AI懂业务、对抗告警噪声、衡量不确定性、消除大模型幻觉)及解决方法,还介绍了架构设计和未来方向。

一、为什么排障成了AI要啃的硬骨头?

AI编码(比如写代码)已经很成熟,但软件工程没完全解决——个人写代码快了,可团队整体效率没上去。调研显示,研发人员大部分时间还是花在“开发+排障”上,尤其是排障。

举个例子:OpenClaw用AI生成了大部分代码,上线后插件瘫痪,人却找不到原因(因为代码不是自己写的,对系统不熟悉)。这说明:AI生成代码越多,人越难掌控系统,必须用AI来排障

业务层排障更难:比如视频时长下跌,可能是Redis慢查询、GC问题,也可能是下游服务bug,排查路径完全不确定。这时候,AI排障就成了刚需。

二、让AI懂业务:消除人和AI的“信息差”

AI能看懂监控数据,但不懂业务逻辑——比如“推荐质量下降会导致用户反复刷视频,反而增加请求量”这种反常识的业务知识,AI不知道。

难点:业务场景太复杂,比如中小学开学的流量变化和代码bug混在一起,AI分不清;跨部门服务依赖(比如主站调用下游部门服务),AI没有跨部门的业务知识。

解决办法:建立“业务资产库”——把代码抽象成AI能理解的内容:

1. 离线沉淀:用AI分析核心代码,生成业务关系描述(比如“下游推荐服务可用率低→上游兜底率变→Feed下发量变”),存在知识库。

2. 实时生成:排障时AI发现的新规律,沉淀成“技能”(比如“主播开播会增加送礼请求”),补充到知识库。

这样AI就有了和人一样的业务常识,能跨越跨部门、反常识的排障断点。

三、过滤无效告警:别让AI在“垃圾信息”里浪费力气

系统里75%的告警是噪声(比如每天凌晨固定报警的无用信息),值班人员看烦了会忽略真问题。如果AI全处理这些告警,不仅成本高(每月Token消耗近百亿),还会延迟。

解决办法分两层

1. 先筛高置信度告警:用轻量AI评估告警“画像”——比如:

  • 平时告警到98%,突然到60%→要关注;
  • 每天凌晨报警→不管;下午突然报警→要关注。

2. 再用“证据金字塔”判断信号:借鉴医院看病的思路,把证据分等级:

  • 底层:原始数据(比如单个指标波动);
  • 中层:关联证据(比如链路上的变更、历史故障模式);
  • 顶层:直接因果(比如代码变更时间和故障时间完全匹配)。

这样AI就能优先处理高价值信号,避免被噪声干扰。

四、AI排障靠谱吗?用真实故障案例来“考试”

AI排障的问题是:Demo时能跑对,但生产环境里90%是“坏情况”——同一个问题,AI多次推理可能得出不同结果,还会引入新的错误(比如优化了单点抖动问题,却让整体准确率下降)。

解决办法:建立“真实故障评测体系”(Benchmark):

1. 收集真实案例:把线上发生过的故障(比如搜索量下降)保存下来,包括监控数据、排障过程。

2. 复现故障现场:用快照保存故障时的监控数据,不用仿真(因为业务故障很难模拟)。

3. 量化评估:看AI能不能找到“有效线索”(比如变更事件、关键指标波动),而不是必须完全找对根因——只要线索有用,就能帮人节省时间。

这样AI就能在真实场景中不断优化,减少“坏情况”。

五、对抗幻觉:让AI“用工具”而不是“凭感觉”

大模型本质是概率预测器,不擅长数值计算和趋势判断——比如让它转时间戳会错,识别监控图趋势会说“8:30下降”(实际是8:00-8:20)。

解决办法:把确定性任务交给传统算法工具:

  • 比如判断指标趋势:不用大模型看图片,而是用“孤立森林算法”分析时序数据,准确率高还省Token;
  • 比如计算时间戳:让AI调用Python脚本工具,结果精准。

把这些工具封装成标准化算子,AI需要时直接调用,就能避免幻觉,提高确定性。

未来展望

现在的RCA Agent还是辅助人排障,未来会向“AI自主闭环”发展:

1. 从“人问AI答”到“AI主动发现问题”;

2. 从“辅助线索”到“AI出决策建议,人审批”;

3. 最终实现“AI自主排障、处置、沉淀经验”。

但要注意:AI排障不是取代Workflow(固定流程),而是互补——简单问题用Workflow(快、准),复杂问题用Agent(灵活)。

总之,RCA Agent的核心是“让AI拥有业务常识+用工具解决确定性问题+用真实案例优化”,这样才能真正帮团队提升排障效率。