虎嗅

复杂业务场景下RCA Agent 的探索实践

2026-06-11 阅读原文

该文章尚未提供 Русский 解读，以下为中文版内容。

核心内容总结

这篇文章围绕“AI排障（RCA Agent）”展开，核心逻辑是：AI编码已提升个人效率，但组织效能仍低，排障成了新的生产力瓶颈。随着AI生成代码增多，人对系统的掌控力下降，AI排障从“可选”变成“必选”。文章重点讲了落地RCA Agent时遇到的4大挑战（让AI懂业务、对抗告警噪声、衡量不确定性、消除大模型幻觉）及解决方法，还介绍了架构设计和未来方向。

一、为什么排障成了AI要啃的硬骨头？

AI编码（比如写代码）已经很成熟，但软件工程没完全解决——个人写代码快了，可团队整体效率没上去。调研显示，研发人员大部分时间还是花在“开发+排障”上，尤其是排障。

举个例子：OpenClaw用AI生成了大部分代码，上线后插件瘫痪，人却找不到原因（因为代码不是自己写的，对系统不熟悉）。这说明：AI生成代码越多，人越难掌控系统，必须用AI来排障。

业务层排障更难：比如视频时长下跌，可能是Redis慢查询、GC问题，也可能是下游服务bug，排查路径完全不确定。这时候，AI排障就成了刚需。

二、让AI懂业务：消除人和AI的“信息差”

AI能看懂监控数据，但不懂业务逻辑——比如“推荐质量下降会导致用户反复刷视频，反而增加请求量”这种反常识的业务知识，AI不知道。

难点：业务场景太复杂，比如中小学开学的流量变化和代码bug混在一起，AI分不清；跨部门服务依赖（比如主站调用下游部门服务），AI没有跨部门的业务知识。

解决办法：建立“业务资产库”——把代码抽象成AI能理解的内容：

1. 离线沉淀：用AI分析核心代码，生成业务关系描述（比如“下游推荐服务可用率低→上游兜底率变→Feed下发量变”），存在知识库。

2. 实时生成：排障时AI发现的新规律，沉淀成“技能”（比如“主播开播会增加送礼请求”），补充到知识库。

这样AI就有了和人一样的业务常识，能跨越跨部门、反常识的排障断点。

三、过滤无效告警：别让AI在“垃圾信息”里浪费力气

系统里75%的告警是噪声（比如每天凌晨固定报警的无用信息），值班人员看烦了会忽略真问题。如果AI全处理这些告警，不仅成本高（每月Token消耗近百亿），还会延迟。

解决办法分两层：

1. 先筛高置信度告警：用轻量AI评估告警“画像”——比如：

平时告警到98%，突然到60%→要关注；
每天凌晨报警→不管；下午突然报警→要关注。

2. 再用“证据金字塔”判断信号：借鉴医院看病的思路，把证据分等级：

底层：原始数据（比如单个指标波动）；
中层：关联证据（比如链路上的变更、历史故障模式）；
顶层：直接因果（比如代码变更时间和故障时间完全匹配）。

这样AI就能优先处理高价值信号，避免被噪声干扰。

四、AI排障靠谱吗？用真实故障案例来“考试”

AI排障的问题是：Demo时能跑对，但生产环境里90%是“坏情况”——同一个问题，AI多次推理可能得出不同结果，还会引入新的错误（比如优化了单点抖动问题，却让整体准确率下降）。

解决办法：建立“真实故障评测体系”（Benchmark）：

1. 收集真实案例：把线上发生过的故障（比如搜索量下降）保存下来，包括监控数据、排障过程。

2. 复现故障现场：用快照保存故障时的监控数据，不用仿真（因为业务故障很难模拟）。

3. 量化评估：看AI能不能找到“有效线索”（比如变更事件、关键指标波动），而不是必须完全找对根因——只要线索有用，就能帮人节省时间。

这样AI就能在真实场景中不断优化，减少“坏情况”。

五、对抗幻觉：让AI“用工具”而不是“凭感觉”

大模型本质是概率预测器，不擅长数值计算和趋势判断——比如让它转时间戳会错，识别监控图趋势会说“8:30下降”（实际是8:00-8:20）。

解决办法：把确定性任务交给传统算法工具：

比如判断指标趋势：不用大模型看图片，而是用“孤立森林算法”分析时序数据，准确率高还省Token；
比如计算时间戳：让AI调用Python脚本工具，结果精准。

把这些工具封装成标准化算子，AI需要时直接调用，就能避免幻觉，提高确定性。

未来展望

现在的RCA Agent还是辅助人排障，未来会向“AI自主闭环”发展：

1. 从“人问AI答”到“AI主动发现问题”；

2. 从“辅助线索”到“AI出决策建议，人审批”；

3. 最终实现“AI自主排障、处置、沉淀经验”。

但要注意：AI排障不是取代Workflow（固定流程），而是互补——简单问题用Workflow（快、准），复杂问题用Agent（灵活）。

总之，RCA Agent的核心是“让AI拥有业务常识+用工具解决确定性问题+用真实案例优化”，这样才能真正帮团队提升排障效率。