定制 AI Skills 与全自动化
把定制 AI skills 与 agent 接进你的工作流,再加上低人工审查、自己跑的全自动化流水线。
更新于 2026-06-20
详情
我们反复在解的问题
想”把 AI 用进工作流”的团队,工作流大多早就有了。他们手上是一堆重复的判断活——给这张工单分类、从那份 PDF 里抽这几个字段、把两条记录对上账、起草这封回信——一个人一整天就耗在这上面。聊天机器人碰不到这些活。能碰的是这样一套系统:它自己做这些判断,知道自己什么时候没把握,并把没把握的那些连同证据一起退回给人。
难的不是让模型给出一个答案,而是让它对得足够多、可以放心交给它,并且一旦错就错得让人看得见。一套有 5% 的时候自信地答错的自动化,比没有自动化更糟,因为没人在复核。所以我们真正要回答的工程问题是:怎么让机器自己动手,又不让它悄悄犯下代价高昂的错。
我们怎么做
我们交付的每条流水线,骨架都是同样三块:置信度门控、评测兜底、全程审计留痕。
置信度门控。 流水线做的每个决策都带一个校准过的置信度。高于阈值就执行;低于阈值,这条就连同模型的推理过程和原始数据一起,上递到人工队列,让复核的人几秒钟就能拍板,而不用从头把这个 case 拼回来。阈值是按决策类型来的,不是一刀切——一笔退款审批和一个标签建议,不该用同一根标尺。是”低人工审查”,不是”无审查”。
评测兜底。 任何一类决策上线前,我们都用你的真实数据建一套带标注的评测集,在上面量它的精确率和召回率,跟测任何别的代码路径一样。这个数就是用来定置信度阈值的——把标尺往上抬,直到评测集上的精确率越过业务要的那条线,再只对越线的部分做自动化。这套评测集同时也是回归测试:模型或 prompt 一改,它就重跑,掉了就拦住这次改动。流水线要驱动真实 UI 的端到端检查,我们用 Playwright 来跑。
审计留痕,贯穿全程。 每一个自动动作都记下它的输入、模型输出、置信度、当时对照的阈值,以及它到底是执行了还是上递了。六周后有人问系统当初为什么这么做,能有个答案,而不是一脸茫然。这也是让那套归属权校验能真正落地的前提:自动执行者跟人一样,照样走同一套服务端授权校验,而留痕能证明它确实走了。
底层技术栈是有意做得很朴素的:agent 和 skill 用 Python 和 TypeScript,LLM API 藏在一层薄适配器后面,换模型只是改个配置;各阶段之间隔一道消息队列,某一步慢了或挂了不至于把整条流水线拖垮;整套部署在你已经在用的基础设施上。我们是接进你现有的系统,而不是另起一个还得你盯着的独立工具。
你能得到什么
需要人工复核的队列,会收缩到那些真正得让人看一眼的 case。这类任务的吞吐量,不再被人头数卡住。而且因为每个动作都连同它的置信度和证据被记下来,你能向审计、向客户、或者向你自己,证明系统当初做了什么决定、为什么这么决定。
要判断现在做这件事值不值:Gartner 预计到 2028 年 90% 的 B2B 采购旅程将受 AI agent 影响。落到运营层面是同一个转变——过去每一件都得有人盯着的活,会越来越多地不再需要,前提是系统对自己的不确定足够诚实。这份诚实,就是这件事的全部。
FAQ
常见问题
全自动化流程怎么防止它"自信地犯错"?
靠置信度门控。系统只在有把握时自动执行,其余上递人工,并且全程留痕。是"低人工审查",不是"无审查"。
所谓"定制 AI skill"是什么?
一个为你量身做的能力——在你工作流里把一件事做好的 agent 或工具:抽取、分类、起草、路由、对账。针对你的数据来做,并带评测,确保它真有效。