如何让AI智能体从“玩具”变“工具”?

来源: InfoQ - AI&大模型

原文

“我们的智能体跑起来了,但不知道提示词有没有被‘投毒’,也不知道模型到底用了哪些数据。”

这是国内某头部光伏企业在AI应用过程中面临的一大困惑,并且,这还不是个例。企业部署的智能体数量激增,但真正嵌入业务流程、产生可量化ROI的,仍是少数。

“有的客户已经上了四五十个智能体,但结果不是减轻工作,反而更乱了。” IBM大中华区科技事业部自动化资深技术专家张诚在日前接受InfoQ等媒体采访时坦言。

问题出在哪?答案显然不是模型不够强,而是IT的“基本功”没打好。

过去一年,生成式AI从实验室走向业务一线,但热潮之下,现实却愈发清晰:大多数企业仍困在“小而美的玩具”阶段——智能客服、知识问答、文档摘要虽然见效快,却难以规模化产生业务价值。真正将AI融入研发、制造、供应链等核心流程的企业,仍是少数。

“可以肯定的是,当效率上去了,方向是对的,效益一定就会回来。”IBM大中华区CTO翟峰表示,但要实现这一目标,企业必须先回答四个问题:数据是否高质量?系统能否打通?安全是否合规?基础设施是否支撑多云全球化?

“最后一公里”困局:老系统不会说AI的语言

张诚分享了一个案例:苏州一家全球扫地机器人公司,80%的客户在海外。当德国经销商提交了一张ZUGFeRD格式的电子发票(PDF内嵌XML)时,财务团队一度手足无措——这种2025年起强制实施的本地标准,他们从未接触过。

理想情况下,AI应该自动解析发票、核对订单、触发付款。但现实是,订单在SAP,物流信息在WMS,税务规则散落在合规文档里。智能体想干活,却调动不了对应的系统。

“智能体怎么驱动二十年前就存在的MES或ERP?”在张诚看来,这些老系统缺乏现代接口,难以被AI直接调用——就像只会说方言的老师傅,听不懂AI的“普通话”。

这正是当前AI落地的最大断层:企业花了大价钱训练模型,却卡在“最后一公里”——无法与现有系统交互。

对此,IBM也在今年陆续推出了多个智能体,从集成的设计到集成的开发、上线、监管、运维都可以自动化地完成。举例来说,用户只需要输入:“当SAP S/4HANA产生新订单,自动同步到WMS”,AI就可以自动生成集成流程、测试用例甚至运维监控脚本。

其中,智能体的作用是把语义理解翻译出来,形成机器可以认识、可以运行的集成的流程。甚至,当运行流程出现问题时,智能体也可以快速反馈问题发生在哪里。“我们不是让专家干集成的事,而是通过Chatbot完成。”张诚说。

在这背后,是IBM三十年集成经验的沉淀。通过收购webMethods,IBM获得了覆盖制造、物流、金融等行业的预置连接器;而刚刚斥资110 亿美元收购的Confluent(Apache Kafka创始公司),则提供了实时事件流通道——让数据在系统间“流动起来”,而非静态躺在数据库里。

“做不好集成,做不好数字化的协同、打通、信息孤岛的连通,不可能做好AI。”翟峰直言。

从对话到行动:智能体如何真正“干活”?

集成能力的价值,在IBM内部早已验证。IBM大中华区科技事业部数据与人工智能资深技术专家吴敏达告诉InfoQ记者,作为“零号客户”(client zero),IBM已经在内部应用了 AskHR、AskIT、AskSales 等多种智能体,涉及HR、采购、销售、客服四大领域。

这意味着,员工可通过自然语言与HR系统交互,获取政策指引或流程帮助;销售人员可借助智能体快速调取客户信息与历史记录;IT支持人员则能通过对话自动创建工单、诊断问题。这些场景共同特点是:流程标准化程度高、系统接口相对清晰、业务价值易于衡量。

更进一步,智能体还能驱动跨系统工作流。吴敏达以财务场景为例:IBM将财务智能体与IBM Planning Analytics软件进行了深度集成,借此,企业CFO和财务主管可以用对话的方式轻松实现预算分配,在这个过程中,财务智能体会调用很多工具,包括构建沙箱、构建财务分配、构建相关的注释等等。最后通过通讯智能体,把结果推送给下一个审批人员,通过分配智能体把相关的财务分配到业务单元。这整个过程无需人工介入表单填写或系统切换。

但这一切的前提,是智能体能访问高质量、可信赖的数据。 吴敏达指出,企业99%的数据是非结构化的——散落在邮件、工单、日志、PDF文档中,传统数据库无法有效利用。“如果数据不可信,模型再强也没用。”

为此,IBM推出 watsonx.data,将其定位为“AI时代的数据高速公路”。它不仅支持高性能查询,更重要的是内置数据目录、质量评估、血缘追踪和共享策略,形成完整的数据智能(Data Intelligence)体系。“我们强调的不是数据有没有,而是数据是否干净、是否可解释、是否合规。”吴敏达说。

这一能力通过 MCP Gateway(Model Context Protocol)与智能体打通。当用户提问时,智能体不仅能调用大模型,还能通过MCP直接访问多源上下文——例如,一个IT支持智能体在处理“网络中断”请求时,可同时调取设备日志、拓扑图和历史工单,综合判断根因。

而MCP只是IBM开放架构的一环。吴敏达介绍,watsonx平台通过三大网关实现灵活集成:Model Gateway 允许调用任意托管的大模型;MCP Gateway 将企业内部工具封装为智能体可调用的服务;Agent Gateway 则支持接入第三方智能体,实现协同工作。

“你可以用我们的平台连接你的智能体,也可以嵌入到其他应用系统里。”他说。

治理不是限制,而是让智能体“可以上路”

更重要的是,IBM强调智能体必须“可治理”。如果说系统集成解决的是AI“能不能干活”,那么治理解决的就是“敢不敢让它干”。

当前企业部署的智能体越来越多,但风险也随之上升。某金融机构曾发现员工使用未经批准的AI工具处理敏感数据,暴露出“影子AI”的管理盲区。

对此,IBM提出一个关键原则:智能体必须“上牌照才能上路”,背后需要一套安全治理体系。

“安全治理系统相当于做车管所的工作,”吴敏达解释,“智能体需要做注册和批准,没有‘牌照’的车是不能上路的,这是能够让这个‘车’上路的准则。”

其次是安全系统,它主要解决以下问题,比如智能体在做任何的操作是不是安全合规,是不是做了一些违规的操作,是不是有人对智能体发动了攻击。“假如智能体能够重置密码,有人用智能体的时候做了一些黑客行为,让它不仅能重置密码,还能干其他乱七八糟违规的事情,比如重启操作系统,那就会造成很大的伤害。”吴敏达举例。

这一理念源于智能体与传统应用的根本差异:即使代码完全正确,其输出结果仍可能出错;反之,错误的代码有时也可能碰巧给出正确答案。因此,仅靠代码审查无法保证可靠性。只有建立可信的治理机制,企业才敢将智能体真正用于核心业务流程。

为应对这一挑战,IBM与Anthropic合作验证了一套智能体生命周期治理框架。该框架的核心是在开发和运行两个阶段引入“内循环”机制:

在开发测试阶段,治理能力被直接嵌入智能体内部。“我们把监控、审计埋进去,通过结果来导向,去验证智能体的正确性。”吴敏达说。这意味着,评估不再只看代码是否合规,更要看实际行为是否符合业务预期。

在生产运行阶段,系统持续观测智能体的成本、延迟与安全边界,一旦检测到异常操作(如试图访问未授权数据),可立即干预。

据介绍,这套方法已在IBM内部实践。公司正在开发的新一代代码助手“Project Bob”,就整合了该治理框架,并将接入Anthropic的Claude大模型。“这将是2026年发布的watsonx Code Assistant(WCA)的基础。”吴敏达透露。

值得注意的是,该框架已通过Anthropic的实际验证,相关白皮书明确标注“verified by Anthropic”。

真正的智能,藏在工程细节里

当行业还在争论“Agent能否取代人类决策”时,IBM的选择先让智能体能连上系统、拿到数据、安全运行、快速迭代。

在IBM看来,真正的智能,从来不是模型有多聪明,而是系统有多协同、数据有多可信、运行有多安全——这些基石,才是AI从“玩具”变成“工具”的唯一路径。

正如翟峰所言:“帮助企业看到价值,IBM也看到价值。”在这场AI从实验走向生产的转型中,赢家或许不是最会讲故事的,而是最能把底座打牢的。

这也是IBM在2025年TechXchange大会上密集发布技术能力的核心逻辑:AI的规模化落地,不靠单点模型,而靠底层基础设施的系统性重构。