如何让AI智能体从“玩具”变“工具”？

“我们的智能体跑起来了，但不知道提示词有没有被‘投毒’，也不知道模型到底用了哪些数据。”

这是国内某头部光伏企业在AI应用过程中面临的一大困惑，并且，这还不是个例。企业部署的智能体数量激增，但真正嵌入业务流程、产生可量化ROI的，仍是少数。

“有的客户已经上了四五十个智能体，但结果不是减轻工作，反而更乱了。” IBM大中华区科技事业部自动化资深技术专家张诚在日前接受InfoQ等媒体采访时坦言。

问题出在哪？答案显然不是模型不够强，而是IT的“基本功”没打好。

过去一年，生成式AI从实验室走向业务一线，但热潮之下，现实却愈发清晰：大多数企业仍困在“小而美的玩具”阶段——智能客服、知识问答、文档摘要虽然见效快，却难以规模化产生业务价值。真正将AI融入研发、制造、供应链等核心流程的企业，仍是少数。

“可以肯定的是，当效率上去了，方向是对的，效益一定就会回来。”IBM大中华区CTO翟峰表示，但要实现这一目标，企业必须先回答四个问题：数据是否高质量？系统能否打通？安全是否合规？基础设施是否支撑多云全球化？

“最后一公里”困局：老系统不会说AI的语言

张诚分享了一个案例：苏州一家全球扫地机器人公司，80%的客户在海外。当德国经销商提交了一张ZUGFeRD格式的电子发票（PDF内嵌XML）时，财务团队一度手足无措——这种2025年起强制实施的本地标准，他们从未接触过。

理想情况下，AI应该自动解析发票、核对订单、触发付款。但现实是，订单在SAP，物流信息在WMS，税务规则散落在合规文档里。智能体想干活，却调动不了对应的系统。

“智能体怎么驱动二十年前就存在的MES或ERP？”在张诚看来，这些老系统缺乏现代接口，难以被AI直接调用——就像只会说方言的老师傅，听不懂AI的“普通话”。

这正是当前AI落地的最大断层：企业花了大价钱训练模型，却卡在“最后一公里”——无法与现有系统交互。

对此，IBM也在今年陆续推出了多个智能体，从集成的设计到集成的开发、上线、监管、运维都可以自动化地完成。举例来说，用户只需要输入：“当SAP S/4HANA产生新订单，自动同步到WMS”，AI就可以自动生成集成流程、测试用例甚至运维监控脚本。

其中，智能体的作用是把语义理解翻译出来，形成机器可以认识、可以运行的集成的流程。甚至，当运行流程出现问题时，智能体也可以快速反馈问题发生在哪里。“我们不是让专家干集成的事，而是通过Chatbot完成。”张诚说。

在这背后，是IBM三十年集成经验的沉淀。通过收购webMethods，IBM获得了覆盖制造、物流、金融等行业的预置连接器；而刚刚斥资110 亿美元收购的Confluent（Apache Kafka创始公司），则提供了实时事件流通道——让数据在系统间“流动起来”，而非静态躺在数据库里。

“做不好集成，做不好数字化的协同、打通、信息孤岛的连通，不可能做好AI。”翟峰直言。

从对话到行动：智能体如何真正“干活”？

集成能力的价值，在IBM内部早已验证。IBM大中华区科技事业部数据与人工智能资深技术专家吴敏达告诉InfoQ记者，作为“零号客户”（client zero），IBM已经在内部应用了 AskHR、AskIT、AskSales 等多种智能体，涉及HR、采购、销售、客服四大领域。

这意味着，员工可通过自然语言与HR系统交互，获取政策指引或流程帮助；销售人员可借助智能体快速调取客户信息与历史记录；IT支持人员则能通过对话自动创建工单、诊断问题。这些场景共同特点是：流程标准化程度高、系统接口相对清晰、业务价值易于衡量。

更进一步，智能体还能驱动跨系统工作流。吴敏达以财务场景为例：IBM将财务智能体与IBM Planning Analytics软件进行了深度集成，借此，企业CFO和财务主管可以用对话的方式轻松实现预算分配，在这个过程中，财务智能体会调用很多工具，包括构建沙箱、构建财务分配、构建相关的注释等等。最后通过通讯智能体，把结果推送给下一个审批人员，通过分配智能体把相关的财务分配到业务单元。这整个过程无需人工介入表单填写或系统切换。

但这一切的前提，是智能体能访问高质量、可信赖的数据。吴敏达指出，企业99%的数据是非结构化的——散落在邮件、工单、日志、PDF文档中，传统数据库无法有效利用。“如果数据不可信，模型再强也没用。”

为此，IBM推出 watsonx.data，将其定位为“AI时代的数据高速公路”。它不仅支持高性能查询，更重要的是内置数据目录、质量评估、血缘追踪和共享策略，形成完整的数据智能（Data Intelligence）体系。“我们强调的不是数据有没有，而是数据是否干净、是否可解释、是否合规。”吴敏达说。

这一能力通过 MCP Gateway（Model Context Protocol）与智能体打通。当用户提问时，智能体不仅能调用大模型，还能通过MCP直接访问多源上下文——例如，一个IT支持智能体在处理“网络中断”请求时，可同时调取设备日志、拓扑图和历史工单，综合判断根因。

而MCP只是IBM开放架构的一环。吴敏达介绍，watsonx平台通过三大网关实现灵活集成：Model Gateway 允许调用任意托管的大模型；MCP Gateway 将企业内部工具封装为智能体可调用的服务；Agent Gateway 则支持接入第三方智能体，实现协同工作。

“你可以用我们的平台连接你的智能体，也可以嵌入到其他应用系统里。”他说。

治理不是限制，而是让智能体“可以上路”

更重要的是，IBM强调智能体必须“可治理”。如果说系统集成解决的是AI“能不能干活”，那么治理解决的就是“敢不敢让它干”。

当前企业部署的智能体越来越多，但风险也随之上升。某金融机构曾发现员工使用未经批准的AI工具处理敏感数据，暴露出“影子AI”的管理盲区。

对此，IBM提出一个关键原则：智能体必须“上牌照才能上路”，背后需要一套安全治理体系。

“安全治理系统相当于做车管所的工作，”吴敏达解释，“智能体需要做注册和批准，没有‘牌照’的车是不能上路的，这是能够让这个‘车’上路的准则。”

其次是安全系统，它主要解决以下问题，比如智能体在做任何的操作是不是安全合规，是不是做了一些违规的操作，是不是有人对智能体发动了攻击。“假如智能体能够重置密码，有人用智能体的时候做了一些黑客行为，让它不仅能重置密码，还能干其他乱七八糟违规的事情，比如重启操作系统，那就会造成很大的伤害。”吴敏达举例。

这一理念源于智能体与传统应用的根本差异：即使代码完全正确，其输出结果仍可能出错；反之，错误的代码有时也可能碰巧给出正确答案。因此，仅靠代码审查无法保证可靠性。只有建立可信的治理机制，企业才敢将智能体真正用于核心业务流程。

为应对这一挑战，IBM与Anthropic合作验证了一套智能体生命周期治理框架。该框架的核心是在开发和运行两个阶段引入“内循环”机制：

在开发测试阶段，治理能力被直接嵌入智能体内部。“我们把监控、审计埋进去，通过结果来导向，去验证智能体的正确性。”吴敏达说。这意味着，评估不再只看代码是否合规，更要看实际行为是否符合业务预期。

在生产运行阶段，系统持续观测智能体的成本、延迟与安全边界，一旦检测到异常操作（如试图访问未授权数据），可立即干预。

据介绍，这套方法已在IBM内部实践。公司正在开发的新一代代码助手“Project Bob”，就整合了该治理框架，并将接入Anthropic的Claude大模型。“这将是2026年发布的watsonx Code Assistant（WCA）的基础。”吴敏达透露。

值得注意的是，该框架已通过Anthropic的实际验证，相关白皮书明确标注“verified by Anthropic”。

真正的智能，藏在工程细节里

当行业还在争论“Agent能否取代人类决策”时，IBM的选择先让智能体能连上系统、拿到数据、安全运行、快速迭代。

在IBM看来，真正的智能，从来不是模型有多聪明，而是系统有多协同、数据有多可信、运行有多安全——这些基石，才是AI从“玩具”变成“工具”的唯一路径。

正如翟峰所言：“帮助企业看到价值，IBM也看到价值。”在这场AI从实验走向生产的转型中，赢家或许不是最会讲故事的，而是最能把底座打牢的。

这也是IBM在2025年TechXchange大会上密集发布技术能力的核心逻辑：AI的规模化落地，不靠单点模型，而靠底层基础设施的系统性重构。