企业大模型工程化的探索实践|AICon北京站

来源: InfoQ - AI&大模型

原文

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站"将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

硅基流动资深产品技术专家伏光莲已确认出席并将在「大模型系统工程"」专题发表题为《企业大模型工程化,从异构算力统一接入到训推闭环的探索实践"》的主题分享。企业 AI 应用正从验证走向规模化,基础设施需要系统性解决算力利用、训练/微调、部署/推理与治理等问题。

本演讲聚焦工程实践,围绕异构算力的统一接入与调度到训推一体化的端到端方案,展开国产芯片适配与算子兼容、并行与通信优化(拓扑感知、带宽优先、KV-Cache)、推理成本工程(量化/切分/混部)、以及可靠性与运维(SLO、故障域、观测性)与安全合规(身份、审计、数据边界)等关键议题。结合电力、能源、制造、金融与互联网场景,给出可复现配置、指标与权衡,并复盘典型反模式与踩坑。目标是提供一套可迁移的工程基线,帮助团队在规模化场景下降低 TCO、稳定达标 SLO,加速从 PoC 到生产化落地。

伏光莲在企业级 MaaS(Model-as-a-Service)平台研发、AI 基础设施构建及智能化解决方案领域具有深厚积累。负责硅基流动企业级 MaaS 平台的产品规划与技术落地,聚焦于通过异构算力整合、国产芯片性能加速、大模型一站式应用等路径,降低企业 AI 应用开发门槛与提升模型推理效率。深度参与平台核心产品(私有化大模型云服务平台)的演进,该平台整合了百余款开源大模型(如 Qwen 系列、GLM-4、DeepSeek 等),并通过整合自研推理引擎 SiliconLLM 和图像生成加速库 SiliconDiff,实现模型推理性能的显著提升,同步注重多租户隔离、数据安全与成本优化,助力企业实现生成式 AI 技术的规模化应用。她在本次会议的详细演讲内容如下:

1.引言:企业大模型应用的算力挑战大模型算力需求的指数级增长(逆摩尔定律,每3-4个月翻番)当前,企业在推进 大模型规模化工程落地时普遍面临以下挑战:国产芯片模型适配速度慢,拖慢业务创新推理性能与成本难以兼顾,制约规模化应用可靠性要求高,系统容错与运维能力不足模型输出质量与稳定性影响应用可信度安全与合规压力持续加大国产芯片与异构算力整合的必要性与战略价值2.异构算力整合的技术路径与实践方案硬件层:多元芯片的协同创新国产芯片突破:昇腾等性能接近国际水平异构计算架构:CPU/GPU/FPGA/ASIC的差异化优势组合策略高速互联技术:PCIe、NCCL、NVLink等提升通信效率软件层:跨平台调度与优化推理加速技术:模型量化、采样、并行、调度与大EP+PD分离策略模型微调:多lora适配异构云模式:解决异构、异域、异属算力的统一管理平台化实践案例未来发展趋势芯片技术:异构GPU集成与存算一体架构突破内存限制算法演进:MoE架构(PD分离,AF分离)与轻量化技术降低端侧部署成本产业生态:算力交易市场与普惠化发展趋势总结与展望听众收益:了解可落地的“选型—适配—部署—优化”方法:快速引入并筛选模型(模型库+评测基线+Multi-LoRA),统一接入异构/国产芯片并进行推理加速(KV/Prefix/Continuous Batching、PD 分离),附关键指标与权衡,直接用于工程决策与落地。获得稳定性与安全的工程清单:多租户隔离、精细化权限与全链路审计、限流与抗攻击、分钟级恢复与秒级弹性扩缩容;在大规模并发下实现“高性能、低成本、可合规、可运维”。

除此之外,本次大会还策划了LLM 时代的软件研发新范式"、Context Engineering"、Data+AI / Agent 落地实践"、大模型系统工程"、企业级 Agent 的设计与落地"、大模型时代下的搜广推系统实践"、多模态从技术突破到创新应用落地"等10多个专题论坛,届时将有来自不同行业、不同领域、不同企业的50+资深专家在AICon北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 8 折优惠,单张门票立省1160 元,详情可扫码或联系票务经理 13269078023 咨询。