Groupe SNCF使用Talos OS和Kubernetes实现基础设施的现代化

Source: InfoQ - Cloud

法国国家铁路集团(Groupe SNCF)"是一家重要的铁路运营商,它已经成功地从传统的基于虚拟机(VM)的Kubernetes部署迁移到基于Talos OS和OpenStack构建的云原生平台上,这解决了重大的运维挑战,同时能够应对复杂的组织变革。在TalosCon 2025会议上发表演讲后,InfoQ采访了高级主任工程师Thomas Comtet",讨论了这次迁移。

该组织的Kubernetes"之旅始于一个严重受限的DMZ着陆区(DMZ landing zone)",服务有限且强制使用虚拟机(VM)"。这个从头开始在现有VM上构建的初始实现,成为了团队所描述的“怪物”,它的维护和运维都极其困难。

当项目扩展到一个更传统的带有标准VLAN和服务的内网区域时,团队采取了一种完全不同的方法。他们没有简单地部署另一个Kubernetes发行版,而是构建了一个全面的云原生平台,这解决了所有关键问题,包括网络、负载均衡、存储和运维。

该解决方案将OpenStack"作为私有云的基础,Talos OS"作为Kubernetes操作系统。这种架构从第一天起就提供了自动化的能力,可用于动态存储提供、负载均衡和网络子网操作。

最大的障碍是组织上的,而不是技术上的。向习惯于传统IT运维的团队引入云原生概念需要根本性的思维方式转变。传统团队擅长脚本编写、基于工单的工作流程和响应式的操作,但云原生实践强调不可变基础设施、GitOps"和原子回滚。

该组织没有试图重新培训现有团队,而是创建了与云原生原则一致的新团队,允许两种方法自主共存。这一决定承认,改变根深蒂固的运维习惯和观点需要的不仅仅是培训,还需要不同的组织结构。

技术实现也带来了自己的挑战。当Kubernetes平台在OpenStack之上启动时,OpenStack团队仍在成熟中,这从一开始就创造了一个要求很高的客户关系。云原生团队立即需要处理复杂任务的能力,包括自动化存储、动态负载均衡和子网操作。

开始时,OpenStack是全新的,仍在部署中。我们立即基于它构建了整个Kubernetes云原生平台:自动化存储、负载均衡和子网管理等。我们不是只有简单需求的客户。两个团队并行运行:他们部署OpenStack,我们在其上构建云原生平台。

这需要非常紧密的合作,团队之间要保持不断的沟通,了解变化及其影响。尽管面临挑战,这种紧密集成最终加强了这两个平台。

对于专注于Kubernetes的团队来说,Talos OS被证明是理想的选择。大多数团队成员是Kubernetes专家,而不是操作系统专家,而Talos提供了一个开箱即用的、设计安全的、生产就绪的解决方案。每天与Talos合作的两名工程师特别欣赏其配置驱动的方法和极简设计。

回顾这段旅程,团队确定了一项重大的改进机会,即为期两年的研究阶段,探索裸机Kubernetes解决方案。团队在最终转向基于OpenStack的解决方案之前,花费了大量时间研究以Kubernetes为中心的方法。如果对替代观点更加开放的话,这种转变可能早在六个月到一年前就发生了。

然而,与遗留团队合作的组织挑战是不可避免的。文化和运维转型都需要时间,不能急于求成。

在当前的路线图上,重点是扩展现有的平台,让更多应用程序部署上来,以实现投资回报。下一个里程碑涉及将高度关键的应用程序迁移到云原生平台,展示对其稳定性和能力的信心。

鉴于行业推广的长期性和铁路运营中潜在边缘位置的多样性,边缘部署的决策仍在评估中。

查看英文原文:Groupe SNCF Modernizes Infrastructure with Talos OS and Kubernetes"