企业开源实践之旅:基于红帽客户的开源建设实践案例
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.4 基础设施

近些年,大型企业数据中心随着对开放平台算力需求的大幅增长,已经开始从购买虚拟化、超融合、IaaS平台的基础设施构建模式发展到基于开源平台来搭建基础设施。容器技术的突破不仅改变了应用的运行模式,也改变了数据中心的部署和维护模式。在容器技术之前,虚拟化帮助IT部门解决了如何切分和复用一台大型设备,并使软件堆栈可以脱离具体硬件环境,但并没有改变应用的形态,也无法将开放平台的算力整合为一个更大的可用资源。随着容器和云原生应用使服务变得标准,使其可以在对业务完全透明的情况下穿越服务器的物理环境边界运行在其他可用的硬件资源上,并且能够做到按需弹性扩缩容。随着更多的细粒度的服务运行在云基础设施上,网络开销成为制约服务细分的障碍,但是随着DPU的运用,开放平台跨硬件边界的网络调用开销问题将得到大幅的改善。依托开源软件建立起来的基础设施渐渐具备了与大型机和小型机比肩的能力。

基于开源软件的基础设施服务也是最近被热议的内容,Tim O′Reilly表示,在开源的云时代,开发者分享代码的动力是让别人运行自己的程序,从而提供一份源代码。但这件事的必要性已经慢慢消失了。O′Reilly的内容战略副总裁Mike Loukides以Meta开源的大语言模型OPT-175B为例,解释了在基础设施领域发生的变化。OPT-175B的源代码虽然很容易下载,但你手头的硬件却无法对其进行训练,甚至对于大学或其他的研究机构来说,OPT-175B都过于庞大。另外,即使是有足够计算资源的谷歌和OpenAI,也无法轻易复刻OPT-175B,因为OPT-175B与Meta自己的基础设施(包括定制硬件)联系过于紧密,很难被移植到其他地方。Meta并没有想要隐瞒有关OPT-175B的内容,但构建类似的基础设施真的很难。即使是对于那些有资金和技术的人来说,最终也无法构建出一套相同的基础设施。

2022年全球前三云厂商——微软、亚马逊、谷歌分别实现了26.5%、29.4%、37.3%的云业务营收增长,云-企业软件-AI计算三条轮动的业务线帮助云巨头们建立起一个相互拉动的业务模式,在云业务上降低算力成本并提高计算效率成为其制胜法宝,企业软件贡献了超高的毛利率,而AI计算服务化是目前各家争夺的战略制高点,也将成为接下来云业务中竞争最激烈的战场。这种已经无法自建的基础设施能力对于企业来说,也是未来进行IT架构设计时需要思考和应对的问题。