正在阅读：OpenStack Rocky版本全球最大规模单一集群测试意义何在？OpenStack Rocky版本全球最大规模单一集群测试意义何在？

2019-09-23 00:15 出处：PConline原创作者：刘禹责任编辑：liuyu6

　　随着技术的进步，用户对于数据中心建设的想法也在改变。在基础设施之外，考虑到政策、气候、场地等等因素进行选址规划成为了必要条件。而随着诸如OpenStack这类平台管理软件的日趋成熟，管理跨地域的超大规模集群也不再只是空想。

　　但同时我们也不禁思考，云计算的本质追求是效益与边际成本，随着集群的扩大，相关成本都会逐渐降低。OpenStack多Region（区域）方案通过把一个大的集群划分为多个小集群统一管理，从而实现了大规模物理资源的统一管理。所有的Region除了共享Keystone、Horizon、Swift等服务外，每个Region都是一个完整的OpenStack环境。部署时只需要部署一套公共的Keystone和Horizon服务。

　　采用这种部署方式，实现起来相对简单，并且很容易实现横向扩展；方便故障隔离，各个区域间互不影响；各个区域可以采用不同的服务器、存储、网络等基础架构。但同时该方案也面临着一个重大问题：各个区域间的隔离使得资源不能实现共享，这就使得区域间不能保证负载均衡。

浪潮集团副总裁张东介绍大规模实践情况

　　对此，浪潮集团副总裁张东举例进行了说明：“大量调研数据显示，对于云计算来说，内存是相当关键的部分，如果内存不够，系统就会溢出。而随着集群规模的扩大，业务增多，各种应用对于内存的使用量不同，它们之间需要做动态的内存调配。统计显示，如果集群的规模足够大，内存整体利用率控制在70%左右，超配比是70%的倒数，相当于省出40%左右的内存。现在许多大企业都在考虑其业务动态变化，对于已经处于云化业务的阶段来说，许多大规模的应用有着强烈的互联互通互操作需求，小集群难以满足，大集群是客户的实际需求。”

　　综上，如果可能的话，我们是否应该在性价比更高的地区部署更大规模的单一集群满足业务需要，同时进一步降低开销？

　　事实上，不是用户不想做，而是受限于技术成熟度的压力。

　　OpenStack Rocky版本全球最大规模单一集群实践

　　“OpenStack的单一集群一旦超过200-300个节点，性能就无法得到保障。”浪潮云计算与大数据产品部副总经理刘晓欣对此进一步说道。据悉，浪潮在过去两年多的时间里做了很多案例，随着用户业务云化的提高，客户对于“大云”有了更迫切的需求。

用户对于大规模集群的需求

　　9月5日，浪潮云海InCloud OpenStack 5.6（ICOS 5.6）成功完成了单一集群规模达500节点的测试，这是目前基于OpenStack Rocky版本进行的全球最大规模单一集群实践。

　　测试结果显示，在高密度、高并发环境测试中，在系统已有20000虚拟机负载情况下，成功完成负载60%环境下的1000并发虚拟机创建，空载环境下2000并发虚拟机创建。同时，测试验证了大规模集群在极端情况下的高可用，模拟了整机柜断电这种现实场景中较为严重的情况，在单个机柜负载180虚拟机环境下，实现了5分钟内疏散完毕，访问恢复正常。在高性能方面，本次测试结合客户实际应用场景中反馈的对网络低延迟、低抖动的要求，专门从硬件层、操作系统层到ICOS层做了全栈的优化，最终实现了48小时内时延测试超时率小于10-7，组播丢包率为0，能够满足对实时通信有苛刻要求的用户需求。

　　此外，浪潮云海ICOS 5.6在云平台软环境部署交付效率上也有上佳表现，10小时完成500台服务器节点系统部署、5小时部署323个OpenStack节点、3小时部署77个分布式存储节点、1小时完成100个计算节点扩容改配，单日可交付500+节点。

　　“OpenStack在国内有许多大型客户，而随着集群规模的增大，在管理性、部署性、功能性等方面都会面临相应的挑战，我们的测试从部署、升级、扩容、管理开始；之后加入了大规模高并发的可用性测试、高密度测试、稳定性等测试，考量的数据包括存储、网络延时、抖动、丢包等一系列的性能指标。我们甚至模拟了极端情况下的整机柜掉电，观测服务到底需要多长时间可以全部疏散到其他可用资源上。”据刘晓欣介绍，在此次测试过程中，浪潮与中国信通院通力合作，在每个环节上都进行了细致的记录。

　　“整个测试过程中，面临的挑战还是比较多的，需要许多调优工作去打破系统瓶颈。比如在开始的部署阶段，为了提高部署效率，浪潮OpenStack采用容器化部署，相比传统模式来说效率会更高，这在进行系统升级或是回滚操作中体现明显。测试证明了我们可以在1小时内进行100个节点的扩容。”刘晓欣对此做了进一步补充。

测试节点功能分布

　　中国信通院云大所云计算部副主任陈屹力对此肯定道：“从一个社区的开源软件到成熟的商用产品，中间要做大量的工作。中国信通院与浪潮在过去近一个月的时间里，从进场开始到完成测试可以说难度不小，对此我们认为：‘浪潮具备快速的交付能力，且有能力针对具体需求场景进行调优工作。’实际上，我们最终调度的节点远不止500个。”

　　做可以复制的企业参考模型

　　任何一项新技术的成功都不是一蹴而就的，OpenStack也是如此。在整个开源社区的群策群力下，经历了十几次版本迭代更新，OpenStack的用户数量逐年提升，在近年来成为了私有云领域中的事实标准。

　　据张东介绍，许多用户开始使用OpenStack都是从几十个节点开始，逐步扩充到上千个乃至上万个节点的。而随着节点规模的扩充，光是操作系统的安装就要花费许多时间，这些都有赖于企业级的能力增强。“借助浪潮在大规模数据中心管理方面的经验，浪潮的商业发行版采用并行化分布式安装操作系统，在此基础上安装OpenStack和分布式存储，采用模型驱动与容器化技术，将架构预先通过配置文件的形式写好，通过批量安装部署工具将配置和容器化组件下发，从而节省大量安装部署时间。”

　　“我们希望将此次测试过程完全公开，并将其回报给社区，以促进整个社区的繁荣进步。”张东补充道。信通院作为独立的第三方测试机构，在此过程中对测试的相关细节与数据进行了全程跟踪。

　　可以说，本次测试证明了浪潮云海OS在高可用、高效率、高性能方面的价值，而在此前，业界并没有基于OpenStack Rocky版本的大规模单一集群公开测试。“测试中非常重要的一点是，我们系统性地证明了浪潮云海InCloud OpenStack 5.6（Rocky版）大规模复制的可行性。”张东认为浪潮的此次测试一方面积累了技术经验，另一方面则证明了系统可交付性。

　　展望未来企业发展的关键是利用“数字红利”

　　“其实从云数据中心的管理软件来看，目前主要还是围绕资源虚拟化来进行的。”在张东看来，真正意义上云计算的资源按需扩展、弹性伸缩在实际操作过程上还是存在一定的难度。而诸如CPU、GPU、NPU、FPGA等多种计算资源以及NVMe存储协议的盛行，将对于现有云计算体系产生很大的冲击。这种影响不仅存在于硬件层面，在软件层面上更为明显。

　　“未来云计算的管理范畴将不仅仅局限于虚拟机，而是将所有的基础设施统一管控。更灵活便捷地实现资源调度与交付，将原有IaaS层基础设施进行极大扩展。多云管理，无论是单一集群的大规模管理还是多集群的大规模管理都将是云计算的长期演进方向。而这个大前提的关键在于文件系统是否能打通，网络是否能打通。”张东认为，云计算在可见的未来仍然有很大的发展空间。

　　而对于企业发展而言，最为关键的因素在于利用好“数字红利”。在张东看来，对于中国数量众多的中小企业而言，其面临的不是上云和大数据的问题，而是IT化。“将企业经营发展进行数字化梳理是中小企业成长发展的关键，在云计算基础设施不断完善的今天，中小企业数字化转型的难度与成本大大减小，上云的进步可谓是跨越了数个时代。”张东在访谈的最后展望道。