应对Meltdown和Spectre这两个漏洞,对于OpenStack人来说不是件轻松的事。比如CERN就必须重启整个云来修补Meltdown和Spectre漏洞。

1月3日Meltdown和Spectre CPU安全漏洞被公开披露,引发了全球IT用户和云运营商的一连串活动。在OpenCtack温哥华峰会上,Openstack人详细介绍了他们如何处理Meltdown和Spectre漏洞——这是一个很耗时的过程。
CERN
CERN(大型强子对撞机(LHC)的所在地)拥有最大的OpenStack云基础设施(大约30万个计算核心)。Arne Wiebalck负责CERN的OpenStack云的整体运维,当Meltdown和Specter等漏洞出现时,他的责任是及时反应并部署相应的修复程序。
“在冬季休息期间,CERN通常会关闭两个星期,所以当每个人都还没来上班时,事情发生了。”他说。
根据Wiebalck的说法,CERN有一个专门负责网络安全的团队。他的运维团队与安全团队协调,了解需要采取什么措施来缓解Meltdown和Spectre的风险。
“最终我们决定关闭整个云来打补丁。”Wiebalck说。
考虑到CERNOpenStack云的规模,整体关闭和打补丁的折磨可不是小事。 Wiebalck表示,他的团队不得不关闭并重启超过3万台虚拟机,并告知成千上万的CERN云用户会发生关机。
“我们已经在生产中运行了大约五年的云,而这是我们第一次不得不关闭所有的东西。”他说。
不过,CERN并没有简单地同时关闭所有的东西,而是在几天的时间内分阶段执行打补丁、关机和重启过程。CERN使用了一个迭代过程,最初关闭了大约200个虚拟机管理程序,以查看它们是否会返回以及是否有任何错误。
尽管CERN像大多数大型IT组织一样利用自动化流程,但在为Meltdown和Specter打补丁和重启时,涉及必须由人来运行和监控的大量手动流程。
“我们有一些工具可以与数百台机器进行对话,但实际上,我和我的同事基本上都是通过手动方式来做这件事。”Wiebalck说。
OpenStack基础设施
Clarke Boylan是OpenStack基础设施项目的PTL,负责运行用于构建全球云中使用的OpenStack软件的系统。Boyland也和CERN的Wiebalck一样,必须重启大量系统才能为Meltdown和Spectre打补丁。
Boylan表示,OpenStack基础设施团队将打补丁工作进行了分工,并利用Ansible配置管理技术确保补丁内核到位。
“我们仍然让人仔细观察,以确保服务仍能以预期的方式运行。”Boylan说。
尽管有Meltdown和Spectre补丁,但人们担心潜在的性能下降问题—— 这正是Boylan团队所监控的。OpenStack基础设施团队的首要任务是尽快部署Linux内核补丁。
更进一步,Boylan指出,OpenStack Nova计算项目开发人员为Nova增加了一项功能,允许增强对CPU功能标志的控制,以便云运维人员可以限制对CPU更危险部分的访问,并减轻补丁对性能的影响。
教训是什么?
像Dave McCowan这样的OpenStack社区成员认为,Meltdown and Spectre问题对云运维人员来说是一个很好的教训。他是OpenStack Barbican秘密管理项目的前PTL、思科工程师。
“学到的教训是要为任何可能发生的事情做好准备。当你考虑架构一个云和规划工具时,要知道你可能需要给系统中的任何东西打补丁或替换它们。”
原文链接:
http://www.eweek.com/security/openstack-operators-detail-how-they-patched-for-meltdown-spectre
内容覆盖主流开源领域
投稿邮箱
openstackcn@sina.cn