企业应该如何应对云服务突然宕机

云计算基础设施在商业关键的在线运营中起着越来越重要的作用。最近一项针对几百万互联网用户的研究发现,其中三分之一的人每天访问一个使用亚马逊网络服务(AWS)基础设施的网站。而且有充分的理由。电子商务网站、社交和广告网络、流式视频和其他所谓的“大数据”应用程序都从轻松和按需构建大型计算集群的能力中受益匪浅。您可以将设置机架和服务器的工作留给云提供商,只在需要时付费,而将工程资源集中于核心能力。

我们该如何应对云服务突然间的停机


然而,您的业务是否依赖于单一的云提供商?最近亚马逊的失败,比如6月份在亚马逊北弗吉尼亚数据中心发生的雷暴引发的大停机,已经使依赖云的大量公司(包括Netflix、Instagram、Pinterest等)停机数小时。去年,亚马逊的一些客户也出现了一系列的多天停电。随着云成为运营的中心,公司必须考虑将关键的数据中心基础设施委托给可能刚刚消失的服务的后果。一场突如其来的风暴会把云吹走吗?

云服务空间与传统托管的场景有很大的不同,并且可以滚动自己的数据中心。尽管底层硬件与传统环境中的硬件基本相似,但是云资源是以各种易于使用的形式打包的。使用这些服务的业务风险取决于两个关键要求:耐久性(保护您的关键数据免于丢失)和可用性(保持您的系统启动和运行)。评估云服务在应用程序中的角色和故障模式以及它们如何影响持久性和可用性非常重要。

减少数据丢失和停机风险的基本策略是在可能的情况下增加冗余并减少依赖关系。事实上,虽然在停机之后的抗议中有时忽略了它们,但是实现高可靠性的技术确实适用于云。Amazon Web服务甚至提供帮助的工具,包括区域、可用性区域和多种类型的存储服务。例如,许多公司(包括我们自己的)的关键的基于云的服务在6月份的事件期间没有停机,这主要是因为使用了多个冗余的可用性区域。类似地,对于不那么关键的服务,您应该能够在短时间但可接受的中断之后从备份存储重新预订,即使主存储已经丢失。

企业向云的转移是否意味着可靠性降低?底线——我们不这么认为。但也有关键的区别。首先,随着越来越多的公司开始依赖相同的云提供商,这意味着当出现故障时,它们可能对Web产生越来越广泛的影响,包括许多站点和服务。第二,当使用云服务时,内部和技术的可视性和控制要少得多。出于安全性和业务原因,AWS和其他云托管提供商通常不能透露其服务的详细内部信息。实际上,这意味着当事情出错时,你不能确定个人故障何时或如何被纠正。相反,如果这些组件或服务失败,则需要计划替代方案,同时使用主云提供程序内的冗余,并在可能时回退到备用服务提供程序。

如果你的企业使用AWS,这里很少有技术上的最佳做法来渡过下一个风暴:设计失败:对于高可用性,总是使用多个可用性区域。根据我们的经验,很大一部分公司的AWS停机是由于使用单一可用区域造成的。有时,这甚至可以在没有额外成本的情况下进行(例如,通过在两个不同的区域中放置数据库主和从)备份你的数据:历史上和设计上,亚马逊的S3存储服务有很好的耐久性记录。其他存储层的耐久性较差,因此应该始终用快照备份,这些快照持续到S3。

监视健康:内部和第三方监视服务应该不断验证您的系统是否正常工作,以便您可以快速响应。制定灾难计划:虽然可用性区域确实提供了额外的可用性,但是要考虑全区域崩溃的后备计划。这意味着您的服务立即或相对快速地故障转移到另一个AWS区域中的新部署或与其他服务提供者一起托管。通常,这最好由具有故障转移能力的全球DNS提供商处理,如UltraDNS、DyNeCT或DNS。

开放您的选项:为了实现云基础设施的长期稳定性,请避免与一个提供商提供的任何特定服务紧密关联。例如,考虑机制或第三方服务,允许您部署AWS中的服务器以及其他云服务提供商,如RACKStand、StftLeor或GoGrand。

声明:本站发布的内容以原创、转载、分享网络内容为主,如有侵权,请联系电话:021-51697771-8029,邮箱:mj@cndns.com ,我们将会在第一时间删除。文章观点不代表本站立场,如需处理请联系我们。

热门TAG

热门视频