AWS说本周排印错误导致了大规模的S3失败

云提供商正在实施一些变化,防止类似的事件

每个人都会犯错。但在Amazon Web服务工作意味着一个错误的输入输入会导致大规模停电,削弱热门网站和服务。本周早些时候所发生的那样,当AWS简单存储服务(S3)提供者的北弗吉尼亚地区经历了11个小时系统故障

亚马逊其他服务US-EAST-1地区依靠S3,弹性块存储、λ,和弹性计算云的新实例启动“基础架构即服务”提供都受中断影响。

AWS为此事道歉周四公布的尸检。Netflix的停机影响了喜欢,Reddit, Adobe和Imgur。超过一半的前100名在线零售网站经历了缓慢加载时间停机期间,网站监控服务Apica说

这就是引发故障,亚马逊计划做什么:

根据授权亚马逊S3员工执行一个命令,应该“去除少量的服务器使用S3子系统之一S3计费过程,“响应服务的计费过程工作比预期的更慢。命令输入不正确的参数之一,记下了大量的服务器,支持一对关键S3子系统。

索引子系统”管理元数据和在该地区的所有S3对象的位置信息,“而放置子系统”管理新存储分配和需要索引子系统正常运作正确操作。“虽然这些子系统构建容错,关闭的服务器数量需要完全重新启动。

事实证明,亚马逊没有完全重启这些系统规模较大的地区多年,和S3经历了大规模干预时间的增长。重新启动这些子系统花了比预期更长的时间,添加到停机时间。

在回应这一事件,AWS几个内部工具和过程的更改。导致故障的工具,负责已被修改删除服务器更慢和阻止操作,将能力低于安全检查水平。AWS也是评估其其他工具来确保他们有类似的安全系统。

AWS工程师也要开始重构S3索引子系统帮助加快重新启动和减少未来的爆炸半径问题。

云提供商也改变了其服务卫生仪表板管理控制台运行在多个地区。AWS员工无法更新仪表板停机期间因为控制台依赖S3从受影响的地区。

来源:《微电脑世界》

最新头条

埃克宣布新的镀金产品

新闻
2022年7月25日 0
黄金是典型的象征地位,权力,永生,和财富,通常只有皇室,所以为什么不添加一些你的电脑吗?后
长时间极客与崇拜者的科幻小说和幻想这里踢屁股和嚼口香糖,我新鲜离开屁股!