由于性能问题,瓶颈和可伸缩性问题,过去十年内发生的最重要的服务器中断/停机是什么?
两个这样的例子是Twitter在2009年早些时候开始stream行以及谷歌停机问题之后不断出现的问题。
还有什么其他类似的事件让你相信会造成大量的破坏,影响到最大的用户群呢? 从这些事件中学到什么? 这些公司如何公开回应他们的停工?
2003年的东北部大停电是在2003年8月14日星期四东部和美国中西部和加拿大安大略省东部大约4:15东部时间UTC -5发生的一次大规模的停电事故。 当时,在1999年巴西南部停电之后,这是历史上第二大电力中断。[1] [2] 安大略省约有一千万人受到停电影响,美国八个州受影响的人数为四千五百万人。
通用电气公司基于Unix的XA / 21能源pipe理系统中存在一个称为竞争条件的软件错误 。 一旦被触发,这个bug使FirstEnergy的控制室报警系统停滞了一个多小时。 系统操作员不知道故障; 失败使得他们不能在系统状态发生重大变化时发出听觉和视觉警报[11] [12] [13]。 报警系统发生故障后,未处理的事件在30分钟内排队,主服务器发生故障。 然后,所有应用程序(包括停顿的警报系统)都自动转移到备份服务器,该服务器本身在14:54失败。 服务器故障将操作员电脑控制台的屏幕刷新速度从每秒1-3秒降低到59秒。 没有警报导致运营商驳回了美国电力公司关于俄亥俄州东北部345千伏共享线路跳闸和重新closures的呼叫。 技术支持告知控制室人员在15:42报警系统故障[14]
我的钱是在亚马逊,2008年6月6日。
太平洋标准时间上午10点25分左右,亚马逊零售网站变得无法访问。 所有其他亚马逊服务器和服务正常运行。 此外,https访问该网站是可用的。
该网站约2小时。
据估计,亚马逊失去了31000美元/分钟的潜在收入和很多的可信度(亚马逊股票当天下跌了2.7%)。
根本原因被认为是负载平衡层中的错误定义,但是亚马逊没有人会确认/否定。
2008年,亚马逊S3和EC2服务中断了3个小时,影响了包括Twitter (存储)和37个信号在内的数千个网站。根据亚马逊的说法,这是由于scability问题( 参考链接 ):
以下是关于我们今天早些时候遇到的问题的一些额外细节。 今天早上,太平洋标准时间上午3:30,我们开始看到来自我们某个地点的多个用户的authentication请求的高级别。 虽然我们仔细监控了我们的总体请求量,并且这些量保持在正常范围内,但是我们并没有监视已authentication请求的比例。 重要的是,这些encryption请求比其他请求types消耗更多的资源。
在太平洋标准时间凌晨4点之前,我们开始看到其他几个用户的authentication通话量明显增加。 最后一项将authentication服务推到最大容量,然后才能完成新的容量。 除了处理经过身份validation的请求之外,身份validation服务还会对Amazon S3处理的每个请求执行帐户validation。 这导致Amazon S3无法处理该位置的任何请求,从太平洋标准时间上午4:31开始。 太平洋标准时间上午6:48,我们已经在线移动了足够的容量来解决问题。
正如我们今天早些时候所说的那样,尽pipe我们以过去两年的这项服务的正常运行logging为荣,但任何停机时间都是不可接受的。 作为此次活动的验尸报告的一部分,我们已经确定了一系列短期行动以及长期的改善措施。 我们正在立即采取以下措施:(a)改进对authentication请求比例的监测; (b)进一步提高我们的authentication服务能力; 和(c)在authentication的呼叫周围添加额外的防御措施。 另外,我们已经开始了一个服务健康仪表板的工作,并期待很快发布。
此致,amazon web services团队
影响微软,谷歌,雅虎,苹果和赛门铁克和趋势科技的防病毒更新服务的中断必须是严重中断。
Akamai后来报告说,中断是由Zombified家用PC僵尸networking的DOS攻击造成的。
如何在几个星期前的TMobile Sidekick数据丢失?
McHostclosures的时间是去年11月份,而且有些报告大大减less了50-75%的垃圾邮件数量。
那么当a2b2.com,fsck,cheapvps,vaserv等几个月前的几天,几天和几天都发生了什么?
这是回来了,但在2001年的MS中断相当迷人。 MS已经在一个子网上build立了他们的DNS服务器,当一台路由器进行了一次潜水之后,几乎所有的东西都完成了。
伦敦证券交易所! http://www.theregister.co.uk/2009/11/26/lse_crash_again/
感谢微软。
任何使得风险清单连同大量的评论和讨论。
Register.com 在2009年4月初被DDoSed 。 他们处理很多网站的DNS。 我记得,DDoS持续了好几天。
Skype在2007年8月遭受了authentication中断 ,持续了几天。
另一个Twitter事件在这里报道,是史蒂夫·乔布斯和MAc世界在史蒂夫·乔布斯的一次演讲中依赖它,并于2008年1月15日屈服于负载。
技术世界中的大多数人眼中都是Macworld的史蒂夫·乔布斯(Steve Jobs)的主题演讲(苹果粉丝为你详细的实时更新)。 对于我们这些没有出席的人来说,Twitter被认为是了解发生了什么事情的一个很好的渠道,并且与我们的社区讨论每一个转折。 唉,Twitter又一次在Macworld 官方的stream量激增下坠毁,而且在最后一个小时内基本无法访问。
2009年4月21日,德国T-Mobilenetworking上的三台Home Location Register服务器中有两台出现故障。
因此,T-Mobile的整个移动networking在几个小时内都无法正常工作。 失败在下午四点左右开始,只在晚上九点到十点才解决。 停电影响了大部分(可能几乎全部)T-Mobile的4000万用户,他们无法接听电话(有些人仍然可以打出电话)。
几乎和停机一样令人尴尬的是T-Mobile提供的补偿:他们让用户在一天(星期天)免费发送短信(通常为每条短信0.19欧元)。 特别是商业客户当然赞赏这个姿态,这个姿势被严格限制在一个非营业日子里。
详情(德文版): http : //www.teltarif.de/t-mobile-netzstoerung-hlr/news/33936.html