根据关于Best系统pipe理员事故的问题,您参与的最糟糕的事故是什么? 与前面的问题不同,我的意思是在大多数系统损害或对人的实际伤害意义上的“最差”。
我将从我的开始:
我们有两个远程布线室,位于一个100英尺长的走廊的尽头,地下有一个金属格栅。 在安装了Cat6电缆之后,承包商将通过格栅下落的所有碎片清理到3英尺以下的混凝土中。 有一天,一名同事和我走进走廊,检查进展情况,但分散注意力,没有注意到一块格栅已经移到一旁。 我的朋友踩了一下空气,胸口猛地撞上了钢横梁。 他浑身酸疼,要rest几天,幸好钢梁的边缘圆润了,开口的大小使得他没有把头撞到下面的地板上。
显然我们知道地板被部分去掉的地方需要标记。
试想一下,如果你将在安德鲁飓风期间住在南佛罗里达(稍微在24X7狂热之前)。 所有的服务器都被安全地locking在build筑物内,需要将徽章放入build筑物内,而且安全区域需要额外扫描徽章。 想象一下,没有考虑到需要在门上的实际手柄的nitwit。 设想一个需要交货的400万美元的合同,最近的电力是230英里以北,天然气供应不足,危险的道路和发电机,devise提供48小时的电力。 笑,如果你将在一辆卡车后面的服务器集合,卡在米老鼠收费公路,因为缺乏天然气而停滞不前。 笑,如果你会完全没有借口,从物stream,系统pipe理和运营的angular度来看,这是多么糟糕。 最好的部分是听到数百个UPS单位同时哭闹生命给电。
当我在思科工作时,曾经购买购买价值30美元的无线网卡的客户,当他们的驱动程序无法安装的时候,他们正在吐芯片,或者思科拥有最便宜的最基本的路由器的用户,他们会在支持问题上大肆吹嘘和狂欢。
有一天,当我收到来自全球最大的一家信用卡提供商的电话(想想美国运通,万事达卡,Visa,Diners …实际上是那些品牌之一,我不知道他们是否是他们会感激我提到它)。 我是前线支持,我唯一的工作就是评估情况,评估情况,并将其交给适当的支持部门。 这个案子是我经历过的唯一一个重要案件。
来自卡公司的一位男士打来电话,表示他们在东西海岸的美国大型机之间的联系倒闭了。 如果在一台主机上创build了一个帐户,则该交易总是在该主机上处理。 如果你最近的链接总是靠近那台主机,那么这很好。 但是在这个特定的日子里,如果你在东海岸的服务器上有一个帐户,但是你在西海岸,那么这个交易就会被拒绝,因为这个链接已经closures了。
评估损害时的标准问题是“这会耗费您的业务多less钱?” 冷静收集的答复是“每30秒约一百万美元”。
真的把它放到上下文中,当你感到诱惑,并狂热地向客户支持你30美元的无线网卡。
(应该指出的是,思科在转移后的5分钟内就连接起来了)
像rm或mv这样的别名命令添加'-i'选项以避免错误是很常见的。 但是这个在我的公司刚刚发生。 有人把这一行放在一个服务器的根目录的.bashrc中。
alias rm='rm -i'
然后它复制了行,并用rm替代mv …他认为:
alias rm='rm -i' alias mv='rm -i'
其余的是历史:)
那么,问题是,当你确定'问'说'删除'而不是'移动',但是…
我们在一家大型零售商(超过1000家分店)安装了大量销售点系统。 中央轮询服务器是所有定制的HP-Unix代码,生产迁移的testing由一个人 – IT主pipe的儿子处理。
这家伙一天花了7.95个小时阅读幻想小说,而另外几分钟的时间里他正在进行批量的工作,每晚都要进行生产迁移。 该系统在150家分行(我们的第一个“真正”推出)上线3天后。 一切都准备好了,我的团队刚刚完成了最后一段代码的testing。 我们承诺我们的改变,并将我们的图像从开发中移到第二天早上由IT主pipe的儿子接受testing。
我在上午8点到达那里,一切都很混乱。 事实certificate,儿子已被指示复制文件到生产后,他应该进入./changed文件夹,然后input“rm -rf *”。 是的,有人告诉他这个! 当然,他不小心在生产根驱动器上做了这个,这也是我们的事务性轮询数据库(当时正好是备份离线,只是我们的运气)。
结果:我们的16家试点店不得不从雪茄盒(有些情况下,从字面上)为客户服务2天。 CIO的儿子被降职到Server Watcher(他坐在寒冷的服务器房间里,应该看红灯……但是他不允许触摸任何东西……他们甚至不给他一台电脑,撤销他所有的login/电子邮件)。 我们的开发团队通过备份恢复丢失的数据,并重新testing/重新提交代码。
我们幸运地推出了150分支机构,但这是最糟糕的推出经验。
我学会了在按Enter键之前完成每个命令句子。
我面对的情况稍微类似于当我不确定某个命令时,按Home键并input一些垃圾字符,以使命令不被识别。
me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that
bash: sdkjfhdsudo: command not found
然后我再次检查选项,如果需要的话可以慢慢来。 有没有其他人做这样的事情? 当然,你必须确保你input足够多的垃圾字符(5+) ,以防止它成为另一个有效的命令,并做更多的不可预知的损害。
(有没有一个基本的缺陷,我还没有弄清楚,或给出5 +垃圾字符,通常在“asdfghjkl”键,它做一些不可预知的事情?
在为经理重新安装笔记本电脑的操作系统时,有人通过networking将所有数据拷贝到/ tmp中的linux站点。 有一些问题,花了一天多的时间。
Linux站在一天结束时被closures
第二天,当他们去找经理人的资料时
我不确定这可能是一个有趣的答案,但我也是一个编码器。 我把我的最后一个网站完全写在生产版上,在我的电脑上完全没有备份。 连续工作16个小时后的糟糕的一天,我不得不去做一个分区,最快的方法是格式化它。 我运行fdisk -l来检查我必须格式化的分区的名称,不幸的是我排除了错误的行,并将其格式化。
我失去了6个月的工作。
幸运的是,第二次你做同样的事情,你做得更好更快,因为你已经知道如何做到这一点。 现在这个网站是现场的。 我有备份:=)
我已经作为一个SysAdmin工作了大约7个月,我的第一个任务之一是得到一个Squid代理服务器运行,我真的得到它的工作,就像2个星期后,我使用BackTrack和搞乱了很多工具“玩黑客“我实际上黑客服务器是不错的,但是在我进入一些奇怪的原因后,我做了一个rm -rf从/删除了部分操作系统(Debian linux)。
我学会了在按Enter键之前完成每个命令句子。
干杯。
我们的一个客户在2005年12月24日遇到了一个非常罕见的XFS文件系统错误…当时我不知道这是一个Linux内核错误当然,我认为这只是一些通常的嫌疑人(13TB RAID 8KB空闲,arrays中的虚假驱动器故障等)。
最后,因为文件系统是xfs_repair -n /dev/whatever ,所以我要求线上的操作员inputxfs_repair -n /dev/whatever 。 嗯,它要清除日志(显然,因为FS是不可安装的),但没有太不祥的消息。 所以去吧: xfs_repair /dev/whatever 。
15分钟后,她回电话:
为什么我看不到大多数文件?
胡哦…原来,加上侮辱伤害,xfsprogs是一些版本,在这种情况下会严重伤害…哎呀。 8TB的数据已经消失了。
我的可乐设施有一段时间停机。
他们把主要networking连接到互联网,在路由器上执行一些软件维护,这是公平的。
然而,与此同时,次级链路的上游提供商将其closures以进行一些testing(显然,他们已经被告知,但是在数据中心已经被错误地标记)
到目前为止这么糟糕…但是,客户有一些困难通过到设施停机时间提供商的关注..提供商只有VoIP电话,通过连接…好吧,你可以猜测。
我想你不会相信我,但它是真实的,并在博客上的logging 🙂