最好的系统pipe理员跆拳道?

你肯定会亲眼目睹(或将要)迟早:那个可怕的项目/系统/情况,有些东西被搞砸了,你简直不敢相信它真的就这样了。

pipe理不善? Misbudgeting? 误解? 只是愚蠢的,明显的无知? 命名你的事业,它确实发生了(并且不断地发生很多,可悲的是,见这里 )。

在这里描述一下,为了娱乐(虽然有些玩世不恭),学习(希望)。

一些规则:

  • 不是随机(即使完全毁灭性的)pipe理员错误的地方,所以请避免“我错误地rm -r”或“我只是在我最后的备份上拷贝了损坏的数据库”(在那里,这样做) ; 这些东西在这里比较好。 这是关于“什么样的药物完全受到谁devise/实施这个系统的影响?”。
  • 每个职位一个跆拳道,所以他们可以得到正确的评论。
  • 请张贴你实际目睹的事情:-)
  • 如果是你这样做,它仍然符合条件:-)

我会尽快添加一些材料,随时添加自己的; 请做:-)

来自Microsoft支持工程师的电子邮件回复至已报告的问题:

“就我对你的问题的看法,我 有一个词:韦德。”

金!

我是从一个我从来没有听说过的公司打过电话的,这个公司曾经为一个客户实施了一个Exchange 2003邮件服务器,而且完全不知道该怎么做; 没什么太奇怪的吧? 我作为自由顾问工作,所以我很好地做你不知道如何为你做的工作(并为此付钱)。

于是我去了客户现场,发现一些很奇怪的事情: networking中的每一台服务器都是域控制器 , 全部15个左右。

然后,我发现了一些更奇怪的东西:没有一个人正确地复制其他任何人,Active Directory的整体行为只能被描述为“飘忽不定”,用户遇到的任何networking问题都可以想象,而Exchange只是拒绝安装,对人类的错误。

所以我看了一下服务器上的networkingconfiguration,我看到它正在使用ISP的公共DNS服务器。 然后我看着另一台服务器……而且是一样的。 然后我看着DC …一样的东西。 然后我问……这是正式确认:networking上的每台计算机(大约1500台)都使用ISP的DNS而不是合法的域控制器。

我继续解释DNS对于正确的Active Directory操作非常重要,并且能够重新构build后台故事:

  • 有人最初正确设置AD域,使用DC作为每台计算机的DNS服务器。
  • 他/她对转发器和/或防火墙configuration一无所知,因此电脑无法parsing互联网公用名。
  • 所以在计算机上使用ISP的DNS服务器的想法来了; 他们在每个人身上configuration它。
  • 他们开始有很多“找不到域控制器”的错误(谁会猜到?)。
  • 他们认为这个问题是由于没有足够的数据中心造成的,于是他们开始将每一台服务器推广到这个angular色。
  • 不用说,这只会让事情变得更糟,因为那些新的区议会也使用了错误的DNS,所以他们也无法复制。
  • 这持续了好几个月 ,他们只是“习惯了”networking是完全不可靠的。
  • 最重要的是,他们尝试启动Exchange安装程序,该安装程序悲惨地崩溃了; 只有他们决定打电话给外部顾问,直到他们完全不知道他们的networking设置是完全错误的。

曾几何时,我有一个客户,这是一个小型企业(10人)与电子健康logging。 (不是医生)。 有一天我注意到备份失败了。 经过testing,磁带机完全没有工作。 我向业主提到这件事,他说他很清楚车子是坏的,但是太贵了,不能更换。

当然 – 那不是很跆拳道。

跆拳道是他的工作人员每天旋转录像带,把它带到一个保险箱,以及所有的爵士乐,因为它死6-9个月

“不要告诉员工,可能会担心他们”

我当时担任大政府机构(意大利政府的主要机构之一)的系统pipe理员,并且一直在pipe理他们的数据中心几个月。 有一天晚上,我的电话铃响了,我的老板告诉我一件事情很糟糕: 总停电

好的,我们有UPS,对不对?

是的,但他们不会持续很长时间,所以最好去那里closures一切,直到权力恢复。

我去那里,穿过黑暗的走廊,到达服务器的房间…,并被什么只能形容为纯粹的地狱 。 从字面上看。 房间很热,你可以在里面烤蛋糕。 UPS电源正常,但有一半的服务器已经closures过热,其余的都在痛苦的尖叫。

原因?

服务器在UPS电源… 空调不是

HP ProLiant ML370 G3风扇故障… 5年后,该型号主板上的风扇传感器往往不好。 未检测到错误的风扇组合时,服务器无法启动。 我不得不通过一个shop-vac来启动机器(让粉丝在启动时旋转),这就是他们如何保持服务器运行,直到我能够到达一个新的系统。

在这里输入图像描述在这里输入图像描述

我曾经是Dac-Easy会计的会计软件顾问。 有一次,我被叫到当地一家公司的总部,会计师告诉我,如果我不能解释为什么这个计划每个周末都充满了会计错误,他们将不得不另找一个应聘和顾问。 通过pipe理日志文件,我发现所有的条目通常在星期五或星期六晚上。 然后我发现店主的妻子正在使用PC Anywhere在家里login会计系统计算机,并试图在几杯葡萄酒之后将帐户与支票簿平衡。 一旦数字看起来不错,她会注销。

当我听到里面的东西响起时,我拿起从母公司办公室收到的电脑。 当我打开箱子的时候,我发现它里面装满了磨砂迷你麦片。 我想一只老鼠住在里面或者使用食物储藏室。 可能的入口点是盒子和DIN键盘插孔之间的缝隙。

不完全是你所要求的,而是一个确定的WTF。

另一个客户,另一个恐怖的故事。

在主要文章中,我谈到错误地覆盖了一个好的备份与损坏的数据库,它是要取代; 它发生:-(

所以需要从备份中恢复。 幸运的是,实际上在那里有一个备份:每天都在一个中央备份服务器上进行备份,并附带一个真正的大磁带库。 这个服务器pipe理整个公司的备份,这是非常昂贵,并安装了一个真正的备份软件。

到现在为止还挺好。 我们查找备份作业,加载正确的磁带,启动恢复操作,磁带被加载,恢复开始…只是没有任何反应。

我们再试一次,有些事情。

我们卸载,重新加载,重新启动,尝试恢复以前的备份…没有任何变化。

我们假设一些长时间的操作正在进行,整个晚上都是这样…第二天,仍然没有任何变化。

好的,有时间叫真正的备份软件供应商的支持…但不能做,我们在星期天。 我们尝试查看供应商的支持网站,但需要一个特殊的访问代码,只有一个经理有这个…同样的经理,这将是周一,当他来工作时,真的很难发现系统。

又一天的痛苦,我发现这个bug是众所周知的,并且已经被一个供应商补丁修复了,显然没有人打扰他们的申请。 所以我去应用它,但是这是不能做的:pipe理层不想冒任何风险,除非供应商确认补丁可以安全地应用; 备份服务器无法恢复任何东西的事实显然没有足够的“打破”给他们。

只有经过四天的时间,各种支持电话和厂商派遣一名支持工程师,我们终于能够应用补丁和恢复备份; 备份服务器还没有能够恢复,但没有人testing过,所以没有人注意到。

乐趣和利润的terminal仿真

我使用了一个较老的系统 – 本质上是一些文本terminal连接到一个Unix机箱,有几台Windows计算机被扔进去,使事情变得复杂。

一些基本的背景事实

  • 主要软件应用程序使用它自己的扩展termcap文件。 系统范围的termcap和terminfo被忽略。
  • 主要软件应用程序允许根据环境variablesselect各种键盘映射。
  • 所有的文本terminal都有可编程的键盘。
  • Windows PC使用专有客户端软件进行连接,而不需要主要软件应用程序的内置支持。
  • 专有的客户端软件允许在加载时select各种键盘映射。
  • 只有一半的员工使用标准的QWERTY布局。
  • 至less有一个,也许更多的在这个系统上工作的系统pipe理员对terminal仿真缺乏正确的理解。

我想你可以看到我要去哪里。

在为terminfo和termcap文件添加适当的terminal支持方面曾有过半心半意的尝试,但这些只是部分function。 主要系统应用程序使用的专有termcap文件起作用,但是由于$ TERM永远不会正确设置,所以它几乎是不相关的。

login后,每个用户都必须基本上select他们login的位置以及他们想要使用哪种键盘布局 – 不涉及自动检测。 这会将$ TERM设置为ANSI, 而不pipe在客户端使用哪个terminal,以及设置环境variables,以便主要软件应用程序适当地重新映射一些密钥。

在人们在文本terminal上使用embedded式键盘布局的情况下,然后运行脚本来重新编程embedded式布局的某些键(如物理印刷在键盘本身上),但不是全部。 在Windows PC上,客户端键盘映像被加载以将大多数function键重新映射到ANSI。 无法重新映射所有这些,否则一些其他键将停止工作。

从任何terminallogin其他任何东西都是一个失败的练习,只能合理地直接在服务器上完成。 由于一切正常,所以很难certificate解决问题所需的时间和精力。 但是,添加比我们现在坚持使用的20年前的文本terminal更新的任何内容基本上需要重写整个系统。

每次看到它,我都会在里面哭泣。

我知道有人决定通过将所有.exe文件放在一个文件夹中来重新整理电脑上的文件。

一个networking约60(六十)个人电脑。

一个安全狂热的老板。

一些具有VLANfunction的新交换机。

涉及20个(20个)VLAN的“networking重组计划”。

由于一些未知的较高的权力,我离开之前,所有这些可能实际上开始…

我们给了我们的一个Unixpipe理员一个Windows机器。 这是我们给了Windowspipe理员Linux机器pipe理员后不久,以提高我们对不同操作系统的熟悉度。 我作为一个Windowspipe理员,试图不要搞砸我的Linux机器我问了一大堆Unix小组的问题。 我预计这是演习的目的。 经过严格的讲座,确保我把所有的卷都放在正确的位置上,而不是把所有的东西都放在一个卷上,或者放在一个单独的分区上,然后我去build造一个完美的盒子,两年后还在生产。

当那个给我讲授不同卷的unix系统的人build立了他的Windows系统时,他把所有的东西都放到了C :. 当我说:“我不能支持任何政策,当这些日志填满你的盒子将崩溃。 他说: “我认为这是Windows,C上的一切都是有道理的。” 他根本没有再做一个分区。 我对此感到非常惊讶。 绝对跆拳道你在想什么事情。 显然,他没有想到,不pipe操作系统如何,一些最佳实践是相同的。

马西莫的回复让我想起另一个跆拳道…

一个小型办公室的Windows 2003服务器与Exchange,赛门铁克AV等公司通常使用我们做他们所有的IT工作..但这个新的热点是在办公室,并购买了一台新的PC。 我们把他们放在一个统一的Dell Optiplex平台上,这家伙决定用百思买出售的“优秀机器”replace其中的三个。

无论如何 – 他们以某种方式设法将其join域。

第一个电话:

我们找不到前景。 该机器与Word(微软工程),所以其他的地方在哪里。

第二个电话:

我们如何使用networking防病毒?

这是跆拳道。 我去了现场,他们的7台机器已经被configuration为Symantec Antivirus SERVERS ,而不是安装客户端。 显然,这位先生并不像我们locking了客户端的设置,并决定“重新安装”客户端,以便在扫描时更改。 显然,我们遗漏了的第一张Symantec AV软件说服他安装“服务器”,而不是客户端。

一位客户打电话给我,帮助一些服务器构build。 在构build期间,我被告知这些是从机架底部两个更换服务器。 我觉得奇怪的是,机架位置是相关的,并问为什么。 在穿过中间的水pipe爆裂后,服务器房间被淹没了。

那么你问服务器机房中间的水pipe是什么? 那么,女厕所就在隔壁,服务器房间很方便。 有什么更好的地方把主要饲料的卫生间?

哦,这是一个容易的…

我为位于肯塔基州农村的仓库的一家公司安装了Linux系统。 该系统是组织的会计/库存申请。 我用一台新的CentOS 4服务器取代了1998年代的SCO服务器。 就我个人而言,我预料到连接和客户时最糟的情况。 你知道,旧的个人电脑,坏的布线等,我把新的交换机,电缆,瘦客户端等网站…

但是,我没有想到布线“壁橱”在浴室 ! 实际上,布线位于仓库卫生间正上方的吊顶上方。 这包括DSL调制解调器,10兆位集线器和一个66块的电话…

在这里输入图像描述在这里输入图像描述

同样的客户参与DNS从地狱的事情。

他们的Exchange服务器保持运行多年,甚至在一些磁盘故障中幸存下来(谢谢,RAID,谢谢,备份)。 有一天,我再次被问到一个无关紧要的问题,他们告诉我一件事让他们感到困扰:有些时候,他们发现每个人都能打开其他人的邮箱; 他们认为这很奇怪,但没有做任何事情,因为他们不知道如何解决这个问题,无论如何,电子邮件工作,几乎没有人知道这一点。

在这里我感到非常震惊:每个人都可以打开任何一个人的邮箱,他们认为这只是一个小小的事情 ,并没有为三个月做任何事情。 任何普通人都会立即从服务器上取出网线,但不是他们。

问题的根源是……奇怪:有人在Active Directory中的Exchange组织级别上设置了“Everyone / Full Control”,所以每个人都立即成为一名完整的Exchangepipe理员; 他们唯一的幸运就是很less有人注意到它。

截至目前,还没有人知道谁是真正做到的。

作为一名全职程序员兼兼职pipe理员,为一家做医生办公室核算的小公司(阅读:客户账单和保险理赔)软件工作。 接到一个大客户的电话,他们的服务器已经closures了; 这是运行Altos Unix SysV / 386的新产品。 因为我是他们所有的,所以他们派我和新加仑。

到达那里,有一个房间里充满了数据录入员,他们尽可能快地inputWordPerfect文件。 还有一条长途电话线从另外一组运营商也这样做了。

文件目录有大约10,000个完美文件,所有文件都遵循相同的格式。 所有在一个目录。 某某某受伤,受到某某人的折磨。 似乎这位医生是律师提起伤害诉讼的最佳人选。

我试图从软盘启动,只有很多寻求噪音。 我把软盘拉出来,里面全是蜘蛛网,我在这里说话很less。 这是一个医生的办公室,所以我要求拭子和酗酒(这是我们唯一的Unix启动盘,而且是唯一一个修理那个服务电话的机会),并开始清理软盘,驱动器和服务器。

有两个问题,一个是服务器上铺满地毯的办公室和其angular落的地方(厚厚的毛绒绒地毯),80度办公室过热。 文件系统需要严格的FSCK'ing,我把10K文件分成一组新的按字母顺序排列的子目录,并build议将它们进一步分解。

当我们进门的时候,医生是一个完美的***洞,我们撕开了一个新洞。 当我们离开时,我们解释说,从我们这里购买WordPerfect for UNIX选项并不意味着我们已经调整了服务器的大小来创build洲际文档; 他还需要A / C,无毛毯服务器位置,UPS,外部RAID和更好的目录归档协议。 突然之间,他全神贯注,因为这是他赚到的全部钱。 我把所有的信息都交给了销售人员,但之后不久就因为其他原因离开了这个工作。

我最好的WTF起源于我现在的雇主,当我第一次来到这里。

当我发现服务器的状态时,几乎在工作的头几个月里,一直处于恐慌和恐惧的状态。 在我目前的经验水平下,我可能只是build议放火烧地,收集保险。 但最好的部分是一个公司的政策:

没有拨号客户的帐户。 在拨号客户收入的一半的ISP。 实际上,这个政策在我开始的时候已经有了6年的时间了,这让我觉得没有任何事情可以做。 标准的路线是“我们只相信我们的客户不要用太多”。 事实上,这个地方是在一个低成本的预算运行,并没有一个真正的pipe理员在转换所有的时间没有帮助的事情,我不认为。

这个政策的最终结果当然是垃圾邮件发送者已经基本上占用了拨号池。 几乎每天晚上,他们都会使用一个帐号拨打多个调制解调器,直到整个游泳池满了,然后尽可能快地发送垃圾邮件。 AAA RADIUS的版本没有帮助,因为当时没有快速的“一次只允许一个用户”切换。 我用Perl破解了一些东西,把有两个login名的用户断开连接,直到RADIUS服务器可以被replace,并且在一到两周内的某个时候解决了这个问题。 另一个问题的部分原因是我没有被允许有足够的时间来解决问题(请参阅:低成本的预算),因为我同时也在做技术支持。 但我仍然在这里的一部分原因是,我对这一切都有自由的统治。 我不认为我曾经被告知不要去实施一些合理的想法。 我唯一的限制就是金钱。

十年前,我采访了一家主要服务器机房看起来像意大利面条汤的公司。 networking设备在一个20英尺x 60英尺的房间的一个angular落附近的3个机架上。 有各种各样的颜色的networking电缆的瀑布,倒在架子上,结束在7英尺宽的纠结电缆池,并从机架约5英尺溢出。 没有任何文件,也没有人知道到底在哪里。

该公司在涉及人身和财产安全的领域拥有95%的市场份额。 我只能说,这可以给一个真正的停顿。

顺便说一下,这家公司还在营业,从那以后显然清理了很多东西。

在不久之前在Demarc的衣柜里,发现了这个甜蜜的设置:

精英光缆安装= TWIST TIE

替代文字http://locobox.googlepages.com/Fiber.jpg 替代文字http://locobox.googlepages.com/Fiber2.jpg

几年前,我正在努力的公司收购了我们的竞争对手之一,我不得不审计他们的机器(Centos),以确保他们能够达到我们的configuration标准(他们的系统pipe理员拒绝了join我们公司的机会青睐开创自己的公司,开发交钥匙解决scheme)。

在/etc/rc.local(所有伟大的WTF的家)我发现:

swapon /dev/sda3 

 route add -net 10.0.0.0 netmask 255.255.0.0 eth1 

注意:eth1在ifcfg-eth1中configuration,networking掩码为255.255.255.0

显然,真正的系统pipe理员不使用像/ etc / fstab和/ etc / sysconfig / network-scripts / *这些陈旧的configuration文件

今年早些时候,我们聘请了一个新的女孩。 我被要求确保所有的公司字体都安装在她的电脑上。 我知道他们只是决定select我的战斗,然后重新安装。 大约5分钟后,我接到了女孩的电话,她要我过来告诉她如何使用我安装的新“软件”。 我走了过去,打开Word,走过她如何改变字体….这是我安装的。

这个女孩有一个博士! 她不再在这里工作,但不是因为她不知道如何使用字体。