您开始工作或担任公司的顾问,并“inheritance”configuration不良的服务器。 什么是你见过最糟糕的configuration错误?
在这个行业,我还有15年的时间,在一家公司开始一个新的咨询angular色,发现他们有一个“好”的基础设施。 这通常是我被召入的原因,把他们的权利。
这个混乱的通常原因是非技术决策者作出技术决定。
几年前,我做了一个工作,对一家小型制造公司的networking基础设施进行“评估”。 在这个工作中,我发现他们的ERP系统从来没有被备份过。 他们不知道,他们以前的IT承包商为Backup Execconfiguration了日常的完整备份,但从来没有脚本化ERP系统使用的任何types的“转储”或停止/启动数据库服务器,因此数据库文件总是被使用备份。 因此,在3年多的时间里,他们每天都在执行没有任何ERP系统数据的磁带备份。 就像承包商告诉他们的那样,他们尽职地改变了磁带,但显然没有人(包括承包商)费心检查磁带上的实际情况。
从前,我们的一位高级pipe理人员离开了我们的组织,把“文档成像系统”的责任交给了我。 我是球队中低矮的人,缺乏经验,渴望跳入任何东西。
这就像是老乔治·格林(George Joe Green)的可口可乐广告片一样……我完全激动地成为面向客户的制作系统的主要pipe理者,在出门的时候,他就像是:“嘿,小子,赶上“希望他给我扔了一堆皱巴巴的纸,上面有一些login信息和一个电话号码,用来支持,而不是用汗水巾。
幸福感很快就消失了……系统由两台服务器组成,一台服务器运行一个数据库,一台共享服务器,大约六台带有扫描器和处理应用程序的工作站,一台networking服务器和应用程序用户login到参考文件。 这是一个邪恶的apache和java杂乱无章,至less有两种types的脚本运行在Windows SQL Server上。 哦耶。 我们还支付了一系列经常发生故障的“定制”,而且他们的支持人员总是没有意识到。
好时光短名单:
如果有任何logging,我什么都不记得,当有什么事情发生的时候, 就像说…报告错误或没有打印。 或桌面推送新版本的JVM,没有人可以扫描。 或者有人从扫描工作站踢了encryption狗,应用程序崩溃了。 或者日志文件系统已满。 或者来自OCR提取的数据由于错误地捕获某些内容并将其提交为非法内容而导致应用程序崩溃。 或者发现有三十多张门票在各部门的支持下开放,很多已经开放了好几个月。 等我发现新的,重要的东西在一个星期4-5的速度,并开始很快学习该应用程序的来龙去脉,其需求以及足够的SQL Server,以保持适度的健康。
最好的部分是当我被邀请参加内部用户组会议,“欢迎”我到我的新angular色。 我不要你 30个愤怒的用户在一个圈子里,我坐在中间。
这是一个粗糙的,但我很快就学到了。 抛开所有的痛苦,这是一个很好的机会。 我的一部分希望不是如此的试验,但也许我不会那么快地学习。
对不起,这么久…但是啊…这就像治疗;)
大约12年前,我开始在一家中等规模的ISP工作,系统pipe理员约30人。 他们以前从来没有真正的系统pipe理员,只有一些认为自己知道自己在做什么的人(有时候他们是对的,通常他们不是。总的来说,系统工作起来真是太神奇了)。
尽pipe如此,几乎所有在场的人都拥有服务器的根密码。 我不知道接待员,但肯定所有的经理,服务台的工作人员,networking开发人员和任何与系统互动的人都有根源 – 无论是现任员工还是过去的员工,都从未改变过。 他们会使用它。 随心所欲 例如,如果客户以投诉的forms呼叫帮助台,他们会以root身份login,并与系统混淆,直到特定客户的问题得到解决,或者以某种方式神奇地停止(他们认为“解决”)。 当然,这会造成许多其他的问题….服务台上的其他人将同时使用相同的“login作为根和屠夫系统”的方法处理。
自然,改变根密码,并build立变更pipe理和其他stream程,以控制什么是变化的,何时,如何,谁是我做的第一件事情之一。 噢是的…和configuration文件的备份和修订控制。
(我做的第一件事就是closures他们的开放中继邮件服务器并实施一些反垃圾邮件过滤。事实上,我确定我得到了这份工作,因为我在采访中提到我做了一些公平的反垃圾邮件/垃圾邮件工作,我不知道,他们有一个严重的垃圾邮件/开放中继问题已经持续了好几个月,他们不知道如何解决,所以他们不断被列入黑名单。不久之后,我发现了可怕的消息几乎每个人都有root权限)
从他们那里获得根本的权利,一开始就引起了很大的愤怒,但是,幸运的是,我的老板支持我和我正在努力实现的目标,他们很快意识到服务器比以往任何时候都更可靠很难实现,考虑到对穷人所做的事情)
一个完全标准化的小型networking: Windows 95和NT Server 。
这是几个星期前。 ; – /
第一个IS Manager工作很简单,走进去find了一个由AP文员丈夫写的定制订单录入应用程序,用dBase,你可以看看屏幕,说出他们编码的顺序,因为他学习了,有些屏幕是单色的,有些则看起来像是一个雨th th在他们身上。 许多作品可能会locking特定文件,因此只有一个客户服务代表可以一次编辑客户主文件。
在远程办公室加上这个薄型同轴电缆,使用便宜的扭转式连接器(非压接)。 对电话进行故障排除将开始他们说networking已closures,随后我询问是否有人搬家,电脑,如果清洁工正在抽真空的地方…如果任何人呼吸电缆,连接器就会松动到足以打破令牌环,但还不够,你可以看到他们是松散的。
然后业主会带着一份美国新闻通讯社出差回来,指着一个电脑广告说:“我们为什么不用这些服务器呢?” 有一段时间,我以为我住在一个迪尔伯特卡通。 我只知道Scott Adams在跟踪我,记笔记…
一旦有人给了匿名用户,我就inheritance了一个IIS web服务器,完全和完整地访问服务器上的所有东西。 他们的借口是,这是他们可以让他们的networking应用程序工作的唯一途径。
我不要你
哦。 我就是这样开始这项工作的。
这是在2000年,在一个小的ISP。 大多数服务器是塔式机箱中的奔腾1级“服务器”硬件。 对于DNS和RADIUS身份validation来说,这不是一个问题,他们实际上还在继续服务多年,但真正的问题在于,一切都是BSD / OS 4.2。 虽然我对它和FreeBSD非常熟悉(在我的第一份工作中,我实际上已经使用了这个版本的BSD),但是到那个时候这已经是过时了。 问题是邮件服务器和Web服务器。 他们的机器稍微快一些,但可怕的是超载。 我不认为硬件是相当健壮的。 更像是桌面机器,幸运(?)足以不死。 自1994年公司成立以来,没有任何东西已经升级过了,全部都塞进了办公室的一个angular落,恰巧没有足够的空调。 而当我说“办公室”,我的意思是每个人都有一个房间。 过去曾有几起服务器由于过热而失败的情况。
好的,古老的build筑:检查。
以前的系统pipe理员:非常无能,只持续了几个月,我觉得他刚刚开始获得新的账单数据库(并从旧的账单系统转换成纸),然后才消失在空气中。 在此之前:它是公司的所有者,谁知道足够创build帐户,Apache网站,并启动停止服务器。 也许比这更多一点。 偶尔他有一个朋友的帮助。 谁实际上是一个房地产经纪人。 老大对系统pipe理员的态度:“谁需要他们?你正在付4万美元坐在旁边喝咖啡,看日志,我需要技术支持代表。
安全:无。 不, 真的 。 T1向服务器提供了互联网连接。 和办公室。 修复了一切公共IP。 老板的态度:“哦,我们是安全的,我们正在运行BSD / OS 4.2!从来没有闯入! 至less密码没有被完全阻止,但是每台机器上都运行着每个默认的服务器。 当然没有打补丁。 每个服务器守护进程的古代版本也是如此。
火:无处不在! 一切! 上!! 火!!! 我做的第一件事就是在一个星期内被雇用(我可能会补充一点,就是技术支持,还想做系统pipe理吗?当你不忙的时候呢 – 我还年轻,够穷,不在乎)一起敲打一个shell脚本来控制客户同时login到拨号池的次数。 这解决了拨号池一直忙碌的最紧迫的问题 – 由于垃圾邮件发送者使用它作为一种聚合带宽的方式。 我提到AAA RADIUS服务器在该版本中没有这个function吗? 也不是一个新的AAA RADIUS服务器可以在这个平台上编译? FreeRADIUS也不可以? 请参阅第1部分,古代硬件。 后来我甚至用同样的东西来实现实际的啊,用拨号计费 ,每个月签约30个小时的人每个月不用300个小时。 我似乎记得,邮件服务器不是一个开放的中继,但它可能是。 另一方面,由于sendmail在其使用的任何陈旧的版本中仍然使用mbox格式,所以需要从平面文件中parsing每个消息,而不是Maildir格式的邮箱,每个文件只有一个消息。 所以,如果有一个大邮箱的人检查了他们的邮件,服务器就会停下来等待所有人 。 当然,外发的SMTP和POP在同一台机器上。 当然没有垃圾邮件过滤。 在传入或传出的邮件。 我不记得networking服务器有什么问题,除了每个新网站都是手动添加的。 这已经够糟糕了。
备份:备份? Ahahahaha! Aaaaaah!
然而,这个地方最令人困惑的事情是没有打印服务器。 想打印一个文件? 从你的办公桌起床,把开关箱上的拨号盘转到你的电脑上,然后返回,打印文件。 我记得在不久之前我也修正了这个问题。
我目前的Domino环境必须是一个。 以前长期以来的任职者之一,只是对快速肮脏的发展工作感兴趣,所以在十年内绝对没有基本的家政工作。 跟在他后面的两个人 – 可以理解的 – 看了一眼,决定低下头。 所以现在我有一大堆没有标准化的命名约定,遍布ACL的用户帐号,旧的pipe理员和开发人员(他们仍旧在敏感的团体中),一半的用户拥有相同的密码,另有一半的密码logging在电子表格中, 除了标准的ACL 以外 ,还有一个美丽的关键业务线应用程序,包含两个定制的内部安全数据库,超过1000个数据库(包括“Copy of Copy of” )已经通过了4次或5次快速和肮脏的升级,然后在6级冻结,并几乎每天都腐败。 他对Windows的可扩展性也很偏执,顺便说一句,我有八个CPU的盒子。
把它放在外面拍这个就是仁慈。
当我从现在的工作开始的时候,我inheritance了一个几个星期后因为无能而被解雇的人的职位。 他在这里工作的时候没有多less工夫,只是摧毁了他从前任那里得到的所有文件,把所有的pipe理员密码都改成了随机的东西,甚至连他不知道的东西都埋在机器里, 。
密码和后门不是一个真正的问题,但是在不知道什么是做什么以及如何非常有趣的情况下前进。 尽pipe如此,没有一个用户从此遭受过这样的痛苦,但我很幸运,这个家伙甚至太愚蠢,不能做出真正的伤害。
这个问题让我头痛。 我为国家政府工作…最低的出价胜出!
当我接手我现在的职位时,我花了两个星期的时间与那个逃跑的人一起工作,主要工作是编写一个他和一个承包商一起工作了6个月的networking应用程序,所以我可以很好地了解应用程序发生了什么投入生产。 一个月后,该应用程序被刮了,他们向承包商扔钱就走了。 我仍然处理vb6应用程序没有文档,有时会调用其他应用程序,我甚至没有代码!
我甚至不会去进入所有奇怪的服务器configuration,跨越整个街道的异地备份,或者整个其他部门“处理”我们的路由器和交换机(噢,他们通过说他们会重新连接build立在没有成本!当然不是,现在他们只是收取端口费用,并阻止双MAC!我们使用SIP电话的上帝的缘故!我们必须certificate成本安装一台testing机Aaarrrrgggghhh!)
我必须停下来,这会让我哭泣。 我每天都很惊讶,任何事情都会在政府里完成。
文件服务器,为大约30个客户端(笔记本电脑/桌面组合)提供250GB文件,每个文件夹都映射到networking共享。 不好的部分是,它运行的Windows XP与10客户端连接的最大限制。 我做的第一件事是格式化/安装Server 2003。
第二天,我的同事们非常高兴,因为他们都能同时工作。
当我开始在现在的公司工作时,他们使用的是Small Business Server 2003,最终我们发展到了从SBS2003切换到实际“真实”服务器环境的地步。 不幸的是,过渡包不适合我们,MS通过我们最近购买的批量许可帮助我将所有事情都转换过来。 通过帮助,我的意思是给我一个需要移动和改变但不完全如此的事情清单。
现在,我在Active Directory中非常精通,但他们没有告诉我的是,SBS不喜欢把FSMOangular色带走,在8或12小时后重新启动以显示如何生气它是。
SBS2003是一个噩梦,偶尔我会看到SBS在AD中的引用,或者在这里和那里引用了旧的SBS服务器,现在已经有2年了。
哦,顺便说一句,我恨SBS! 🙂
在每台工作站上安装了Symantec Antivirus Server的客户端。
一个Windows 2003服务器,也是一个DC,运行Exchange 2003.到目前为止还不够,但是还有更多…这也是terminal服务器,SQL服务器,Web和FTP服务器,WSUS服务器,防病毒更新和中央configuration服务器并托pipe用户的漫游configuration文件。 它也是使用DAT磁带的中央备份服务器。
还不够坏? 该机器具有单CPU,2GB RAM和一对configuration为RAID 1的7,200 RPM SATA驱动器。arrays被分区为2个逻辑驱动器,系统驱动器为16GB,其中不到2GB是免费的。 这台机器是由二手零件组装的,由一个承包商推荐的规格,毫无疑问是基于他有什么样的零件,而且几乎和一个体面的新的服务器一样费用。 他还负责机器的configuration和debugging。 他的build议被接受了,因为他已经和客户打了近十年了。 我已经确定他不再处理他们。
我pipe理一个非常大的计算机制造商( 爱尔兰Ahem )的欧洲业务的networking审计。 这花了数周的时间,但我们发现每一个数据被喷射到他们制造的每台PC /服务器的每一个硬盘上的时候,都是通过相同的4个线程来传输的 – 他们有一个1Gbps的端口,build立。 当我们告诉他们,他们RAN得到更多的电缆/ SFP,并在30分钟内multithreading,但这是一个令人震惊的。
我的第一份工作涉及计划从一个18岁以上的“第四点”小型机迁移。 他们想要现代化他们的设备,“因为老板觉得现有设备已经老了”。 这个老式的时间共享小型机使用了一个带定制ROM的重新加载的Televideo 955terminal,市场上总共有一个terminal仿真程序,可以让你连接一台电脑,使其成为一个哑terminal。 当然,这个程序只能运行在System 7上。
这家供应商早就停业了。 部件由硬件支持供应商提供,每年签订一份合同,每隔几个月他们就要出门一次,因为别的东西坏了,需要更换。
我遇到的最大的问题是物理,而不是软件。 服务器柜也碰巧是电气和电话柜。 所以,它有一个巨大的变压器加热房间的气候控制权。 衣柜里也没有一间可以用于小型会议的房间。 我不得不张贴标志,告诉人们即使吵闹也不要关上门。 主楼AC足够幸运,温度没有发生任何故障。 布线工作也有点混乱。 几乎你的标准老鼠从交换机到服务器。 最好的部分是其中一个机架与另一对机架分开,所以机架之间有一条小走道。 它只有一台服务器,电源线只是穿过地板,没有保护装置,也没有放平。 这使得你的脚很容易钩住他们。 在你跌倒并且要面对植物后,懒洋洋地穿过的脖子高高的电线会抓住你,试图掐住你的脖子。
在我们移动办公室之前,我没有机会把这个补丁运行到天花板上(真正的AC到一个服务器房间!),但是我用衣柜里的魔术贴带子发疯了。 在这之后,你可以实际走过去而不会自杀
我工作的一家公司,刚来的时候,有一台办公室服务器(两个硬盘,其中一个甚至挂载的镜像也less得多),一个租用的共置服务器,一个硬盘。 根本没有磁带备份。
局域网的其余部分也面临挑战 – 但是3年以上运营的地方真是太棒了。 没有镜像,没有冗余,没有磁带。
在桌面级计算机上运行公司内部网的NT 4(或者3“不记得”)在没有任何冗余或备份的情况下在台式计算机上运行了大约12年(上个月把他拿走了)是我见过的最糟糕的,我想。 没有什么特别的,但仍然。
一个最繁忙,最关键任务的表有16k范围的Informix数据库,在表空间上达到了38,000个范围(认为是碎片化的磁盘),是支持级别的两倍。 (供应商实际上写了一封纸信,说“你的数据库随时会崩溃”)
以前的DBA,SA和networking人离开了,我离开了大约6个星期的学校。 我做了大量的研究,想出了如何解决这个问题,这需要6个小时的停机时间。 老板拒绝安排停电。
因此,在一年中最繁忙的一天,系统冻结。 500名呼叫中心运营商和一家商业网站倒闭。 在故障之后修复是很困难的,因为供应商之前从来没有在这样的大小的桌子上,以及像我们正在使用的“有趣的”数据库模式的东西。 所以我们完成了我原先计划要做的事,除了数据库完整性检查需要额外的5个小时。
当然,这是在90年代末,但这是我工作的地方。 我们的服务器软件运行在一个debugging器中,这是我老板的工作机器,因为他在另一台机器上完成了大部分工作,但仍然是谁在debugging器中运行他们的生产代码?
服务器有两个硬盘被硬件机箱镜像 – 有一天,一个磁盘死了,闹钟响起,办公室里的人决定关掉闹钟,三个月后,第二个磁盘死了,他们打来电话 – 无法访问他们的服务器
在一项工作中,以前的一位pipe理员认为将几乎所有的Sun服务器设置为不自动启动是一个好主意。 他也不会把init脚本放到正确的runlevel目录中,因为“我想知道这台计算机是否崩溃了。”我仍然无法理解他的推理。 当然,另外一个pipe理层对于这样的事情是多一点头绪,基本上导致整个店铺不一致,在第一次计划内和计划外的停机期间真的让事情变得有趣。
我一直在保持一个Windows nt4框运行citrix alive..it最初设置与软件RAID …这是正确的..软件突袭,Windows NT4 ..最后的失败损坏了两个驱动器,它花了我〜8个小时来恢复它..
对于那些好奇的人,windows nt4不喜欢在Linux主机上作为虚拟机运行:-D
客户有5名员工。 他们的旧IT人员定制,使用低端游戏PC设备,2台服务器。 1是一个运行交换的域控制器。 另一个是terminal服务器。 每个员工都使用瘦客户端来连接和处理服务器。 两者都运行Windows 2000,并在5年前build成。 毋庸置疑,当低端突袭卡在两台服务器上相隔几天之后就死掉了,我用一台标准的惠普服务器取代了这些服务器,并使用普通的微型服务器来取代这些服务器。 我也把服务器放在他们自己的UPS设备上,而不是让它们都运行在同一台UPS上,没有WAP和监视器电池备份。
最重要的是,他们在办公室有6台networking打印机,有2台使用DHCP。 其他4个已经分配了IP,但分散在整个委派的IP范围内,没有任何文件。
这很令人伤心,但经过一个月的调整之后(老虎们对自己工作方式的改变并不太好),他们现在很less打电话。
我被要求修复一个performance不佳的MySQL系统,只是为了在/etc/my.cnf发现一个不正确的标题元素,导致他们试图使用的所有漂亮的调整参数被忽略,而偏向默认值。 。
所以,我们使用InnoDB数据库引擎,在一台装有16Gb RAM的服务器上安装了一个7Gb的数据库。
InnoDB的错误configuration设置为12 Gb RAM
该系统只使用128 MB的InnoBD内存…所以每个查询和更新一个/很多/磁盘活动!
一个快速修复的标题,重新启动MySQL服务,嘿,一切都被caching和执行令人钦佩:)
奇怪的是,没有人考虑检查他们应用的调整参数实际上是在使用! : – /