系统pipe理标准

我有责任pipe理一个由4个系统pipe理员组成的团队。 他们正在pipe理70多台服务器。 他们还没有书面stream程/程序/实践。 我不太了解系统pipe理。 是否有我们可以遵循的标准来规范我们的工作或select最佳实践

我赞同其他人关于不跳入法律的说法。 你说这个团队现在正在pipe理70多台服务器,所以我的第一个问题是: 他们有多好 ? 是否有大量的计划外停机,工作日停机,在爆炸之前不断争取解决问题? 或者从服务交付的angular度来看,他们做得不错,只有偶尔发生的那种不可预见的灾难,这种灾难发生在我们所有人的和平之上?

如果是后者,那么你已经有了一个好的团队,似乎知道自己在做什么,而不是试图修复未被破坏的东西,这是不让团队支持的一个重要部分。

如果是前者,你可能还会有一支优秀的队伍。 良好的团队可能会因缺乏业务支持和参与而不成比例(没有新套件的预算,没有就如何在没有工作日中断的情况下进行升级所需的午夜工作的补偿达成一致,对SLA没有明确的协议),或内部摩擦,或许多其他非技术原因。

如果是前者,当然可能只是队伍不足而已。

在这三种情况下,正确的回应会有很大的变化,也会受到相关人士的影响。

如果你有一个好的团队,工作得很好,那就让他们带领你。 他们正在做的是对的,但是你需要明白他们做了什么,以及如何做。 他们会告诉你,如果你问,如果你问得好,他们可能会以最有用的方式告诉你,把它写下来。 年度审查和达成一致的目标是将更多的文档插入工作系统pipe理员生活中的好方法。 从本质上讲,他们现在所做的是接近最佳实践,所以尽量让他们以相互有用的方式logging下来,而不是强加给他们任何东西。

如果你的团队工作不错,他们可能知道需要改变什么才能成为一个好团队。 听取他们的意见,并制定出如何将他们的需求转化为合理的要求,并传递给企业。 如果您准备好倾听双方的意见,并且适当地双方说“不”,那么您可以为技术世界和商业世界之间的桥梁添加很多价值。

如果你的团队工作不好,那么你的工作就是为你而做的。 识别和logging发生了什么问题对于能够进行纪律处理非常重要,并且必要时可以在不使业务暴露于任何责任的情况下replace人员。 识别低水平的成果 – 可以轻易推进的事情 – 对于获得一些快速的团队激励和商业可信度的胜利非常重要,并且将发生什么问题的基础知识有助于certificate已经取得了一些快速的改进。

我看到我在某种程度上偏离了轨道,但我真的相信,最佳实践和标准化是为了满足企业和人们完成工作的需要,而不是成为一个单独的文件卓越的象牙巅峰。真空,所以我的答案反映了我的相互联系的方法。 对不起,如果太长了!

考虑从ITIL开始: http : //en.wikipedia.org/wiki/Information_Technology_Infrastructure_Library

ITIL详细描述了一些重要的IT实践,并提供了任何IT组织可以根据需要量身定制的综合检查清单,任务和程序。

不要指望读一本ITIL书,并且知道一切,但是这是一个开始的好地方。 在阅读完ITIL之后跳进来,告诉系统pipe理员“新法”可能会给你一些不愉快的系统pipe理员。

我想build议他们坐下来和他们讨论如何最好地改善文件,以及如何覆盖时间跟踪/等等。

您可能想从Thomas A. Limoncelli,Christina J. Hogan和Strata R. Chalup 的“系统和networkingpipe理实践”第二版开始。 有一些真正伟大的最佳实践概述,这将帮助你和你的团队在正确的道路上。 尽pipe它的长度很短,但它很实用,而且很容易阅读。

ITIL是一件值得记住的事情,但是对于新来ITIL的人来说,试图实现它所描述的一切都是非常容易的。 使用你所需要的,记住你以后可能需要的东西,但不要让它不能做你的客户期望的工作。

其他答案给出了一些关于ITIL等具体实用的build议,我认为这很好。 但是,要记住,很多标准真正归结为做出明智的做法并以可重复的方式进行。 您需要使用像Puppet或Chef这样的configurationpipe理工具来pipe理您的服务器。 您需要跟踪尽可能多的指标,并尽可能与您的用户保持透明。 如果您一般认为提供高质量的服务和保持您的客户或用户满意的大局,那么您就可以做得很好。 你在考虑标准的事实是一个好兆头。

我最近阅读的一本书是关于这些话题的很多,就是Web Operations 。 对于如何pipe理事件postmortems以及如何收集度量标准,它有一些很好的build议。 推荐的。

作为系统pipe理员,我build议你把你的团队重点放在:

  1. logging – 不仅是系统描述,还包括更改日志,logging所有自定义工具等等
  2. 服务器和服务监控
  3. 自动部署/configuration

这3个方面应该使你的团队生产力,你的团队成员可以替代。

ITIL和COBIT是领导标准。 Out公司与ITILv3合作,但也有一个基于COBIT的IT监控。

它也值得一看: http : //en.wikipedia.org/wiki/COBIT

testing你的团队的第一件事是备份和恢复 – 确保覆盖。 正如汤姆·凯特(Tom Kyte)在数据库pipe理方面所说的那样,备份和恢复是你无法承受错误的一件事。 先回顾一下,记下它,特别是可以承诺的任何风险和服务水平,并填补现实与商业期望之间的差距。

从系统pipe理员(甚至可能是开发人员)那里获得有关如何改进stream程的反馈。 他们是您的头号信息来源,会比其他人更了解问题和瓶颈。

确保您的文档处理过程尽可能多地从头开始并自动化。 人们总是忘记向维基添加关于部署和升级的笔记。 考虑编写一个服务器仪表板,使他们能够快速检查所有服务器是如何运行的,以及在各种盒子上安装了哪些版本的软件。

自动化,自动化和自动化(并logging所有自动化)。