每日/每周/每月/每年系统pipe理员任务

这应该可能是社区维基。 我试图列出所有我们应该定期进行的系统pipe理任务,因为我相信我们在公司里做得不够。 这里的态度是解决问题不方便,但是没有时间做预防性维护或持续改进。

日常:

  • 每晚交换备份磁带/驱动器
  • 检查防病毒更新是否推送到所有系统

每周:

  • 交换每周备份磁带/驱动器
  • 清理所有系统中的临时文件
  • 整理所有系统

每月:

  • 计划基础设施改进
  • 交付/发送过时的设备给电子回收商
  • 重build或更换老化的工作站
  • testing从备份恢复

年度:

  • 重build或更换老化的服务器
  • 更换UPS电池

如果您没有足够的时间进行预防性维护,并花费大部分时间解决问题,则需要修改整个方法。 而不是告诉你每个阶段你应该做什么,我会给你一些想法,这样你就不用做事情了。

你需要一个良好的监控系统和尽可能多的自动化,你可以pipe理。 这两个项目应该比许多pipe理员意识到的腾出更多的时间,直到它们build立好之后。

你的监测系统应该为你做的一些事情是:

  • 邮件或垃圾邮件filter队列变得太大或太突然时提醒您。
  • 驱动器空间太小,CPU使用率太高等等
  • logging磁盘使用情况等信息,以便随时查看趋势。
  • 与邮箱同样的事情。
  • 当防火墙注册一个exception数量的命中时提醒您。
  • 任何为外界服务的东西都是一样的。 例如DNS和Web服务器。
  • 如果任何机器closures或卸载防病毒软件,则AV更新过早。

碎片整理甚至不应该在你的任务清单上,因为它应该是一个自动化的过程。 在您所需的时间间隔后,服务器将在重新启动后运行磁盘检查和碎片整理。 考虑将其与系统连接以安装排队的更新和修补程序(之前已在非生产型机器上进行过testing)。

临时文件夹也可以自动清理。 我创build了一个简单的应用程序,在等待10分钟后重新启动后触发,然后清除所有临时位置。 延迟是为了确保它不会删除重启后完成的安装或升级所需的文件(很难理解!)。

在任何时间段你必须手动做的一件事是监视系统和自动化,只是为了安全。 我每天检查一次,但实际上还没有遇到一年多的问题。

当你确实得到你的系统和自动化时,确保你也有一个版本控制系统来实现它。发现最后一点小小的调整破坏了别的东西,但是你不记得你改变了什么。

在“每日”中,我将手动或通过某种脚本检查事件日志。

也许月刊可能包含操作系统更新

我还会说每年都会看看服务器上的维护/保修位置。

每月:

  • 审查基础设施的使用情况 – 这可以说是“计划基础设施的改进”,但是除非你知道(即有“硬数据”)需要改进的地方,否则你不能制定计划。

季刊:

  • testing基础架构故障转移 – 如果系统中有冗余,您希望能够保存您的应用层(web服务器,电子邮件)到networking层(交换机,networking链接)到物理层(电源)它需要定期维护和testing。

以下是您可能没有想到的每月备份:

 1)即使自动化,我仍然复制我的核心networking交换机configuration到本地机器
 2)防火墙configuration
 3)SANconfiguration
 4)导出ISAconfiguration(赢得2003)
 5)DHCP静态预订(胜2008)
 6)DNS条目(胜2008)
 7)encryption密钥(存储在二进制文件中)到KeePass,特别是因为我们的备份是encryption的 - 额外保存在我们的备份系统之外
 8)我们的IT文档文件夹,另外保存在我们的备份系统之外

在“每日日报”中,我可能会build议您添加订阅到众所周知的修补程序漏洞邮件列表,并在修补/更新过程中有一个进程。

这可能只发生一个月一次,但只有一个错过的产品漏洞信息会导致大量的中断。

如果你同意的话,我认为这可以缩减成几句话以适应一行。

BTW; 这是一个很好的名单,我期待看到它的完成。

内部审计:

  • 将上线的系统与正在备份的系统列表进行比较。 有没有东西潜入生产没有备份? (如果不是更多,至less每月取决于部署的数量)
  • 如果您有场外保险库,请访问您的磁带。 确保他们是他们应该在的地方。 (一年一次或两次)