良好的散热是维持设备可靠性的必要条件,与专业维护公司签订维保合同也仅是个开端。在数据中心的维护检查中,管理者们应该四处巡视确认机柜内未使用的空间是否正确装上了盲板。您的维保单位也应该检查空调的过滤器是否被灰尘堵塞,而不只是检查计算设备中的过滤器和散热器。要经常对这些过滤器进行例行的清洁或更换。温度和湿度指示设备每年都要至少校准一次。对于使用冷廊气流遏制系统的设施,一定要校准气差压传感器。同时也别忘了定期测试所有的空调监测系统,以确保警报功能工作正常。
在寒冷的气候条件下,重要的是要检查冷却塔里的除霜加热器和辅助加热管。冷却塔的视频监控画面可以让设备维护人员及时发现冻结警报,防止出现进一步的严重后果。
数据中心不是党委会
别忘了让你的工作人员远离受到噪声的伤害。冷却设备和服务器的风扇都会发出巨大的噪音。提醒、甚至要求员工使用听力保护装置,并让这些装备存放在大家都易于取用的地方,同时指示装备的存放位置以及使用方法。
在数据中心用电方面,最重要的最佳实践是维持负载均衡。负载不平衡不仅会降低能源利用率,还会导致不间断电源(UPS)错误地发出超载警报,引起不必要的设备更换。大型UPS系统都会提供三相电源输出,今天的许多机架和机柜会利用到其中两相或者所有三相回路。应该定期检查供电链路上每个节点的用电量:机架和机柜,电源分配单元,最后汇聚在UPS.保持负载均衡将使UPS能在最高效率条件下输出最大功率。
监视和优化电源平衡的最好方法是在每个机柜使用带功率测量的插座,最好是再加上远程读取功能,以及采用数据中心基础设施管理工具软件来跟踪电力消耗情况。所有电源面板和线路都应加上明确的标识来避免错误的开关操作。记得使用大字体,彩色编码标签!
电池老化是UPS的故障的最常见原因。应该花钱买一套靠谱的电池监控系统。电池通常容易在发生停电和负载需求突然增长的时候爆发故障--让你雪上加霜。通常的首选电池是用阀控铅酸(VRLA)类型,因为它们不像最常见的浸没型铅酸电池那样需要专门的电池房间。但如果外部电源不稳定导致电池频繁放电,阀控式密封铅酸蓄电池的10年预期寿命可能变成三年--甚至更短。良好的监控管理可以发现即将失效的电池组,让你有机会及时补救。由于能够识别出需要更换的电池个体,防止它坏掉一锅粥,整个电池串联组的寿命也总体上延长了。
如果您使用淹没铅酸蓄电池,那么一定要定期检查所有安全设备,包括氢气探测器、眼睛冲洗剂、喷淋装置和报警器。安全系统内任何设备的动作都会自动向安全管理点发送提醒。
数据中心不是玩泥巴
电气工作必须由持有执照的电工来完成,但至关重要的是,在数据中心工作的任何人都应该懂得电脑操作应细心谨慎,并了解操作正在运行中的生产环境的风险。
数据中心中的电气系统每年都应该用红外热感应设备(IR)扫描一次,及时发现和排除由于连接松动导致的过热和故障。对于新的电气设备,要求设置供红外扫描检查用的窗口,这样就可以不用打开面板进行检查。还应对需防止电弧闪光危险的电气系统进行明确标记。如果没有专门的保护措施就打开大电流设备的外壳是非常危险的。数据中心内熟悉这方面的工作的人应该知道这些注意事项;小风险远远大于具有预防火灾或意外关闭。
对于既重要又可怕的紧急断电(EPO)开关,一定要做好标识,并使用盖子保护起来,最好加上警报喇叭。这些警报装置通常需要电池供电,所以及时应更换电池,同时--千万小心别激活EPO关掉整个数据中心!
良好的发电机保养很重要。发电机故障的两种最常见的原因是启动电池掉电和燃料污染。在天气冷的时候应检查缸体加热器的功能是否正常。
凡是和水有关的地方都应定期检查,我指的可不只是喷淋管。地面排水沟可能会干裂或者会堵塞。位于风暴和洪水多发区域的数据中心的排水系统应该有后备冗余。空调冷凝水排水管应该和液位检测器一起检测。寻找屋顶漏水的裂缝和任何其它在数据中心高处的漏水隐患。如果你有预作用或气基灭火系统,它应该由具备完全资质的供应商执行定期维护计划,确保不会在检查过程中误将灭火功能关掉。
以上这些都是有关数据中心设施运行和维护计划应该留意哪些问题的一个范例--建议和你自己的维护计划对比一下,进行必要的改进。如果你的数据中心还没有专门的维护制度来指导操作,那就参照这些清单编一个,然后安排解决清单上的每一项问题。
关于作者:Robert McFarlane是Shen Milsom和Wilke公司数据中心的主要设计负责人,拥有超过35年的经验。他是数据中心电力和冷却方面的资深专家,曾协助pioneer进行线路设计,是ASHRAE TC9.9的通讯会员。McFarlane同时也在Marist学院为数据中心专业人员授课。
责编:王薇
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友