1
前期评估:需求与功率测算
开始前,列出所有设备清单(服务器、交换器、存储、空调、监控等),记录每台设备额定功耗(W)并按机柜汇总。按30%至50%冗余系数计算峰值负载,得到总电力需求(kW)与冗余目标(如N+1或2N)。同时测定机房供电入口容量、单相/三相分布与可用市电回路数量。
2
选择冗余拓扑与UPS配置
根据可用预算与业务重要性选择N+1、2N或N+2。实操步骤:1) 以总负载除以单台UPS可用容量确定并联台数;2) 若选择N+1,留一台热备UPS;3) 选型时优先选择功率因数高、蓄电池可维护的机架式或模块化UPS;4) 设计双路输入(A/B)到PDU,确保每台设备两路供电分别来自不同UPS组。
3
发电机与自动切换(ATS)配置
发电机应按最大负载+启动冲击(空调压缩机、电梯等)选型,常留20%-30%余量。实施步骤:1) 并联系厂商确认冷启动与热启动流程;2) 安装双路ATS(市电→发电机)并设置延时与并网逻辑;3) 配置燃料自动补给与远程监控;4) 定期合同演练黑启动,记录时间与恢复顺序。
4
PDU、配电与断路保护布局
实务步骤:1) 每机柜部署至少两路PDU(来自不同UPS和进线),并标记A/B;2) 使用包含电流监测的智能PDU以便远程查看每路负载;3) 配置分支断路器、漏电保护与过载曲线,确保断路器选择与电缆承载匹配;4) 编制单线图并在机房显著位置张贴。
5
接地与等电位联结(防雷与噪声)
步骤:1) 建立独立机房接地网,接地电阻目标≤4Ω(按当地规范);2) 所有机柜机箱、PDU、UPS外壳均接地;3) 对进线进行浪涌保护器(SPD)安装;4) 测试接地电阻并记录,发现异常立即排查。
6
空调系统类型与容量配比
选择CRAC/CRAH或精密空调并按机房IT负载计算冷量(kW→kcal/h)。步骤:1) 按总热负载选定空调台数并保证至少N+1冗余;2) 冷却方式(风冷/水冷)选型考虑台湾湿度与市政冷却水可用性;3) 计算冷却水流量、冷却塔尺寸与备件清单;4) 预留冷冻水旁路以便维护不停机。
7
气流管理:冷热通道与封闭策略
详细步骤:1) 采用冷通道/热通道布局并使用挡板、地板封堵、机柜门封条减少旁路风;2) 若预算允许实施冷通道或热通道封闭(Containment),并配置返回风隔离;3) 在每个机柜顶部或地板布置温湿度探头,按机柜级别采样与告警;4) 调整空调出风格栅角度与风量以均衡各通道温度。
8
监控、告警与自动化控制
实施步骤:1) 部署BMS或DCIM,集成UPS、发电机、PDU、空调与环境传感器数据;2) 设定温度、湿度、电流、电压、频率与燃油液位的告警阈值并配置SMS/Email/电话通知;3) 建立自动切换与手动介入流程,测试告警联动(如温度升高自动调整空调设定);4) 日志保存至少6个月以便追溯。
9
验收与运维:测试计划与SOP
验收步骤:1) 编写详细测试脚本包括市电失效、UPS切换、发电机启停、ATS切换、空调负载测试与冷热通道温差测试;2) 做至少一次带负载(模拟70%-100%)的切换演练并记录SLA指标(切换时间、温升、日志);3) 制定周/月/年检修SOP(电池容量测试、冷冻水化验、冷凝盘清洁、冷却塔除垢);4) 建立零件备件清单(UPS模块、蓄电池、皮带、压缩机配件)。
10
问答1:在台湾的机房,电力冗余优先级应如何决定?
问:我应该优先做到UPS冗余还是发电机冗余? 答:优先保障UPS冗余(保证短时切换与无中断),选N+1或模块化UPS以应对市电瞬断;同时配备足够容量的发电机并定期演练,发电机用于长时供电。两者缺一不可,但短时可用性由UPS承担。
11
问答2:空调发生故障时如何快速应对避免服务器过热?
问:若CRAC掉服,有没有快速临时措施? 答:立即将相关机柜负载迁移或降低非关键服务,开启旁路临时空调或移动式低噪冷机,增加机房新风与排热,启用冷通道封闭减少热旁路,并通知维护团队紧急更换空调模块。
12
问答3:日常运维中最容易被忽视的细节是什么?
问:运维经常忽视哪些会影响冗余与冷却的点? 答:常被忽视的是地板封堵与机柜前后挡板、PDU负载均衡、蓄电池老化记录、燃油储量管理和定期的切换演练。建立巡检表与自动告警能大幅降低隐患。
来源:台湾机房托管服务器应关注的电力冗余与空调系统配置细节