很多人一看到设备运维检查清单,第一反应是看一遍,知道了。
但真正有用的检查清单,必须满足三个条件:
- 每一条都是可执行动作,不是概念
- 每一条都有检查对象,不是泛泛而谈
- 每一条最好能留下记录,而不是做完就算
否则这份清单再完整,也只是知识,不是工具。
所以,这篇文章不讲虚的,直接给你整理了一套覆盖设备日常运维核心场景的检查清单。
下面这100条,我帮你按十大类拆好了,你可以直接按模块应用到设备运维当中。
对应的,我也把做好的设备管理与巡检系统整理成了模板,可以直接拿去参考或改一版用: https://www.jiandaoyun.com

一、服务器硬件维护检查(15条)
1. 物理状态:外观无损伤,指示灯正常。
2. 电源与供电:冗余电源正常,线缆牢固,PDU正常。
3. 风扇与散热:运转无异常噪音,按需除尘,温度正常。
4. CPU状态:利用率、温度低于阈值(<80%高负载需关注)。
5. 内存状态:容量一致,使用率正常,无ECC错误。
6. 磁盘状态:硬盘指示灯正常,阵列状态Optimal,线缆牢固。
7. PCIe设备:状态正常。
8. 管理接口:带外管理连通且可登录。
9. 固件版本:定期评估升级必要。
10. 物理连接:线缆牢固、标签清晰、无过度弯折。
11. 日志检查:筛选硬件错误/警告并处理。
12. 备件状态:关键备件库存可用。
13. 资产信息:与CMDB一致。
14. 清洁度:无积尘。
15. 螺丝与安全:盖板盖好,螺丝齐全。

二、网络设备维护检查(15条)
16. 物理状态:外观、指示灯正常。
17. 电源与供电:同服务器检查。
18. 风扇与散热:运转正常,散热口通畅。
19. CPU/内存利用率:<70%,高峰重点监控。
20. 端口状态:业务端口up/up,无err-disable,关键端口错误计数不持续增长。
21. 链路聚合:聚合组up,成员端口一致。
22. 生成树:根桥位置正确,端口角色正常,无异常TCN。
23. 路由协议:邻居状态正常,路由表完整无抖动。
24. ACL/策略:关键策略应用正确。
25. 管理访问:带外管理连通可登录。
26. 配置备份:运行与启动配置一致,定期备份。
27. 日志检查:关注链路变化、协议震荡、硬件错误。
28. 固件/OS版本:定期评估升级。
29. 物理连接与标签:线缆牢固、接口清洁、标签清晰。
30. 机柜内环境:安装稳固,线缆规范,散热充足。

三、存储系统维护检查(10条)
31. 控制器状态:Online,无Failed/Degraded。
32. 电源与风扇:同服务器。
33. 磁盘柜与磁盘:扩展柜链路正常,磁盘Online/Spare,无Failed。
34. 存储池/LUN/卷:状态Normal/Online。
35. RAID状态:Optimal,无降级/重建中。
36. 缓存状态:启用,电池/电容正常。
37. 前端端口:主机连接端口Online,错误计数正常。
38. 后端端口:磁盘柜连接端口正常。
39. 性能监控:IOPS、吞吐量、延迟在基线内。
40. 快照与复制:状态正常。
41. 容量管理:使用率低于阈值(如80%),提前扩容。
42. 管理接口与日志:连通性正常,审查告警日志。
43. 固件版本:定期评估升级。
44. 物理环境:散热、线缆、标签。

四、操作系统维护检查(15条)
45. 系统负载:负载正常,关键服务运行中。
46. CPU利用率:监控使用率及%idle,识别高负载进程。
47. 内存使用:内存与Swap使用正常,无过高Swap。
48. 磁盘空间:各挂载点使用率正常,识别大文件。
49. 磁盘I/O:无I/O瓶颈,等待时间正常。
50. 网络连接:接口IP配置正确,流量正常,TCP连接状态无异常堆积。
51. 用户与登录:检查当前登录及最近记录,无异常。
52. 关键进程:资源消耗正常。
53. 系统日志:筛选ERROR/WARNING并处理。
54. 定时任务:执行状态正常。
55. 文件系统健康:定期检查完整性。
56. 包管理与补丁:检查可用更新,按流程安装。
57. 时间同步:NTP同步正常。
58. 安全更新与配置:审计SSH、防火墙、密码策略等。
59. 备份验证:关键配置备份可用完整。

五、数据库维护检查(10条)
60. 实例状态:运行正常。
61. 监听器状态:可接受连接。
62. 表空间/文件组使用率:有足够空闲空间。
63. 性能监控:活动会话、读写、缓存命中率、锁等待,识别慢查询。
64. 备份状态:备份成功,文件大小合理,定期恢复演练。
65. 日志文件:告警日志无ORA/Error,事务日志未满。
66. 作业与调度:关键作业执行成功。
67. 统计信息:非陈旧,自动收集正常。
68. 连接与会话:连接数合理,无异常空闲。
69. 复制状态:主从/AlwaysOn/DG正常,延迟可接受。
70. 安全审计:权限与审计日志符合策略。

六、虚拟化平台维护检查(8条)
71. 集群状态:正常,无主机隔离/错误。
72. 主机状态:连接正常,健康无告警,补丁级别适当。
73. 虚拟机状态:电源状态预期,无异常。
74. 存储状态:Datastore可用,容量使用率正常,性能指标正常。
75. 网络状态:虚拟交换机、端口组、网卡绑定正常。
76. 资源池与利用率:CPU/内存无争用瓶颈。
77. 高可用与容错:HA/FT/DRS功能正常。
78. 备份状态:备份成功,验证通过。
79. 管理节点:状态、性能、日志正常。
80. 固件与驱动:定期评估升级。

七、备份系统维护检查(7条)
81. 备份作业状态:计划作业成功完成,日志无错误。
82. 备份验证:定期完整性验证及恢复演练。
83. 备份存储容量:空间充足。
84. 介质状态:磁带驱动器/介质/机械手正常。
85. 备份策略审核:RPO/RTO符合需求,保留周期合理。
86. 备份客户端状态:Agent在线。
87. 备份软件状态:服务器/介质服务器正常,许可证有效。
88. 异地备份:复制/云备份任务正常同步。

八、安全设备与策略维护检查(10条)
89. 防火墙状态:引擎、HA、接口、会话数正常。
90. 安全策略状态:ACL/NAT/IPS/应用控制策略激活。
91. 威胁检测与日志:分析IPS/IDS告警,检查拒绝日志。
92. VPN状态:隧道up,连接数正常。
93. 防病毒状态:定义更新,扫描任务正常,无大规模感染。
94. 漏洞扫描结果:跟踪中高危漏洞修复。
95. 日志审计:关注登录失败、权限变更、策略修改等安全事件。
96. 访问控制列表:定期清理过期/无效规则。
97. 证书状态:有效期未过。
98. 配置备份:变更后/定期备份安全设备配置。
99. 固件/特征库更新:按计划更新。

九、机房基础设施维护检查(10条)
100. 温湿度监控:22-24°C,40-60%RH。
101. UPS状态:电压、电流、负载、电池、运行模式正常。
102. 精密空调:运行状态、温湿度、告警正常。
103. 配电柜:电流、电压、开关状态正常(非专业人员勿操作)。
104. 漏水检测:系统正常,无告警。
105. 消防系统:气体灭火、探测器正常,压力表绿区(专业人员操作)。
106. 门禁系统:刷卡/生物识别、门磁、记录正常。
107. 视频监控:画面清晰,覆盖关键区域,录像正常。
108. 物理环境:清洁,通道畅通,机柜门关闭。
109. 标签标识:设备、线缆、开关、回路标签清晰准确。
十、文档与流程
- Checklist执行记录:记录时间、执行人、结果、异常处理。
- 异常处理流程:明确报告、响应、升级、处理流程。
- 定期Review:每季度/半年修订清单。
- 知识库更新:沉淀检查标准与常见问题处理方案。

最后说一句
说实话,上面这100条清单,绝大多数运维心里都清楚。
但现实是:知道 ≠ 做到。
我见过太多现场,问题从来不是出在“不知道查什么”,而是卡在这四个环节上:
- 执行靠人记。今天谁查、查了哪些、漏没漏,全凭经验和责任心,结果就是执行不稳定
- 检查无记录。查完没留痕,等于没做,回头想追溯,根本找不到依据
- 异常不闭环。发现问题全靠口头说,没人跟踪、没人验收,最后不了了之
- 数据难沉淀。每次巡检都是孤岛,没法做趋势分析,也无法复盘改进
这套清单解决的,本质上是“你该查什么”。
但要解决怎么不漏查、怎么自动提醒、怎么异常闭环、怎么统计分析,光靠纸和脑子是不够的。
这也是为什么很多团队开始用简道云设备管理系统——把这份清单变成可执行的巡检任务,自动生成检查记录,异常自动派单闭环,所有数据自动汇总分析。不是替代你的专业判断,而是让“每天都被查”这件事,不再依赖人的记忆和意志。
你可以先把这份清单用起来,哪怕是最简单的方式。
等你真正开始执行,你会很快发现:
问题不在“查什么”,而在“怎么让它每天都被查”——而后者,恰恰是最能提高设备生产效率的事。

