你去大多数工厂转一圈,很容易看到两套完全不同的世界。
- 会议室里,大家讲的是OEE、讲效率、讲改善
- 车间里,大家在找人、找备件、等指令、救火
问题就在这里:管理层看到的是指标,现场运行的是问题,两者之间没有被真正打通。
很多企业其实也意识到了这个割裂,所以不断补数据、加报表、上系统。但结果往往是报表越来越多、指标越来越全,现场却依然在原地打转。
设备管理这件事,说到底不是“看数据”,而是用数据推动现场改变。
如果指标不能指向动作,那它再精细,也只是汇报材料。
下面这5个指标,是我认为真正能在现场落地、并且能形成闭环的一组组合。关键不在于它们本身,而在于怎么用。
以下解读中所用到的设备管理与巡检系统——
已经做成了简道云模板,可直接下载使用:

一、OEE
很多企业的设备管理,是从OEE开始的,这本身没有问题。
什么是OEE
从定义上看,设备综合效率(OEE) 指的是设备在实际运行过程中,有效生产时间与计划生产时间的比值。它衡量的是设备在计划生产时间内的综合产出效率。

OEE越高,设备被浪费的时间就越少,意味着设备利用水平和生产效能越高。
这个设计本身没有问题,甚至可以说十分精炼。但在实际管理中,它最大的局限也恰恰来自这里它是一个高度浓缩的结果指标。
当你看到OEE下降的时候,表面上知道出问题了,但你并不知道问题发生在哪一层:
- 是设备停机时间变多了?
- 是运行速度下降了?
- 还是质量波动导致返工?
如果没有进一步拆解,这个指标其实无法指导任何具体动作。
正确用法
所以OEE的正确用法,从来不是看一个数,而是要把它拆开,并且继续往下拆。
在实际落地中,一般会至少拆成三层。
- 第一层:开机率 / 性能 / 良率
- 第二层:停机结构 / 节拍达成 / 不良类型
- 第三层:具体到设备、班组、工序
只有拆到这个程度,才能把结果问题转化为过程问题。
应用建议
但这时又会遇到一个现实障碍:很多企业的数据根本支撑不了这样的拆解。
- 停机没有记录,或者记录随意
- 生产节拍靠估算
- 质量数据分散在各个表里
最后OEE只能通过人工拼Excel得出一个结果数,既滞后,也无法追溯。
这也是为什么,越来越多企业会用简道云去重构这一层数据基础:把开机/停机记录、生产报工、质量记录全部结构化成表单,并且在流程上保证数据的及时性和完整性,最终由系统自动生成OEE及其拆解维度。
这样做的价值不在算得更快,而在于可以从一个结果指标,追溯到具体的现场问题。
因此,OEE不是用来解释问题的,它只是告诉你哪里需要解释。

二、MTBF
如果说OEE是在看结果好不好,那MTBF就是在回答另一个更关键的问题:设备到底稳不稳定。
什么是MTBF
平均故障间隔时间(MTBF)表示设备两次故障之间的平均正常运行时间,反映了设备的可靠性。MTBF越长,设备在无故障状态下运行的时间就越长,可靠性也就越高。

MTBF 平均故障间隔时间 = (T1+T2+T3)/失效次数
这个指标看起来很简单,但一旦持续跟踪,它会非常真实地反映出设备状态的变化趋势。
很多现场都有一个典型现象:某几台设备总是在出问题。但如果你问具体哪里问题最多,往往是凭经验在说,缺乏数据支撑。而MTBF的价值,就在于把这种“感觉”,变成可以量化、可以对比、可以追踪的指标。
正确用法
当某台设备的MTBF持续下降时,其实是在释放一个很明确的信号:设备的稳定性在变差,而且问题可能在累积。
但仅仅有MTBF还不够,关键在于——你能不能追溯“为什么”。
很多企业算不准MTBF,或者算出来也没用,本质原因是故障数据本身没有被结构化记录:
- 报修靠电话或微信群
- 维修结束没有统一记录
- 故障原因随意填写甚至不填写
这样收集来形成的数据无法用于分析,指导后续的生产工作。
要让MTBF真正有意义,必须把故障这件事拆开来记录:
- 哪台设备
- 哪个部位
- 什么故障类型
- 初步原因是什么
只有这样,当你在简道云的报表里看到某台设备MTBF异常时,才能进一步点进去,看清楚是某个部件反复出问题,还是某一类故障在集中发生。
这时候,管理动作才有抓手——是做专项点检?是更换部件?还是优化操作方式?
总之,MTBF的价值不仅是告诉你设备稳不稳,还让你看清哪里在变得不稳定。

三、MTTR
设备一定会坏,这是不可避免的。
但不同企业之间的差距,往往不在会不会修,而在多久能恢复。
什么是MTTR
平均修复时间(MTTR)指的是设备发生故障到修复完成并恢复正常运行所需的平均时间。它衡量的是维修过程的效率和设备的可维护性。
MTTR越短,设备恢复正常运行的速度就越快,意味着维修效率更高。

MTTR 平均故障修复时间 = (T2+T3)/失效次数
很多人第一反应,会把这个指标等同于维修人员能力。
但如果你真正把过程拆开,会发现MTTR背后其实是一整套系统能力的体现。
一个典型的维修过程,往往包含多个阶段:报修、响应、到场、诊断、维修、验证。只要其中任何一个环节存在卡点,整体时间就会被拉长。
现实中最常见的情况是:
- 维修人员到场很快,但因为信息不清楚,需要反复确认
- 问题判断出来了,但备件不在现场,需要临时调配
- 流程上没有明确分工,责任不清,导致时间被消耗在沟通上
如果你只看一个总维修时间,这些问题是看不见的。
正确用法
所以在实际落地时,MTTR一定要拆解为几个关键时间节点:
- 报修时间
- 响应时间
- 到场时间
- 开始维修时间
- 修复完成时间
只有这样,你才能区分到底是响应慢,还是维修慢,还是等待备件慢。
在这一块,用简道云做流程化管理会非常直接:
- 报修通过表单提交后自动触发派工
- 维修过程中的每一个关键节点由系统自动记录时间
- 最终自动计算MTTR
- 并且可以按设备、故障类型、维修人员等维度进行分析
更重要的是,这些数据不是为了统计,而是可以直接反推优化动作——比如针对某类故障建立标准处理流程,或者针对高频问题提前准备备件。
总之,MTTR不是在评价人,而是在暴露流程。

四、设备计划达成率
在设备管理的讨论中,有一个经常被忽略的指标:设备计划达成率。
什么是设备计划达成率
设备计划达成率 指的是设备在单位时间内实际完成的生产数量与按照标准节拍或既定计划应完成的生产数量之比。它衡量的是设备按计划执行生产任务的能力。
设备计划达成率越高,生产进度越能按预期推进,意味着生产计划的可靠性和设备的履约能力越强。

看起来简单,反而被很多人忽视了。
现实中很多设备效率问题,并不是设备本身造成的,而是来自计划的不稳定:
- 今天插单,明天改单
- 刚换完模具,又要换回去
- 生产节奏频繁被打断
设备在不断切换状态,时间被碎片化,效率自然上不去。
但这些损失,在传统统计中往往被归为设备效率低,甚至被计入OEE的下降,而没有人去追溯源头。
正确用法
设备计划达成率的意义,就在于把“计划”和“执行”拉到同一个坐标系里,让你看到偏差。
当某条产线的达成率长期偏低时,你就需要去分析:
- 是计划本身不合理?
- 还是执行过程中频繁被打断?
- 哪个时间段偏差最大?
要做到这一点,前提是计划和执行数据都必须是结构化的。
在实际落地中,可以通过简道云建立生产计划表,并与设备开机记录打通。
这样系统可以自动计算每台设备、每个时间段的达成率,并且直接标出偏差点。
这时候你会发现,一些原本被归因于设备的问题,其实根本不在设备,而在于计划逻辑本身。
当你开始看计划达成率,就会发现很多设备问题其实只是表象。

五、停机损失结构
很多企业会统计一个总停机时间,然后在会上讨论停机太多。
但这种统计,本质上是没有方向的。这时候就要看停机损失结构。
什么是停机损失结构
停机损失结构 指的是将设备在运行过程中发生的各类停机时间(如故障停机、换型调整、速度损失、短暂停顿等)按原因进行分类统计,并计算各自占总停机时间的比例。它衡量的是不同停机因素对设备可用性的影响程度。

停机损失结构中某类原因占比越突出,意味着该问题是当前制约设备运行的主要瓶颈,需要优先改善。
因为停机的原因是完全不同的:
- 设备故障导致的停机
- 换型带来的停机
- 等料、等人的停机
- 操作问题导致的停机
如果不做拆分,这些完全不同性质的问题会被混在一起,最后只能用一种模糊的方式去处理。
而一旦你把停机结构拆开,问题就会变得非常具体。
比如,你可能会发现:
- 故障停机只占30%,但大家一直在讨论设备问题
- 换型停机占比最高,但没有人去优化换型流程
- 等料时间很长,但问题在供应链而不是设备
这时候,管理的重点会自然浮现出来。
正确做法
要做到这一点,关键不是统计能力,而是数据采集方式。
停机原因必须是标准化的,而不是自由填写,否则数据很快就会失真。
在实际应用中,可以通过简道云设计带有标准分类的停机记录表单,让操作人员在记录停机时直接选择原因,同时系统自动汇总分析,生成停机占比和TOP问题列表。
这样一来,管理者不需要再去分析数据,而是直接看到结果,并据此安排改善动作。
一句话,如果不做结构拆解,所有分析都只是猜测。

六、真正能落地的,是一套指标+动作的闭环
前面讲的五个指标,如果只是分散存在,其实意义是有限的。
很多企业的问题恰恰在这里:指标都有,但彼此之间没有关系,也没有连接到具体动作。
真正能在现场跑起来的设备管理,一定不是指标集合,而是一套完整的闭环。
这个闭环,至少包含四个层次:
1. 数据采集
开机、停机、故障、维修、生产,这些最基础的数据必须被及时、准确地记录下来。
如果这一层做不好,后面的所有分析都会失真。
2. 指标生成
数据不应该靠人工整理,而是由系统自动转化为OEE、MTBF、MTTR、计划达成率、停机结构等指标。
只有自动生成,才能保证及时性和一致性。
3. 问题暴露
指标的价值,不在于展示,而在于让问题自动浮现出来。
比如,某台设备的MTBF下降时,系统可以直接标识异常;当某类停机占比上升时,可以自动进入TOP列表。
4. 动作触发
如果指标停留在被看到,那管理就止步于此。真正有效的系统,一定是让指标直接触发动作:
- 故障频率高 → 自动生成点检或保养任务
- MTTR异常 → 触发维修流程优化或专项分析
- 停机集中 → 推动改善项目立项
- 计划偏差大 → 反馈给计划端进行调整
在很多企业中,这四层是割裂的:数据在Excel、流程在微信群、分析在会议上、动作靠人推动,效率低且不可控。
用简道云这样的设备管理系统,其核心价值就在于把这四层打通:
- 用表单统一数据入口,保证数据结构化
- 用流程把报修、派工、维修、验收串成闭环
- 用报表自动生成指标,并实时展示异常
- 用规则或流程触发,把发现问题直接转化为执行动作
这样一来,设备管理就不再依赖个人经验,而是变成一套可复制、可追溯、可持续优化的系统。
说得更直接一点:你不再需要反复开会讨论问题,而是让系统帮你把问题推到你面前,并推动它被解决。

最后说一句
指标的意义,是让问题无处可藏。
很多企业在设备管理上投入了大量精力,做报表、建系统、跑数据,但最后的效果并不理想。问题往往不在努力不够,而在方向偏了。
当指标只是用来汇报,当数据只是用来复盘,现场永远在被动应对问题。
真正有效的设备管理,一定是这样的:
- 数据是实时产生的
- 问题是自动暴露的
- 动作是被持续驱动的
不需要几十个指标,把这5个关键指标用好,并且让它们连成一条从“数据 → 指标 → 问题 → 动作”的路径,就已经足够把大部分设备问题管住。
说到底,设备管理不是在看设备,而是在用数据把现场的真实情况还原出来,把该解决的问题,一个不漏地解决掉。

