美国能源部2019年Q1电力应急和故障报告解读

2019年4月,美国能源部(DOE)发布2019年Q1电力应急和故障报告,统计出2019年第一季度发生系统故障次数62次,产生的电力损失高达135019兆瓦,影响客户数超过250万。美国电力保障由北美电力可靠性公司(NERC)进行承担,其为一个非营利性国际监管机构,使命是确保有效和高效地降低电网可靠性和安全性的风险。

2019年Q1电力应急和故障报告(PDF: https://www.oe.netl.doe.gov/download.aspx?type=OE417PDF&ID=79 / XLS: https://www.oe.netl.doe.gov/download.aspx?type=OE417XLS&ID=79 )

美国电力保障由北美电力可靠性公司(NERC)进行承担,其为一个非营利性国际监管机构,使命是确保有效和高效地降低电网可靠性和安全性的风险。

北美电力可靠性公司(NERC)的主要职责如下:

  • 制定并实施可靠性标准
  • 每年评估季节性和长期可靠性
  • 通过系统实时监控大容量电力系统
  • 教育,培训和认证行业人员

北美电力可靠性公司(NERC)的责任范围跨越美国大陆,加拿大和墨西哥下加利福尼亚州北部,受联邦能源监管委员会(FERC)和加拿大政府部门的监督。其下属区域单位分布以及管理范围如下:

图片来自:https://www.nerc.com/AboutNERC/keyplayers/Pages/default.aspx

 

备注:西南电力池区域实体(SPP RE)已经于2017年7月获批解散,并于2018年12月31日前完成将其业务转让给中西部可靠性组织(MRO)和电监会可靠性公司(SERC)。

针对各电力保障单位保障区域发生的失效故障次数进行分析发现西部电力协调委员会(WECC)负责的区域故障数最高,详细的各区域统计如下:

北美电力可靠性公司(NERC)针对故障的告警标准如下:

告警标准 告警内容
故障可在一小时内修复 1.   对关键基础设施或运营造成重大中断或影响的物理攻击。

2.   引起电气系统运行中断的网络事件。

3.   传输或配电电气系统运行故障或关闭。

4.   电气系统分离(孤岛),部分在受影响的情况下仍能正常运行。

5.   单次超过15分钟的故障造成的电力损失超过300兆瓦。

6.   根据应急政策减少负荷超过100兆瓦的负载。

7.   全系统电压降低超过3%。

8.   公众呼吁减少用电,维持大容量电力系统的稳定工作。

故障可在六个小时内修复 9.   针对电力系统的充分性和可靠性以及任何安全系统组件的物理攻击。

10. 影响电力系统充分性或可靠性的网络事件。

11. 超过五万客户失去电力供应服务超过1小时。

12. 影响电力系统充分性或可靠性的燃料供给异常。

故障修复时间超过六个小时 13. 由于区域设施损坏或破坏,导致采取行动避免大规模电力系统紧急情况。

14. 人为损坏或毁坏相关设施。

15. 非自然因素导致的(物理威胁)设备性能降低或者异常运行。

16. 人为损坏或毁坏大型电力系统控制中心的物理威胁。

17. Bulk Electric System Emergency导致电压偏差超过10%且持续时间连续超过15分钟。

18. 前一年峰值需求小于或等于3,000兆瓦的实体,单次故障超过15分钟且损失电力超过200兆瓦。

19. 一分钟内,东部与西部互连接超过2000兆瓦或在ERCOT互连中超过1,400兆瓦。

20. 完全丧失影响核发电站的场外电力。

21. 由于共同干扰导致超过三个大型电力系统设施发生意外传输损失。

22. 非计划的从Bulk Electric System control疏散超过30分钟。

23. 与Bulk Electric System控制中心失去通讯能力超过30多分钟。

24. Bulk Electric System控制中心完全丧失监控和控制能力超过30多分钟。

此部分来源于:https://www.oe.netl.doe.gov/docs/OE417_Form_Instructions_05312021.docx

依据不同告警描述对发生的故障事件进行分析,各告警描述对应的故障数分布如下:

根据上图可以看出超过5万用户失去电力服务超过1小时的故障出现的次数最多。排查故障并进行修复需要一定的时间,根据北美电力可靠性公司(NERC)的告警标准,对不同修复阶段的故障数统计如下:

从分布图可以看出,能够在6小时内完成故障修复的故障数占据总故障数的50%,6小时以外可以恢复的故障数次之,能够在1小时以内进行故障恢复的故障数最少。

电力设施发生故障的因素如下:

美国能源部发布的应急与故障报告中根据故障发生原因统计如下:

通过对电力故障产生的原因分析发现,除了自然因素导致的设备异常、能源供应等问题外,占比较高的是人为操作(包括误操作、恶意破坏、恶意操作、网络攻击等)。

美国能源部发布的应急与故障报告中并未明确指出电力故障是由于网络攻击造成的,但是美国对相关行业的操作标准具备明确的要求,因此在人为因素里面排除了内部人员的误操作和恶意操作,同时由于报告中的告警描述中多数为电力系统无法提供服务,因此推断电力系统是由于受到网络攻击而发生了拒绝服务。

报道能源和环境新闻的 E&E News 从美国能源部官员处了解到,电力系统故障涉及到拒绝服务攻击(DoS),该攻击并不属于有组织黑客行动,所涉拒绝服务(DoS)漏洞也有补丁可打,攻击具体针对哪类设备尚未查明。这也从侧面印证了电力系统出现故障的原因为网络攻击。

总之,工业控制系统对于实时性和可靠性要求相对比较高,拒绝服务(DoS)对工业控制系统造成的影响会比较高,工控行业也是恶意黑客的重要目标,因此在进行工业控制系统实施时需要考虑自然、设备、人为、传输等方方面面的因素,以保证相关设备和业务的稳定运行。根据美国能源部发布的应急与故障报告以及绿盟科技多年来在工控行业的业务经验,建议方案如下:

故障向量 建议方案
自然因素 温度:保证设备运行在厂商建议的温度范围内。
湿度:保证设备运行在厂商建议的湿度范围内。
粉尘:增加除尘设备或者使用三防设备。
能源:根据自然环境调节能源的补给与存储,保障能源供应。
地质:建站最好选择在非地震带,能源与数据实现异地双工。
洪涝:建站需要考虑设备的位置,避免洪涝灾害的影响。
蚊虫:运行环境需要具备蚊虫的隔离网,减少蚊虫对设备的影响。
设备因素 实时监控设备的运行状态,在设备进行异常告警时提前排查处理。
定期进行设备维护,减轻自然因素对设备的老化影响程度,保证设备符合运行可靠性要求。
设备上线前进行安全测试,防止设备存在安全缺陷。
提前做好设备故障的应急预案,故障发生时可以通过紧急维修/更换设备等方式及时恢复系统,减少损失。
定期通过远程评估系统发现工业控制系统缺陷,协调资源进行缺陷修复。
安排值守/巡检岗位,及时发现并处理故障。
提前进行设备老化/换代处理。
人为因素 增加工作站人员工作指导书,规范操作流程。
针对人员对设备的操作进行审计,及时发现误操作和恶意操作。
IT系统内主机/服务器增加安全软件。
对不同功能域进行划分并增加访问控制策略。
门禁系统部署生物识别技术,防止非授权人员的随意进入。
系统内增加网络安全防护设备,减少系统因为误操作/恶意网络攻击造成的影响。
针对敏感数据的存储和传输,利用加密和压缩技术进行保护,数据实现认证访问。
账户使用强密码或者证书进行认证。
在非必要的情况下关闭例如telnet、ssh、远程桌面等风险服务。
定期培养人员的安全意识和能力,做到知行合一。
针对第三方运维人员接入,需要引入风控机制,减少运维造成的系统故障的风险。
增加对外开放服务(站点/工单等)的安全监控和防护方案。
针对资产的病毒/漏洞管理、补丁管理、配置管理等,形成统一的安全措施分发机制。
按照“谁主管,谁负责,谁运营,谁负责,谁接入,谁负责”的原则强化岗位责任。
通过强加密套件、强认证功能、准入策略实现网络接入,尽量避免使用无线网络接入。
传输因素 定期线路检修,保障线路传输质量。
提前做好线路故障的应急预案,故障发生时可以通过紧急维修/更换等方式及时恢复线路,减少损失。
传输线路增加状态上报机制,提前/快速发现并定位线路故障点。
选择比较可靠的传输线路材料,保障线路传输稳定。
信息网、监控网与生产网之间利用隔离设备实现单向传输。
排查无线网络范围内的干扰源,保证无线传输质量。
高可靠性网络实现双线传输。
提前进行线路扩容,满足业务/系统增长需求。

 

绿盟科技格物实验室专注于工业互联网、车联网、物联网等方面的安全研究,曾发现多款工业物联网设备安全漏洞,协助厂商进行安全修复。多次参与国内外知名安全会议并发表专题演讲。积极与相关的厂商进行合作,共同努力创建和谐、稳定的网络安全生态环境

 

 

Spread the word. Share this post!

Meet The Author

Leave Comment