微软-CrowdStrike问题引发”史上最大IT中断”

网络安全服务商CrowdStrike的失误,造成全球成千上万台Windows主机出现蓝屏故障,进而影响到大量医院、银行、机场、航空公司和广播公司,甚至911报警台。对此,昆明亭长朗然科技有限公司网络安全专员董志军表示:在历史上,网络安全公司惹的事故可不少,大部分事故的根本原因是管理因素,即人为因素造成。让我们简单回顾一下该事件。

事件概览:

  • 性质:影响CrowdStrike服务的重大IT中断
  • 日期:2024年7月19日,星期五
  • 受影响系统:使用CrowdStrike服务的Windows主机
  • 影响范围:全球广泛,涉及金融服务、医疗保健、广播和航空旅行等行业

根本原因分析:

  • 技术因素:Windows主机单一内容更新中的一个缺陷
  • 非安全事件或网络攻击

响应和缓解:

  • CrowdStrike已识别并隔离了问题
  • 已部署修复,但未指明具体时间线

经验教训:

  • 更新部署前全面测试的关键重要性
  • 网络安全服务对全球运营的深远影响
  • 需要强大的故障转移和冗余系统

纠正措施:

  • 立即为有缺陷的更新部署修复
  • 可能会审查并加强更新的质量保证流程

预防策略:

  • 实施更严格的更新测试程序
  • 开发更好的问题更新回滚能力
  • 增强监控系统,以快速检测广泛问题

重要启示:

  1. 即使是网络安全产品中的非安全问题也可能产生巨大的全球影响。
  2. 现代IT系统的互联性意味着局部问题可能迅速成为全球性问题。
  3. 对关键基础设施服务而言,强大的测试和渐进式推出程序至关重要。
  4. 在中断期间进行清晰及时的沟通对维护信任至关重要。

值得注意的是,此事件与微软云服务的单独中断同时发生,可能加剧了影响。这次中断被描述为可能是”史上最大的IT中断”,凸显了网络安全和云服务在现代商业运营中的关键作用。

这一事件有力地提醒了组织需要制定全面的业务连续性和灾难恢复计划,以应对关键第三方服务的故障。从技术角度来讲,安全解决方案的“简单化”往往会帮助减少第三方故障的发生率,道理很简单,设备越多,可能的问题也就越多。对此,董志军表示:微软原厂的系统安全保护方案不香吗?为什么还要向第三方购买更多安全保护服务呢?搞清楚这些问题,就知道问题的根源在于客户在内部安全管理方面的薄弱。

当然,我们也看到信息安全管理是一整套的体系,这需要针对管理层、技术层和用户层进行全面的网络安全意识教育培训。懂得了基本而全面的网络安全理念,才能最大限度地降低服务中断带来的损失。同样,CrowdStrike的失误也源自于管理、流程和人员,永远不要认为网络安全企业和人员就有足够的安全知识和理念,其中的从业人员有很多新手甚至外行,都需要不断加强学习,以提升安全意识。不然,只要一个无知或大意,就可能毁掉客户的重要系统,进而给社会带来重大影响。

为了帮助各机构甚至网络安全公司提升职员的安全意识,昆明亭长朗然科技有限公司推出了200部安全意识短视频,若有兴趣,欢迎联系我们预览作品和洽谈采购。

昆明亭长朗然科技有限公司

  • 电话:0871-67122372
  • 手机:18206751343
  • 微信:18206751343
  • 邮箱:info@securemymind.com
  • QQ:1767022898