熟悉的“蓝屏”又上热搜了,这次是直接导致全球性的巨大影响,比如航班停飞,银行歇业……
在宕机后,美国航班数量变化是这样的。

其他的例子网上已经有很多,数不胜数,就不再一一举例了。
问题当然很快就清楚了:为微软Azure云提供第三方网络服务的CrowdStrike更新时故障导致。但是在目前给出的解决方案里,却需要用户自己手动解决。
可是,首先我觉得这样大的“灾难”,问题并不在于CrowdStrike,一个文件更新的bug其实总是很难避免的。但是,只要微软继续它的产品和服务策略,过去24小时的这场灾难就不会是最后一次,也一定不是史上最大的一次。
甚至,微软也只能背一半的“锅”,另一半,应该由那些大企业的IT部门来背:为什么企业的IT开支越来越高,对第三方的IT依赖却越来越大,甚至离开了第三方公司,就会立刻失去运营能力?
因为各种原因,公开的文章还是需要保持和谐的主基调,但是有些点其实都已众所周知,我简单罗列一下:
- Windows的底层代码就是很差,即使快要推出Windows12,依然不敢对最基础的架构进行大幅修改;
- Windows系统的安全性其实不必多讨论,那种时不时就要装一系列更新(包括硬件驱动、三方服务、安全漏洞补丁等等)的“骚操作”,本来就是最大的安全漏洞与不稳定来源;
- 其实,Mac系统也没好太多,苹果的更新也经常爆出安全漏洞,但是苹果对产品是统一管理,虽然也用到了很多三方服务组件,但是到苹果的系统中时,体现出来的是苹果统一的出口,而不是Windows那种“谁都可以”;
- 微软这些年最好的产品,之前是Office,后来是Teams,这两个产品才是牢牢占据桌面系统份额和大量企业直接采购微软云服务的根本原因。当大企业的IT部门越来越官僚,最好一个“总包商”(IBM?)解决所有问题时,总包商也安全第一,每个子包尽可能单一来源,Office+Teams成为微软转型云服务最重要的基石,而不是Windows。所以,Wintel做不好AI PC,不是吗?
- 从技术上讲,Unix/Linux系统具备更好的稳定性和安全性,但是在大企业IT部门越来越少人真正熟悉Unix/Linux底层,市场上也没有足够有实力的服务提供商时,这种“蓝屏”问题的影响面就变得越来越大;
- 一句话,我们始终无法保证技术上百分百的可靠性,但是运行机制的僵化会放大任何一个来自底层服务的错误,可惜的是,那些进行了互联网化和数字化改造的大企业,除了付出每年增长的IT账单外,几乎失去了哪怕一点自力更生的能力;
- 短时间看,在微软下周的earnings call上,这个重大“灾难”极其后续处理甚至微软需要付出的赔偿责任都会成为重要的焦点问题,那些受到影响的大企业也一定需要快速的重新检视自己的IT基础设施和运营能力,完善应急预案,制定plan B,等等,然而并不会真的有什么用;
- 或许这一轮AI热潮是一个巨大的重构的机会,因为模型正在彻底改变软件服务行业,但我几乎很难相信,那些失去了自力更生能力的大企业,能够有机会应对“新生命体”越来越快速的冲击。