最近日本出了件大事,第二大电信运营商突发故障,3,915万用户受到影响,占据了日本总人口的1/3,历时40多个小时仍未恢复,这件事成为了国际新闻。
我想给您聊聊这场故障是怎么回事,你可能会说,我又不是通信专业人士,对这些技术细节不感兴趣。
可是,对这场事故的剖析,不仅可以看出日本工匠精神的真相,还可以看出日本国运的走向。
故障的起因是核心路由器的更换,如果把通信系统比作人的话,核心路由器就是人的心脏。
更换核心路由器,就相当于做心脏移植手术,当然会面临着很大的风险。
心脏移植需要做体外循环,用设备模拟心脏的功能进行泵血,然后有充足的时间慢慢换新的心脏,等新的心脏起搏后,再把体外循环撤掉。
但是日本这家运营商的做法很奇特,没有搞体外循环,直接将旧的核心路由器断开,把新核心路由器装上,术语叫做“割接”。
“割接”这个术语很形象,就是割断旧的,接上新的,但是,割接后的新核心路由器没有正常工作。
这就好比是做心脏移植手术,把旧心脏摘除,把新心脏装上了,发现新心脏不跳,这可就抓瞎了。那该怎么办,赶紧再把旧心脏换上啊。
日本运营商也是这样做的,一看新的核心路由器不行,7月2日凌晨1:50,就赶紧把旧的核心路由器又换上了。
核心网络的参数是快速动态变化的,他们启用了回退时间的配置参数。
这是咋回事呢,举个例子吧,我们的电脑不能启动了,然后会选择回退到上次成功启动的参数,这就把上次成功启动到这次无法启动之间做的错误变动都清除了。
日本运营商工程师选择的参数回退操作是对的,但就是这个合理做法,却引来了致命危机。
手机终端每隔50分钟要重新注册一次,3000多万手机的注册时间均匀分布,平时交换机能正常处理。
但因为系统时间回退了,大量手机超过了50分钟的注册间隔,就出现了蜂拥注册的情况。
好比是我们现在做核酸,我们健康码从0到72小时是均匀分布的,前两天的人不用管,到第三天再去做。
可系统出故障后,把你做核酸的时间回退了两天,那几乎所有人都超过72小时了,大家都着急去排队,这就拥塞了。
这么说,您就彻底明白了吧?
拥塞了怎么办?那只能凉拌,排队慢慢注册问题,直到60小时后才全部注册完毕。
这个故障的根结在哪里呢?在于核心设备没有主备。
核心设备的可靠性要求5个9,即可靠性是99.999%,可纵然故障概率低至0.001%,危险综归存在,一旦发生就是灾难。
那该怎么做呢?我国运营商采用了主备机制。
核心机房里的各种交换机、路由器都是成对出现的。一个在工作,另一个是热备份。
热备份区别于冷备份,就是它里面也在跑数据,只是空跑不起作用,一旦主机出问题了,备用机马上就能顶上,而且供电系统也得是两套。
好比是你有两台车,备用车要时刻处于启动怠速状态,一脚油门就得能走,这才是热备份。如果现打火启动,有可能电瓶没电打不着,热备份比冷备份成本高但更可靠。
做到这些就够了吗,还是不够,万一来一场地震,主备机和两套电源全砸烂了,那怎么办?
我国还采用了异地热备份机制,核心数据在异地空转,一旦某处发生毁灭性灾害,异地就能顶上。
回到日本这个事故,在核心机房居然没有必要的热备份,换核心路由器时居然没有切换到备用机运转,好比做心脏移植手术时没有体外循环,而是硬生生地搞“割接”,这令人难以想象。
长久以来,我们非常推崇日本的工匠精神,觉得人家做事认真负责精益求精。可30年河东30年河西,我们所羡慕的工匠精神,已经变成了新躬匠精神,出了事就鞠躬,而且把剖腹传统也放弃了。
日本将3万人断网1小时认定为重大事故,这次是3915万人断网60小时,比重大事故严重20万倍,建议日本增加特别重大事故,特别特别重大事故,特别特别特别重大事故标准。
2011年福岛核电站出事,媚日大V立贴为证,一年之后,整个世界一定会惊诧日本重建的速度和勇气,现在11年过去了,福岛烂摊子还没清理干净呢。日本的国运啊,不过如此。
日本真有工匠精神?1/3人口断网60小时,合理做法却引发致命危机日本真有工匠精神?1/3人口断网60小时,合理做法却引发致命危机