故障初步结论:远端windows服务器没有响应;
这是以往没有出现的情况,不过这台windows也算是在传统的linux以外,新配置的设备,到底有多可靠还未可知。上一次几台linux出现了难以解释的网络故障,忙了一个月以后,最后确认是二级服务商的交换机故障,导致类似arp攻击的飘忽阻塞,反证了我们的设备尽管古老,却是相当的可靠。因此这次故障,负载和连续开机上,都逊色于linux,我觉得直接让机房热启动,是不明智的。一来不知道是不是自已的故障,二来想知道是什么类型的故障,以便日后好遥端处理,三来不知道直接热启动,是否反而弄巧反拙,到时要重装就麻烦了。所以决定今天早上到机房实地检查一下再说。机房安保森严,需要二级服务商的通行条加身份证,所以今天早上才能成行。不过这样也有好处,可以排除安保方面导致的不确定性。
巧合之一:机房提供的显示器没有接收到信号,连续换了几台机仍然如此,由于对此没有思想准备,因此我一开始就以为,是自已的机当了,只好热启动,这样就抹去了所有原发故障的痕迹。
巧合之二:没有信号的显示器,接到别人的,显然仍然在工作的服务器上,(这样操作有点犯规,不过只是为了看到信号),同样没有信号,由此确认是显示器问题,召来机房网管摆弄一番,显示器似乎忽然好了,显示最早当机的windows已经恢复。但是再接到原来两台电脑上,一台是我们的linux,一台是别人的,仍然是没有信号。这下子古怪大了。
巧合之三:别人的电脑不敢再摆弄,自已的linux电脑反复检测,(昨晚上还登录呢),一直以为又是显示器的线接触不良,但是忽然发现,是linux处于关机状态。这下子奇怪了,谁让linux关机的?难道刚好巧合,这几个小时里,连接开机一年多也没有故障的linux,自动关机?隐约中,似乎昨天有过重启的操作,(只是隐约),但可以肯定,我已经好几年没有打过"shut down -r now",就算有打命令,也肯定是reboot。
比较牵强的解释是,reboot后,主机没有继续启动,就等于关机了。这种情况没有见过,不过远端重启主机,一直是我敬畏的冒险,完全不清楚恢复的情况,这也是几台linux主机,一直保持着长期开机,成年累月,最长达两年的原因。
几个巧合,有些确实是巧合,如显示器刚好不动;另一些天知道是不是巧合。往好里说,似乎故障都cover了,往坏里说,糊里糊涂,不明所以然。