记得处理过一次故障。当时所有的服务器都不能被用户访问,访问在一瞬间中断了,终端用户无法ping通服务器。主任走到机房问我:“之前一直都好好的,怎么突然就断了呢?”我一脸茫然,只能弱弱的回答:“没有改配置也没有动任何设备...突然就中断了。”不管三七二十一,先重启交换机,核心、服务器组接入全部重启。经过五分钟终于重启完成,但问题依旧。随后我又换了一台接入交换机,可问题还是依旧。这时我的头是真大了,三板斧就差格式化了。这时,主任走过来拍拍我的肩膀说:“别急,我看看。”
主任使用同一网段的PC访问服务器,发现没问题。然后又检查了服务器网关的配置,在交换机上抓了几个包。最终找到了问题的根源:服务器中有一台服务器遭受了攻击,然后不停向外发送arp欺骗攻击报文,将其他服务器的网关都欺骗了,从而中断了服务器的访问。最后,主任将攻击服务器的网线直接拔掉,问题得到解决。领导果然是领导,不到10分钟就排除了故障。后来我总结了一下这次排障的教训。我之所以没有排障成功主要有如下几个原因:①对知识的理解不够透彻。同网段可达,不同网段不能通信,故障点很大程度就锁定在网关上了。②对报文的分析能力不足。通过抓取arp报文,对比网关的mac,其实可以推断出arp攻击(当时还是年轻,认为报文不重要)。③理论没有联系实际。很多理论是了解的,但是在实际使用时却一片空白。经过这次经历,我越发的感觉扎实的排障能力对于网工来说是多么的重要。