交换机连接成环导致网络中断的解决办法 下载本文

内容发布更新时间 : 2024/11/20 22:19:26星期一 下面是文章的全部内容请认真阅读。

交换机连接成环导致网络中断的解决办法

网络环路导致网络瘫痪或中断是我们网管员们经常遇到的问题,但是在规模较大的网络环境中,这种故障常常具有较强的隐蔽性,让我们无法快速高效地处理。笔者最近就遇到了一起这样的故障。

一天早晨5点多钟,笔者突然接到电话,说机房的网管系统无法访问网元设备。披上衣服马上赶往公司。到了公司机房,查看了一下省网管中心监控软件自动发给机房人员的短信告警信息,信息显示在两点左右,部分BSC和RNC设备脱管。

故障描述 笔者单位的网管系统主要分为两部分,一部分是网管系统专用的域内终端系统,另一部分是对网元设备的监控系统。为了全面排查故障,笔者先检查终端部分,发现各域内终端可以正常获取IP地址,并能正常访问办公、资源管理、电子运维系统(EOMS)等省公司接口服务器(Portal)。

接着检查网元部分,由于网元设备本地无权限监控,必须通过省公司4A认证服务器再访问网元设备。现在可以访问省公司服务器进行验证,但是无法连接出问题的BSC、RNC等设备,并且也无法Ping通相关设备的IP地址。网元系统拓扑结构如图1所示。

故障排查

通过上面的检查,基本可以判端故障出现在网元部分。通过查看端口登记发现,出问题的设备主要集中在网元交换机2华为S3952上,于是来到三层的传输机房,发现它与上联的网元汇总交换机Cisco 2960的级联端口存在故障。这下故障点找到了,笔者认为可能是这条网线坏了或者是端口吊死了这样的小问题。于是把网线重新插拔一下,然而故障依旧,重新换了一条网线,还是不能解决故障。

分别用网线把笔记本电脑与这两个级联口接上,发现Cisco交换机的级联口一直为Down状态,而华为交换机的级联口就可以正常的UP。笔者又判定是Cisco这个级联口存在故障,于是在Cisco交换机上找了一个空口并作了数据,这回将两个交换机连上,端口可用了。满以为这下可以解决故障了,但谁知没过多久,端口又Down掉了。

静下心来笔者又将网线换回原来的接口,并对该接口进行shut、no shut操作,端口可用了,证明端口没有问题。通过Console口查看思科交换机的日志信息,提示网络内存在环路。又仔细观察了一下交换机的端口状态,有频闪现象,短时间内华为S3952交换机的CPU占用率达到100%,Cisco交换机的端口立刻Down了。

故障处理

故障点终于找到了,接下来操作就简单了。通过对3952交换机各端口的流量情况进行查看,发现第14、15口的流量存在异常,而该端口所连的是IMS 3328交换机。于是将这两

个端口shut掉,关闭后网络恢复正常。经机房人员确认,BSC和CE均正常了,RNC设备还不好使。又到二层机房的RNC交换机3560上查看,发现级联口Down掉了。由于有了这前面的经验,且网络环路已经消除了,通过对端口重启,彻底清除了故障。

故障分析

环路到底是如何产生的呢?事后经查,是工程人员在为新增AC设备时放线后,擅自将网线接到了交换机上。而AC设备尚未进行数据配置VRRP等数据。由AC 之间的心跳线与交换机在二层构成环路,而华为等交换机默认没有开启loopback-detection和受控,造成了本次的故障(如图2)。

后来笔者查阅了相关资料,发现思科交换机在默认状态启用了错误检测(其中就包括环路检测),当检测到网络出现环路的时候,会自动关闭该端口。本次故障中正是由于网元汇总的思科交换机及时关闭了产生的环路接口,才没有对MSC、MGW、HLR等核心网元设备造成影响。但是当网络环路消除后,该阻塞端口无法自动开启,还需手动进行端口重启。

经验总结

现在的网络为了安全性和稳定性,普遍采用了冗余备份设计,而操作不当很容易造成环路。那么如何避免网络环路的发生和快速高效地排查环路故障呢?就笔者单位来讲主要有以下四点:

⒈ 开启交换机的环路检测功能。一般情况下,正规的交换机都支持端口的环回检测功能,但是某些型号的交换机该功能默认是关闭的,需要手动开启。本故障中,如果3328交换机开启环路检测后,只对本IMS交换机下的AC设备造成影响,而使BSC、RNC等重要网元不受干扰。

⒉ 对交换机暂时不用的端口全部关闭,并对Console口配置密码,这样,不但可以提高网络的安全性,还可以避免造成误操作。

⒊ 处理故障应该沿着自下而上的步骤排查。先从物理层查起,然后是数据链路层,以此类推。尤其注重日志信息、相关资料及其他网络工具的运用等,切记不要过分迷恋经验,有时候经验会让您步入歧途。

⒋“三分技术,七分管理”,加强机房管理。对进入机房的工程人员,在施工前,必须严格履行申报审批制度;施工时,要由专人随工陪同,并做好防护措施和应急预案。