记一例网络故障修复过程(复盘)

工作 2023-06-17

周五下午,收到Zabbix告警信息,连接门禁的网口down。

因不在现场:

1.令同事现场确认故障后果,幸人脸组件为离线工作,但扫码需要在线解释,算是不太紧急故障。
2.求助网络中心安排人员协助排查。
3.自行远程确认交换机状态、配置,无异常。

现场同事:

1.复核:交换机端口无异常,对端百兆交换机端口无异常。
2.寻线,确认线路无误,标识无误。
3.测线,不正常。

此后,由同事与网络中心人员处理,最终问题未能解决。
张贴故障通知。

周六上午,亲自回到现场:

0.笔记本直插交换机,配置ip,网页、测速度,端口完全正常。

1.测线,测线指示灯异常(是异常,不是断开,灯亮顺序与数量都不是正常的,但都能点亮,伏笔1)。

2.目测水晶头,线序不正确(观察现场遗留的水晶头,应该是打了两次:1次是按标准打的,发现不行;2次是按原来错的打法,最后还是不行。其实两头线序一样是可以通信的,之前就是这样工作,只是没留意到施工人员的错误)。

3.重新按标准线序打好两端,测线,不正常。保证打线正确,压紧,测线,不正常(是不正常亮,不是断开不亮!线序已正常,所以也不是乱跳)。

4.观察亮灯情况,测试信号到1236时,只有12,36两组红色底灯亮起;而在信号在4578时,完全正常(全部红色底灯亮,目标线号绿灯亮起)。

5.测线仪接收端在设备端,不小心打开寻线功能,有很大的干扰与电流声音(伏笔2)。

6.两端水晶头去掉,剥开线皮,设备端8芯网线两两同色短接,机房端用万用表测试两两同色线芯,阻值基本没差异,全部通(解决伏笔1,线其实都是通的)。

7.考虑干扰问题,设备端下方是高压电房,有高压线排进入(解决伏笔2,而且早年老设备用的网络也有这样的问题,要么是干扰,要么就是线的质量问题)。

8.考虑到还有4578可能正常,按百兆4芯接法,两端口都打上水晶头,一共两对。两组线都测线正常,1236灯亮起。

9.两对线分别上机测试,原来的1236线组,无法通信。原来的4578线组正常,可通信。

10.故障解除。

后续工作:

1.重新布线,可以上非屏蔽6类线(主要是数据中心布线有剩下的好东西,一部到位上屏蔽,还是算了)。现在这4条芯,应该能顶一下下。
2.这个故障的原因,大概率还是线的质量不行,在强干扰下,有信息信息的电流hold不住。