为何正常应用会被阻断

防火墙作为重要安全设备普遍部署在网络边界中,为网络与业务的正常运行提供必要的安全保障。然而当防火墙设备出现故障时,即使配置策略正确,也极有可能对正常数据作出非正常操作,阻碍通讯,甚至会影响业务数据传输。

 

7.1 问题描述

 

某日凌晨,在单位A与单位B之间的MQ业务交互过程中,突然出现会话中断的异常现象。MQ业务是系统的关键长连接业务,由于业务所处环境复杂,排查时间紧迫,运维人员经过一系列的排查后,仍不能确定问题原因,于是紧急申请科来应急响应服务。

MQ支付系统在本次故障会话的数据流量走向,如下图所示。

图 7-1

因为数据在经过防火墙时,进行了目的IP地址的转换。在交换机2位置,TCP会话为单位B通过随机大端口访问单位A业务系统(2.2.2.2)的1424端口。而在交换机1位置,TCP会话为单位B使用随机大端口访问单位A(3.3.3.3)的1424端口。

 

7.2 分析过程

 

科来网络分析工程师从科来业务性能管理系统(UPM)中查看该日凌晨时间段的数据,了解到支付系统从单位B到单位A的数据方向有告警提示,如下图所示。

图 7-2

图 7-3

点击告警信息,发现在1点03分30秒时,单位B向单位A方向的MQ会话有中断现象,在1点00分20秒时有新建会话的情况。因此下载相应时间区间的通讯数据包,继续深入分析。

图 7-4

 

7.2.1 对靠近单位A侧的数据包进行分析

在故障时间段,1.1.1.1:50826向3.3.3.3:1424发送了请求报文——载荷长度为1436和69的数据包(如下图位置1标识),然后3.3.3.3:1424回复了ACK数据包,表示收到了相关请求报文,紧接着又发送了响应报文——载荷长度为28数据包(如下图位置2标识)。但在3.3.3.3:1424发送响应报文后没有收到对端的ACK包,于是进行响应报文的超时重传(如下图位置3标识)。

图 7-5

3.3.3.3:1424在多次重传无回应后发送FIN包,断开了本次链接,如下图所示。

图 7-6

7.2.2 对靠近单位B侧的数据包进行分析

在故障时间段1.1.1.1:50826向2.2.2.2:1424发送请求报文——载荷长度为1436和69的数据包(如下图位置1标识)。2.2.2.2:1424回复了ACK数据包,表示收到了相关请求报文,随后发送了响应报文——载荷长度为28的数据包(如下图位置2标识)。1.1.1.1:50826没有收到2.2.2.2:1424的响应报文,所以进行请求报文的重传(如下图位置3标识)。

由于本次数据采集点是位于靠近最外侧的CE5810,所以推断下图标识2中的ACK包和响应包已经从单位A发出,但是没有被单位B收到。

图 7-7

1.1.1.1:50826向2.2.2.2:1424持续发送数次请求包均未得到响应后,发送了重置包断开连接,如下图所示。

图 7-8

进一步分析,发现在故障发生时间点有一个新的会话:2.2.2.2使用1024端口向1.1.1.1发送响应报文——载荷长度为28,但是1.1.1.1没有响应,如下图所示。

图 7-9

通过对比分析发现新会话中的报文就是1.1.1.1:50826与2.2.2.2:1424会话中没有收到的响应报文。因为2.2.2.2的1024端口属于非合规端口,所以1.1.1.1不会接收他发来的任何一个数据包。对比下列报文的载荷内容,可验证分析结果。

图 7-10

图 7-11

随后在分析3.3.3.3:1424和2.2.2.2:1024分别发送到1.1.1.1:50826的数据包时,发现这些数据包的IP/ID是一样的,凭此可以验证这两个会话就是经过防火墙转换后的同一个会话。

图 7-12

图 7-13

观察发现:1.1.1.1:50826与2.2.2.2:1024会话开始的时间为54分29秒,而经过防火墙NAT转换的1.1.1.1:50826与2.2.2.2:1424会话在此时间点后没有再做转发,此现象同样印证了导致会话中断异常的原因是防火墙转发出现问题。

图 7-14

 

7.3 分析结论及建议

 

单位A与单位B之间的MQ业务在交互过程中,由于单位B1.1.1.1:50826没有收到单位A2.2.2.2:1424发出的响应包,从而导致的会话中断。2.2.2.2:1424本该使用原有端口1424进行响应包重传,但是由于NAT设备(防火墙)使用新建、非合规端口1024发送响应包,导致1.1.1.1:50826与2.2.2.2:1424会话不能进行正常的通信,MQ业务从而出现中断情况。建议与防火墙厂家进行确认,是否存在这类的bug,并进行及时修复。

 

7.4 价值

 

在本案例中,业务中断故障是突然出现的,而大部分业务故障也都有随机出现的通性。此类问题通常在影响业务前难以被发现,出现故障后又难以复现,这就造成了运维人员要耗费许多精力,并难以从复杂的业务运行环境中定位此类异常现象的原因。科来业务性能管理解决方案,能够对业务数据进行实时捕获及长期保存,通过对数据的分析能够快速、准确定位故障原因,帮助用户提升复杂业务系统运维的能力和效率,较低故障排查时间成本。

免费测试申请及购买咨询

您的名字 :

您的手机 :

您的邮箱 :

公司名称 :

您的职位 :

公司地址 :

网络规模 :

购买用途 :

补充留言:

陕西快乐十分