DNS解析成功率下降案例分析0703
中國(guó)移動(dòng)?xùn)|莞分公司廣東東莞端到端信令分析優(yōu)化項(xiàng)目--LTE_DNS解析成功率下降案例分析上海瑞原信息技術(shù)有限公司東莞移動(dòng)端到端信令分析優(yōu)化項(xiàng)目組2014年7月廣東東莞端到端信令分析優(yōu)化項(xiàng)目組Page
中國(guó)移動(dòng)?xùn)|莞分公司
廣東東莞端到端信令分析優(yōu)化項(xiàng)目
--LTE_DNS解析成功率下降案例分析
上海瑞原信息技術(shù)有限公司
東莞移動(dòng)端到端信令分析優(yōu)化項(xiàng)目組
2014年7月
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 1 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司 1 概述:
7月2日下午18:30域名為(pool.ntp.org )的用戶的DNS 解析成功率都非常低, 懷疑DNS 設(shè)備中針對(duì)域名為(pool.ntp.org )的解析信息被刪除或者DNS 配置數(shù)據(jù)存在異常;建議下一步要省公司配合檢查DNS 設(shè)置,排查DNS 解析成功率問(wèn)題。
2 LTE 網(wǎng)絡(luò)DNS 分析
2.1 【問(wèn)題描述】
通過(guò)瑞原監(jiān)控平臺(tái)發(fā)現(xiàn)PGW101板卡維度對(duì)應(yīng)的DNS 成功率于7月02日18:30 從92下降至20,下降幅度為72個(gè)百分點(diǎn),于07月03日上午04:00開(kāi)始恢復(fù)到目前為止恢復(fù)到80左右。
2.2 【問(wèn)題分析】
2.2.1 PGW 維度分析
統(tǒng)計(jì)指標(biāo)下降前后(17:00-17:30和19:00-19:30)兩個(gè)時(shí)段成功率對(duì)比情況如下表所示:
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 2 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
通過(guò)上表可以看出,有7個(gè)主要USER_IP段有明顯下降,下降幅度70。
這7個(gè)user_ip(10.16,10.161,10.162,10.163,10.164,10.165,10.166)主要都集中在DOGSAEGW101BHw 設(shè)備下面(這里很容易誤認(rèn)為是PGW 問(wèn)題)。
2.2.2 域名維度分析
通過(guò)異常時(shí)段域名維度指標(biāo)分析,域名“pool.ntp.org ”的失敗占比較高,在DOGSAEGW101BHw 網(wǎng)元維度失敗占比達(dá)98,在全網(wǎng)維度失敗占比50。
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 3 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
2.2.2.1 域名(pool.ntp.org )分析
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為55850,其中55818次返回ip 為空,成功率非常低。
7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為6279,其中6046次返回正確IP ,233次返回ip 為空,成功率比較高。
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 4 of 10
中國(guó)移動(dòng)?xùn)|莞分公司
2.2.3 用戶IP 維度分析
統(tǒng)計(jì)異常時(shí)段(19:00-19:30)用戶IP 維度的DNS 成功率,在域名為(pool.ntp.org )的用戶IP 成功率都非常低,大部分集中在DOGSAEGW101BHw 網(wǎng)元(10.164.0.0/16),但是其他網(wǎng)元下面的用戶IP 也存在成功率低的問(wèn)題,只是訪問(wèn)量非常小,失敗占比也非常少,詳細(xì)情況如下:
可見(jiàn)問(wèn)題不是出在PGW 設(shè)備上,主要問(wèn)題還是DNS 解析過(guò)程中出現(xiàn)問(wèn)題。
2.2.4 DNS_return_ip維度分析
針對(duì)域名為(pool.ntp.org )返回return_ip變化可以看出問(wèn)題關(guān)鍵:
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 5 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為55850,其中55818次返回ip 為空,成功率非常低;7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為6279,其中6046次返回正確IP ,233次返回ip 為空,成功率比較高。
2.2.5 其它維度分析
針對(duì)CI 維度、SGW_IP維度、TAC 維度以及MME 等維度的分析發(fā)現(xiàn),在這些維度上的DNS 失敗均不存在集中性。
2.3 【問(wèn)題跟蹤】
截止7月3日下午16:30,指標(biāo)尚未完全恢復(fù),DOGSAEGW101BHw 網(wǎng)元(10.164.0.0/16)維度指標(biāo)成功有所提升,主要是域名(pool.ntp.org )的DNS 解析申請(qǐng)次數(shù)明顯下降,所以對(duì)指標(biāo)的影響有所緩解。
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 6 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
DNS 解析嘗試申請(qǐng)次數(shù)明顯下降,從7月2日30分鐘5萬(wàn)多次下降至1萬(wàn)多次。失敗占比也明顯下降。
3 GSM/TD-S網(wǎng)絡(luò)DNS 分析
3.1 【問(wèn)題描述】
通過(guò)IBS 平臺(tái)性能指標(biāo)監(jiān)控發(fā)現(xiàn),從7月2日下午18:00開(kāi)始,東莞全網(wǎng)DNS 成功率下降10個(gè)百分點(diǎn)左右。
指標(biāo)走勢(shì)如下圖所示:
同時(shí)全網(wǎng)TCP 以及GET 指標(biāo)走勢(shì)如下:
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 7 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
可見(jiàn),TCP 成功率無(wú)明顯波動(dòng),而GET 指標(biāo)則于凌晨0點(diǎn)左右出現(xiàn)下降,2點(diǎn)左右指標(biāo)恢復(fù)正常,無(wú)明顯影響。
3.2 【問(wèn)題分析】
3.2.1 LAN 維度分析
如上所示,指標(biāo)于LAN3/5均出現(xiàn)不同幅度下降。
3.2.2 GGSN 維度分析
取7月1日與2日20:00-20:30全網(wǎng)DNS 數(shù)據(jù)展開(kāi)對(duì)比分析。
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 8 of 10
,中國(guó)移動(dòng)?xùn)|莞分公司
從GGSN 維度來(lái)看,各個(gè)GGSN 成功率都有所降低,沒(méi)有集中性。
3.2.3 DOMIAN_NAME維度分析
提取7月2日20:00-20:30數(shù)據(jù),統(tǒng)計(jì)DOMIAN_NAME維度如下所示:
可以看到,失敗主要集中在域名“pool.ntp.org ”之上,統(tǒng)計(jì)期間其嘗試次數(shù)高達(dá)130多萬(wàn)次,而成功率僅為0.08,失敗占比高達(dá)25.54。
對(duì)“pool.ntp.org ”7月1日同時(shí)段指標(biāo)統(tǒng)計(jì)如下:
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 9 of 10
中國(guó)移動(dòng)?xùn)|莞分公司
可見(jiàn)其失敗次數(shù)在7月2日出現(xiàn)激增,導(dǎo)致全網(wǎng)DNS 成功率下降。
3.3 汕頭DNS 指標(biāo)走勢(shì)
汕頭同事取7月2日的DNS 指標(biāo)對(duì)比發(fā)現(xiàn)在18:30時(shí)DNS 解析成功率指標(biāo)也出現(xiàn)明顯下滑,因此可以判定為DNS 問(wèn)題,而非核心網(wǎng)絡(luò)問(wèn)題。
可見(jiàn),汕頭同時(shí)段DNS 成功率均存在下降,降幅為10個(gè)百分點(diǎn)左右。
4 結(jié)論
結(jié)合以上分析,域名為(pool.ntp.org )的用戶IP 的DNS 解析成功率都非常低, 懷疑DNS 設(shè)備中針對(duì)域名為(pool.ntp.org )的解析信息被刪除或者DNS 配置數(shù)據(jù)存在異常;建議下一步要聯(lián)系省公司檢查DNS 設(shè)置,排查DNS 解析成功率問(wèn)題。
廣東東莞端到端信令分析優(yōu)化項(xiàng)目組
Page 10 of 10