又一次与网络病毒交手
一、背景
公司的网络在前段时间非常不稳定,早上上班的时候会有打不上卡和无法浏览网页的情况。白天也会偶发网络阻塞,经测速,下行速率砍半,上行速率几乎为0。 起初以为只是电信线路故障与园区早晚高峰网络拥堵所致,但是时间持续之久与频次之高实在令人乍舌。在领导与人事抱怨很多次之后我开始逐渐重视起这一问题。
凭借多年来的经验,我设想了以下几个原因并开始一一排除:
- 园区电信线路故障或被限速
- 早高峰设备接入量、并发量高,超出机房设备承载极限
- 随着公司人数增加,AC与AP过载
- 春夏气温回升,机房设备温度过高(有几台设备是依靠被动散热,确实有过热降频风险)
二、尝试解决
1.更换线路
原先公司接入的是电信200M
的公网宽带,上行只有30M
,而且这片园区大多用的都是电信,早高峰波动的确很大。于是在跟领导简单商量之后直接更换为了联通1000M
的宽带,上行速率直接达到了100M
。
这里吐个槽,联通工作人员太会挑时间了,等了一上午不见人影,离中午快下班的时候火急火燎过来两个师傅。我陪他俩加班干了一个中午,饭都没吃上热乎的,饿死我了。
更换线路的确有用,但是不大,因为第二天早上又出现了阻塞现象。
2.监控机房设备
机房大部分的设备的确性能已经不佳,但是令我疑惑的一点是近期公司并没有大量人员入职,并发量也没有出现激增的情况,怎么会在近期突然频繁卡顿呢。在设备后台监控2天有余以后,我否决了这个因素,因为硬件性能根本一半都没吃满,温度更是无稽之谈。
3.更换AC、AP
公司的AC一直都有个问题,那就是吞掉了将近一半的网络带宽。起初因为AC网口较多,我将AC作为三层交换机来使用,一开始以为是因为AC承载能力不够所以导致出口带宽削弱了一半,但是当我拔掉所有不必要的跳线以后,单独测试AC仍然只能在局域网跑到一半的速率。索性直接向公司提预算换掉了AC与AP设备。
AC选用的是H3C小贝优选RT-UR7208-P-E
,AP选用的是H3C EWP-UAP673
。最高带机量300,也足够公司使用了。换掉之后局域网速率确实跑上来了,也没有再出现之前吞掉局域网一半带宽的情况,但是网络阻塞情况仍然会发生。
所以问题到底出在哪?
三、Clash端口暴露
硬件排查过之后,我开始将目光聚焦到软件上。在旁路由上查了查目前全公司的流量出口,上行流量较往月异常增加了20%~30%
(其实上下行流量当时拜托电信师傅帮忙在电信后台查了一下,但是师傅告诉我并没有问题,于是我在一开始也就疏忽了这一点)
在观察到上行流量异常后,我开始在局域网逐个排查哪个IP出现了异常情况,起初以为是内部有人在利用公司宽带跑P2P
或PCDN
,但是一顿排查下来局域网IP并没有发生上行异常占用的问题,反倒是Clash服务列表里面多了几个公网IP。通过IP反向查找域名,我发现这几个IP大多是俄罗斯那边的TV公司。带着Clash
、上行流量异常
、俄罗斯
等关键词,我在Github上检索到了这样一篇求助帖。这里贴出原帖链接供大家参观
https://github.com/vernesong/OpenClash/issues/2629
看到这里我恍然大悟,公司的旁路由是作为DMZ主机来使用的,因此有许多端口暴露在公网,这次的异常上行带宽事件很大概率是被爆破病毒扫描到端口开放,从而使旁路由被当作跳板机或加速机来使用。于是我将7890端口关闭,且设置了防火墙规则仅允许局域网设备出口。在观察上行流量后,从8-9M/s渐渐的降为200Kb/s~2M/s,同时测速网站显示上下行带宽已恢复为正常,Clash中出现的莫名的俄罗斯IP也消失了。
所以这次的事件就暂且告一段落。
https://www.xiaohanwu.com/thinking/66276cf3176d45931ddc9e21
四、结语
虽然这次事件并不是病毒感染,只能算是网络漏洞,但是漏洞最终使用方竟然是俄罗斯一家规模较大的TV服务商,不得不让人联想到TV服务商与黑客勾结来获得大量非法网络CDN加速服务。
纵观国内也有许多不知名且号称免备案的“高防CDN”,其因价格低廉且免备案因此受到很多站长的推崇,当时因囊中羞涩也差点考虑这些不知名的CDN服务,然而这次的病毒事件让我对这些小CDN服务有了全新的看法。