面对IDC机房带宽流量暴涨应该怎么办-e路由器网

【实际案例一】

凌晨3:00点某公司(网站业务)的一个IDC机房带宽流量突然从平时高峰期150M猛增至1000M，如下图：

该故障的影响：直接导致数百台服务器无法连接，该机房全部业务中断。

【实际案例二】

某年某月某日夜老男1孩接到学生紧急求助，公司网站(web游戏业务)平时几十M带宽，结果突然跑满100M，持续100M已经很久。事后，该学生的总结开头如下，

凌晨一点接到报警短信，网站无法访问。立马拿起笔记本上网查看，发现整个机柜的网络都无法正常访问。第一感觉是不是IDC网络出问题了，给机房打电话反馈回来的信息是机房网络正常，但是带宽流量异常(100M带宽的流量峰值已跑瞒)。

该故障的影响：直接导致数十台服务器无法连接，该机房全部业务中断，且故障持续时间长。

【实际案例三】

某月某日，接到运维的朋友紧急求助，其公司的CDN源站，源站的流量没有变动，CDN那边的流量无故超了好几个G，不知道怎么处理? 老男孩补充，曾遇到过一张图片不到一天，跑了20多T的一张流量。

该故障的影响：由于是购买的CDN，虽然流量多了几个G，但是业务未受影响，但是，这么大的异常流量，持续下去可直接导致公司无故损失数万元。解决这个问题体现运维的价值。

2、【分析问题】

　　1)IDC带宽被占满的原因很多，常见的有：

　　a.真实遭受DDOS攻击(遇到过几次，造成影响的不多见，其中还有黑客勒索的案例)。

　　b.内部服务器中毒，大量外发流量(这个问题老男孩接警5次以上)

　　c.网站元素(如图片)被盗连，在门户页面被推广导致大量流量产生(接警3次以上)

　　d.合作公司来抓数据，如：对合作单位提供了API数据接口(有合作的公司的朋友了解这个)

　　e.购买了CDN业务，CDN猛抓源站(这个次数也不少)。

　　f.其他原因还有一些，不普遍就不提了。

　　2)CDN带宽异常，源站没异常。

　　这类问题基本都是缓存在CDN的数据被频繁访问引起的。解决方法见结尾案例。

　　3) CDN带宽异常，源站也异常。

　　可能原因如公司做推广，大量数据访问，热点数据cache里不全。或CDN问题导致数据回源(有关CDN回源率问题及提升回源率经验，以后再和大家分享)。影响就是带宽高，后端静态服务器及图片及存储压力大。

3、【解决问题】

　　分析了问题的可能原因，就好比较排查了。

　　a.真实遭受DDOS攻击

　　b.内部服务器中毒，大量外发流量。

　　这个问题的解决比较简单，可能有的朋友说，看看服务器流量，哪个机器带宽高处理下就好了。其实不然，实际解决比这复杂得多，带宽打满，所有监控都是看不到的。

　　比较好的思路，是联系机房确定机房自身无问题后(机房一般没法帮我们的)，请机房断开连接外部IP服务器的网线，如负载均衡器，仅保留VPN SERVER，然后断掉内部服务器出网光关的线路，切断外发流量源头。

　　接下来查看监控流量服务，判断外发流量的服务器，然后进行处理。

　　其实，这个问题的发生及快速定位和很多公司的运维规范、制度关系很大，老男孩在给一些公司做运维培训分享时发现这个问题很严重(表象很好，内部运维规范、制度欠缺很多)，大家都讨论的很深入，实际用的还是和聊的有差距。。

　　比如有的公司开发直接FTP连接随时发布代码，或者由开发人员负责定时多次上线。而运维人员又不知晓，结果导致问题发生定位时间长，这点建议各公司的老大多思考下。

　　老男孩的运维思路是，如果把网站机房比喻为一座房子，那首先要堵住后门(内部)，其次是监控好前门(做好安全，留个小窗户给外面人看，即80端口服务，同时安排站岗值班的)。

　　网站的无休止的随时随意发布代码，对网站的稳定影响是至关重要的。对运维人员对故障的定位快慢也很关键。根据老男孩不完全调查，约50%以上的重要运维故障都是程序代码导致的，这也是老男孩给企业做培训分享时，灌输建议CTO的，多把网站稳定的责任分给开发，而不是运维。如果这个思想不扭转，网站不稳定状况就难以改变。