jsp获取扫描信息Web日记剖析二之扫描IP标志办法

随着互联网技能的发展与遍及，企业网站每天吸收各种正常或者非正常要求。
如果不能有效识别非正常要求并实行适当的防护策略进行掌握，则将影响网站的正常运行，乃至造成企业的经济丢失。

面对逐日产生的TB级别、条款达百亿级别的海量日志，如何挖掘个中非正常访问的行为特色，是慧御产研线一贯不断探索的方向。

上文基于对海量日志的挖掘和关联剖析，探索了针对恶意爬虫的特定访问行为，通过要求UA、IP、韶光粒度三个维度进行特色提取和识别标记来剖断恶意爬虫IP。
本文将连续探索针对扫描行为IP进行特色识别和标记。
Web扫描行为的目标是检测网站是否存在潜在有危险的Web漏洞，扫描行为可能来自Web攻击者，也可能来自监管单位。
由于这类扫描行为会在短韶光内进行大量要求，增加网站不必要的资源花费和压力，对付网站来说，存在网站管理职员操作缺点导致网站涌现Web漏洞进而被有心者利用的情形。
因此，对付网站来说，如果能够主动识别和拦截扫描行为，能够极大降落网站漏洞被创造概率和被利用风险，同时还能够降落被监管单位通报的风险。
目前网络上存在各种开源、商业化Web扫描工具，以及利用脚本扫描的网络安全研究者。
一样平常扫描行为紧张分为两种：一种是先爬取网站再通过字典创造漏洞，一种是直接基于字典创造漏洞。
本文紧张探索针对基于字典进行扫描的特色识别和IP标记。
对任一网站来说，其利用的Web做事端开拓措辞、开拓框架是确定唯一的，比如JSP/ASP/PHP；利用的Web做事器、中间件也是确定唯一的，比如IIS/Apache/Nginx。
无论是Web开拓框架还是Web做事器、中间件，已发布的版本中均会存在一些已知或未知的可被利用的Web漏洞。
扫描行为会通过内置Web开拓框架或Web做事器、中间件的漏洞列表，对网站进行测试和漏洞创造（如图1所示）。
同时，扫描行为还会通过网络的各种漏洞，如敏感目录或者敏感文件(如.bak .sql)，对网站进行漏洞测试和创造（如图2所示）。
通过慧御的历史日志剖析创造，每个网站利用的资源文件类型都是确定的（如图3所示）。
图1 某IP针对Web做事器扫描行为
图2 某IP针对敏感文件的扫描行为
图3 Web网站的资源文件类型
基于上述剖析，我们可以创造网站一样平常具有以下特色：
具有特定且唯一的Web措辞干系的资源文件（如.php .asp .jsp）资源文件列表是确定的分外敏感的资源文件一样平常是不须要对外访问的（如.sql .svn）
基于以上特色，慧御产研线研究了一种针对Web扫描行为进行识别和标记的方法，基本过程如下：
通过慧御累积的历史日志、防护日志以及网络的各种扫描器特色，按照资源文件类型归类划分危险等级（高、中、低危）；通过历史日志剖析，获取每个网站专属的正常相应的资源文件列表；针对每个IP访问的资源文件进行实时统计剖析；根据上述特色1，如果IP同时访问了多个Web措辞干系的资源文件，比如既访问了.php又访问了.jsp，则认为当前IP有较高的扫描行为嫌疑；根据上述特色2、3，结合各个资源的风险等级，如果IP访问的各个风险等级的资源文件达到慧御内置的一些阈值条件，则认为当前IP有较高的扫描行为嫌疑，如IP访问了.sql .svn这类高危资源文件，则认为当前IP有扫描嫌疑。
慧御云防护通过实时标记具有上述扫描行为特色的IP创造，慧御云防护平台上每分钟都有发生针对部分网站的扫描行为。
慧御已累计标记20W+的具有扫描行为的IP，为验证标记IP的行为，慧御通过人工日志审计，确定标记的IP确有扫描行为，同时用标记IP在IPIP.net上查询，确认对应IP的风控信息为非正常IP（如图4所示）。
图4-1 标记的扫描行为IP
图4-2 标记的扫描行为IP
慧御云防护对该类扫描特色行为IP的防护建议是：拦截。
本文通过日志剖析，基于网站特色和扫描行为特色研究了一种基于要求资源文件特色识别扫描行为的方法。
当然，本文列举的方法并非能够识别所有扫描行为，对付其他特色的扫描行为，慧御产研线仍在持续剖析和总结，以便为用户供应更好的防扫描做事。