北京邮电大学图书馆资源恶意下载检测思路
摘要:近年来,高校图书馆资源恶意下载频发,一旦发现则停止整个高校的访问权限,严重影响正常用户的使用。目前,针对上述问题的解决方案对具有伪装能力的低速随机时间间隔爬虫效果欠佳。为解决以上问题,本文提出一种基于滑动事件窗口的恶意下载检测思路,把引入文本内容的主题相关性作为恶意下载检测依据。与传统的基于特征的检测方法相比较,我们的方法对低速的随机时间间隔爬虫具有良好的识别效果。
高校为了给在校师生创造良好的科研环境,投入大量资金购买电子资源,在校师生可通过授权IP/IP地址段对电子资源进行免费下载。然而当前高校恶意下载频发,电子资源商基于授权IP/IP地址段无法精确判断恶意下载用户身份,只能对违规高校立即停止其使用权限,严重影响校内其他师生对电子资源的正常使用。因此,高校迫切需要有效的图书馆恶意下载检测系统,能够早于电子资源商发现并制止恶意下载行为,识别恶意下载肇事用户,及时追责。
国内已有一些高校根据自身情况研究并实现了高校图书馆恶意下载检测系统,如:清华大学图书馆的“电子资源访问管理与控制系统”[1],上海交通大学图书馆的“高校电子资源访问控制管理系统”[2],南京航空航天大学的“基于使用控制模型的防恶意下载系统”[3],以及北京邮电大学的“基于Snort的高校图书馆恶意下载检测系统”[4]等。但上述系统都是进行基于下载频率阈值或流量阈值的检测,误报率较高,且无法分辨是由于个人的违规行为还是多人同时下载导致的。
为解决上述问题,本文针对北京邮电大学的图书馆资源访问环境,提出一种利用主题相关性对用户下载行为进行判定的思路。该思路通过联动反向代理收集用户下载行为数据,通过用户下载的所有图书馆资源间的主题相关性大小进行恶意下载检测,并通过联动校园内身份认证等系统,实现精确到人的恶意下载结果处理。
本文组织结构如下:第一部分介绍北京邮电大学图书馆资源访问环境;第二部分介绍基于滑动事件窗口的图书馆资源恶意下载检测思路,并详细阐释其实现步骤;第三部分进行实验验证;第四章对全文进行总结。
图书馆资源访问环境简介
北京邮电大学图书馆为解决图书馆资源访问管理以及用量统计分析等问题,部署了反向代理,用户对图书馆资源访问的环境如图1所示。
北京邮电大学校内用户在对图书馆资源进行访问前需要通过认证系统进行验证,登录网关并获取可用IP。随后用户通过反向代理对所需的图书馆资源进行访问。在该过程中,认证系统中存有当前所有在线用户账号及IP信息,反向代理可获取用户所有图书馆资源访问请求及图书馆资源返回的页面内容。
图 1 北京邮电大学图书馆资源访问环境
基于滑动事件窗口的图书馆资源恶意下载检测思路
本文所提出的思路是在滑动事件窗口内对用户下载的文献进行主题聚类,分析其是否主题相关,进而进行恶意下载检测判断。整个方法中数据处理的具体流程如图2所示。
1.通过反向代理收集HTTP报文及资源页面内容,获得以IP为标识的用户请求及资源主题数据。
2.与IP对应的账号关联,生成以账号为标识的用户行为数据。
3.提取主题信息,对其中的摘要进行主题句的提取,降低主题间的差异。
图 2 各步骤间的数据处理流程
4.根据用户账号构建滑动事件窗口。
5.对构建完毕的滑动事件窗口进行文献主题聚类。
6.依据聚类结果进行恶意下载判定。
以下对方法中的各关键步骤进行详细说明。
主题数据收集与用户账号映射
反向代理对接电子资源库,收集资源访问请求及资源返回的结果,从中获取请求URL相关主题信息,包括用户搜索结果、论文标题、摘要等。
电子资源库的搜索结果页以及详情页的URL是静态明文,而下载链接URL则是动态密文,且搜索结果页中的下载链接与详情页中的下载链接分别加密。本文采用通过下载链接获取相关主题信息。
1.标题获取:搜索结果页中包括标题及其对应的动态加密的下载链接。若用户直接通过搜索结果页下载,则直接获取标题作为主题。
2.摘要获取:若用户通过详情页中链接下载,则HTTP报文中的referer直接指向详情页。可通过详情页中特殊的HTML标签,获取摘要主题信息。