简介概要

基于网页结构与语言特征的垃圾网页链接检测方法

来源期刊:东北大学学报(自然科学版)2020年第8期

论文作者:杨望 江咏涵 张三峰

文章页码:1091 - 1096

关键词:垃圾网站检测;黑色SEO;独热率;机器学习;链接注入;

摘    要:现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.

详情信息展示

基于网页结构与语言特征的垃圾网页链接检测方法

杨望,江咏涵,张三峰

东南大学网络空间安全学院

摘 要:现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.

关键词:垃圾网站检测;黑色SEO;独热率;机器学习;链接注入;

<上一页 1 下一页 >

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号