基于Simhash的SQL注入漏洞检测技术研究
文档并进行分词处理,然后使用SimHash算法计算出被分词后的文档的特征值,最后对网页间的特征值进行比较,以判断网页是否相同。2.1 HTML文档分词处理HTML是一种用于描述网页文档结构的超文本标记语言,它通过标记符号来标记要显示在网页中各个部分的内容,每对符号表示不同的意义,用来将网页分成不同的逻辑结构。由于SimHash算法计算特征值的单位是字符串中的一个个词,因此要计算出服务器返回的HTML文档的特征值,就需要对该文档根据HTML格式和分隔符来进行分词操作,将一整段字符串拆分为以词为单位的序列。2.2 SimHash算法计算特征值在得到一个经过分词的HTML文档后,就可以使用SimHash算法来计算该文档的特征值了。该算法首先计算文档中每一个词的哈希值并将它们关联到一个多维向量上,再将这个向量降维为一个固定位数的二进制值来作为特征值代表该文档。对于一个被分词后的字符串数组A,使用Simhash算法来计算它的精度为f的特征值的伪代码如下:1: m←length[A]2: for i←1 to f3: do V
<<上一页 下一页>>
广州市越秀区图书馆版权所有。
联系电话:020-87673002
本站访问人数: