更新时间:03-22 (周老大)提供原创文章
摘要:在网站建设中,为了用户使用网站便利,建立了搜索引擎这一功能,同时搜索引擎也成为研究网站用户行为的有效工具.高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售.
本文基于搜索引擎的原理和各大电子商务平台站内搜索引擎的广泛应用开发一个简单的站内搜索引擎,通过此设计达到对站内搜索这一应用的了解以及开发过程的熟悉,并对安全问题作初步讨论.网站首页应包含简洁、醒目的搜索框,用户直接在搜索框中键入查询关键字,点击确认或回车后,网站应能够快速响应请求,并将符合用户搜索的结果通过网页形式反馈给用户.其中对用户输入的内容,系统应该有一定的中文处理能力.中文分词是中文信息处理中最重要的预处理,由于汉语的语言特点,必须利用分词技术进行中文词的提取,再根据词典进行词语匹配.影响信息处理最重要的指标是分词的速度和精度,各种分词算法的分词速度和精度不尽相同,本设计实现一种中文分词技术,使用RMM(Reverse directional maximum matching method, 逆向最大匹配分词算法)来处理用户输入的中文语句,将数据库中含有分词结果关键字的内容反馈给用户,其中数据库中的内容是预先处理好的网络内容.此设计应该能计算出每次查询的用时,以此判断搜索的速度,展示分词,以判断分词的准确率和系统的字符串处理能力,系统的中文词典应具有一定的储词量,词量的大小影响系统的查词精度.
系统对网站常见的SQL(Structured Query Language,结构化查询语言)注入攻击方面做了一定的讨论.SQL注入是利用PHP(Hypertext Preprocessor,超文本预处理)和ASP(Active Server Page,动态服务器页面)脚本语言的漏洞进行的攻击。本文基于PHP脚本语言,攻击者将攻击SQL与正常SQL相结合,形成语法正确但有害的SQL语句,服务器执行这样的语句后,攻击者就可以非法获得用户权限,获取、修改或删除数据库数据,从而达到攻击目的。本系统对常见的SQL注入进行分析比较,介绍SQL注入的原理,比较现有的注入攻击的防范方法,并实现其中一个.
本文的主要技术资料有,《浅析现代网络搜索引擎技术》,《基于逆向匹配算法的中文分词技术》,《正则表达式》,《PHP防止SQL注入的研究》.《浅析现代网络搜索引擎技术》一文介绍了现代搜索引擎的现状,《基于逆向匹配算法的中文分词技术》讲解了RMM中文分词算法的基本原理和实现算法,本文所设计的系统的核心就是基于这种算法,《正则表达式》讲解如何用模式匹配方法对用户输入的字符串进行最初的字符处理,例如过滤标点符号等,《PHP防止SQL注入的研究》,介绍了几种常见的SQL注入方法及防范措施.
关键词:站内搜索;RMM;中文分词;SQL注入
目录
摘要
Abstract
第1章 绪论-1
1.1 课题背景及发展状况-1
1.1.1 课程背景-1
1.1.2 发展概况-2
1.2 本文主要工作及结构-3
第2章 系统的总体结构设计-5
2.1 需求分析-5
2.2 可行性分析-5
2.3 总体设计-6
2.3.1 数据库模块-6
2.3.2 功能模块-7
第3章 系统的详细设计与实现-11
3.1 数据库模块-11
3.2 功能模块-11
3.2.1 RMM分词算法简述-11
3.2.2 功能实现-12
第4章 系统测试结果与分析-21
4.1 系统测试-21
4.1.1 测试环境-21
4.4.2 测试过程-21
4.2 测试结果分析-27
第5章 结论与展望-29
5.1 结论-29
5.2 不足之处及未来展望-29
参考文献-31
致 谢-33