基于DOM的维普文献信息智能提取系统设计与实现 下载本文

图 4-8 web爬虫设置效果图

4.2. 爬虫实现

爬虫是采用多线程设计,大多数操作都由子线程完成。爬虫所有操作消息都会在记录进日志,部分操作消息会在主线程界面上展示。 4.2.1. 效果图

图 4-9 爬虫运行效果图

34

4.2.2. 效率

经个人测试,爬虫效率在网络情况好的情况下,单个线程每秒可完成1次搜索,收录20条记录。由于执行需要大量访问网络以及解析返回信息,普通电脑10个线程以内不会影响电脑正常使用。

5. 结论

本文的设计灵感来源于在一次帮助本校图书馆进行维普收录时产生的,所以着手设计了这一系统;通过本文的分析与设计,最后实现的效果达到了预期效果,可以大大的提高维普文献信息的收录效率,摆脱了人工进行收录的繁琐、效率低的方案,实现了更为智能、低成本的收录。当然,本文只是针对维普专网的信息提取,远远没有达到更加智能以及更高效的Web信息提取,同时也期待自己在以后的工作学习中实现这一点,设计并开发出更加优秀的Web 信息提取系统。

35

参考文献

[1] 赵茉莉.网络爬虫系统的研究与实现[D].电子科技大学,2013.

[2] 邢瑞川,安世奇,疏学明.多线程技术在数据采集中的应用[J].包头钢铁学院学

报,2001,02:157-160.

[3] 苟全登.基于XML的半结构化Web信息提取的研究[D].电子科技大学,2006. [4] 杨小虎.Web页面正文信息提取算法[D].广西师范大学,2013.

[5] 郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研

究,2009,02:570-572+582.

[6] 肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应

用,2013,09:60-63.

[7] 王晶,温向彬.利用jQuery操作HTML元素[J].农业网络信息,2008,04:98-99+101. [8] 赵增敏,李惠敏.基于jQuery框架的Ajax应用开发[J].制造业自动化,2012,19:18-20. [9] 胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报(自

然科学版),2011,06:86-89.

[10] 张丽.使用PHP和MySQL进行Web开发[J].电脑知识与技术,2006,26:185-186.

[11] 崔朝霞,张文婧,张准,付丽群.基于.NET的多线程编程设计与实现[J].数字技术与应

用,2014,05:163.

[12] 李文.Web信息提取技术研究与应用分析[J].电子技术与软件工程,2015,03:15.

36

致谢

感谢大学四年各位老师的辛勤培养,感谢专业老师带领我进入编程的世界,体验到编程的无穷乐趣,同时感谢大学四年中帮助过自己的亲朋好友。最后向提供开源技术的开发者致谢,得益于开源技术实现了本系统。

37

源代码

Coding:https://coding.net/u/nener/p/CrawlerForWp/git Github:https://github.com/MrNener/CrawlerForWp

38