|  客服中心  |  合作联系
搜刊网
论文下载
您当前位置
首页 > 论文下载 > 政治与法律法学 > 军事教育主题爬虫的设计与实现
军事教育主题爬虫的设计与实现
来源:互联网 qikanw | 金鹏
【分  类】 政治与法律法学
【关 键 词】 主题爬虫 搜索引擎 军事教育主题爬虫
【来  源】 互联网
【收  录】 中文学术期刊网
正文:

  //这个是IDF值的计算

  for(int idfi=0; idfi

  {

  int ni=0;//how many document contains a word

  String tmpString=(String)wordOfAllDocument.get(idfi);

  for(int idfj=0; idfj

  {

  if(((ArrayList)wordOfOneDocument.get(idfj)).contains(tmpString))

  ni++;

  }

  Double dTmpdouble = new Double(1/(Math.log(nDoc/ni)+1/Math.log(nDoc-1)));

  wordIdfValueOfAllDocument.add(/*1/(Math.log(nDoc/ni)+1/Math.log(nDoc-1))*/dTmpdouble);

  //IDF 采用倒数,表明在专题训练文档中在越多文档中出现,其越重要。

  //最后利用公式算出该词在训练主题中的权重 W=Avg(tf)*IDF

  for(int tfi=0; tfi

  int tmpIndex=-1;

  int tni=0;

  double tfall=0.0;

  String tmpString=(String)wordOfAllDocument.get(tfi);

  for(int tfj=0; tfj

  if((tmpIndex=((ArrayList)wordOfOneDocument.get(tfj)).indexOf(tmpString))!=-1){

  tni++; tfall=tfall+((Double)(((ArrayList)wordTfValueOfOneDocument.get(tfj)).get(tmpIndex))).doubleValue();

  }

  }

  Double dTmpdouble = new Double(tfall/tni);

  Double dTmpdoubleElse = new Double((tfall/tni)*(((Double)wordIdfValueOfAlDocument

  -.get(tfi)).doubleValue()));

  wordTfValueOfAllDocument.add(dTmpdouble); wordWeightOfAllDocument.add(dTmpdoubleElse);

  }

  实现的流程如下,首先,CheckLinks得到一个起始的URL,在CheckLinks.run()中,新建Spider实例,把起始URL加入到等待队列中,并通过setKeyWord()方法设置主题词,setCheckRobots()、setCheckMetaTag()配置选项,程序进入正常工作。

  Spider通过getWorkloadWaiting()方法得到等待队列中的URL,调用processURL()方法对取出的URL进行处理,对此,processURL()方法内以URL为地址建立链接,取回对象通过parse.parse()方法对HTML进行解释,主要是从得到的HTML中获取新的URL并添加到等待队列中,及对主题字的匹配。经过parse返回,则从等待队列中移走处理的URL,如果没有错误,把它添加到完成队列中,否则添加到错误队列中,程序又去等待队列中取出URL,进行同样的处理流程,循环一直到等待队列为空。 3.3开发环境实验条件:搜索深度= 2 (设的较小,为了防止搜索规模过大) ,线程数= 100 (要求在网络环境较好的情况下) ,起始种子= 10 (都是经过人工选择的较好的种子) ,阈值r = 0. 6 ,中文分词主要以中科院计算所免费版的分词工具(C 语言开发) 为基础。机器配置: Intel(R)Core™2CPU T5500@1.66Ghz,内存2048MB。试验结果表明机械主题爬虫抓取网页的准确度及准确率都比普通爬虫的高。 3.4 实验结果分析实验结果分析:在实验过程中,以新浪军事网页做爬行,抓取的相关网页得分为86分,爬行效果比较理想。 3.4 实验总结及系统存在的问题爬行速度太慢,特别是对超链接较多的页面;页面内容的多少对评分有一定影响,虽然不大,但仍需考虑;若能在网页架构分析上添加一定的过滤,抓取核心内容,相信对抓取质量会有更大的提高,这方面也待改善。 l4 结束语本文通过设计一个军事教育主题爬虫从网络上收集有关理财网页(代替军队的教育网页),以解决本实验室面向军事教育主题的个性化搜索引擎的资源问题。从实验结果来看爬虫达到了我们初步的预定目标,下一步我们将不断对其进行完善以进一步提高其搜索精度及搜索速度。

  参 考 文 献

  [1]周立柱,林玲1 聚焦爬虫技术研究综述1 计算机应用1 第25 卷第9 期2005 年9 月:1966

  [2]徐远超,刘江华,刘丽珍等.基于Web 的网络爬虫的设计与实现.微计算机信息.2007,23(7):119-121

  [3[Programming a Spider in Java ,Jeff Heaton

相关推荐
热门期刊
意林《意林》
《意林》杂志,于1979年经国家新闻出版总署批准正式创刊,CN:22-1361/I,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:青春智囊、特别...
西南边疆民族研究《西南边疆民族研究》
《西南边疆民族研究》(半年刊),由云南大学西南边疆少数民族研究中心主办。创刊于2003年。2008年3月,经中文社会科学引文索引指导委员会第七次会议评审并报教育部批准...
中国海事《中国海事》
《中国海事》杂志,于1992年经国家新闻出版总署批准正式创刊,CN:11-5352/U,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:国际交流、...
经营者(汽车商业评论)《经营者(汽车商业评论)》
《经营者》杂志,于2006年经国家新闻出版总署批准正式创刊,CN:50-1018/F,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:口述历史、生...
黄金地质《黄金地质》
《黄金地质》本刊面向经济建设主战场,为黄金地质勘察、科研和生产服务。宣传勘察和科技成果,传播科技信息,介绍新理论、新技术、新方法。不断提高刊物的质量和水平,...
数学之友《数学之友》
《数学之友》杂志,双月刊,于1987年经国家新闻出版总署批准正式创刊,由江苏省教育厅主管,南京师范大学;南京数学学会主办的学术性刊物,本刊在国内外有广泛的覆盖面,题材...
友情链接
中教杯 国家新闻出版总署 中国知网 万方数据 维普网 中国科学院 中国国家图书馆 央视英文版 中国留学网 中青网 中国国家人才网 中国经济网 中国日报网 中国新闻网 中国学术期刊网
关于我们
平台简介
诚聘英才
企业文化
竞争优势
版权信息
服务条款
客服承诺
常见问题
版权声明
合作加盟
期刊加盟
广告服务
联系我们
网站导航
期刊大全
论文下载
课题申报
学术会议
编辑QQ
编辑联络
2007-2023
中文学术期刊检索机构
bianjibu777@qq.com
联系我们

版权所有©2007- 2023 中国学术期刊网(qikanw.com) All Rights Reserved 京ICP备2021008252号
本站是学术论文网络平台,若期刊网有侵犯您的版权,请及时与期刊网客服取得联系,联系信箱: bianjibu777@qq.com    
中国学术期刊网