2.网页信息抽取及预处理技术
网络信息抽取和预处理是舆情监测的关键,其抽取和处理的效果将直接决定舆情监测的效果。该部分涉及的主要技术包括网页文本信息的抽取和分词技术。
(1)网页文本信息抽取。网页文本信息抽取主要有基于模板的抽取方法和基于网页结构信息的方法两种[9]。基于模板的方法是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。基于模板的方法的特点是简单、精确、技术难度低、方便快速部署。但不同的信息源网站其网页的具体结构不同,针对不同网站制作不同的模板在信息源多样性的情况下维护量巨大,所以这种方式适合少量信息源的信息处理。基于网页结构信息的抽取方法采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。该方法可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时地生成抽取规则,完全不需要人工干预。但由于网页结构的复杂性和多样性,这种方法提取精度相对较低,技术难度较高。
(2)分词技术。自动分词是信息检索的前提。[13][14]中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的文本中,单词之间是以空格作为自然分界符的,而中文只有字、句和段能通过明显的分界符来简单划界,而词却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文相比于英文来说要复杂、困难的多。目前中国科学院计算技术研究所研制的分词系统ICTCLAS是应用较为广泛的一种中文分词技术,它基于层叠型隐式马尔科夫模型[15],包括了切分、标注、命名实体识别等功能,使用角色模型(role model)的方法进行命名实体识别,不仅有较高的分词准确率,分词效率也较好。
3.文本聚/分类技术
网络舆情分类是将收集的舆情进行自动分类,是整理和发现舆情的关键步骤,主要运用到自然语言处理中的文本聚/分类技术。文本聚/分类技术是文本过滤技术和热点生成技术的基础技术。文本分类分析新抓取到的文本以检测其与监测主题是否一致,过滤与监测目标无关的噪声数据;文本聚类用于对已有的文本集合进行聚类发现新的舆情热点。
4.话题识别与跟踪
话题识别与跟踪(Topic Detection and Tracking)是对网络舆情聚类分析后.通过算法找出热点问题,并通过算法跟踪话题发展过程,是网络舆情监测中核心技术。话题识别与跟踪研究始于1996年美国DARPA提出一种能自动确定新闻信息流中话题结构的技术,从1998年开始.DARPA和NIST资助并主持了话题识别与跟踪系列测评会议。目前,主题检测与跟踪研究集中于五个子任务展开.各个子任务的解决将有助于最终研究目标的实现。这五个子任务包括:对新闻报道的切分子任务(StorySegmentafion)、新事件的识别子任务(NewEventDetecfion,FormerlyFirstStoryDetection)、报道关系识别子任务(St0ryLinkDetection)、话题识别子任务(T0picDetection)、话题跟踪子任务(Topictracking)。其中话题检测和话题追踪是核心问题[16]。话题跟踪主要任务检测出与某一已知话题有关的新报道,话题跟踪的相应研究已经取得很好的效果。但如何更有效地追踪话题的后续发展仍然是该领域有待深入研究的课题。
5.文本情感分析
文本情感分析,又称文本倾向性或意见挖掘(Opinion Mining)),是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析是自然语言处理技术中新兴的研究课题.具有很大的研究价值和应用价值。目前正将其应用于网络舆情监测系统中。
高校校园网络舆情信息监控体系的建立
高校网络舆情是高校大学生的“晴雨表”[17],对建设和谐校园有着重要意义。高校网络舆情监控是加强校园综合治理、维护校园稳定、建设和谐校园的重要方式和重要途径。如果校园网络舆情监控不当将对校园的稳定造成负而影响。目前,国内大多数高校的网络舆情监控、引导和联动应急机制还不够完善,在这样的现实条件下,负面的网络舆情对大学生的价值观、道德观等的形成有着很大的影响,一日发生校园舆情危机,如果不能及时采取有效措施加以引导,往往容易引发群体性事件或者恶性事件。因此,只有建立起完善的网络舆情监控体系,才能密切关注校内网站、论坛、博客以及QQ群等言论,及时了解大学生思想动态;才能使高校网络舆情趋利避害,充分发挥其正面效应;才能防患于未然,提高应对舆情突发事件的能力,保障校园舆情安全,维护校园稳定。
加强高校大学生网络舆情的引导和管理
加强大学生网络舆情监控,“引导”是重要方法之一。在网上开展舆情引导工作,要针对性地研究网络舆情的形成和传播规律。一是寻求有效的舆情引导方法和手段,通过分析大学生的网上心理特征和心理需求, 准确掌握大学生对焦点问题、敏感问题的关注规律, 尊重主体言论的自主性,讲究引导策略、引导艺术和引导效果,从多元化的舆论中寻找共同点, 发现积极因素,使网上舆情的引导工作更具针对性;二是把学生干部和学生党员组织起来, 积极参与校园BBS 热点话题的构建和讨论,形成良好的群体共鸣,实现对校园网络话题内容的有效影响;三是在具体的引导工作中,要宣传高校的相关政策,并及时解决存在的问题,比如说,认真做好贫困学生的资助贷款,毕业生的就业指导、推荐就业及大学生的后勤服务保障工作。此外还要不断改进大学生思想政治教育工作方法,构建开放的思想政治教育模式,利用校园网作为教育阵地,加强大学生网络法制教育和网络道德教育,给予学生更多的选择权和承担责任的机会,培养学生选择能力,在网络上不迷茫和盲从,引导学生自教自律。
健全高校网络舆情监控机制
高校网络舆情监控机制是监控校园网络舆情信息的工作制度和方法。主要包括以下几方面:一是建立网络舆情信息监控领导小组,由主管的校级领导、宣传部门负责人、校园网络部门负责人、学生工作部门负责人及各院系分管学生工作的领导组成。是校园网络舆情的决策机构;二是建立网络舆情信息监控工作组,由校园网管中心技术人员、各辅导员、主要的学生干部组成。通过网络舆情信息监测技术定期排查校内网站的论坛区、博客及主要新闻留言板等大学生网民工作区,及时汇集、整理、分类和分析,如果发现有不利于校园和社会稳定的虚假的或负面的舆情,要及时反馈到网络舆情信息监控领导小组,以便及时应对,维护校园的和谐和稳定;三是建立健全网络舆情监控保障制度,保障工作场所、设备设施、资金费用、人员配备全部到位,能够积极开展工作;四是根据国家有关互联网管理的有关法规,切实做好校园网站和网络用户的登记、备案工作,实行用户实名登记制度,规范管理。[17]