正文:摘 要:
Web文本挖掘在现今各行业中越来越受欢迎,而基于文本的地理空间数据的挖掘与可视化还是一较新颖的研究领域。本文在综述文本数据挖掘研究现状的基础上,提出了基于传统文本的地理空间数据挖掘应用模型,利用Arcview作为构建模型的基础平台,实现了基于文本的地理信息的可视化,和历史景点相关属性信息的查询。
本文选取庐山“山北第二路”作为文本数据挖掘模型的应用实例研究。首先将文本格式的《庐山志》中与“山北第二路”相关的内容转换成电子文档,并进行必要的预处理,在此基础上,建立包括试验区主要景点及其空间关系在内的数据字典,同时按照点、线地物的分类进行编码,绘制草图,设计空间数据库框架;在准备好数据库表格后,利用Arcview3.2软件,绘制主要景点的点、线类图形,并载入空间属性库。试验模型系统具有历史地物景点的分类、统计与显示查询等功能,并可以与现代景点进行对比分析。论文最后对此模型的不足作相关分析,进而提出改进建议。
关键词:庐山山北第二路;文本挖掘;数据字典;查询
中图分类号:N37
1. 引 言
随着信息社会的迅速发展,地理信息科技文献管理、分析与利用的发展处在一个比较尴尬的境地。一方面,文献的数据量随着时间的推移高速增长,新的理论和方法层出不穷,为管理问题的解决带来勃勃生机。另一方面,文献数据量的增长、文献资料种类多样,时代背景和词意表达方式(特别是文言文)的多意等,理解这些海量数据所表明的含义变得异常困难,面对浩如烟海的电子资源、历史文献、报刊杂志、诗词歌赋等无法快速、准确地有效利用,更无法通过目前的分析方法迅速了解某个地理信息管理领域的发展状况
[1]。
2. 文本挖掘与空间数据挖掘技术
2.1 什么是文本挖掘
文本挖掘的定义
[2]:指借鉴数据挖掘的基本思想和理论方法,从大量非结构化、异构的文本文档的集合D中发现有效的、新颖的、潜在可用及最终可理解的知识 K(包括概念Concepts、模式Patterns、规则Rules、规律Reqularities、约束Constraints及可视化Visualizations)等形式的非凡过程。这是一门交叉性学科, 涉及数据挖掘、模式识别、人工智能、统计学、神经网络等多个领域, 目前的文本挖掘主要是基于Web平台进行的。



图 1 文本挖掘的流程图
2.2 空间数据挖掘技术
由于空间数据种类复杂,特征多样,多维尺度处理的困难,针对于空间数据的数据挖掘不多。但随着空间数据搜集的急剧增加,对空间的分析也越来越迫切,特别是空间信息系统的发展,如GIS空间技术的发展,使得空间数据挖掘方法成为趋势
[3]。
空间数据挖掘技术( spatial data mining, SDM)是数据挖掘技术( data mining)的分支。空间数据挖掘
[4],是指从空间数据和其关联的属性数据中提取潜在的、有价值的、带有空间特性的数据关联规则,以及可能隐含的普遍的数据特征。为解决共享GIS系统中的数据,以及空间数据挖掘问题,目前主要有2种技术解决方法:松散耦合与紧密耦合。
(1)松散耦合式
GIS完成空间数据管理,在GIS外部,用户利用其他开发平台开发的软件管理属性数据库,进行空间数据挖掘,通过动态数据交换和中间库进行系统的数据通信。

图2 松散耦合式空间数据挖掘系统框架图
(2)紧密耦合式
运用通用数据库开发平台,采用OCX插件技术,嵌入GIS空间数据管理控件,并应用软件技术,将空间数据挖掘方法融合到系统的数据分析功能中去。图3为基于扩展数据库管理的GIS(采用OCX插件)与空间数据挖掘方法紧密耦合集成模式框架图。

图3 紧密耦合式空间数据挖掘系统框架图
3. 空间数据挖掘应用模型的实现—以《庐山志》为例
3.1 模型设计思路
迅速变化的事物具有不可预知性,因此,对一事物的简短描述会产生扭曲的图像。该设计主要包括四部分:
第一部分,文本挖掘预处理过程。首先,将《庐山志》山北第二路的PDF文档转换为TXT文本,建立语料库,然后进行空间数据挖掘,创建数据字典
[5]。
第二部分,数据采集预处理过程。采集庐山旅游线路图片信息;在ArcView3.2中对出现在《庐山志》山北第二路上的著名历史旅游景点的源数据进行矢量化,并编辑地物的属性,形成shape文件。
1/4 1 2 3 4 下一页 尾页