【摘要】:基于HADOOP(GFS、MapReduce)的云存储技术为海量存储公共服务平台提供了理想的技术支撑。基于云存储的资源库系统是以一个可自由扩展的模式存在的,可以有效支持学校、市级、省级、国家级不同规模的资源平台的建设,也可以有效地支持第三方资源的接入与整合。学校校本资源库系统呈现三大应用特点为:资源建设从“集中建设”向“群建群享”转变,从支持“以教为主”向“学教并重”转变,从“预设性资源”向“生成性资源”转变。
【关键词】:HADOOP; 分布式文件系统; 海量存储; 逻辑虚拟化; 多链路冗余
一、背景
教育信息化水平成为国家和地区教育现代化程度的重要标志,教育信息化目前已上升为国家信息化战略高度,《国家中长期教育改革与发展规划纲要》(2010-2020)中明确提出:到2020年,基本建成覆盖城乡各级各类学校的数字化教育服务体系,促进教育内容、教学手段和方法现代化。[1]面向教育行业的资源共享平台已成为教育现代化必备的公共服务设施。其核心的数据存储公共服务技术已成为影响一个国家教育信息化产业发展的战略性资源和竞争能力标志。
云存储技术为当前支持海量存储公共服务平台提供了理想的技术支撑,它是指通过集群存储技术、并行化技术以及分布式文件系统等,将网络中大量各种不同类型的存储设备通过软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储从一出现就得到业界广泛的关注和支持。具有社会化、互动化、个性化和移动化的云存储公共服务平台在未来将会成为消费级信息产业的支柱。
二、系统特点
校本资源是指由学校组织和规划的,由学校师生共同建设和维护,以满足学校师生工作学习中对教育资源的需求为目的,通过整合转换一切可以得到的教育资源而建设的能适用于本校教育教学活动的教学支持系统,是一个人人知晓、人人会用、人人会建的本土化教学教育教学资源库。
如上图所示,基于云存储的资源库平台是一个可扩展的存在,从自身讲,它可以建设校级资源库平台,也可以有效支持市级、省级、国家级大平台的建设。从与第三方关系上讲,它可以有效地支持第三方资源的接入。从理解角度讲,校本资源库平台,像一个可大可小的水桶,可以装不同量的水,以及支持不同的水桶间水的互连互通,从而建设一个更大的装水的容器。
目前国内主流的校本资源库,一般采用FTP方式、网站方式来构建,这种常规的方式存在以下的缺陷:
(1)、资源的分享过程中带来大量的病毒传播,频繁导致服务器、应用软件的崩溃而难以管理;
(2)、资源的搜集、分类、检索过程相对繁琐,资源系统的利用率低;
(3)、缺乏完善的资源备份等安全管理机制,在资源的保存过程中经常因为各种原因造成资源的丢失或者无法访问;
(4)、学校和学校之间的资源难以共享;
(5)、难以实现资源在交互利用过程中的个人共享、科组共享。
分布式资源存储技术和在线存储服务,目前在互联网领域广泛应用。著名的包括美国Dropbox公司运行的在线存储服务,通过云计算实现因特网上的文件同步,用户可以存储并共享文件和文件夹;国内的华为网盘DBANK、金山快盘以及联想的企业网盘。目前国内的用户采用云存储技术来保存以及分享个人资源的已经超过5000万人,这种存储技术的出现同时也彻底改变了传统校本资源库系统的缺陷。
基于分布式云架构的校本资源库的主要优点:
(1)、教育资源的分级存储
云存储平台可以设置资源的多级存储模式,常用的包括四级:云存储平台级资源、学校级资源、科组资源、个人资源,也可以分为三级学校级资源、科组资源、个人资源。并可根据各级不用的需求来划分资源存储空间的大小;
(2)、教育资源的跨学校、跨学科的多种资源共享模式
目前国内95%的学校在资源建设和存储中采用FTP模式或者网站建设模式,由于技术的瓶颈无法实现资源的灵活共享。校本资源服务云存储平台可以实现资源的个人资源之间的共享、学校之间的资源共享、个人资源对学科和全校、全云存储平台的共享、云存储平台资源对学校和个人的共享等多种资源共享模式;
(3)、教育资源的无病毒访问
传统FTP资源和网站资源,用户在资源上传和下载中经常会导致病毒的扩散而使系统崩溃,甚至是全校病毒的泛滥。云存储平台采用独创的病毒自过滤技术和资源分块、分布式存储技术,保证了用户在资源上传下载中不会感染病毒,保证了云存储平台资源的绿色;
(4)、教育资源的多级审核模式
云存储平台根据教育资源建设的特点,在资源共享和发布中采用灵活的创建、分享、审核模式, 云存储平台用户采用实名制;
个人和校内的资源谁发布谁负责,云存储平台不做审核,只做资源的过滤;
校内资源面向公众和云存储平台的资源发布由学校授权管理员对个人发布的资源进行审核和统一发布。
(5)、个人资源面向公众的共享和资源收集功能
云存储平台个人用户可以构建个人的资源共享目录,并设置账号和密码。该功能可以用于:
教师面对学生发布和搜集教学参考资料、作业;
教育系统的各类论文、书法等各类竞赛作品的资料收集;
教育系统的各类计划、总结的收集、管理;
(6)多副本、分布式存储技术高度保证了资源的安全性、可靠性
系统采用基于HADOOP的云存储技术,云存储透过将文件复制并且存在不同的服务器,解决了这个潜在的硬件损坏的难题。云存储知道文件存放的位置,在硬件发生损坏时,系统会将自动将读写指令导向存放在另一台存储服务器上的文件,保持服务的继续。
高可靠性。HADOOP按位存储和处理数据的能力值得人们信赖。
高扩展性。HADOOP是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。HADOOP能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。HADOOP能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 [2]
(7)基于PC、平板电脑、手机、电子白板的跨云存储平台、多终端的资源访问模式 。(如图)
(8)平台完善的资源积分制、资源评价体系
平台根据用户提交资源和共享资源以及资源分享下载的情况,构建的完善的积分体系和资源评价体系,鼓励用户自主开发各种优质资源,并培养学生搜集处理信息的能力、分析解决问题的能力以及合作与交流的能力。
三、系统设计
1、云存储平台架构
云存储平台系统架构图