基于智能数据采集与处理的教育信息融合方法研究

来源：职称驿站所属分类：电子技术论文发布时间：2020-12-30 08:58:27浏览：次

　　摘要：针对教育资源数据量庞大，教育信息处理耗时长、资源消耗大的问题，文中提出一种基于智能数据采集与处理的教育信息融合方法。该方法将不同的教育信息表示为元数据，构建元数据关系映射表，实现数据间的关联与映射，并最终使用Protege软件来自动构建教育信息的本体库。通过对教育信息本体进行规范化表示与操作，使用语义本体对不同教育信息进行融合，得到精简后的教育资源本体库。基于朴素贝叶斯的数据推荐算法的数据测试验证结果表明，文中所提方法能保证教育信息的准确性。

　　关键词：教育信息; 智能数据采集; 元数据; 本体库构建; 数据融合; 数据测试

　　中图分类号： TN919?34; TP273 文献标识码： A 文章编号： 1004?373X(2020)24?0140?04

　　《电子技术与软件工程》创刊1994年，半月刊，是由中国科学技术协会主管、中国电子学会主办的中国国内外公开发行的国家级期刊。

　　Research on educational information fusion method based on intelligent

　　data collection and processing

　　XIAO Zhiliang

　　(Fujian Agriculture and Forestry University， Fuzhou 350002， China)

　　Abstract： In allusion to the problems such as huge amount of educational resource data， the long time consumption in the educational information processing， and large resource consumption， an educational information fusion method based on intelligent data collection and processing is proposed. In this method， the different education information is represented as metadata， and the relational mapping table of metadata is constructed to realize the association and mapping between data. The ontology base of education information is constructed automatically by using the Protege software. According to the standardized representation and operation of educational information ontology， the semantic ontology is used to fuse different educational information to obtain the simplified educational resource ontology base. The data testing verification results of data recommendation algorithm based on Naive Bayes show that the proposed method can ensure the accuracy of education information.

　　Keywords： educational information; intelligent data collection; metadata; ontology base construction; data fusion; data testing

　　0 引言

　　隨着互联网技术与信息技术的快速发展，教育领域也逐渐开始结合网络技术与信息技术开展教学和课程管理工作[1]。将教师信息、学生信息与教学活动信息等以电子表格、文档与多媒体的形式进行发布和管理，从而有效地解决复杂且大量的教育信息重复使用与统一管理的问题[2?4]。

　　目前，教育信息主要包含题库、网络课件、文献资料与网络课程等数据，这些数据的属性大致可以分为必须数据元素、可选数据元素与分类数据元素三类[5?7]。必须数据元素为各类型数据必须具备的属性标注;可选数据元素为各种教育资源所具有的普适性属性的集和，此类数据可根据用户需求选择性地进行使用;分类数据元素是在教育资源分类需求基础上，构建的能突出各类数据自身特点的属性。

　　针对这些数据属性，可以对各种教育信息使用统一的编码与存储格式，包括TXT、CAJ、PDF、HTML等[8?10]。然而在实际操作过程中，越来越多的教育信息存储在教学管理系统中，导致对教学数据的查询与检索困难[11]。如在图书馆大量购进新文献与新书等情况下，由于系统存储量增加与使用频率急剧增长而导致的系统崩溃和故障频发等问题，严重影响着图书管理工作的进度和效率[12?14];在教育信息管理系统中包含了大量以网页与表格形式存储的教育信息，存在诸多的重复与冗余数据[15?16]。

　　针对上述问题，本文提出一种基于本体的异构数据融合方法。该方法通过智能地采集与处理教育信息来实现大量教育数据的共享与复用，从而提高教育信息管理的质量与效率。仿真测试与实验结果表明，所提出的方法能有效地降低数据与数据间的关联性，提高数据处理的质量与速度。

　　1 教育信息本体和元数据构建

　　由于教育资源数据量较大，因此文中使用元数据来描述教育信息资源的基本特征与各数据间的关联关系，以便于各教育信息能被计算机系统识别与编码。元数据通过加入更多的约束条件以求更准确、更具体地描述数据信息，即各数据信息包含了各种元数据，数据本体可以根据相关数据的抽取来获得多种元数据。因此，使用元数据可以方便地实现不同教育信息间数据通信。本文使用“五步法”构建教育资源本体并建立元数据间的联系，具体包括元数据抽取、元数据关系构建与本体构建3个步骤。

　　1) 元数据抽取。教育信息元数据的属性由属性名称、属性定义域与属性值域三种内容构成。本文根据教育部在2017年颁布的《基础教育教学资源元数据》标准设定了20种元数据，包括：教学资源名称(Title)、揭示教学资源内容关键意义的名称(Proper Title)、教育资源编目方案名称(Catalog)、学习对象标识符(Entry)、资源名代替写法(Alternative Title)、资源所使用的语言(Language)、资源简介(Kescription)、资源所包含的关键词(Deywords)、资源与教材的对应关系(Code)、专题讨论的题目(Special Subject)、资源所设计的地理、文化与时间范围(Coverage)、资源的数据类型(Format)、资源对技术的需求(Technical)、资源的实际大小(Size)、资源所需的软硬件技术(Requirement)、资源在系统中的存储位置(Location)、资源的种类、聚类层次和一般功能范畴(Resource Type)、能体现学生合作性、探究性与自主性的学习行为(Learning Mode)、资源的适用范围(Applicability)。

　　2) 元数据关系构建。在得到教育资源的本体表示后，需要建立不同资源间的关系来组织各教育资源。根据实际需求，本文使用对象属性建立元数据间的关联关系。由教育资源的特点可知，不同教育资源存在版本关系、参考关系与部分包含关系。因此，本文抽取出了表1所示的对象关系属性及其对应的公理。

　　由表1可知，对于教育资源a、b与c，及其对应的属性p与q，当p具有传递性，p与q互逆，则根据传递性规则有教育资源a与c均具有属性p。当教育资源a与b以及b与c均为包含关系时，教育资源a与c也具有包含关系;教育资源a与b具有同义关系时，教育资源b与a也具有同义关系。

　　3) 本体构建。教育资源本体构建即通过对该教育数据的属性及其层次关系进行分析与组织，来提高数据的处理效率。文中使用步骤1)与步骤2)所介绍的元数据的属性及其关系来构建教育资源本体，通过语义属性与不同语义间的相似性进行关联匹配，实现教育信息本体间的映射，最终构建出教育信息本体。本文使用Protege软件来自动构建教育信息本体库。例如，对于计算机原理课程，本文使用Protege软件构建出的信息本体将课程信息分为概论、硬件结构、CPU与控制单元4个类别，且在各个类别下又包含不同数量的子类。

　　2 教育信息融合

　　信息融合即对不同数据进行统一处理与操作，得到其规范化表示。本文将教育信息规范化处理为元数据，经知识映射后统一存储在本体库，形成知识资源。本文使用这些元数据对教育信息进行融合，具体过程如图1所示，包括数据采集、数据抽象与数据融合3个步骤：

　　1) 数据采集即通过人工获取与外部数据库转入的方式采集教育信息;

　　2) 数据抽象即采用第1节介绍的元数据标准与属性提取方法将教育信息表示为元数据;

　　3) 数据融合即通过对元数据进行语义分析与本体映射，实现不同数据的融合。

　　由于不同教育信息通常具有不同的格式与数据结构，难以实现数据本体间的互操作，从而制约了不同领域教育信息的关联性。使用语义本体对不同教育信息进行融合，则可实现不同知识间的映射。基于教育信息语义本体的资源融合过程，如图2所示，主要包括以下3个步骤：

　　1) 语义标注。针对教育资源多源异构的特点，需要对其进行规范化表示，如使用关键属性表示网络课件;使用文本数据表示文献资料。

　　2) 构建元数据库。本文充分考虑到不同教育领域间的关系、约束与属性来消除信息间的同名二义性。文中通过提取各教育资源的属性来标注元数据，并将其存入教育资源本体库中，形成具体知识点本体到教育资源的映射。本文提出的知识映射关系如下：

　　[E=(Me，R，Sm)] (1)

　　式中：Me為元数据;R为具体知识点本体到教育资源的映射;Sm为映射函数。

　　3) 构建教育资源本体库。本文通过合并相似关系与概念来构建初始本体，并计算这些本体中关系与概念的关联度来形成层次化的教育资源本体。

　　虽然上述步骤能构建大部分教育资源的本体库，但仍存在数据转换失败的问题，文中使用人工校验的方式处理这一问题。在数据预处理阶段，对转化后的数据进行逻辑校验，并手动将校验失败的数据存入本体库中，使用人工校验的方式将半结构化数据转化为系统可以处理的结构化数据。本文提取出的某教学信息的XML文档程序为：

　　Li Yi

　　1989?04?16

　　Computer

　　School of informatics

　　人工将该资源信息存入教育资源书库后，可以得到如表2所示的数据库字段表。

　　[12] XIA J， FENG Y Q， LIU L N， et al. An information fusion model of innovation alliances based on the Bayesian network [J]. Tsinghua Science and Technology， 2018， 23(3)： 127?136.

　　[13] RAM?REZ Correa， PATRICIO Esteban， ROND?N Catalua， et al. Student information system satisfaction in higher education： the role of visual aesthetics [J]. Kybernetes， 2018(11)： 297?308.

　　[14] SCHOLTZ B， CALITZ A， HAUPT R. A business intelligence framework for sustainability information management in higher education [J]. International journal of sustainability in higher education， 2018， 19(2)： 266?290.

　　[15] SUSILAWATI R， CHRISTINE D K. Application of qualified accounting information system in higher education： viewed from the finance section perspective to anticipate environmental uncertainty [M]. Moskove： Social Science Electronic Publishing， 2018.

　　[16] SOUZA M R， VEADO L， MOREIRA R T， et al. A systematic mapping study on game?related methods for software engineering education [J]. Information and software technology， 2018， 95(3)： 201?218.

《基于智能数据采集与处理的教育信息融合方法研究》

本文由职称驿站首发，您身边的高端论文发表学术顾问

文章名称：基于智能数据采集与处理的教育信息融合方法研究

文章地址： http://www.zhichengyz.com/lunwen/keji/dzjs/43877.html

免费咨询获取帮助

上一篇：基于协议分析技术的抗恶意软件攻击测试系统设计

下一篇：面向对象的高分辨率遥感影像建筑物变化检测