Education Research Frontier September 2016, Volume 6, Issue 3, PP.80-84
The Research of MOOC Big Data Mining Standard Jia Song #, Cuiping Wang School of Computer Science and Information Technology, Northeast Normal University, Changchun 130117, China #Email: songj908@nenu.edu.cn
Abstract MOOC (Massive Open Online Course), the deep analysis of practice and research for MOOC requires the development of MOOC reality, but also promotes the sustainable development. This paper summarizes the existing research; based on the combined Learning Analysis and Educational Data Mining and other related educational theory, establishes the MOOC Big Data Standards, explores the use of methods that promote MOOC data recording standards, and promotes the development of MOOC specification and the sharing of teaching resources on the MOOC platform. Keywords: MOOC; Big Data Mining; EDM; Big Data Mining Standard
MOOC 大数据挖掘标准研究 宋佳,王翠萍 东北师范大学计算机科学与信息技术学院,吉林 长春 130117 摘 要:MOOC (Massive Open Online Course) 即“大规模在线开放课程”,对 MOOC 研究和实践的深入分析既是 MOOC 现实发展的需要,也是促进其可持续发展的要求。本文在对现有研究总结的基础上,结合学习分析与教育数据挖掘等相 关理论,对 MOOC 大数据挖掘的方法与标准进行探讨,建立 MOOC 大数据记录标准,以探究 MOOC 数据利用方法,促 进 MOOC 数据记录规范发展,促进 MOOC 平台教学资源的共建共享。 关键词: MOOC;大数据挖掘;教育数据挖掘;大数据挖掘标准
引言 MOOC 通过短视频的形式进行教学,将分布于全球各地的成千上万的教育者和学习者联系起来,创建 交互性的学习论坛,将具有共同学习兴趣和学习目标的学习者组织起来,是一种创新的学习模式。MOOC 教学过程通过网络进行,将开放教育资源与学习服务相结合。MOOC 不仅仅是教育技术的革新,更是在教 育理念、教育体制、教育方式和人才培养方面进行创新,是一种全新的教育模式;MOOC 是一种新兴的知 识创新平台,引导学习者创造性地重组信息资源,通过自主探究式地学习,帮助学习者在学习过程中通过 对话交流形成新的知识[1]。MOOC 平台实时记录和及时分析在线学习的选课学习者的大规模实时学习行为 数据,这为定量化的研究提供了全新的机遇和手段,但目前的研究多是针对学习者某一具体的学习内容的 分析,缺少对 MOOC 大数据挖掘研究全面系统的梳理和总结,以及对 MOOC 大数据挖掘更加深入的理解和 成熟的应用,对 MOOC 大数据挖掘的方法与标准尚缺乏明确的认识,对 MOOC 学习数据缺乏规范的记录标 准,因此有必要建立 MOOC 大数据挖掘标准。
1
前言 MOOC 是“大规模在线开放课程” (Massive Open Online Course) 的缩写,是一种基于分享和协作的增
强知识的新的学习方式。2008 年,Dave Cormier 和 Bryan Alexander 首次提出了 MOOC 的理念;2012 年是 - 80 www.erfrontier.org
MOOC 教育的元年,麻省理工学院、斯坦福大学等美国著名教育机构开设提供网络课程的在线学习平台, 并向社会公众开放一系列课程教育资源;不久之后,Coursera、Udacity 和 edX 三大课程提供商在全球范围 内向广大民众提供在线开放课程服务。这些平台上拥有丰富的课程资源,记录了庞大的学习者学习数据, 蕴涵着的数据具有重大的开发价值。大数据作为下一个生产力的前沿技术在教育领域的广泛应用,将给教 育产业产生积极的推动作用,以 Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)为 主要特征的大数据成为网络化时代的数据常态。为了从大数据中提取有价值的信息,大数据挖掘方法不断 发展和深化,在社会各个领域有越来越广泛的应用。 MOOC 作为一种创新的学习模式,集合了网络在线教育的多种优势,如:扩大了教育范围、学习时间 和地点更加灵活自由、学习者拥有更多的自主性、MOOC 课程视频可反复观看学习等;同时也表现出一些 新的特征:MOOC 体现出更加开放的学习理念、吸收并借鉴各种新的学习理念和形式,创新出基于短视频 的学习方式、拥有强大的在线测评功能、为学习者提供更加有趣的学习环境和学习工具并且使全世界所有 的学习者都有参与名校教师课程学习的机会等,这使得 MOOC 在社会和教育领域具有重要的价值。MOOC 课程在设计时就参考了学习理论和教学论的研究成果,并在教师授课过程中不断收集学习者的各种学习数 据记录,通过 MOOC 收集到的学习者学习数据记录,根据学习者不同的学习特征来有针对性的调整 MOOC 课程的教学内容和表现形式,预测学习者的学习行为,从而更有针对性地提供教育服务。
2
国内外研究综述
2.1
MOOC大数据的相关研究 MOOC 凭借其拥有的海量的教育资源以及在运行过程中积累的学习者学习行为数据,成为大数据时代
的典型代表。MOOC 是一种基于分享和协作的增强知识的新的学习方式,引领了泛在的学习模式,对传统 的教育研究、教学指导和学习者学习研究都带来了前所未有的冲击和影响。如何将大数据挖掘方法应用于 MOOC 丰富的教学资源中,以获得更有价值的教育教学信息,用来改进教学研究、丰富教学理论、促进学 习者在新环境下的学习,是一个意义重大并且亟待解决的问题。 目前在国际上对 MOOC 平台所产生的数据记录有一些相关的研究,有运用统计分析方法与数学建模方 法来分析 MOOC 中学习者参与度随课程持续开展而持续降低的问题以及无效讨论的问题;运用可视化的方 法,开发 MOOC 平台教师快速评审作业系统;通过对学习者活动日志的分析,研究学习者观看 MOOC 课程 时间长度与学习技能的提高间的关系等。对 MOOC 大数据的相关研究范围广,内容丰富多样;但目前的研 究多数是针对学习者某一具体的学习内容的分析,缺少对 MOOC 大数据挖掘全面系统的梳理和总结,以及 对 MOOC 大数据挖掘更加深入的理解和成熟的应用,对 MOOC 大数据挖掘的方法与标准尚缺乏明确的认 识,对 MOOC 学习数据缺乏规范的记录标准。本文在总结现有研究的基础上,结合学习分析与教育数据挖 掘等相关理论,对 MOOC 大数据挖掘的方法与标准进行探讨,建立 MOOC 大数据记录标准,以探究 MOOC 数据利用方法,促进 MOOC 数据记录规范发展,促进 MOOC 平台教学资源的共建共享。
2.2
教育数据挖掘 对数据挖掘的研究早在 20 世纪 80 年代就已开始,广泛并已成功运用在金融、市场营销和商业等领域。
2008 年 6 月,在加拿大魁北克省蒙特利尔召开的第一届教育数据挖掘国际会议,是数据挖掘在教育方面研 究的一个重要里程碑。教育数据挖掘最初从机器学习和人工智能中借鉴了很多应用方法,直到 20 世纪 90 年 代末,教育数据挖掘才从人工智能中独立出来[2]。 教育数据挖掘 (Educational Data Mining, EDM) 是将存储在教务系统中的大量教务数据通过分析来挖掘 数据之间存在或隐藏的有用的信息。通过多种教育数据挖掘分析程序,教师、教育研究者及其他研究学者 可以利用相关技术发现在学习行为中的隐藏信息。通过教育大数据的获取、存储、管理和分析,可以构建 - 81 www.erfrontier.org
学习者学习行为相关模型,分析学习者已有学习行为,并对学习者的未来学习趋势进行科学预测。 教育数据挖掘综合运用数学统计、机器学习和数据挖掘的技术和方法,对教育大数据进行处理和分 析,通过数据建模,发现学习者学习结果与学习内容、学习资源和教学行为等变量的相关关系,来预测学 习者未来的学习趋势。教育数据挖掘不同于其他用于普通数据挖掘的方法,就在于所挖掘的数据之间存在 着不同数据以及数据集之间的复杂关系。 目前国内有学者对国内外公开发表的关于教育数据挖掘的文献进行统计分析[3],关于教育数据挖掘的相 关研究有:关于教育数据挖掘这一新兴领域的发展历程及相关概念,提出了教育数据挖掘中主要用到的五 类挖掘算法[4];提出未来我国教育领域的大数据研究和应用,应加强国家和地方对相关的研究和应用,并在 技术层面、管理体制层面以及法律制度层面获得支持,实现真正意义上的个性化学习,进而实现教育公平 [5]
。但就目前国内研究现状而言,真正将数据挖掘技术应用于教育领域并进行实践研究的并不多。
3
MOOC大数据挖掘标准研究内容
3.1
微观层面 运用大数据挖掘技术对 MOOC 学习者的学习特点、学习需求等方面进行分析。通过 MOOC 平台收集和
记录的学习者学习行为的相关数据,建立 MOOC 学习者学习数据库,并结合大数据分析和处理技术,预测 学习者的学业表现;对预测和反馈的结果进行可视化展示,明确挖掘 MOOC 平台中的数据类型,确定作为 研究的数据集;建立学习者个体或群体的特征模型,管理和记录网络学习过程,建立 MOOC 平台学习数据 记录标准,构建有效的学习模式。
3.2
中观层面 通过 MOOC 大数据挖掘得出的结果,有针对性地对现有 MOOC 平台的课程设置、资源呈现方式、教学
模式与方法进行合理调整,将教学研究与教学产品的改进与创新紧密结合,为教育管理者的决策提供科学 参考,促进教学成果快速转化为教学生产力。探究大数据挖掘应用于 MOOC 的研究内容和方法,用于指导 和改善 MOOC 学习,提高 MOOC 教学质量,弥补传统教育方式的不足;通过大数据挖掘来预测 MOOC 学 习者的学习表现,通过可视化的方式来展现预测和反馈的结果,为不同的学习者提供个性化的、适合的 MOOC 学习资源。通过构建 MOOC 社会化学习网络,促进不同国家、地区知识的交流与分享,更好地促进 MOOC 的发展。
3.3
宏观层面 建立一种“大教学”研究的新范式,构建新的学习生态。基于 MOOC 的大数据挖掘研究将有效改变传
统教育研究基于“假设-验证”的研究范式,MOOC 教育体系提供了一种可扩展的泛在学习模式,借助网络 平台向学习者提供在线课程,扩大高等教育的机会,有效地深化课程和教育改革,提升人才培养的质量。 MOOC 中共同参与的各主体,借助 MOOC 平台的网络技术聚集到一起,形成一种新兴的基于网络的学习生 态群落,该生态中的每一个主体都能获取相应的资源,通过 MOOC 平台的学习产生的新知识有助于维持和 发展 MOOC 知识的生态环境[6]。
4
构建MOOC大数据挖掘标准 因为没有标准化的元数据定义,MOOC 平台对学习者学习数据的记录各有千秋,目前数据挖掘标准化
的问题还没有形成公认的统一标准,不利于跨平台的 MOOC 学习数据的比较研究。对学习者的学习行为描述 只有到了高度精确化的水准,对学习平台学习内容的设计和改进才会更有针对性和有效性,这就能在一定 程度上保证 MOOC 可能在内容上是“标准化”的,但在学习者的适用性上又是个性化的,适用于大量学习 者的不同学习风格。 - 82 www.erfrontier.org
4.1
MOOC学习全过程的数据整理与分类 对学习者在 MOOC 学习各个环节产生的数据以信息管理的视角进行分析,对 MOOC 教育活动中产生的
各种类型的数据进行分类,结合学习科学理论,确定 MOOC 教育大数据挖掘的模块与重点。以系统论的观 点确定 MOOC 活动中的元因素,学习者、教师、课程等数据的记录的完备率等数据状况。在对教育活动中 各要素数据产生充分理解和把握的基础上,划分为价值区、次价值区。MOOC 课程活动包括丰富的内容, 例如从学习者学习的视角来看,包括选课、听课、课后反馈等环节,在各个环节中均会产生大量的数据。 首先要对学习者学习活动过程产生的数据进行全面分析,即探明数据量,有助于进一步的价值分析。
4.2
建立MOOC大数据挖掘过程标准 定义 MOOC 大数据挖掘模型产生、使用和部署的过程标准。数据挖掘是分步骤、多角度进行数据分析
和知识获取的过程,建立 MOOC 大数据挖掘过程标准,有助于形成一个可以有效记录 MOOC 平台数据记录 的统一体系,能够加强 MOOC 平台的管理和完善;有助于学习者顺利地完成 MOOC 课程的学习;有助于教 师详细规划和设计 MOOC 课程的每个环节,促进 MOOC 教学的顺利开展。在制定过程标准的过程中,首先 要确定 MOOC 大数据挖掘目标,评估现有的 MOOC 平台现状,明确数据挖掘目的并建立计划;收集并描述 MOOC 平台记录的原始数据,检查和确认数据的质量;在数据准备工作过程中,选择并清理数据;选择建 模算法,建立 MOOC 大数据挖掘模型;评估 MOOC 大数据挖掘的结果,监控整个数据挖掘过程;制定 MOOC 大数据挖掘实施计划,确定实施计划的方法并最终形成 MOOC 大数据挖掘过程标准。
4.3
建立MOOC大数据挖掘语言标准 早期的数据挖掘语言由各个企业和研究单位自行研究和开发,发展到现在由大型组织和联盟提出的各
种不同类型的标准,已经出现了很多不同的数据挖掘语言和标准,根据数据挖掘语言的功能和侧重点不 同,可以将它们划分为数据挖掘查询语言、数据挖掘定义语言和通用数据挖掘语言三种。现有的语言标准 没有形成统一的标准,没有标准化的元数据定义,各 MOOC 平台对学习者学习数据的记录不尽相同,不利 于跨平台的 MOOC 学习数据的对比分析研究。可以建立形式化和标准化的 MOOC 大数据挖掘语言标准,用 于描述数据挖掘的语义,帮助学者更好地进行 MOOC 大数据挖掘的研究。
4.4
建立MOOC大数据挖掘的Web标准 数据挖掘的 Web 标准可以借鉴 MOOC 平台大数据挖掘系统紧密耦合的问题,通过挖掘网络上的分布式
和远程数据,扩展 MOOC 平台服务的应用范围。结合已有的相关标准制定针对 MOOC 大数据挖掘的 Web 标准。在建立 Web 标准的过程中,应注意 MOOC 数据安全性、异步网络数据、大数据挖掘的会话管理状态 等问题,增添 MOOC 大数据转换机制、异常处理机制等[7]。
4.5
建立特定问题相关的标准 在 MOOC 大数据挖掘过程中,应厘清哪些数据对学习者学习行为分析最有价值,应该采集。同时应对
MOOC 平台记录的结构化数据、半结构化数据和非结构化数据进行处理,针对不同类型的数据构建相应的大 数据挖掘标准[8]。对学习者的学习行为数据处理只有高度精确化,对 MOOC 学习平台和学习资源内容的设 计和改进才会更有针对性和有效性,这样就能在一定程度上保证 MOOC 平台上的学习资源在内容上是标准 化的,但同时又适用于不同国家、不同地区、不同学习者个性化的学习特征,满足不同学习者的需求。
5
结语 对 MOOC 大数据进行挖掘,有助于改进现有的学习方式,使学习者更好的利用 MOOC 课程资源;另一
方面通过对 MOOC 大数据进行挖掘,分析学习者在每一个过程中的学习行为所表达的意义,挖掘出现象背 - 83 www.erfrontier.org
后的本质和规律,从而更好地推动网络学习向纵深方向持续发展,构建个性化的知识体系。构建 MOOC 大 数据挖掘标准,有助于跨平台的 MOOC 学习数据的比较研究,通过构建学习者学习行为相关模型,分析学 习者已有学习行为,并对学习者的未来学习趋势进行科学预测,为未来的 MOOC 研究打下基础,也为国内 MOOC 平台设计提供思路。
REFERENCES [1]
Yonggu Wang, Qing Zhang. MOOC: Characteristics and Learning Mechanism. Educational Research, 2014(9):112-120.
[2]
Xuefeng Hong, The Research of Learning Outcomes under the Educational Data Mining. Journal of Changsha Railway University, 2014(5):196-198.
[3]
Ting Li, Gangshan Fu. An Overall View of the Educational Data Mining Domain. Modern Educational Technology, 2010(10):2125.
[4]
Shunping Wei, Learning Analytics: Mining the Value of Education Data under the Big Data Era. Modern Educational Technology, 2013(2):6-11.
[5]
Peng Xu, Yining Wang, Yanhua Liu, et al, The Learning Innovation from the Perspective of Big Data. Journal of Distance Education, 2013(6):11-17.
[6]
Manfu Yang, Jianli Jiao, Big Teaching、Big Data、Big Transformation, e-Education Research, 2014(6):34-37+50.
[7]
Mingliang Liu, Xiongfei Li, Tao Sun, et al, Survey of Data Mining Technology Standards, Computer Science,2008(6):5-10+14.
[8]
Bin Ye, Yang Yu, Hui Wang, et al, Analysis of Big Data Application in MOOC, Microcomputer & Its Applications,2015(11):9698.
【作者简介】 1
宋佳(1985- ),女,汉,在读博士,
研究方向,数字化学习资源建设。
2
王翠萍(1974- ),女,满,博士,博导,研究方向,信息
资源组织与管理。Email: wangcp954@nenu.edu.cn
Email: songj908@nenu.edu.cn
- 84 www.erfrontier.org