教育大数据的真义

质量监测与大数据

质量监测与大数据 

微信号 EMED_NAEQ

功能介绍 建立新的测评理论与模型,关注教育大数据与智慧测评,在测评的基础上进行质量提升与改进。

11月1日 

教育大数据的真义11.png “大数据”给人的第一印象绝不限于规模超大。为了丰富对大数据的理解,人们用各种“V”来作为大数据的基本特征,以此区分于普通数据。它们是:

1)Volume,数据体量浩大;

2)Variety,数据类型多样;

3)Velocity,数据生产速度快;

4)Value,数据价值高;

5)Veracity,真实性;

6)Visualization,可视化;

7)Viscosity,黏度;

8)Volatility,易失性; 

9)Variability,易变性。

其中,体量大是最基本的指标,其他指标是随着体量的提升而显现出来的。然而,体量大就是指多吗?到底多到什么程度才算大数据?计算机就是用来处理数据的,还怕多?如果仅仅是数据多,那就只是空间复杂度和时间复杂度的问题,不值得提出新的概念甚至范式。再说,今天的大数据问题,是否几年后计算机运算速度和存储能力足够了,就不是大数据问题了?

就教育而言,除了体量大,教育大数据的界定特别强调价值这个“V”(其他的“V”表现得不够明显)。

· 有的把教育大数据定义为“服务教育主体和教育过程,具有强周期性和巨大教育价值的高复杂性数据集合”;

· 有的把它定义为“面向教育全过程时空的多种类型的全样本的数据集合”;

· 还有这样定义的:“所谓教育大数据,是指整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。”

如此界定和理解教育大数据很容易导致与教育数据相混淆。实际上,目前的文献中,关于教育大数据的陈述与关于教育数据的陈述的确没什么两样,只是强调量大。比如:

· “教育领域中的大数据有广义和狭义之分,广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据……而狭义的教育大数据是指学习者行为数据……”;

· “教育大数据可以分为四个层次和六大类型。四个层次包括个体、学校、区域和国家;六大类型包括基础数据、管理数据、教学数据、科研数据、服务数据和舆情数据”;

· “教育大数据主要分为四类:教学行为大数据、教学资源大数据、教学评估大数据、教学管理大数据”;

· “……在网络时代……在学生使用教学平台和数字化工具的时候,势必产生大量的数据”,等等。

如果把这些陈述中的“大数据”替换为“数据”,也没有什么不妥。我们根本看不出这些陈述哪里是专门针对教育大数据的。对于个别陈述,我们甚至看不出其“量大”的特征。

人们对大数据的理解从最初的惊异所引发的感叹发展到如今的新视野、新方式,绝非仅仅几个“V”能解释的。仅仅强调那几个“V”是不得要领的。那些“V”的相对性,带来的只是相对主义的混乱。如果我们执着于那几个“V”,或许我们就不得不承认,“大数据并不是一个准确的术语”。

其实,大数据的“大”,是一种隐喻,不能从字面上理解。单纯由样本数量增加所引发的“大”与大数据无关。大数据的体量绝不是因为样本的增加而导致的,而是因为小规模数据无法完整地表征某种东西。

“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。”也就是说,“大”与某种整体相关,这种整体是无法用某种高明的取样或者全样本来代表的,因为样本集合中样本之间是分立的,而整体是其组成部分的有机整体。因为知道了整体的真相,进而带来全新理解,才可能带来新的方式。即是说,不得不大数据的地方才可能是大数据的。大数据的“大”不是量的追求,而是一种质的需要。我们必须寻求大数据的更本质的判据。

对于大数据的思考,我们不能仅限于数据层,只停留在隐喻水平。数据属于显现,所以重要的是,要搞清楚什么东西通过数据在显现自身。上述所有的质疑与辨析都指向一个结论:大数据是某种复杂适应系统的显现。复杂意味着非线性。“非线性”“适应”“系统”使我们摆脱了大数据的相对主义判据。

只有复杂适应系统才能导致大数据,其中任何局部数据都无法代表整体。因为是复杂适应系统,完整表征系统的数据量不会小、内部关系不会是线性的。

对于复杂适应系统来说,其表征数据的大是自然而然的,不是样本积累的结果。我们之所以离不开大数据,是因为复杂适应系统的现实表达只能是大数据的。大数据使得复杂适应系统由概念的抽象存在转变为数据的真实存在。只有针对复杂适应系统,大数据才具有方法论意义,也只有利用大数据的分析方法才能认识现实中的那个复杂适应系统。

复杂适应系统又在以某种速度变化(适应),想准确认知当下对象的真相,对数据的即时处理才显得至关重要。

正因为如此,大数据的收集、存储、加工、可视化表征才是难题,特别是在某些算法尚不明确的情况下。总之,一个数据集是否是大数据,最根本的特征就是这个数据集是否是对某种复杂适应系统的完整表征。

如果教育实践中没有复杂适应系统,教育就与大数据无缘。凭直觉,教育与大数据有关,因为教育实践本身就是一个复杂巨系统。那么在教育实践这个复杂巨系统中,我们能否找到可以按照大数据方式理解的复杂适应系统呢?

存在是一回事儿,它是什么样子的是另一回事儿。后者取决于理论。很明显,那个复杂适应系统不是常识意义上能够直观得到的,而是理论投射的对象。只有理论在场,数据才有意义。数据只是理论的具体表达。理论也是数据采集处理的尺度。在哪些维度上、以什么颗粒度采集处理数据,是理论的规定。所以,只有先在学理上确认了那个复杂适应系统的概念模型、机制结构,我们才能够在大数据层次上展开更深入的研究和应用,才能以此理解现实中那个活动的系统的真实状况,才能确证教育规律、洞察教育。

由此,教育实践中的那个复杂适应系统在哪里、教育大数据在哪里,只能是教育学理论观照的结果。只有在教育学理论逻辑上(不是指用大数据思想在教育领域中进行简单往往又是牵强的演绎,似乎一夜之间我们便明了了教育大数据)需要大数据,教育实践才真的可能是大数据的。根据Educology教育学(Pedagogy教育学不是理论),教育实践中的那个复杂适应系统就是教育系统,它本就是教育学的研究对象。

一个教育系统就是一个完整的课程体系,而课程体系由门类课程组成,门类课程在实施时转化为教学系统。因此,实施态的门类课程可以认为是由教学系统组成。教学系统区分为设计态(Design-time)和活动态(Run-time),设计态是活动态的规划,即教学方案;活动态的教学系统即真实发生的教学活动,它是教育系统最微观、最底层、生存期最短的子系统,它是教师、学生和具有信息处理能力的媒体这三个信息处理主体之间的信息流动网络。

由此可知,对于教育系统,从课程体系至教学方案,都属于设计态。不同层次的教育系统的活动态表现为随时间展开的不同规模的活动态教学系统的有机组合。

教育系统自身就是信息系统,包含着海量的非线性信息,信息量与复杂度相辅相成。同时,教育系统中各层次子系统之间又相互关联,这种关联一方面源自知识体系,另一方面源自行动,设计态系统转化为活动态系统是教师通过教学设计与教学行动完成的,因此,这种内部关联亦是非线性的。

可见,教育系统属于一种复杂系统,其非线性特征是非常明显的。教育系统又是适应性变化的,这种适应性最直接的表现是教学设计与教学行动的适应性。

教师将课程转化为教学方案时就要考虑所面对的各种实情条件,在按照教学方案进行教学时,更要根据现场的情况做出及时调整,但这种适应性调整不是一种任性胡来,我们用一致性来表达它,包括课程与教学的一致性、教学方案与行动的一致性。高度一致意味着失去适应性,若完全不一致,实施的就已经不是那个设计态系统了。

其次,教育系统的适应性表现为整个系统的适时维护。如果实施过程中感知到系统的功能缺陷或性能不足,教育组织都会对教育系统做出调整,或者设计态的,或者活动态的。 

总之,完整的教育系统是一种复杂适应系统,教育大数据就是教育系统在现实中的生成性表现。