认知结构评估的动态贝叶斯网络分类器方法
李兰春1,王双成2,杜瑞杰2
(1. 上海立信会计学院 外语学院,上海,201620;
2. 上海立信会计学院 数学与信息学院,上海,201620)
摘 要:
的研究成果分离出认知结构的3大组成部分,在此基础上给出认知结构评估的指标体系,并建立用于认知结构评估的动态层次朴素贝叶斯网络分类器模型。为提高分类识别的可靠性,在连续属性条件密度估计中引入形状参数,并通过优化形状参数提高分类器的泛化能力,最后使用真实数据对模型的可靠性进行了实验与分析。实验结果显示分类器模型具有良好的分类识别性能。
关键词:
中图分类号:TP181 文献标志码:A 文章编号:1672-7207(2011)S1-0615-05
Method of dynamic Bayesian network classifiers for cognitive structure assessment
LI Lan-chun1, WANG Shuang-cheng2, DU Rui-jie2
(1. School of Foreign Studies, Shanghai Lixin University of Commerce, Shanghai 201620, China;
2. School of Mathematics and Information, Shanghai Lixin University of Commerce, Shanghai 201620, China)
Abstract: Three components of cognitive structure were found according to neuropsychology research results. The index system for cognitive structure assessment was developed based on three components of cognitive structure. A model of dynamic hierarchical naive Bayesian network classifier was presented for cognitive structure assessment. The shape parameters were the conditional density of continuous attributes. The classification accuracy of classifier was improved by optimizing the shape parameters. Finally, experiment and analysis were done for testing the reliability of model by using real data. The experimental results show that the model has very good classification recognition accuracy.
Key words: cognitive structure; dynamic hierarchical naive Bayesian network; classifier; assessment
认知的概念有狭义和广义之分。狭义的认知是指具体的记忆、联想和思维等。广义的认知就是指哲学上的认识。本研究的是广义的认知,即认识,这是人脑的机能,人脑对客观世界的反映。本文作者以神经心理学理论为依据对人脑的认知进行构成分析。神经心理学家鲁利亚和贾艾斯[1-2]分离出了人脑的3个基本机能联合区:(1)保证调节紧张度或觉醒状态的联合区(动力部分);(2)接受、加工和保存来自外部世界信息的联合区(操作部分);(3)制定程序、调节和控制心理活动的联合区(控制部分)。根据脑机能联合区的划分,既然认知是人脑的机能,那么认知就应该由3个部分组成,即动力部分、操作部分和控制部分。这样就可以给出一个更具体的认知概念:认知是由动力部分、操作部分和控制部分协同作用而产生的主体与客体的相互作用活动。相应地也可以给出认知结构的概念:认知结构是由认知操作、动力供给和控制调节协同作用而形成的反应事物间稳定联系或关系的内部心理系统。人是一个典型的开放复杂生物系统,与外界存在着信息、能量和物质的交换,认知结构是其中的一个子系统。人一出生便由遗传先天基因决定了认知结构的雏形,后天环境和教育使得认知结构得到发展。虽然人的认知结构具有相对稳定的一面,但在一生中认知结构还是始终处于不断的发展与变化的过程之中,因此,对认知结构的评估应该建立动态和灵活的模型,可见传统的评估方法不适合于认知结构的评估。认知结构评估是依据认知结构指标的最新信息,通过评估模型计算得到认知结构等级的过程,也是一个动态分类识别过程。
人的认知结构变化往往通过一些指标(指标向量)加以测量,这些指标具有“相对的静”和“绝对的动”二重属性。在客观规律、环境和教育的作用下指标向量发生着时序变化,相应地便产生一个反映认知结构变化状况的指标向量时间序列,而支配这个向量时间序列的是其中所蕴含的指标变量之间静态和动态复杂依赖与制约关系,即动态贝叶斯网络[3-4],用于分类识别的动态贝叶斯网络称为动态贝叶斯网络分类器。因此,动态贝叶斯网络分类器可用于认知结构评估。但动态贝叶斯网络分类器需要大量的离散时序例子数据用于学习,而积累大量的认知结构指标时序数据非常困难,也就是认知结构指标时序数据往往是小时序数据,而且其中的连续指标也不适合于离散化(会丢失过多的信息)。动态朴素贝叶斯网络(Dynamic naive Bayesian network,DNBN)[5-8]分类器是一类特殊的动态贝叶斯网络分类器,不需要许多时序数据用于训练,并且能够直接处理连续时序属性[9],适合于认知结构评估。动态朴素贝叶斯网络分类器以高效率和良好的分类准确性而著称。在动态朴素贝叶斯网络分类器中处理连续属性的核心问题是条件密度估计,目前主要采用两种方式来估计条件密度,分别是使用高斯函数和高斯核函数。使用高斯函数来估计属性条件密度可能与实际密度函数有较大的差距,从而影响分类器的分类准确性;而采用高斯核函数估计属性条件密度,又易于导致对例子的过度拟合,也同样会降低分类器的泛化能力。
本文作者在认知结构组成分析的基础上给出一个可用于认知结构评估的指标体系,并针对认知结构特点和现有评估方法的不足,建立可用于认知结构评估的动态层次朴素贝叶斯网络(Dynamic hierarchical naive Bayesian network,DHNBN)分类器模型。为避免使用高斯核函数估计属性条件密度可能导致的对例子过度拟合问题,在高斯核函数中引入形状参数,并通过形状参数的优化来提高分类器的泛化能力。实验结果显示,通过形状参数的同步和异步优化能够显著提高分类器的分类准确性。
分别用(1≤i≤n)和C[1],C[2],…,C[T]表示属性和类变量序列,xi[1],xi[2],…,xi[T]和c[1],c[2],…,c[T]是具体的取值;D[1],D[2],…,D[T]是到达不同时间片的数据集,D[1] D[2]… D[T],N[1],N[2],…,N[T]是对应数据集中的例子数量。
1 DNBN分类器
由于DHNBN分类器是DNBN分类器的层次组合,因此,只给出DNBN分类器的结构、表示形式、属性条件密度估计和分类准确性评价标准。DNBN分类器是静态朴素贝叶斯网络分类器与时间序列的结合,能够有效利用类变量的动态时序信息和属性的静态依赖信息,是多变量时间序列预测的有力工具。DNBN分类器由结构和参数两部分构成,根据结构和例子数据可估计出参数。
1.1 DNBN分类器结构
DNBN分类器结构是建立分类器的基础,在结构中,类变量时间序列构成马尔科夫链,给定类变量时,所属的属性之间条件独立,与其他时间片内的变量也条件独立,图 1所示为DNBN分类器的结构。
1.2 DNBN分类器表示形式
基于贝叶斯网络理论[10]和贝叶斯公式,依据图 1中所体现的条件独立性关系可得:
(1)
式中:与c[t]无关。
图1 DNBN分类器结构
Fig.1 Structure of DNBN classifier
DNBN分类器的表示形式如下:
(2)
式中:是类转换概率,为属性条件概率或密度。从式(2)可以看出,使用DNBN分类器对c[t]进行分类预测时,只与c[t-1],x1[t],…,xn[t]有关。用表示DNBN分类器。
1.3 属性条件密度估计和形状参数的引入
具有连续属性DNBN分类器学习的核心是属性条件密度估计,本文作者采用高斯核函数估计条件密度,即用估计p(xi[t]|c[t], S[t])。
(3)
式中:N(c[t-1])是时序数据集中的情况数量,
,
。
为避免使用高斯核函数估计条件密度所导致对例子的过度拟合,在高斯核函数中引入形状参数ρi,i=1,…,n,式(3)的右边将变成
通过ρv的变化能够有效调整高斯核函数与例子数据的拟合程度,从而提高分类器的泛化能力。
1.4 分类准确性评价标准
分类准确性是评价分类器性能的一个最重要的指标。已有许多静态分类器的分类准确性评价标准,但它们都基于例子之间满足独立同分布的假设,而时序例子之间强调时序依赖,因此需要建立新的评价标准。
设有时序数据x1[1],…,xn[1],c[1],…,x1[T],…,xn[T],c[T],选择一个界值T0,T0的值要根据时间序列的大小T,类转移概率与条件密度估计的有效性,或者依据实际需要等来确定。用 D[T],T0)表示DNBC的分类准确率,cpred[t]是使用x1[1],…,xn[1],c[1],…,x1[t-1],…,xn[t-1],c[t-1]进行训练,并依据x1[t],…,xn[t]的配置对c[t]的预测结果,ctrue[t]是真正的结果,那么
(4)
其中:
。
2 认知结构评估
在认知结构的3个组成部分(操作部分、动力部分和控制部分)的基础上建立认知结构评估的指标体系,依据指标体系确定分类器结构,再结合例子数据估计参数,最终得到用于认知结构评估的DHNBN分类器。
2.1 认知结构评估指标体系
指标体系是进行认知结构评估的前提,下面给出一个可用于认知结构评估的三级指标体系,并可根据实际需要进行层次扩展。
(1) 一级指标
认知结构等级(C),分4个级别,分别是A级(高),B级(较高),C级(一般),D级(较低)。
(2) 二级指标
认知结构所属的二级指标是:操作部分(X1),动力部分(X2),控制部分(X3),它们都分3个等级,分别是A级(好)、B级(中)和C级(差)。
(3) 三级指标
操作部分所属的三级指标是:输入能力(X11),存储能力(X12),加工能力(X13)。
动力部分所属的三级指标是:内部驱力(认知驱力X21,自我提高驱力X22,附属驱力X23),外部诱因(成就诱因X24,竞争诱因X25,奖励诱因X26,家庭诱因X27,社会诱因X28)。
控制部分所属的三级指标是:指导注意过程的技能(X31),指导学习过程的技能(X32),指导记忆过程的技能(X33),指导思维过程的技能(X34)。
2.2 认知结构评估的分类器模型
根据上面的认知结构评估指标体系可得到一个时间片的局部DHNBN分类器结构如图 2所示,将其时序扩展便可得到整个DHNBN分类器结构。
基于分类器结构和例子数据进行参数估计,从而得到用于认知结构综合评估的DHNBN分类器模型,输入认知结构指标的最新信息,通过分类运算便可获得认知结构的等级。
2.3 DNBN分类器的可靠性
DHNBN分类器是DNBN分类器的层次组合,因此,DNBN分类器的性能将直接决定DHNBN分类器的可靠性。选择具有19,30,24和26个时序例子的4个真实数据集TS_data1,TS_data2,TS_data3和TS_data4,其中,T0依次选取后11个时间点作为界 点。在DNBN分类器中,分别采用高斯函数(记为GD)、高斯核函数(记为GKD)、形状参数同步优化(记为SO,对所有属性只引入一个形状参数)和异步优化(记为AO,对每一个属性引入一个形状参数),得到4个DNBN分类器,对这4个分类器进行分类识别准确性比较,结果如表 1~4所列。
从表 1~4可以看出,经过同步参数优化的DNBN分类器的分类准确率优于使用高斯与高斯核函数估计属性条件密度的DNBN分类器的分类准确率,而经过异步参数优化的DNBN分类器在分类准确性方面更是显著优于其它分类器。综合4个时序数据集的实验结果可知:在高斯核函数中引入形状参数,并对形状参数进行优化能够提高DNBN分类器的分类准确性,尤其是异步优化,分类准确率改进得更为显著。因此,使用AO分类器作为底层分类器将会提高认知结构评估识别的可靠性。
图2 用于认知结构评估的DHNBN分类器结构
Fig.2 DHNBN classifier structure for assessment of cognitive structure
表1 TS_data1识别错误率比较
Table 1 TS_data1 comparison of recognition error rate
表2 TS_data2识别错误率比较
Table 2 TS_data2 comparison of recognition error rate
表3 TS_data3识别错误率比较
Table 3 TS_data3 comparison of recognition error rate
表4 TS_data4识别错误率比较
Table 4 TS_data4 comparison of recognition error rate
3 结论
(1) 针对认知结构的特点,建立了一个可用于认知结构评估的指标体系和DHNBN分类器模型。模型的底层指标可以是离散的,也可以是连续的,并可根据实际需要进行灵活的层次扩展。
(2) 为提高分类识别的可靠性,在连续属性的高斯核函数中引入了形状参数。实验结果显示,优化形状参数能够显著提高分类器的分类识别准确性,这将使得基于DHNBN分类器的认知结构评估识别更加可靠。
参考文献:
[1] 亚历山大·鲁利亚. 神经心理学原理[M]. 北京:科学出版社, 1983.
Luria A R. Principles of neuropsychology[M]. Bejing: Science Press, 1983.
[2] 布丽姬特·贾艾斯. 神经心理学[M]. 黑龙江: 黑龙江科学技术出版社, 2007.
Giles B. Neuropsychology[M]. Heilongjiang: Heilongjiang Science and Technology Press, 2007.
[3] Friedman N, Murphy K, Russell S. Learning the structure of dynamic probabilistic networks[C]//Proceedings of the 14th International Conference on Uncertainty in Artificial Intelligence. Madison, 1998.
[4] Murphy K P. Dynamic Bayesian networks: Representation, inference and learning[D]. Berkeley: University of California, 2002.
[5] Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine Learning, 1997, 29(2/3): 131-161.
[6] Palacios-Alonso M A, Brizuela C A, Sucar L E. Evolutionary learning of dynamic na?ve Bayesian classifiers[J]. Journal of Automated Reasoning, 2009, 45(1): 21-37.
[7] Zou M, Conzen S D. A new dynamic Bayesian network approach for identifying gene regulatory networks from time course microarray data[J]. Bioinformatics, 2004, 21(1): 71-79.
[8] Jing Y J, Pavlovi? V, Rehg J M. Boosted Bayesian network classifiers[J]. Machine Learning, 2008, 73(2): 155-184.
[9] Pèrez A, Larranaga P, Inza I. Bayesian classifiers based on kernel density estimation: Flexible classific[J]. International Journal of Approximate Reasoning, 2009, 50(2): 341-362.
[10] Pearl J. Probabilistic reasoning in intelligent systems: Networks of plausible inference[M]. San Mateo, California, Morgan Kaufmann, 1988.
(编辑 龙怀中)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:国家自然科学基金资助项目(60675036, 60803055); 教育部人文社科基金资助项目(10YJA630154); 上海市教委重点学科建设资助项目(J51702); 上海市教委科研创新重点资助项目(09zz202)
通信作者:王双成(1958-), 男, 吉林蛟河人, 博士, 教授, 从事智能技术研究; 电话: 13524168925; E-mail: wangsc@lixin.edu.cn
摘要:依据神经心理学的研究成果分离出认知结构的3大组成部分,在此基础上给出认知结构评估的指标体系,并建立用于认知结构评估的动态层次朴素贝叶斯网络分类器模型。为提高分类识别的可靠性,在连续属性条件密度估计中引入形状参数,并通过优化形状参数提高分类器的泛化能力,最后使用真实数据对模型的可靠性进行了实验与分析。实验结果显示分类器模型具有良好的分类识别性能。