基于数据挖掘的机炉负荷-压力模型线性化
平衡工作点的确定方法
崔志强1,刘吉臻2,冯春晖3,刘金琨3
(1. 中国电力投资集团公司 科技环保信息部,北京,100033;
2. 华北电力大学 动力工程学院,北京,102206;
3. 北京航空航天大学 自动化科学与电气工程学院,北京,100191)
摘要:火电机组协调控制对象具有典型的强非线性特征,多模型控制方法是解决非线性问题的有效方法之一。常规多模型控制方法是根据机炉模型的非线性强度设计控制器,而没有考虑模型线性化平衡工作点的经济性。首先,根据火电机组历史数据进行工况划分;然后对具体工况下的数据采用改进K-means方法进行聚类,得到k个簇;最后,利用模糊关联规则算法依次从k个簇中搜索出煤耗率较低的一组参数作为协调控制系统线性化的平衡工作点,为节能型多模型协调控制系统设计提供了参考依据。
关键词:机炉模型;节能;改进K-means方法;模糊关联规则
中图分类号:TP274 文献标志码:A 文章编号:1672-7207(2011)S1-0702-06
Determination of balance operating point of boiler-turbine load-pressure model based on data digging
CUI Zhi-qiang1, LIU Ji-zhen2, FENG Chun-hui3, LIU Jin-kun3
(1. China Power Investment Corporation, Science, Technology,
Environmental Protecting and Information Department, Beijing 100033, China;
2. School of Power Engineering, North China Electric Power University, Beijing 102206, China;
3. School of Automation Science and Electrical Engineering,
Beijing University of Aeronautics and Astronautics University, Beijing 100191, China)
Abstract: Boiler and turbine control object in thermal power plant is a strongly nonlinear control system. Multi-model method is effective to solve the problem of nonlinear. While most multi-model controller were designed according to the nonlinear strength of coordinated control system without considering economy performance, operation economic was considered in this paper. The operation condition was classified using thermal power unit history data; then the improved K-means method was used to get K-clusters of the data for the specific operation condition; finally, fuzzy association rule was used to get the linearization balance operating point respectively from each cluster, which provides basis for the design of energy-saving controller.
Key words: boiler-turbine model; energy-saving; improved K-means; fuzzy association rules
火电机组协调控制对象具有较强的非线性特性,而多模型控制是解决非线性问题的有效方法之一。传统的多模型控制器设计只考虑了机炉负荷-压力模型的非线性特性,未考虑模型线性化平衡工作点的经济性。陈彦桥等[1]根据一个600 MW火电机组机炉模型的非线性强度进行线性化;栾秀春[2]研究了火电机组热工控制过程的多模型解决方法;李益国等[3]中,首先对负荷区间进行模糊划分,然后在每个模糊子区间建立相应的结构参数摄动模型,并使用鲁棒预见控制方法设计控制器,得到相应控制器模型;潘天红等[4]中在典型工况下通过试验数据获得其模型集,基于每个局部子模型分别设计子DMC控制器,通过实际工况变化来对子控制器加权以获得合适的控制增量。但是,上述多模型控制算法都未考虑机炉模型线性化平衡工作点的经济性问题。
从数据挖掘的角度看,电力生产的一个显著特点是规律性强,完全可以利用从流程数据中采掘出的知识来设计智能化应用系统,使计算机替代人自动做出判断或者决策[5]。
本文作者提出利用数据挖掘来确定火电机组机炉负荷-压力模型线性化平衡工作点的方法。以火电机
组的生产实测数据为基础,利用数据挖掘技术,找出满足规则约束的供电煤耗率较低时的运行规则,从而确定经济性较高的模型线性化平衡工作点,为设计节能型多模型协调控制系统提供了新的思路。
1 数据挖掘基本流程
从数据挖掘进入应用领域起,就有人对数据挖掘过程进行了归纳和总结,提出了不同的数据挖掘处理过程模型,比较有代表性的是Fayyad等[6]给出的多处理阶段模型,如图1所示。
图1 数据挖掘多阶段处理过程模型
Fig.1 Data mining multi-stage process model
本文数据源采用火电机组历史运行数据,最后得到的知识是可实现的经济指标较高的模型线性化平衡工作点。具体实现流程如图2所示,共有4步。
通常,机组运行外部条件并不是一致的,受一些不可控因素的影响。因此,有必要对这些外部条件进行工况划分,对各个工况具体分析,这样才有实际指导意义。在划分得到工况后,首先对具体工况下的记录数据进行预处理,去掉处于非稳态运行时的数据;然后采用聚类方法对具体工况下的数据聚类,将负荷划分成k个簇,通过模糊关联规则得到每个簇下供电煤耗较低情况下规则;再将这k条规则反模糊就能得到k组数据点:[供电煤耗率,负荷];最后,通过回归分析能得到反应在具体工况下的供电煤耗率-负荷模型。
图2 火电机组煤耗经济工作点确定方法流程图
Fig.2 Flow chart of determining unit’s economic operating point
2 基于数据的供电煤耗率-负荷模型
2.1 工况划分与数据预处理
依据煤质系数和循环水入口温度对工况进行划分,使每个工况内负荷分布布满整个值域。
由于主汽压力是最敏感的测点,因此,可以认为当某段时间内主汽压力基本稳定时,该时段内的工况是稳定的[7]。具体的判断公式如下:
(1)
该式表示主蒸汽压力在时间段[t-d,t]内的方差小于阈值ξ,为在该时间段内的均值。
依据式(1)可以得到具体工况下多个稳定时段及其对应的负荷-供电煤耗历史数据。
2.2 聚类算法
聚类分析(clustering)是对群体及成员进行分类的递归过程。不同于传统的划分,聚类是一种无导师指导的学习过程。可以将数据对象分组成多个类或簇,使同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
对于本文工况划分后所得到的稳态运行数据,要求所选取的聚类算法具有可伸缩性,算法的时间复杂度不能太高,结果对输入数据顺序不敏感。本文选用的聚类算法是K-means,将具体工况下的数据按照负荷分成k类。K-means采用欧式距离作为相似性的评价指标,即认为2个样本的距离越近,其相似性就越大。欧氏距离形式如下:
(2)
其处理流程如下:首先,随机地选择k个对象,每个对象初始代表一个簇的平均值或中心;然后,对剩余的每个对象,根据其与各个簇中心的距离,将其赋予最近的簇,重新计算每个簇的平均值。这一过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:
(3)
式中:E是数据库中所有对象的平方误差的总和;p是空间中的点,表示给定的数据对象;mi是簇Ci中的平均值(p和mi都是多维的)。这个准则试图使生成的结果簇尽可能地紧凑和独立。
K值的给定与聚类结果的质量密切相关。可由行业专家根据具体的应用情形给定,或者给定一组候选值进行聚类,并按一定的评价方法,从中选出使聚类结果最佳的参数作为最终的参数结果。本文采用文献[8]中的方法,通过训练来自适应指出最佳聚类数K,其具体步骤如下:
(1) 制定K值,任意选择k个对象作为初始的簇中心。
(2) 按K-means方法初始聚类,并计算评价函数,Q(K)=E(K)。
(3) 将一个簇移除,其中的元素各自并入最邻近的剩余簇。如将第i个簇移除,此时聚类后得到K-1个簇,计算对应的Ei(K-1)(i=1,2,…,K)。最后,取Q(K-1)=minEi(K-1)。
(4) 随机选择一个已存在的簇将它分成2组,一个簇被选中的概念与簇内数据到聚类中心的平均距离成正比,重新计算Ei(K+1)(i=1,2,…,K)。最后,取Q(K+1)=minEi(K+1)。
(5) 更新K值K←argmax{Q(K-1),Q(k),Q(K+1)}。
(6) 重复步骤(2)~(5),直到K值不再改变。
每次迭代过程中为了使聚类结构不发生剧烈改变,限制K每次只能±1。
K值是预先给定的,但是未必就是最优解。通过以上改进算法,运行递推式来优化K值。在本文中,应用这种方法对具体工况按照负荷进行聚类。
2.3 模糊关联规则算法
关联规则是形如的蕴含式,其中,并且。规则在事务集
D中出现,具有支持度s。其中,s是D中事务包含 (即A和B二者)的百分比,它是概率。规则在事务集D中具有置信度c,如果D中包含A事务的同时,也包含B的百分比是c,那么它是条件概率。即
支持度为:Support()=
置信度为:Confidence()=
图3 模糊关联规则的算法流程图
Fig.3 Flow chart of fuzzy association rules
图4 三角形隶属函数
Fig.4 Triangle membership function
当A和B为模糊集合时,称为模糊关联规则。通过设定支持度置信度筛选出满足条件的关联规则。本文采用改进的模糊关联规则(基于Apriori算法[9]),算法流程如图3所示。由图3可知,必须先将数据模糊化,拟采用的是三角形的隶属函数,如图4所示。三角形的陡度和分布由各矢量的论域结合实际系统的特点而定。将整个值域分为低、较低、中、较高、高5个量化属性。包括以下2方面:
(1) 由流程图可知,每次在计算候选集的支持度时都要重新扫描整个数据库,算法时间消耗较大。因此,采用文献[10]中的方法,引入剪枝策略,如式(4)所示,可以减少候选集数量,进而减少挖掘时间,这对于火电机组大量数据是必要的。
(4)
(2) 传统的Apriori算法仅采用“候选集-频繁集”的模式,这样会产生一些冗余规则,因此,人们引入了兴趣度(Interest)的概念。本文采用文献[7]中兴趣度的定义,如式(5)所示,兴趣度函数I的值越大,规则越有实际指导意义。
(5)
在得到每个聚类下的具体数据后,对这些数据进行模糊关联规则挖掘。得到的规则形式为:在工况n下,当供电煤耗率为P时负荷值为M,最后,筛选出规则里对应供电煤耗率最低时的情况,每个簇下得到一条规则。
2.4 回归分析
在得到具体工况下的k个簇下的k条规则后,首先对规则进行反模糊化,将量化属性解释为连续数值。这样得到k组数据点:[供电煤耗率,负荷]。最后,通过对这k组数据进行回归分析,建立供电煤耗率-负荷模型。
3 应用
所采样数据来源于天津盘山发电厂2009-08~2009-09 2个月的数据,共有43 920组。采样数据包括煤质系数、循环水入口温度、主蒸汽压力、供电煤耗率(Effi)和负荷(Ld)。其中,主蒸汽压力用来筛选稳态运行数据,这里选为10 min。最后得到30 380个稳态数据,对应的煤质系数取值为[2.08~3.33],循环水入口温度取值为[20.21~34.92]。对煤质系数以0.45为一区间,循环水入口温度以5为一区间进行划分,最终得到9个工况。以工况5为例进行分析,其对应的煤质系数为[2.53,2.98],循环水入口温度为[25.21,30.21],共有13 493组数据。
对工况5的数据按照负荷进行聚类,最后得到5个簇。每个簇的聚类中心及对应负荷的值域如表1所示。
在得到聚类结果(如表2中所示,为簇3中随机选取的10条记录)后,先对数据进行归一化
表1 K-means聚类结果
Table 1 Results of K-means
表2 聚类1中的部分数据
Table 2 Parts of data belonging to cluster 1
然后对每个聚类下的数据按照图4中隶属函数进行模糊化处理,将连续型数值转化成量化属性,如表3所示为表2中数据模糊化后各个量化属性值对应的隶属度。进行模糊关联规则,得到每个簇在较低煤耗率下对应的负荷值。
本文给定最小支持度Smin=0.3,最小置信度Cmin=0.75,最小兴趣度Imin=1。以工况5下簇3的数据为例,得到如表4所示关联规则:
Effi MLd VL(sup=0.39,con=0.84 and int=1.15)
反模糊化得到结果,解释如下:当供电煤耗率为[0.378,0.622]时,负荷为[0,0.222]。即当供电煤耗率为[335.22,340.698]时,负荷应处于[322.414,329.299]。按照取区间中心直接反模糊化有,当供电煤耗率为337.96时,负荷值应运行在325.86附近。由此得到工况5下各个簇对应的[供电煤耗率,负荷]点(如表4所示)。
由表4可以看到,煤耗特性曲线上各负荷对应的点并不是供电煤耗率最低的点,而是供电煤耗率较低的点。因为本文并不是直接得到各个簇中供电煤耗最低时的对应负荷值,而是通过模糊关联规则得到满足规则约束的供电煤耗率较低时对应的负荷值。这样求得的负荷值是可复现的,具有实际指导意义。同理,可以得到其他各工况下的煤耗较低并可实现的关键负荷点。
在得到了关键负荷点以后,与机组的滑压曲线相结合[1],就可以得到机炉负荷-压力模型线性化平衡工作点。工况5下的线性化平衡工作点的曲线如图5所示。其中的散点为工况5下根据式(1)选择的负荷-煤耗历史数据点,折线上的5个关键煤耗-负荷点数据值如表4所示。
表3 表2中数据模糊化结果
Table 3 Fuzzy membership of data in Table 2
表4 各个聚类下得到的模糊关联规则
Table 4 Obtained fuzzy association rules of each cluster
图5 工况5下的模型线性化平衡工作点
Fig.5 Load-power supply coal consumption rate curve under operation condition 5
4 结论
从经济性角度出发,提出一种利用数据挖掘技术来确定火电机组机炉负荷-压力模型线性化平衡工作点的方法,从节能角度为多模型协调控制系统提供了设计依据。但本文设计尚有以下不足:由于隶属函数是人为给定的,所以有待于找到更合适的方法自动构造模糊集;按照工况划分方法得到的多模型控制器数量较多(控制器个数=工况数×具体工况下模型线性化平衡工作点个数),需要进一步考虑控制器数量的精简与合并方法;如何将本文方法与根据模型非线性强度确定线性化平衡工作点的方法相结合,也是下一步需要解决的问题。
参考文献:
[1] 陈彦桥, 刘吉臻, 谭文, 等. 模糊多模型控制及其对500 MW单元机组协调控制系统的仿真研究[J]. 中国电机工程学报, 2003, 23(10): 199-203.
CHEN Yan-qiao, LIU Ji-zhen, TAN Wen, et al. Fuzzy multi-model control and its simulation on 500 MW unit coordinated control system[J]. Journal of Chinese Electrical Engineering Science, 2003, 23(10): 199-203.
[2] 栾秀春. 多模型控制及其在火电机组热工过程控制中的应用研究[D]. 哈尔滨: 哈尔滨工业大学, 2005.
LUAN Hideharu. Multi-model control and its application in the thermal power control of thermal processes[D]. Harbin: Harbin Institute of Technology, 2005.
[3] 李益国, 沈炯. 火电机组负荷多模型鲁棒预见控制方法[J]. 热能动力工程, 2004, 19(2): 186-191.
LI Yi-guo, SHEN Jiong. Robust model predictive control method thermal power unit multi-model[J]. Thermal Power Engineering, 2004, 19(2): 186-191.
[4] 潘天红, 乐艳, 李少远. 大范围工况热工过程的多模型预测控制[J]. 系统控制与电子技术, 2004, 26 (10): 1439-1443.
PAN Tian-hong, LE Yan, LI Shao-yuan. Multi-model predictive control of a wide range of work conditions during the thermal process[J]. System Control and Electronics, 2004, 26(10): 1439-1443.
[5] 夏火松. 数据仓库与数据挖掘技术[M]. 北京: 科学出版社, 2009: 17.
XIA Huo-song. Data warehouse and data mining[M]. Beijing: Science Press, 2009: 17.
[6] Fayyad U, Piatetsky G, Smyth P. Knowledge discovery and data mining towards a unifying framework[C]//Proceedings of the Second International Conference on Knowledge Discovery and Data Mining(KDD’96). Oregon: AAAI Press, 1996: 82-88.
[7] 李建强, 刘吉臻. 基于数据挖掘的决策支持系统在电站优化中的应用[C]//2005中国控制与决策学术年会(17th CDC), 2005: 926-929.
LI Jian-qiang, LIU Ji-zhen. Power plants Optimization based on data mining decision support systems[C]//2005 Chinese Control and Decision Making Annual Meeting (17th CDC), 2005: 926-929.
[8] Beringer-Hullermeier E. Online clustering of parallel data stream[J]. Data and Knowledge Engineering, 2006, 58: 180-204.
[9] Agrawal R, Imielinske T, Swami A. Mining association rules between sets of items in large databases[C]//Proceedings of the ACM SIGMOD Inter Conf on the Management of Data. Washington DC, 1993: 207-216.
[10] 闫鹏, 陈国青. 发现基于蕴涵的模糊关联规则[J]. 模糊系统与数学, 2004, 9(18): 279-283.
YAN Peng, CHEN Guo-qing. Discover association rules based on fuzzy implication [J]. Fuzzy Systems and Mathematics, 2004, 9 (18): 279-283.
(编辑 陈卫萍)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:国家自然科学基金资助项目(61074053)
通信作者:冯春晖(1987-),女,湖北潜江人,硕士,从事数据挖掘研究;电话:13466693810;E-mail:fengchunhui226@yahoo.cn