DOI: 10.11817/j.issn.1672-7207.2015.04.042
堤防管涌发生可能性识别的网格搜索-支持向量机方法
翟越1,刘浪2,于澍3
(1. 长安大学 地质工程与测绘学院,陕西 西安,710064;
2. 西安科技大学 能源学院,陕西 西安,710054;
3. 西安城市建设综合开发中心,陕西 西安,710054)
摘要:针对堤防管涌的评价涉及多种变量且各变量之间存在着高度的非线性关系,应用统计学习理论并结合工程实际,提出基于支持向量机(SVM)理论的堤防管涌发生可能性识别方法。将影响管涌演化、发生和导致破坏的因素进行归纳,选取坝高H、坝前水深Hp、下游边坡m、土的有效凝聚力c、有效内摩擦角ψ、饱和单位容重γ、渗透系数K、最大有效粒径疏db和下游滤层倾角δ共9种代表性的优势参数作为模型的输入,将堤坝管涌发生的可能性因子λ作为模型的输出,以16个堤防管涌工程实例作为学习样本进行训练,采用RBF核函数,建立堤防管涌发生可能性识别的支持向量机分类模型。为提高预测模型的泛化能力和预测精度,利用网格搜索寻优方法对支持向量机模型的参数进行了优化,并对7组待判实例进行判别。研究结果表明:建立的网格搜索优化支持向量机分类模型对堤防管涌发生可能性识别结果与实际结果吻合,正确率达95%,可考虑在实际工程中进行推广。
关键词:堤防工程;管涌;支持向量机;网格搜索法;预测
中图分类号:TV3 文献标志码:A 文章编号:1672-7207(2015)04-1497-07
Utilization of nonlinear SVM with grid-search method for identification
of piping occurring probability in embankment engineering
ZHAI Yue1, LIU Lang2, YU Shu3
(1. School of Geology Engineering and Geomatics, Changan University, Xi’an 710064, China;
2. School of Energy, Xi’an University of Science and Technology, Xi'an 710054, China;
3. Integrated Development Center of Xi’an Urban Construction, Xi’an 710054, China)
Abstract: As the piping evaluation involved a high degree of non-linear relationship between a variety of variables, a new method of the support vector machine (SVM) to predict the piping occurring probability in embankment was proposed on the basis of the statistical learning theory and the actual characteristics of the project. Comprehensive consideration of the evolution, occurrence and the piping factors lead to failure, nine major representative parameters of piping evaluation, i.e. the dam height H, the front of the dam water depth Hp, downstream slope m, the soil cohesion c, the effective internal friction angle ψ, saturated unit weight γ, the permeability coefficient K, the maximum effective diameter of sparse db and downstream of the filter layer angle δ are taken into account input variables for the proposed model, and the likelihood of piping in embankment factor λ is selected as output value for the proposed model. 16 typical cases of piping in embankment are used for training data by introducing radial basis function (RBF) kernel function. To enhance the generalization performance and prediction accuracy, grid-search method (GSM) was used to search for suitable values of parameters of the predicting model in the current study, thus the piping occurring probability in embankment prediction of GSM-SVM classification model was established, and 7 other group cases were sentenced to distinguish samples for further study of the effectiveness and practicality of the proposed model. The results show that the establishment of SVM classification model prediction of the piping occurring probability in embankment can achieve a high accuracy, and are coincided with the actual results, the correct rate is 95%, which provides a new approach to evaluation of the piping occurring probability in embankment and can be applied in practical engineering.
Key words: embankment engineering; piping; support vector machine; grid-search method; forecast
堤防工程是关系国计民生的关键性水利工程,它的安全与稳定至关重要。每临汛期,沿江各堤段常出现溃堤险情,常常导致堤防失稳、坍塌甚至溃堤事故,造成重大人员财产损失,堤基渗透变形破坏是引起堤防险情的主要原因,而管涌在其中占了相当大的比例[1-2]。为此,实现堤防工程管涌灾情准确判定和预报,为防汛抢险决策提供技术支撑,对确保人民生命财产安全具有重要的经济和社会意义,也是多年来岩土和水利工程界一直普遍关注的热点研究课题。传统的对于管涌是否能够发生的评测是基于整个坝区,以定性的描述和分析为主,但这在一定程度上需要工程师一定的判断力和先验知识,在某些情况下是十分困难的[3-4]。近年来,国内外许多学者根据不同的理论基础和试验数据提出了多种判定管涌的方法,主要有水头分析法[5-6]、室内模型试验[4, 7]、管涌数值模拟[8]和人工智能方法等[9-10],其中水头分析法主要包括总水头分析法[5]、临界水力梯度分析法[6]、随机模型等。上述系列方法和模型具有一定的优点,但也不同程度上存在不足之处,不难发现总水头方法中的临界总水头梯度是从大量对构造物的统计分析中确定的,不可能包含所有的可能破坏模式和不利的土层条件[5];影响管涌发生和发展的因素是多样的,临界水头梯度法仅考虑了土的性质和水的性质[6];而随机模型只是宏观地描述了管涌发生的某一种因素和过程;室内模型试验基本能反映土体的不均匀性和水土相互作用的重要性,且能够直接观察到管涌发生过程中的现象,但会受到尺寸效应、边界条件和土质条件等各方面的影响而很难推广到大范围土体的抗渗分析中[4, 7];管涌的破坏过程实际上是一个多场耦合的过程,目前采用的有限差分或有限元模型或不能体现管涌渐进性破坏特点,或不能考虑管涌发展过程中孔隙水压力的变化,而离散元模型在模拟颗粒间的接触状态等方面也存在很大的困难[8];神经网络等人工智能存在收敛速度慢、易陷入局部最优及隐含层确定具有主观性等弱点[9-10]。由于管涌的随机性和复杂性,目前对管涌的发生发展机理和预测方法的认识还存在较大争议,为此,要准确评价堤防管涌发生可能性的识别问题,上述方法还不能很好地服务于工程实践,还需要探索更科学有效的评价方法。支持向量机[11-12](support vector machine,简称SVM)把专家的评价思想蕴含在支持向量上,其超强的分类能力为现代评价理论和方法增添了强有力的新工具,尤其是对于堤防管涌识别系统这样的小样本评价问题,SVM具有非常明显的优势,但对影响其性能的SVM参数及其核函数参数的选取问题还没有完善的准则可以参考。网格搜索法(GSM)[13-14]对于寻优问题有很强的自适应优化搜索能力,采用GSM来搜索最佳的SVM参数。为此,本文作者建立堤防管涌发生可能性识别的GSM-SVM模型,模拟堤防管涌内部各参数之间的非线性映射,通过分类器转换加工处理就可以得出堤防管涌发生可能性识别结果,对堤防管涌的预测问题进行新的探索。
1 SVM分类算法数学模型
考虑 1 个模式分类器,设待训练样本集为 Q= {(x1,y1),(x2,y2),…,(xm,ym)}∈(X×Y)m,xi 为输入空间的向量,yi为分类标识,xi∈Rn,yi∈{-1,+1};i=1,2,…,n。若存在W∈Rn,b∈R,使得对于任意的(xi,yi) 有yi (W·xi+b)≥1(W为分类超平面的法向量;b为偏移量),则称训练集 Q 线性可分[11-12]。若这个向量集合被超平面没有错误地分开,并且离超平面最近的向量与超平面之间的距离是最大的,则这个向量集合被这个最大间隔超平面(最优超平面)分开,见图1。
SVM算法核心是找出支持向量及其系数构造的最优分类面[11-12]。而此最优分类面的构造问题实质上是在约束条件下求解1个二次优化问题,以得到1个最优的决策函数,其最优分类超平面为
图1 SVM分类原理图
Fig. 1 Schematic of SVM classification
(1)
为了在数据线性不完全可分情况下构造最优分类超平面,引入松弛变量≥0,同时引入惩罚参数C 平衡和。C 是可调参数,表示对误判样本的惩罚程度。C 越大,对误判样本的惩罚程度越大。由此构造软间隔最优分类超平面:
(2)
引入Lagrange优化方法,根据Wofle的对偶理论可以把上述分类问题转化为它的对偶问题求解,即
(3)
其中:辅助非负变量ai称为Langrange乘子[11-12]。
而对于线性不可分问题,SVM通过引入核函数将内积运算转化为在输入空间的计算,即。则SVM的求解对偶最优化问题可转换为
(4)
其中:n 为训练样本个数;C 为惩罚因子,它控制的是训练错误率与模型复杂度间的折中。容易证明,该优化问题的解中只有一部分αi不为0,其对应的样本即为支持向量,求解出求偶问题的最优解即可,对应的分类决策函数为[11-12]:
(5)
其中: x 为测试集中的样本;b*为分类阀值;为二次优化问题的最优解。
针对两分类问题,若f(x)=1,则表明待评向量x属于第一类;若f(x)=-1,则表明待评向量x属于第二类。针对堤防管涌发生可能性识别问题,f(x)=1,则表明堤防样本点无管涌发生风险;若f(x)=-1,则表明堤防样本点有管涌发生风险。
2 基于GSM的SVM参数优化
核参数寻优的方法有很多,如人工试算法、遗传算法、粒子群优化算法和网格搜索算法(GSM)等[13-14]。本文选取最简单的网格搜索算法,虽然其计算量较大,但能够搜索到全部的参数组合。为此,本文提出了基于网格搜索算法的SVM分类方法,即采用GSM来搜索最佳的SVM参数,网格搜索是按照给定步长,搜索某一矩形范围内所有的参数组合,具体流程如下。
1) 设定网格搜索中 C 值和 g 值的范围及相对应的搜索步长。设C=2-8~28,步长为 0.5;g =2-8~28,步长为 0.5,使得(C, g)对可以有多种组合,这样就在C和g的坐标系上构造了1个二维网格。
2) 将数据集中训练样本分为 i 组,其中任意 i-1 组作为训练样本,其余 1 组作为预测样本。在构造的 C 和 g 的坐标系中选择1个参数对(C, g),使用 Libsvm 软件[15]对选取的 i 组样本进行训练,然后对 1 组样本进行预测,记录预测准确率。
3) 重复步骤 2),对二维网格中所有的参数训练1遍。
4) 将各组(C, g)值对应的预测准确率用等高线绘出,得到1个等高线图,据此确定最佳(C, g)值。
5) 用训练好的GSM-SVM解决实际问题,其计算流程图如图2所示。
图2 堤防管涌发生可能性识别的GSM-SVM评价流程
Fig. 2 Principle flow chart for proposed GSM-SVM based approach for determination of piping occurring probability in embankment
3 堤防管涌发生可能性识别的SVM模型及应用
3.1 模型输入输出参量的确定
管涌的发生与发展是在堤坝、坝基的介质特性和水位变化共同作用的结果,其过程如图3所示[9]。大量的观测结果表明[3, 8-10]:据渗流发生方向相对于坝体,可将渗流分为向上渗流和向下渗流。当为向下渗流时,管涌的发生与坝身材料的最大有效粒径、有效凝聚力、有效内摩擦角、渗透系数、饱和单位容重及水力梯度等有关,对配有滤层的坝体,还与下游滤层倾角有关;而对向上渗流,渗流通道主要在坝基中形成,显然管涌的发生将首先会受到坝基材料的影响,如与地层中土的组成成分、结构、土的级配、水力梯度、渗透系数、内摩擦角、内聚力、土的饱和度等因素有关。综上可知管涌的发生与坝体最大有效粒径、渗透系数、饱和单位容重、下游滤层倾角、地层中土的组成成分和结构、土的级配、水力梯度、管涌发生的距离、深度、表面覆盖黏土层的内摩擦角、内聚力、覆盖层厚度、黏滞系数、土的饱和度等因素有关,是一个典型多元非线性的复杂问题。
而选取指标的一般原则如下[8-9]:1) 易于测量及量化;2) 能反映管涌的本质特征;3) 所选取的指标涵盖对管涌发生影响显著的影响因素。参考文献[3, 8-10]及工程实践并结合以上原则,将影响管涌演化、发生和导致破坏的因素进行归纳,选择坝高H、坝前水深Hp、下游边坡m、土的有效凝聚力c、有效内摩擦角ψ、饱和单位重γ、渗透系数K、最大有效粒径疏db和下游滤层倾角δ共9种影响显著的因素作为系统输入。将堤防管涌发生可能性 λ 识别分为管涌稳定(输出标签为0)、管涌破坏 (输出标签为1) 2 个类别,并将其作为模型的输出。
图3 管涌发生机理示意图
Fig. 3 Illustration of piping leakage
3.2 仿真数据采集及数据归一化处理
为了验证本文提出的地采诱发建筑物损害效应预测的遗传算法优化SVM模型有效性和实用性,从文献[9, 16]收集一批水库和堤坝的结构、材料和管涌状态的资料,从中筛选出23组可用数据为基础建立建筑物采动损坏评估的SVM模型,取其中16组作为学习样本(见表 1),余下作为测试样本(见表 2),其数据集可视化见图 4。框体代表各类别中间50%的实测值范围,它反映了组内变异性;黑色加粗线代表中位数,反映了数据集中趋势;细线代表四分位线;加号代表极值点或异常点;框体之间的距离反映了组间差异。
从表 1、表 2和图 4可知:数据集存在量纲不同和数值相差较大的问题,则须对样本数据进行预处理,即对样本数据进行归一化处理。进行数据预处理主要目的是:1) 消除各数据量纲不同的影响;2) 避免大数值信息掩盖某些重要的小数值信息;3) 降低数值计算时的难度,因为大的属性值往往会增大数值计算的复杂度。为此对SVM预测模型的输入变量采用如下规范化的方法进行预处理[12-14]。
设变量最大值为vmax,最小值为vmin,某一个样本v的规范化变量定义为
(6)
表1 堤防管涌识别模型训练集
Table 1 Training data of piping recognition model in embankment engineering
表2 堤防管涌识别模型测试样本
Table 2 Testing data of piping recognition model in embankment engineering
图4 各评价指标数据可视化
Fig. 4 Data visualization of each evaluation index
于是每个输入变量的取值范围都在[0, 1]之间,均具有相同尺度的量纲为1的量。
3.3 参数寻优
评价堤防管涌发生可能性时,SVM模型输入向量为(H,Hp,m,c,ψ,γ,K,db,δ),模型输出可能性因子 λ,建立映射 λ→F(H,Hp,m,c,ψ,γ,K,db,δ)。
核函数参数的选取问题本质上就是对评价模型学习算法本身的评价问题,结合文献[11-14, 16],本文选择径向基函数(RBF)作为SVM 分类器的核函数,其性能取决于核参数 g 和惩罚参数 C,选取不同的参数(C, g) 就会得到不同的SVM。为此采用Matlab 编写GSM 优化SVM 模型参数程序,结合Libsvm 支持向量机工具箱[15]的SVM分类功能(C-SVC),采用训练样本交叉验证的方式确定支持向量机参数 g 和 C,经反复试验,设置设定 C和g 的取值范围为:C∈[2-8,28],g∈[0,102];搜索步长均为0.5;并设置支持向量机进行5折交叉验证,这样在C和g坐标系上构成 1 个二维网格。对应网格上每一组(C,g)的值,按照上面介绍的方法计算出预测准确率,最后将各组(C,g)对应的准确率用等高线绘出,得到1 个等高线图 (图5),据此确定最佳(C,g)。若准确率不能达到要求,则可以在现有等高线图基础上选定1 个搜索区域,减小搜索步长进行细搜索。通过计算,可得到最佳参数对 (C,g) =(1.0, 0.5),最终确定最优参数C为1.0,g为0.5,此时的训练精度为100%,即GSM-SVM 模型对学习样本的判别结果全部准确(表1),用网格搜索方法确定核函数的参数值效果比较理想,预测准确率高达100%,而且各组参数相互解耦,便于并行计算,运行效率高。由此可认为分类模型已很稳定。根据学习好的堤防管涌发生可能性识别的GA-SVM 模型对6 个待判样本进行判别,判别结果与实际状态[16]完全相符,并与BP神经网络方法[9]和ANFIS方法预测结果一致,误判率为0 (表2)。由此可见,GSM-SVM 模型用于堤防管涌发生可能性识别预测是完全可靠和有效的。
BP 神经网络[9]、ANFIS模型和GSM-SVM 预测模型的预测误差分析比较结果见图 6。由图6可见:本文新提出的 GSM-SVM 预测模型的预测精度高于传统的神经网络模型的预测精度,具有较强的非线性动态处理能力,无需知道数据的分布形式和变量之间的关系,可实现高度非线性映射。对于处理小样本、非线性等实际问题,支持向量机具有突出的优点,与神经网络相比,具有泛化能力强、容易训练、没有局部极小值、较好的推广能力和非线性处理能力等优点。但是对影响其性能的支持向量机参数及其核函数参数的选取问题还没有完善的准则可以参考,因此,将GSM与SVM结合起来不仅能发挥SVM的泛化能力,而且使SVM具有更强的学习能力。
图5 GSM参数选择适应度曲线
Fig. 5 Fitness curves of GSM parameters selection
图6 SVM训练样本评价指标以及ANFIS,BP 网络预测和实际结果比较
Fig. 6 Evaluation indexes of SVM, ANFIS and BP network prediction results compared with test results
从图6、表1和表2可以看出:本文建立的SVM分类模型对堤防管涌发生可能性预测效果良好,评估结果与实际结果吻合,可以很好地对堤防管涌发生的可能性进行准确判断。由此可见,将GSM与SVM结合不仅能发挥SVM的泛化能力,而且使SVM具有更强的学习能力。用SVM理论用于堤防管涌发生可能性评估完全可行,比较客观地反映了地采诱发建筑物损害效应的真实情况。本文的程序中加入了数据库功能,对预测精度高,符合实际的新的可靠数据,经验证后自动录入数据库系统,这样该数据可作为下一次新预测的训练样本数据。随着可靠数据的积累,系统所学到的知识也在不断积累,预测的精度也将不断地提高,因而实用性会不断提高,这类似于一个小专家系统。此外,由于GSM-SVM预测模型是建立在已发生管涌的堤防工程观测数据与特征规律学习基础上,因此,学习样本的数量及代表性对堤防管涌发生可能性判别的准确性非常重要,在学习样本范围外的预测判别可能会产生较大的误差,所以,在实际工程中应根据各自的实际情况,合理选择样本数量及种类才能获得可靠的预测结果。
4 结论
1) 基于结构风险最小化原则,提出基于SVM理论的堤防管涌发生可能性预测方法,综合考虑地质采矿方面和建筑物本身方面因素,选取9大影响砖混结构建筑物采动损害程度的因素作为模型的输入,将堤防管涌发生可能性因子λ作为模型的输出,建立了堤防管涌发生可能性的SVM分类预测模型。
2) 为提高预测模型的泛化能力和预测精度,应用GSM寻找到SVM的全局最优参数,以大量堤防管涌工程实例作为学习样本和测试样本进行训练与检验,结果与工程实际情况吻合,有效地克服了诸如神经网络的过学习与欠学习问题、陷入局部最小值问题,这为经济合理地选择边坡设计方案提供了可靠的保障,且该方法简单易行,易于被包括基层技术人员在内的各种层次的技术人员掌握。
3) SVM本身具有很好的非线性映射能力、优秀的自学习和推广预测功能,且具有较好的容错能力和很强的抗干扰能力,采用本文建议的SVM预测模型对于提防管涌发生可能性识别具有良好的推广价值。
参考文献:
[1] Ojha C S P, Singh V P, Adrian D D. Assessment of the role of slit as a safety value in failure of levees[J]. International Journal of Sediment Research, 2008, 23(4): 361-375.
[2] Fell R, Wan C F, Cyganiewicz J, et al. Time for development of internal erosion and piping in embankment dams[J]. Journal of Geotechnical & Geoenvironmental Engineering, 2003, 129(4): 307-315.
[3] 罗玉龙, 速宝玉, 盛金昌, 等. 对管涌机理的新认识[J]. 岩土工程学报, 2011, 33(12): 1895-1902.
LUO Yulong, SU Baoyu, SHENG Jinchang, et al. New understandings on piping mechanism[J]. Chinese Journal of Geotechnical Engineering, 2011, 33(12): 1895-1902.
[4] 倪小东, 王媛, 王飞. 管涌的砂槽试验研究及颗粒流模拟[J]. 四川大学学报(工程科学版), 2009, 41(6): 51-57.
NI Xiaodong, WANG Yuan, WANG Fei. Study on piping by sand-bank model and simulation by PFC3D[J]. Journal of Sichuan University (Engineering Science Edition), 2009, 41(6): 51-57.
[5] Ojha C S P, Singh V P, Adrian D D. Determination of critical head in soil piping[J]. Journal of Hydraulic Engineering, 2003, 129(7): 511-518.
[6] CHEN Yifeng, HU Ran, ZHOU Chuangbing, et al. A new parabolic variational inequality formulation of Signorini's condition for non-steady seepage problems with complex seepage control systems[J]. International Journal for Numerical and Analytical Methods in Geomechanics, 2011, 35: 1034-1058.
[7] 李广信, 周晓杰. 堤基管涌发生发展过程的试验模拟[J]. 水利水电科技进展, 2005, 25(6): 21-24.
LI Guangxin, ZHOU Xiaojie. Laboratory simulation on generation and evolution of piping in embankment foundation[J]. Advances in Science and Technology of Water Resources, 2005, 25(6): 21-24.
[8] 张刚. 管涌现象细观机理的模型试验与颗粒流数值模拟研究[D]. 上海: 同济大学土木工程学院, 2007: 32-40.
ZHANG Gang. Researchs on meso-scalem echanism of piping failure by means of model test and PFC numerical simulation[D]. Shanghai: Tongji University. College of Civil Engineering, 2007: 32-40.
[9] 周健, 姚志雄, 张刚. 管涌现象细管机制的模型试验与颗粒流数值模拟研究[J]. 岩石力学与工程学报, 2008, 27(4): 747-756.
ZHOU Jian, YAO Zhixiong, ZHANG Gang. The model experiment of the piping mesoscopic mechanism and study of PFC numerical simulation[J]. Chinese Journal of Rock Mechanics and Engineering, 2008, 27(4): 747-756.
[10] 薛新华, 杨兴国. 基于广义回归神经网络的无黏性土管涌判定研究[J]. 人民长江, 2012, 43(1): 42-44.
XUE Xinhua, YANG Xingguo. Study on judgment for piping in non - cohesive soil based on generalized regression neural network[J]. Yangtze River, 2012, 43(1): 42-44.
[11] Vapnik V N. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995: 102-105.
[12] ZHOU Jian, LI Xibing, SHI Xiuzhi. Long-term prediction model of rockburst in underground openings using heuristic algorithms and support vector machines[J]. Safety Science, 2012, 50(4): 629-644.
[13] 王兴玲, 李占斌. 基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报, 2005, 35(5): 859-862.
WANG Xingling, LI Zhanbin. Identifying the parameters of the kernel function in support vector machines based on the grid-search method[J]. Periodical of Ocean University of China, 2005, 35(5): 859-862.
[14] 张向东, 冯胜洋, 王长江. 基于网格搜索的支持向量机砂土液化预测模型[J]. 应用力学学报, 2011, 28(1): 24-28.
ZHANG Xiangdong, FENG Shengyang, WANG Changjiang. Support vector machine model for predicting sand liquefaction based on Grid-Search method[J]. Chinese Journal of Applied Mechanics, 2011, 28(1): 24-28.
[15] 吕锦伟. 渗透变形对堤防(坝)稳定的影响及控制措施[J]. 资源环境与工程, 2014, 28(4): 435-437.
L Jinwei. The effect of seepage damage on dike (dam) stability and its control measures[J]. Resources Environment & Engineering, 2014, 28(4): 283-295.
[16] 朱树先, 张仁杰. 支持向量机核函数选择的研究[J]. 科学技术与工程, 2008, 8(6): 4513-4516.
ZHU Shuxian, ZHANG Renjie. Research for selection of kernel functions used in support vector machine[J]. Science Technology and Engineering, 2008, 8(6): 4513-4516.
(编辑 杨幼平)
收稿日期:2014-04-18;修回日期:2014-06-25
基金项目(Foundation item):国家自然科学基金资助项目(41272286)(Project (41272286) supported by the National Natural Science Foundation of China)
通信作者:翟越,博士,副教授,硕士生导师,从事建筑安全工程、岩石动力学等研究;E-mail:zy@chd.edu.cn