DOI: 10.11817/j.issn.1672-7207.2015.12.023
相异敏感度下最小信息损失增量优先的隐私保护方法
谢静1, 2,张健沛2,杨静2,张冰3
(1. 武汉纺织大学 管理学院,湖北 武汉,430200;
2. 哈尔滨工程大学 计算机科学与技术学院,黑龙江 哈尔滨,150001;
3. 哈尔滨理工大学 软件学院,黑龙江 哈尔滨,150080)
摘要:针对不同敏感值的隐私保护程度需求,提出一种敏感度计算方法,将敏感值进行等级划分,再对不同等级的敏感值设定不同的敏感度;给出一种隐私保护原则(ε, k)- sensitivity来控制等价类中敏感度的分布情况,使得等价类中高敏感度的元组不会过多而造成隐私泄露;提出一种最小信息损失增量优先算法(minimum information loss increment first,MILIF)来实现隐私保护的要求。研究结果表明:所提出的方法在降低少量时间和保持数据效用的前提下,充分提高了数据表抵御敏感性攻击的能力。
关键词:隐私保护;敏感度;邻域;信息损失增量
中图分类号:TP309.2 文献标志码:A 文章编号:1672-7207(2015)12-4548-08
A privacy preserving approach based on minimum information loss increment first for dissimilar sensitivity
XIE Jing1, 2, ZHANG Jianpei2, YANG Jing2, ZHANG Bing3
(1. College of Management, Wuhan Textile University, Wuhan 430200, China;
2. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China;
3. School of Software, Harbin University of Science and Technology, Harbin 150080, China)
Abstract: In order to satisfy the different privacy protection requirements for different sensitive values, a method was proposed to calculate the sensitivity of sensitive value, which was divided into several levels with different sensitivities. A (ε, k) -sensitivity principle was proposed to control the distributions of sensitivity in equivalence class and the number of the high sensitivity tuples. A minimum information loss increment first algorithm was proposed. The results show that the proposed method can improve the ability of resisting sensitivity attack, on the premise of expending a little time and maintaining a high data utility.
Key words: privacy preserving; sensitivity; neighborhood; information loss increment
在信息化时代,各个领域需要收集和分析的个人数据正以惊人的速度增长,这些原始形式的数据是公共资源分配、医学探索、趋势预测等研究的宝贵来源。例如,医院可能发布病人的诊断记录以用于分析多种疾病的特征或者生成统计报告。然而,在进行数据研究的同时,往往会造成个人敏感信息泄露,因此,需要提出有效的隐私保护技术以保证个人数据在被使用的同时不泄露机密信息。数据发布中隐私保护的主要目的就是将原始数据进行处理,然后以新的形式发布数据以避免隐私泄露和抵御多种攻击[1]。对于个人数据,将某些可以唯一确定个体身份的属性如姓名、身份证号等称为身份标识符属性(identifier);然后,通过组合可以确定某个个体的属性称为准标示符属性(quasi-identifiers, QI),如年龄、性别和邮编等;包含个体敏感信息的属性称为敏感属性(sensitive attributes, SA),如疾病、薪资等。近年来,数据发布中的隐私保护技术受到越来越多的关注。现有的研究成果中大部分是k-匿名[2-5]或者l-多样性[6-8]模型的扩展,其主要目的是为了控制等价类中元组数和敏感值的多样性。此外,t-closeness模型[9-11]的研究也是一个热点方向,其主要思想是将数据表与等价类间敏感值的分布距离控制在一定阈值内。上述研究模型大多没有对敏感属性值的敏感程度进行约束,而在实际生活中,不同敏感属性值的隐私保护需求的程度存在很大的差异。例如,假设待发布数据表的敏感属性为疾病,对于感冒、胃疼等疾病,患者并不介意其他人知道自己患此类疾病,因此,此类疾病的隐私保护程度要求较低;而对于肺结核、癌症等疾病,患者不希望他人知道自己患此类疾病,担心引起别人的歧视,因而,此类疾病的隐私保护程度要求较高。在生成等价类的过程中,如果不考虑这些敏感值自身的敏感程度,可能会出现某个等价类中的敏感值均为高度敏感值的情况。以l-多样性为例,令l=3,即等价类中至少包含3个敏感值不相同的元组。若一个等价类中敏感值的取值为{肺癌,肠癌,胃癌},此等价类中满足3-多样性。然而,肺癌、肠癌、胃癌均为敏感程度较高的疾病,攻击者只要知道某个体属于该等价类,即使不能推理出该个体敏感值的具体取值,攻击者也能得出该个体患有癌症的结论,造成了个体的隐私泄露。由此可见,如果对于敏感属性值不考虑它们自身的敏感程度,可能会导致高敏感度的属性得不到充分保护。在数据发布中的隐私保护研究领域,Sweeney等[2]首先提出了k-匿名隐私模型,要求每个等价类至少包含k个元组,并且该k个元组的QI值相等。k-匿名使得即使攻击者知道某个体的QI值也不能推导出该个体的敏感信息(因为该个体记录所在等价类中的QI值相等)。然而,当k个QI值不可区分的元组恰好具有相同的敏感值时,该等价类中个体的敏感值已经被披露。为此,研究者们提出了2个改进的模型——(α, k)-匿名[3]和l-多样性[6]来解决k-匿名存在的问题。(α, k)-匿名要求每个等价类中不仅包含k个QI值上不可区分的元组,并且等价类中每个敏感值出现的频率不大于阈值α,使得等价类中敏感值分布不会过于倾斜。l-多样性要求每个等价类中不仅满足k-匿名的要求,并且等价类中不同敏感值的数量不少于l个,以此来保证敏感值的多样性。上述模型中都是考虑敏感值自身的取值,通过各种策略来增加敏感值的多样性,没有考虑敏感值的敏感度。Sun等[7]提出一种扩展的(l, α)-多样性模型,该模型对敏感值进行等级划分,然后对不同等级的敏感值设置权重,它要求每个等价类中敏感值的权重之和不低于阈值α。文献[7]中对敏感值设置权重其实就是敏感度的一种体现。但是(l, α)-多样性模型仍存在隐私泄露的风险。文献[12]也针对敏感值自身的敏感性进行了研究,它根据隐私保护的需求程度,将各敏感属性值划分为高、中、低3个等级类,通过隐私保护度参数λ灵活控制泄露风险,提出了(λα, k)-分级匿名模型,该模型要求等价类中每个敏感值出现的频率不大于阈值λα。虽然该模型可以控制等价类中敏感值出现的概率,但是也可能出现等价类中的敏感值均为高敏感度的情况,会产生隐私泄露。文献[7,12]采用预定义的方式来设置敏感属性等级。由领域专家或者数据拥有者来确定敏感属性值的敏感程度,此方法虽然可以反映出一些实际的需求,但是存在一定的主观性。本文作者针对敏感值的敏感度不同,提出一种敏感度的计算方法,将敏感值按照其自身的敏感性进行等级划分,并按照敏感等级设定不同的敏感度;然后提出一种(ε, k)- sensitivity原则来控制等价类中敏感度的分布情况;最后,提出一种最小信息损失增量优先算法来实现提出的(ε, k)- sensitivity原则。
1 敏感度计算
首先给出敏感属性等级划分的定义,然后提出一种敏感属性等级划分算法,根据敏感值在数据表中的出现频率对敏感值进行划分;最后,给出敏感度的计算方法。设用户待发布的数据表T={QI1,…, QIi,…,QIn,SA},其中QIi(1≤i≤n)为准标识符属性,SA为敏感属性。对于T中的任一个元组t,t[A]表示元组t中属性A的取值。
定义1 等价类。给定数据表T,E为T中某些元组的集合,如果E中元组在准标识符属性上具有相同的取值,那么称E为数据表T的等价类。
定义2 敏感属性等级划分。令R(S)为数据表T在敏感属性上的值域,将R(S)划分为m个类别D(S)={S1,S2,…,Sm},称D(S)是敏感属性等级划分,则D(S)应满足下列条件:
1) ,;
2) 若i>j,则Si的敏感度比Sj的敏感度高。
在现实生活中,某种敏感值出现的频率越低,说明具有该敏感值的个体数越少,这些少数个体在一般情况下不愿意让其他个体知道自己的敏感值,因为该敏感值与大多数人的不同,容易引起大众的关注或者歧视。因此,出现频率低的敏感值其敏感度要高。按照敏感值出现频率来对敏感值进行划分,能够反映出敏感值的敏感度高低,具有一定的合理性。根据敏感值的出现频率来对敏感值等级进行划分,划分方法见算法1。
算法1 敏感属性等级划分算法。
输入:数据表T,阈值m;
输出:等级划分集合D(S)。
1) 计算数据表T中敏感值的出现频率;
2) V={将敏感值按照其出现频率降序排列};
3) while |V|>m do
4) 计算集合V中所有相邻元素的合并范围r;//合并范围的计算公式见定义3
5) 合并r值最小的2个相邻元素vi, vi+1,vnew={vi, vi+1};
6) ;
7) end while
8) return D(S)=V;
定义3 合并范围。对于集合V中的任意2个相邻元素vi和vi+1,mini是vi中元素频率的最小值,maxi是vi中元素频率的最大值,vi和vj的合并范围。
将敏感属性进行等级划分之后,不同等级内敏感值所代表的敏感等级也不同,因此,需对不同等级的敏感值设定不同的敏感度。
定义4 敏感度计算。令D(S)={S1,S2,…,Sm}是数据表T中敏感属性的等级划分,是等级Si的敏感度,是相邻等级Si-1,Si的权重,则敏感
度满足:。令,。
对于的取值,给出以下2种定义[7]:
1) =1(2≤i≤m);
2) 。
通过简单的推导可以得出,2≤i≤m,等级Si中所包含敏感值的敏感度即为。
2 (ε, k)- sensitivity原则
提出一种隐私保护原则(ε, k)- sensitivity控制等价类中敏感度的分布情况,避免等价类中的敏感值均为高敏感度的情况。
定义5 敏感度的ε邻域。给定数据表T,△为敏感度的集合,对于任意敏感度,,则敏感度△的ε邻域。
定义6 元组邻域集。给定等价类E,t是E中任意元组,元组t包含敏感值的敏感度为△,则元组t的邻域集。其中,是t′包含敏感值的敏感度,是△的ε邻域。
定义7 (ε, k)- sensitivity原则。给定数据表T,E为T的某个等价类,称E满足(ε,k)- sensitivity原则,当且仅当E满足下列条件:
1) 等价类E中至少包含k个元组,k>1;
2) 对于E中的任意元组t,其敏感值的敏感度为△,在等价类E中,t的邻域集至多包含个元组。
由定义7中的条件2)可知,当元组的敏感度△较高时,等价类中要求其敏感度的ε邻域内的元组数会较少,使得等价类中不会出现元组的敏感度都较高的情况。假设某个等价类中的元组敏感值各不相同,但是它们的敏感度都较高,则攻击者即使不能推理出个体准确的敏感值,也可以得出该个体具有较敏感的信息的结论。若等价类满足(ε, k)- sensitivity原则,则避免了此类情况的发生。
定理1 对于包含k个元组的等价类E,如果其任意2个元组的邻域集都不存在交集,那么等价类E满足(ε, k)- sensitivity原则。
证明:由已知条件可得,等价类E中包含k个元组,满足定义7中的条件1)。又因为E中任意2个元组的邻域集都不存在交集,即元组的邻域集只包含元组本身。定义7中条件2)要求元组的邻域集最多为,显然,,因为E中每个元组的邻域集只包含1个元组,由此可见等价类E满足条件2)。证毕。
定义8 等价类的敏感度。令E为数据表T的等价类,等价类E中敏感属性的值域为{s1,s2,…,sr},则E的敏感度为。其中,表示敏感值si的敏感度,n(si)表示敏感值si在等价类中出现的次数。
定义9 数据表的敏感度。给定数据表T,G={E1,…,Eg}为T中所有等价类的集合,表T的敏感度为
3 基于相异敏感度的数据发布方法
3.1 信息损失度量方法
数据泛化后的信息损失度量用以衡量数据的效用,也能直接反映出隐私模型的质量,现有的衡量匿名信息损失的度量标准包括泛化高度[13-14]、分辨率度量[15]和查询精度[16]。本文中将QI属性的初始值与匿名后的属性值之间的距离作为信息损失度量,采用一般损失度量GLM(generalized loss metric)来衡量信息损失。GLM的度量方法如下。
定义10 数值型属性的泛化信息损失。设准标识符属性A为数值型属性,属性A取值的范围区间为[L,U]。设v是属性A的某一取值,v泛化为区间[LA,UA],那么v匿名的信息损失I(v)=(UA-LA)/(U-L)。
定义11 分类型属性的泛化信息损失。设准标识符属性A′为分类型属性,H为属性A′的层次树,v为属性A′的某一取值,v′是v泛化后的取值,那么v的信息损失I(v)=(MN-1)/(M-1)(其中:N为v′在层次树H中对应的节点;MN为以N为根节点的子树中叶子节点数;M为层次树H中叶子节点数)。
定义12 数据表的泛化信息损失。假设t是数据表T的元组,那么元组t泛化后的信息损失
。其中,表示元组t在属性QIi上的取值,表示属性的权重并且,则数据表T的信息损失,|T|表示数据表T中元组数。
在l-多样性[6]中采用分辨率度量DM(discernibility metric)作为数据效用的度量标准。DM的度量依赖于数据表中等价类的值,对于每一个泛化的元组指定惩罚值|E|,|E|表示该元组所在等价类的值。因此,
其中:D为分辨率度量;c为等价类的数量。
3.2 最小信息损失增量优先算法
定义13 等价类的信息损失增量。给定数据表T,E是数据表T的等价类,E的泛化结果为(g1,g2,…,gn)。当新元组t加入到等价类E中时,等价类E的泛化结果变为(g′1,g′2,…,g′n),则等价类E的信息损失增量定义为:。
在生成等价类的过程中,如果每次选取的元组使得等价类的信息损失增量最小,将会减少数据表的信息损失,保持较高的数据效用,因此,提出一种最小信息损失增量优先算法(minimum information loss increment first,MILIF)。首先,将元组按照敏感度降序排列;然后,以最小信息损失增量优先的策略来生成包含k个元组的分组,并且分组中元组的邻域集各不相交,由定理1可知,生成的分组都满足(ε, k)-sensitivity,如此迭代继续,直到不能生成满足要求的分组;最后,对于剩余元组进行处理,同样以最小信息损失增量优先的策略将剩余元组加入到满足(ε, k)-sensitivity原则的分组内,若没有相应的分组,则将该元组隐匿。具体的实现过程见算法2。
算法2 最小信息损失增量优先算法。
输入:数据表T,阈值k和ε;
输出:数据表T′。
//分组阶段
根据算法1中得出的敏感度等级将T分为m维集合Q={B1,B2,…,Bm};
//每个集合包含敏感度相同的元组,并且B1中元组的敏感度最高,Bm中元组的敏感度最低。
While do
在首个非空集合Bi中选取任一元组t,;
for j=i:m
if sensitivity-check(, E) then
//判断Bj中的元组加入E后,E中元组的邻域集是否互不相交
t′=choosebest(Bj,E);//选取使E信息损失增量最小的元组
,;
else
continue;
end if
end for
if |E|<k then
将集合E加入集合R中;
else
将集合E加入集合G中;
end if
;
end while
//处理剩余元组阶段
for R中的每一个元组t
if (在G中存在集合使得添加t后仍满足(ε, k)- sensitivity) then
将t加入到信息损失增量最小的集合中;
else
隐匿元组t;
end if
end for
将集合G以数据表T′形式发布。
算法3 sensitivity-check(, E)
t是等价类E中敏感值的敏感度最小的元组;
if |E|=1 then
return true;
else
if then
return false;
else
return true;
end if
end if
算法4 choosebest(Bj,E)
I(E)是等价类E的信息损失;
for 集合Bj中的每个元组t
计算t加入E之后等价类E的信息损失增量I(E,t);
;
end for
输出使取最小值的元组。
4 实验结果及分析
通过实验分析(ε, k)- sensitivity的性能,并将其与文献[3]提出的(α, k)-anonymity和文献[7]提出的(l, α)-diversity进行比较。实验所采用的数据集为隐私保护研究中广泛使用的UCI machine learning repository中的Adult数据集,该数据集包含部分美国人口普查数据,共包含45 222条记录,删除包含缺失值的记录之后剩余30 162条记录,选取数据集中的7个属性来进行实验,其中{Age,Country,Sex,relationship,education,work-class}为QI属性,Occupation为SA属性,数据集的描述如表1所示。
4.1 数据效用分析
采用一般损失度量GLM和分辨率度量DM来衡量(ε, k)- sensitivity的数据效用。GLM和DM越小,则说明数据的效用越高;反之,数据效用越低。
表1 Adult数据集描述
Table 1 Description of Adult dataset
4.1.1 一般损失度量GLM
图1所示为k或l的变化对3种算法GLM的影响。由图1可知:当k或l值的增加时,3种算法的GLM都将增大。这是由于随着k或l的增加,等价类中元组数必将增加,在泛化过程中带来的信息损失也将增加,因此,GLM将增大。图2给出了准标识符属性维数|QI|变化对3种算法GLM得影响。由图2可知:当|QI|增加时,3种算法的GLM都将增加。这是由于|QI|增加使得在泛化过程中处理的属性数增加,带来的泛化信息损失也将增加,因此,GLM将增大。
此外,由图1和2可知:在同等条件下,(ε, k)- sensitivity的GLM比(α, k)-anonymity的大,与(l, α)-diversity的GLM基本持平。这是由于(ε, k)- sensitivity的隐私保护要求比其他2种算法的隐私保护要求更严格,使得其信息损失较大,然而,(ε, k)- sensitivity在选取元组的过程中采用了最小信息损失优先策略,因此,与(l, α)-diversity的GLM基本持平。
4.1.2 分辨率度量DM
图3所示为k或l的变化对3种算法DM的影响。由图3可知:当k或l增加时,3种算法的DM都将增大。这是由于随着k或l的增加,为了满足隐私保护的需求,等价类中元组数将增加,按照DM的计算公式可知,DM将增加。图4所示为准标识符属性维数|QI|变化对3种算法DM的影响。由图4可以看出:当|QI|增加时,3种算法的DM只产生了细微的波动。这是由于|QI|的增加并不影响等价类中的元组数,所产生的细微波动是元组选取的随机性造成的,因此,3种算法的DM波动不大。
此外,由图3和图4可知:在同等条件下,(ε, k)- sensitivity的DM比(α, k)-anonymity和(l, α)-diversity的大,这是由于(ε, k)- sensitivity要求等价类中每个元组t的邻域集至多包含个元组(见定义7),为了能够满足隐私保护的需求,使得(ε, k)-sensitivity中等价类的元组数比其他2种算法中的元组数多,因此,DM较大。
图1 不同k或l下GLM的比较
Fig. 1 Comparison of GLM at varying k or l
图2 不同QI维数下GLM的比较
Fig. 2 Comparison of GLM at varying |QI|
图3 不同k或l下DM的比较
Fig. 3 Comparison of DM at varying k or l
4.2 执行时间分析
图5~7所示分别为k或l、准标识符属性维数和数据集变化对3种算法执行时间的影响。由图5可知:当k或l的增加时,3种算法的执行时间都减小。这是由于随着k或l的增加,在生成等价类的过程中会有更多的候选元组,更容易生成满足隐私需求的等价类,因此,执行时间将减少。由图6可知:当|QI|增加时,3种算法的执行时间都将增大。这是由于随着|QI|的增加,在泛化过程中处理的准标识符属性增加,消耗了更多的处理时间,因此,执行时间将增加。由图7可知:当数据集增大时,3种算法的执行时间都将增大。这是由于数据集增大必然会导致处理时间增加,因此,执行时间都将增加。
由图5~7可见:在同等条件下,(ε, k)-sensitivity的执行时间比(α, k)-anonymity和(l, α)-diversity的执行时间长,这是由于(ε, k)-sensitivity在选取元组的过程中要计算等价类的信息损失增量,然后选取信息损失增量最小的元组,此外,(ε, k)- sensitivity还需要计算元组的邻域集以判断是否满足隐私保护需求,这些操作都会带来时间上的消耗,因此,(ε, k)- sensitivity的执行时间比其他2种算法的执行时间长。
图4 不同QI维数下DM的比较
Fig. 4 Comparison of DM at varying |QI|
图5 不同k或l下执行时间的比较
Fig. 5 Comparison of execution time at varying k or l
图6 不同QI维数下执行时间的比较
Fig. 6 Comparison of execution time at varying |QI|
图7 不同数据集大小下执行时间的比较
Fig. 7 Comparison of execution time at varying data size
4.3 敏感度分析
采用定义9中的数据表敏感度作为衡量标准,数据表T的敏感度越大,则说明T中等价类中的敏感值的平均敏感度越高,越容易被攻击者进行敏感性攻击,因此,敏感度越小,则隐私保护程度越高。
图8所示为k或l的变化对3种算法敏感度的影响。由图8可知:当k或l的增加时,3种算法下数据表的敏感度将减小。这是由于随着k或l的增加,等价类中的元组数增加,敏感值的种类也将增加,因为只有少数敏感值的敏感度较高。因此,当等价类中敏感值的种类增加时,等价类中的平均敏感度将减小。图9所示为准标识符属性维数|QI|的变化对3种算法敏感度的影响。由图9可知:当|QI|的增加时,3种算法的敏感度只存在细微波动。这是由于等价类中元组的选取与敏感值相关,|QI|的变化并不影响等价类中元组的选取。
图8 不同k或l下敏感度的比较
Fig. 8 Comparison of sensitivity at varying k or l
图9 不同QI维数下敏感度的比较
Fig. 9 Comparison of sensitivity at varying |QI|
由图8~9可见:在同等条件下,(ε, k)-sensitivity的敏感度比(α, k)-anonymity和(l, α)-diversity的小,这是由于(ε, k)- sensitivity要求等价类中每个元组的邻域集至多包含个元组,控制了等价类中敏感度的分布,使得元组敏感值的敏感度越高,其邻域集中的元组越少,避免了等价类中只包含高敏感度元组的情况,因此,其平均敏感度较低。
综上所述,(ε,k)-sensitivity的信息损失比(α, k)-anonymity的大,与(l, α)-diversity的信息损失持平,(ε, k)- sensitivity的执行时间比(α, k)-anonymity和(l, α)-diversity的执行时间长。然而,由图8~9可知:(ε, k)-sensitivity的敏感度要比其他2种算法的小,因此,所提出的算法在牺牲少量时间和保持数据效用的前提下,充分提高了数据表抵御敏感性攻击的能力,保护了数据的隐私不被泄露。
5 结语
1) 针对目前大部分隐私保护模型只考虑敏感值的多样性,并没有对敏感值的敏感程度进行约束的问题,提出一种相异敏感度下基于最小信息损失增量优先的隐私保护方法。首先对敏感值的敏感度进行了定义并提出(ε, k)- sensitivity隐私保护原则,保证等价类中敏感度的分布不会过于倾斜;然后通过最小信息损失增量优先的思想设计了MILIF算法以减小隐私保护所带来的信息损失。
2) 所提出的方法降低了等价类中敏感值的平均敏感度,可以更有效地抵御敏感性攻击。
致谢:感谢湖北省高等学校人文社会科学重点研究基地——企业决策支持研究中心的支持!
参考文献:
[1] XU Yang, MA Tinghuai, TANG Meili, et al. A survey of privacy preserving data publishing using generalization and suppression[J]. Applied Mathematics & Information Sciences, 2014, 8(3): 1103-1116.
[2] Sweeney L. k-anonymity: A model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge based Systems, 2002, 10(5): 557-570.
[3] WONG Chiwing, LI Jiuyong, FU Waichee, et al. (α, k)-anonymity: An enhanced k-anonymity model for privacy preserving data publishing[C]//Proceeding of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 754-759.
[4] Tassa T, Mazza A, Gionis A. k-Concealment: An alternative model of k-type anonymity[J]. Transactions on Data Privacy, 2012, 5(1): 189-222.
[5] Sarowar Sattar A H M, LI Jiuyong, DING Xiaofeng, et al. A general framework for privacy preserving data publishing[J]. Knowledge-Based Systems, 2013, 54(4): 276-287.
[6] Machanavajjhala A, Kifer D, Gehrke J. l-diversity: Privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1): 1-52.
[7] SUN Xiaoxun, LI Min, WANG Hua. A family of enhanced (L,α)-diversity models for privacy preserving data publishing[J]. Future Generation Computer Systems, 2011, 27(3): 348-356.
[8] Abdalaal A, Nergiz M E, Saygin Y. Privacy-preserving publishing of opinion polls[J]. Computers & Security, 2013, 37(3): 143-154.
[9] Li H, Li C, Venkata S. t-closeness: privacy beyond k -anonymity and l-diversity[C]//Proceeding of the 23rd International Conference on Data Engineering. Piscataway: IEEE, 2007: 106-115.
[10] Li H, Li C, Venkatasubramanian S. Closeness: A new privacy measure for data publishing[J]. IEEE Transaction on Knowledge and Data Engineering, 2010, 22(7): 943-956.
[11] 张健沛, 谢静, 杨静, 等. 基于敏感属性值语义桶分组的t-closeness 隐私模型[J]. 计算机研究与发展, 2014, 51(1): 126-137.
ZHANG Jianpei, XIE Jing, YANG Jing. et al. A t-closeness privacy model based on sensitive attribute values semantics bucketization[J]. Journal of Computer Research and Development, 2014, 51(1): 126-137.
[12] 桂琼, 程小辉. 基于聚类的分类匿名方法[J]. 计算机应用, 2013, 33(2): 412-416.
GUI Qiong, CHENG Xiaohui. Clustering-based approach for rnulti-level anonymization[J]. Journal of Computer Application, 2013, 33(2): 412-416.
[13] Lefevre K, Dewitt D J, Ramakrishnan R. Incognito: Efficient full-domain k –anonymity[C]//Proceeding of the 2005 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2005: 49-60.
[14] Samarati P. Protecting respondents' identities in microdata release[J]. IEEE Transaction on Knowledge and Data Engineering, 2001, 13(6): 1010-1027.
[15] Bayardo R J, Agrawal R. Data privacy through optimal k-anonymization[C]//Proceeding of the 21st International Conference on Data Engineering. Piscataway: IEEE, 2005: 217-228.
[16] XIAO Xiaokui, TAO Yufei. Anatomy: Simple and effective privacy preservation[C]//Proceeding of the 32nd International Conference on Very Large Data Bases. New York: ACM, 2006: 139-150.
(编辑 赵俊)
收稿日期:2014-12-28;修回日期:2015-03-28
基金项目(Foundation item):国家自然科学基金资助项目(61370083,61073043,61073041,61402126,71571139,71171153);高等学校博士学科点专项科研基金资助项目(20112304110011,20122304110012)(Projects (61370083, 61073043, 61073041, 61402126, 71571139, 71171153) supported by the National Natural Science Foundation of China; Projects (20112304110011, 20122304110012) supported by the National Research Foundation for the Doctoral Program of Higher Education of China)
通信作者:张健沛,博士,教授,从事隐私保护和社会网络研究;E-mail:zhangjianpei@hrbeu.edu.cn