信息的可靠性探讨
王勇,汪华登
(桂林电子科技大学 计算机科学与工程学院,广西 桂林,541004)
摘要:信息的可靠性是信息价值的基础,现实中不可靠的信息广泛存在,但是在信息论和一些信息技术领域中,信息的可靠性在很大程度上被忽视。在信息论中,对信息可靠性的考虑体现在通过纠错编码提高信息在通信信道中的可靠性,以及通过采用后验概率代替先验概率来提高完备性,从而提高信息的可靠性。分析了信息的多重不确定性,包括表达信息的概率值的多重不确定性、集合的不确定性、集合中元素的含义或所指的不确定性、信息的可靠性与不确定性之间的异同,给出了信息可靠性的一种度量。
关键词:信息论;概率;不确定性;可靠性;完备性
中图分类号:O23 文献标志码:A 文章编号:1672-7207(2011)S1-0638-04
Discussion on reliability of information
WANG Yong, WANG Hua-deng
(School of Computer Science and Engineering, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: The reliability of information is the base of information value. In reality that the information is not absolutely reliable is widely existent, but this problem is largely ignored in information theory and other information technology. In information theory, the consideration of reliability that is reflected in the error correction coding is used to enhance the reliability of information sent in the communication channel, and the posterior probability is used to replace the prior probability in order to improve the completeness of information, and hence improves the reliability of information. The multi-uncertainty of information was analyzed, such as the multi-uncertainty of probability value, uncertainty of set, uncertainty of the meaning or designatum of the elements of set. The similarities and differences between the reliability and uncertainty were also analyzed. A measure of reliability of information was given.
Key words: information theory; probability; uncertainty; reliability; completeness
信息可靠性的理论研究一直在很大程度上受到忽视,比如仙农(Shannon,又称申农、香农)的信息论只是涉及到信息传输过程中的可靠性,仙农对信息的定义和度量都从随机不确定性的角度来进行考虑[1]。信息的定义也是如此,目前信息的定义有80多种,但是信息的定义都缺乏对信息可靠性的考虑,一些信息的定义把信息当作对事物的一种真实的反映[2-3]。然而信息的不可靠性是广泛存在的,从严格的角度来讲,信息很难是绝对可靠的,包括一些科学规律(一种特别的信息),也只能被证伪,而不能被证明是正确的[4-5],用于获取信息的人的感官和各种仪器设备也存在一定的不可靠性。信息的价值之所以存在,是因为信息具有一定的可靠性,假如信息不具有可靠性,它将一文不值。我们处于信息社会,或者说信息时代,各种各样的信息在急剧增长,但是,如何很好地利用信息,识别信息,提高信息的可靠性,将各种不完备、不可靠的信息进行融合和提取,显然是非常重要的。信息的可靠性不能完全靠人工来鉴别,人工作业有其不精确性、主观性,应当尽量采用信息技术来自动解决,减少人为判断。 互联网的出现使得信息不断急剧增长,人工处理这些浩如烟海的信息将很困难。目前一些与信息可靠性相关的研究领域有信息融合、人工智能、不确定性理论等,然而信息的可靠性并没有被明确提出来。本文作者借鉴已有的研究,提出并探讨信息的可靠性。
1 非绝对可靠信息的广泛存在性
在过去的研究中,都没有明确指出信息的不可靠性,但是却有许多的研究似乎在暗示信息是绝对可靠的。然而现实中大量的信息都不是绝对可靠的,不可靠的信息广泛存在。至少有以下因素导致信息不可靠:(1) 感官的不可靠性。比如眼睛是人获取信息的主要渠道,虽然常说眼见为实,但是人本身也会产生幻觉,而且为许多科学研究所证实。针对视觉获取的信息,除了人大脑产生的幻觉以外,人的视觉来源于光线刺激,光线本身也不能绝对可靠地反映它的来源,比如光线会弯曲、折射、被吸收、被阻挡等等。再比如,人的判断往往以经验、直觉、科学规律为基础,但是这些也很难保证其可靠性,因为这些都是以过去的事实为依据建立的,且不说过去事实本身的可靠性(比如是否真正存在),过去的事实并不能完全反映现在事实的情况,因为一切事物都不是一成不变的,因而人的判断是不可靠的,人作为信宿一方面可以判断接受到的信息,另一方面,也可以将这些信息总结、记载和发送给他人,这会导致信息不可靠性在传递过程中增大。(2) 信息处理的不可靠性。信息难免要经过一些计算、估算和处理,由于采取的计算方法可能不是绝对正确、可信、科学和理性的,可能掺杂估计,从而引入各种偏差,所以得到的信息并不与已知的所有条件(包括信息,知识,规律)应该得出的完全客观正确的信息一致。(3) 信息的获得是相对的,当我们得到关于对象的更多可靠的了解后,关于对象的信息被逐步获得,但是即使是最终获得的了解,可能都是不完全的,因此,可能具有片面性而不可靠。(4) 信息的发出和传递往往依赖于人,然而对于不同的人,对同一事物的理解都可能不一致和不可靠,他们发出和传递的信息也可能不可靠。(5) 背景信息和条件的不可靠性。信息的产生往往依赖于已有的、被认可的背景信息和条件,比如知识,规律等,人们会借助各种信息得出新的信息,而这些被认可的背景信息和条件的可靠性是相对的,比如科学规律作为一种特殊的信息只能被证伪,而不能证真,若以某一科学规律得出新的信息,由于科学规律本身不具有可靠性,因此,得出的信息也不是绝对可靠的。(6) 人为判断的不可靠。在信息的获得中,除了采用客观的算法和信息处理工具进行分析以外,往往还需要人的直接判断,这种判断往往掺杂个人的主观偏见、失误和偏差等主观因素,从而引入不可靠的因素,导致信息不可靠。(7) 信息表达的不可靠。语言、编码、信号等对信息的表达,往往不能绝对精确,可能还是模糊的,而现实问题往往是连续的,现有的编码往往需要是离散的,否则编码可能会无穷长。比如,一个物体的精确长度,往往是无限长的一串数字,现实中往往采用了近似的方法,如四舍五入,这本身引入了误差,而且这种误差还会不断积累和传递,导致人们对其他事物的认识也会产生偏差。
以上仅仅是一部分导致信息不可靠的因素,实际上,信息在产生、传递和处理的各个环节中都可能出现错误或者偏离真实情况。鉴于绝大多数信息都是不可靠的,而信息的可靠性显然又是信息价值的基础,因此,研究信息的可靠性刻不容缓,特别是在这个信息爆炸和信息产业蓬勃发展的时代。
2 信息论对信息可靠性的考虑
香农信息论似乎没有太多关注信息的可靠性,信息的可靠性问题也没有被明确提出。在信息论中,香农实际上也考虑到了信息的可靠性,体现在以下几个方面:(1) 通过冗余的纠错编码增强信息传输过程中的可靠性,实际上,现实中,人们对于不可靠性的信息,也是通过尽量获取同类的信息来确认其真实性,如果获得的信息都是一致的,就可以认为是比较可靠的,如果信息不一致,可以认为一致性较高的信息是可靠的,纠错编码中也是根据一致性或者较高概率来获得较为可靠的解码。(2) 通过后验概率取代先验概率来获得更加完备的信息,而显然完备的信息比不完备的信息更加可靠。现实中,人们也是不断获取关于对象相关的一些条件和证据来获得关于对象的更加可靠的信息的,知道对象相关的情况和条件越多,对该对象的了解就越全面,相应的信息也越可靠。
以上分析说明信息论不能离开信息的可靠性,对信息可靠性的研究也可以利用和借鉴香农的这些考虑。香农信息论研究是以信息的随机不确定性为中心,并且将信息定义为消除不确定性的东西,它主要研究如何提高通信的可靠性和有效性,表面上并没有考虑信息本身是否可靠。实际上,香农消除不确定性是以可靠性为前提的,比如,采用后验概率取代先验概率本身就是提高可靠性,实际上,不确定性的消除只是一种副产品,是在遵循可靠性为第一的条件下消除的,而且这种不确定性的消除是由于数学规律导致的(而不是人为消除的),这一点为香农证明(信息熵不增)。假如一定要消除不确定性,而无需考虑可靠性,完全可以随便取某一个可能事件的概率为1,其余的事件的概率为0,这样不确定性得以消除,另外也可以通过取概率最大事件的概率为1,其余事件的概率为0,即把最大概率事件当作唯一可能的事件,这样也可以彻底消除不确定性。但是显然没有任何意义,只有在保证信息可靠的前提下消除不确定性才具有意义。
香农对信息的定义和研究是针对通信的,在通信中,发送的信号是确定的,除非删除信道下,接收到的信号也是确定的,因此,消除其不确定性无可厚非,而且消除不确定性越多,信息也往往越可靠。然而,针对本身是不确定的信息,其真正的概率分布都不是确定的分布,即某一个可能事件的概率为1,其余可能事件的概率都为0,消除其不确定性可能会导致信息更加不可靠,比如,叠加态的量子态的测量结果本身是不确定的,但是如果要消除不确定性,则只能导致结果出现错误。
3 信息可靠性研究的重要性
如果一个信息明确是错误的,显然它就不具有可靠性和价值,也无需研究其可靠性。然而,现实中大量的信息不能判断其正确与否,既不能判断它是否正确,也不能判断它是否不正确。如前面分析,这种不能判断是否正确的非绝对可靠的信息是广泛存在的,但是,信息的可靠性显然是非常重要的,一旦信息足够不可靠,信息对于决策和判断都是没有价值的,还可能是误导。在信息论中,信息的不确定性得到充分的研究,然而,人们追求的往往不是信息的确定性,而是信息的可靠性,可以通过下面的例子来说明这个问题:由于某学校纪律严明,一般学生来学校上课的时间都比较确定,都能提前到校,迟到概率为0.01。但是甲从乙处得到消息:“某同学丙是最不遵守纪律的(包括迟到)”。此消息对于“甲从乙处得到了什么消息”而言,或者乙告诉甲关于丙同学的什么情况而言,是消除了不确定性。但是本来根据前面已知的学校纪律严明的理由来推测,丙同学很可能是上课的时间是比较确定的,丙不迟到的先验概率可能为0.99,迟到概率可能只为0.01,但是知道从乙处得到消息以后,丙不迟到的后验概率减少了(假设丙不迟到的后验概率大于0.01)。根据信息量的计算方法以及熵函数的上凸性,甲得到乙的消息以后,如果丙不迟到的概率在0.99至0.01之间,若以乙的消息为条件,关于丙是否迟到的信息量不仅没有增加,反而信息量减少了,其相应的不确定性也增加[6]。假如要人们在知道了乙的消息以后,在先验概率和后验概率之间做选择的话,虽然先验概率的不确定性要低,人们会毫不犹豫地选择后验概率。为什么要选择后验概率,是因为后验概率是在条件更加完备的情况下得出的,更加贴近和能够代表丙实际上迟到与否的情况,因而更加可靠。
4 信息可靠性与不确定性的关系
根据以上分析,信息的可靠性可以认为是在不知道信息是否正确的情况下,信息符合它所指向的对象(比如事实或者实际情况)的可能性,或者是与(绝对或者相对的)所指对象的吻合程度的一种性质。显然这种可能性本身也是一种不确定性,这是由于对对象的不了解或者对象本身不确定所造成的。
可以通过以下例子来了解可靠性与不确定性之间的关系:情报人员从敌方得到情报,敌人即将于明天攻打我方。但是考虑到情报得到的途径不是很可靠,可能有错误的可能性,所以,本来是确定的消息变得不确定,即敌方很可能攻打我方。敌方攻打我方的概率由1变成小于1,这一点很类似不确定性的情况。为了区别不确定性和可靠性问题,假设得到的情报是敌人有99%的可能将于明天攻打我方。在这样的情况下,敌人真实攻打我方的概率应该是分布在以90%附近,介于0和1之间的连续随机变量。当信息绝对可靠的时候,概率是确定的值0.9。信息越是可靠,概率越是集中分布在0.9的周围。由此可见,表达随机性的概率本身也可能是随机变量,以上例子是一种双重随机不确定的情况,可靠性还可能是多重随机不确定性以及其他的不确定性(随机以外的不确定性)的情况,比如这些表达概率的数本身是随机变量,而表达随机变量需要更多的参数,这些参数也可能进一步是随机变量,表达这一随机变量进一步需要参数,如此循环下去,可能是无穷大的随机变量,需要无穷的参数来表达。这也说明,信息的可靠性是对信息的多重不确定性在某一个维度上的一种度量,进而信息的可靠性在某些情况下可以用类似信息熵的方法来进行度量,但是,信息可靠性度量比信息量度量更加复杂。信息论将集合中的各个元素当作完全独立的,不考虑其差异的大小,但是在考虑可靠性的时候,需要考虑偏离的大小。
以上仅仅分析了概率的多重随机性,实际上,信息表示中的每一个对象都具有不确定性,比如还存在其他方面的不确定性,比如集合的不确定性、集合中元素所指或者意义的不确定性等,这些不确定性也都会使问题更加复杂,同时也与可靠性有关系。
5 信息可靠性度量
以上提到信息可能具有无穷重的随机性,在这种情况下,信息的表达信息和度量将会是非常困难的,因此可以考虑双重不确定性的情况。在这样的情况下,考虑表示信息的概率是单重的随机变量,即其概率分布是固定的,而不是随机变量。
信息熵公式虽然可以度量不确定性,但是许多时候,概率值是连续型的随机变量,根据信息熵公式计算是无穷大的,而且熵公式没有考虑不同的值应该加以区分,比如,得到的信息不可靠,情况A中,真实的概率可能是0.1和0.99,它们的概率分布为0.6和0.4,它们的差异很大,但是如果情况A中,换成是真实的概率可能是0.98 999和0.99,,它们的概率分布同样为0.6和0.4,它们之间的差异就很小,显然这是考虑可靠性时应该考虑的因素,另外,对于不同的事物,概率差异的大小应该有不同的影响,因此,可以定义一个不可靠性函数f(x,y),其中正确值为随机变量X,函数f中x表示正确的值,y代表给定的不可靠的值。不可靠性函数f(x,y)为一个当x,y相等的时候为0,相近的时候接近于0,而随着x和y的差异增加而连续递增的函数。不可靠的整体度量应该也体现出一种连续性、累加性。假如将x对应的概率或者概率密度转移到趋近于它的一个值时,不可靠度量也应该趋向于原值,即具有连续性,而且当X为连续型随机变量的时候,R不应该是无穷大的,这决定了不能有熵函数中的对数一部分。由此提出对不可靠性的度量:
假设X为连续型的随机变量,d(x)为x的概率密度函数。其不可靠度量R为
(1)
假设X为离散型的随机变量,它的一切可能取值为x1,x2,…,xn,对应概率Pm=P{X=xm},m=1,2,…, n,其不可靠度量R为
(2)
6 结论
(1)提出了信息的可靠性问题,并且指出非绝对可靠信息的广泛存在性和信息可靠性的研究意义,分析了香农信息论对信息可靠性的考虑,给出了信息的可靠性与信息的不确定性之间的联系,为信息可靠性理论借鉴和利用信息论提供了依据,并且给出了信息可靠度的一种度量方法。
(2) 信息的可靠性问题的研究是一个比较新颖的课题,虽然有一些相关的理论也与信息可靠性问题非常相近,如信息融合、不确定性理论、计算智能等,但是,这些问题的研究依然不成熟,有许多基础性的理论还需要进一步研究和发展,比如概率论。
(3) 在人工智能之类的信息技术领域,信息的可靠性虽然没有被明确提出,但是,实际上是这些理论发展的基本准则。信息可靠性的明确提出及其相关的研究将有助于发展信息技术和推广其应用,特别是促进信息相关学科的融合。
参考文献:
[1] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27: 379-429, 623-656.
[2] 钟义信. 信息科学原理[M]. 3版. 北京: 北京邮电大学出版社, 2002.
Zhong Yi-xin. Principles of information science [M]. 3rd.ed. Beijing: Beijing University of Posts and Telecommunications Press, 2002.
[3] 王 勇. 香农信息定义分析与改进[J]. 情报杂志, 2008, 27(8): 57-60.
Wang Yong. Analysis and betterment of shannon’s information definition[J]. Journal of Information, 2008, 27(8): 57-60.
[4] 卡尔·波普尔. 科学发现的逻辑[M]. 查汝强, 邱仁宗, 译. 沈阳: 沈阳出版社, 1999.
Popper K. Conjectures and refutations[M]. Zha ru-qiang, Qiu Ren-zong, transl. Shenyang: Shenyang Prss, 1999.
[5] 卡尔·波普尔. 猜想与反驳[M]. 上海: 上海译文出版社, 1986.
Popper K. Conjectures and refutations [M]. Shanghai: Shanghai Translation Press, 1986.
[6] Wang Yong. Analyses on limitations of information theory[C]//2009 International Conference on Artificial Intelligence and Computational Intelligence (AICI'09), 2009: 85-87.
(编辑 龙怀中)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:广西教育厅面上项目(200911MS88)
通信作者:王勇(1977-),男,湖北天门人,副研究员;从事信息安全,密码学、量子信息技术方面的研究;电话:13788587717;E-mail: hellowy@126.com