Archive

Archive for the ‘信息论’ Category

语义通信和传统通信的基本区别

2011/11/07 发表评论

引自我正在写的一篇文章:

A semantic information source or destination has a background knowledge base and is able to infer implicit facts from explicitly given facts. The key difference from the classical information theory is that in our semantic information theory, messages are expressions which can be true or false. We are interested in studying how often a message is true and how its truthhood can be preserved in communication; on the other hand, classical information theory studies how often a message appears and how precise its lexical form can be restored in communication.

分类: 语义网, 信息论

TF-IDF之极简化信息论分析

2011/06/15 发表评论

昨天看到有人说,TF-IDF本质上是Kullback–Leibler divergence。参《如何确定网页和查询的相关性》by 吴军

问了一个搞IR的教授这个说法的出处。他说,似乎很明显,但搞不清楚谁第一个说的。

我试着做一个最简化的推导。这里用的TF-IDF是最简单的一种定义,实际用的,要比这复杂。

问题描述:一个查询q=(w1, w2…),一个文档d=(w1, w2….),其中w是单词,q和d都是bag of words。所有文档的集合是D=(d1, d2, …) 要求对所有文档,针对与q的相关性进行排序。

词频 TF(w,d) = w在d中出现的次数  / d中所有单词的个数

逆文档频率 IDF(w) = 所有文档的数量 / 包含w的文档的数量

单词w对文档d的相关度: TF*IDF(w,d) = TF(w,d)*IDF(w)

查询q对文档d的相关度,是它里面所有单词对d相关度的总和,Σw TF*IDF(w,d)。

对两个概率分布P和R,其KL-divergence,或者说相对熵, KL(P||R) = ΣxP(x) log(P(x)/R(x))

如果直接套,查询q对文档d的K-L divergence是

KL(Q||D) = ΣqP(q) log(P(q)/P(d))

这个不好算,什么叫q出现的概率和d出现的概率?

我们假设相关度具有可加性,我们只看一个单词w对一个文档的相关性,而不是一个查询q。

KL(W||D) = ΣP(w) log(P(w)/P(w|d))

其中P(w)是w在文档d中出现的概率【概率空间是单词】,P(w|d)是d中出现w的概率【概率空间是文档】。

KL(W||D) = ΣP(w) logP(w) -ΣP(w) log P(w|d))

第一项可排序无关,可略去。第二项,就和TF-IDF形似了。

【有待进一步思考】

参考 Robertson, S. (2004). Understanding inverse document frequency: on theoretical arguments for IDF. Journal of Documentation60(5), 503-520.

分类: 信息论

从挖地雷到分布式文件存储(删去编码)

2011/05/28 发表评论

erasure channel一般翻译为删去信道或消去信道,Erasure code一般翻译为删去编码或者存疑编码。

(1)删去信道

删去信道是会以一定概率丢失比特或者信包packet的信道。例如二进删去信道Binary erasure channel。输入信号符号是{0,1},输出符号是{0,1,e},e代表信号丢失。对下图BEC,信道容量是1-pe

信道容量的证明:以1-p的概率,传一次就成功。如不成功,再传一次成功,概率为p(1-p),也就是用2次。这样,要以极小出错概率传输,需要传

(1-p)+p(1-p)2+p^2(1-p)*3+….

这个无穷级数收敛于1/(1-p)。也就是说,在单位时间里,可以传输1-p个比特。

(2) 里德-所罗门码Reed–Solomon (RS) codes

“Polynomial Codes over Certain Finite Fields.” (Reed & Solomon 1960)

原理见Wikipedia: erasure code Example: Err-mail (k=2)

基本原理是对信号做过采样:“编码过程首先在多个点上对这些多项式求冗余,然后将其传输或者存储。对多项式的这种超出必要值得采样使得多项式超定(过限定)。当接收器正确的收到足够的点后,它就可以恢复原来的多项式,即使接收到的多项式上有很多点被噪声干扰失真。” (Wikipedia中文

“RS码的两种定义方式有着非常大的区别,而它们的等价关系并不是显而易见的。在第一种定义中,码字是多项式的值,而在第二种定义中,码字是多项式的系数。另外,第一种定义要求多项式具有特定的比较小的幂次,而在第二种定义中,多项式需要有特定的根。这两种定义的等价性可以通过有限域上的离散傅立叶变换来证明。”(Wikipedia中文)【注意,傅立叶变换是一种线性变换】

联想:这种多项式分解,似乎可以类比为傅立叶分解。如果根据某种准则(和语义相关)使个多项式系数重要性不同,则有可能实现有损语义压缩。一般的,我们认为高阶项系数相对不重要。

(3)低密度奇偶检查码 low-density parity-check (LDPC) code 

汉明码(Hamming Code)的检查码和原比特位的每一位都相关。比如(7,4)码,3位检查码中每一位和4位数据码的每一位相关。如果只和一小部分相关,就是LDPC。

(4)喷泉码 Fountain code

对k个原始数据码,喷泉编码器会产生无数多编码序列,只要其中>=k个序列被接收,就可以恢复原始数据。这有很多用处,比如分布式文件存储:把文件分为很多小块,只要收集的足够多的任意小块,就可以恢复原始文件。

具体的例子包括:Luby transform (LT) codesRaptor codes (线性时间) and Online codes。参考Mackay书第50章。

Online编码图示如下,其他喷泉码类似:

LT码其实非常简单:

  1. 假设原始数据有K个包,编码后的数据有N个包。实践中证明,N比K大5%就够了
  2. 取一个随机整数d。随机取原始包中d个包。把这d个包做XOR(异或),得到一个新的包。注意,这里的随机是伪随机,也就是解码器和编码器都知道这个“随机”序列。
  3. 做第2步N次。

解码过程类似挖地雷游戏,进行约束推理。

有些角上的方块,标记只有一个“1”(周围只有一个地雷),那可以肯定确定那个角是地雷。由此第次推理,可以发现越来越多的地雷。但是有些情况,有无地雷都可能,那就是不能唯一解码了。又有时,一个“1”都没有,那连解码都没法开始了。

关键在如何选择d的分布,使在极大的概率下,解码可以开始,而且可以确定性地恢复所有的原始包。

参考:喷泉编码(百度百科)

(5) 结论

(Mackay, p596):The best solution to the communication problem is: combine a simple, pseudo-random code with message-passing decoder.

分类: 笔记, 信息论

量子信息论和语义信息论

2011/05/28 1 comment

这两者之间其实有很近的关系

一个量子比特(qubit)是多个纯态(pure state)的叠加。例如|s>= 0.707 |0> + 0.707 |1> 就是说 |s>以概率0.707*0.707=0.5为|0>,以概率0.5为|0> 。也就是,如果进行100次测量,那近似 50次得到|0>。

在语义信息论中,一个消息,也即是一个逻辑的表达式,代表多个模型。每个模型有自己出现的概率。例如,假如模型的集合是一个一个的人,其中20%是小孩,20%是老人。那消息“小孩或老人”的逻辑概率是40%,其中一半的可能是小孩,另一半是老人。

也就是,单个模型对应量子信息论中的基态。可写为

|小孩或老人> = 0.707 |小孩> + 0.707 |老人>

注意,在经典信息论中,如果{0,1}的分布概率是{0.5,0.5}这个信源没有冗余,(香农)熵是1比特。在量子信息论中,如果{|0>,|1>}的分布概率是{0.5,0.5},它的(冯诺伊曼)熵要比1比特小,因为在所有的可能输出中(现在有无穷多种), 0.707 |0> + 0.707 |1>出现的概率最大。

由于语义信息论中,一个消息可能对应多个不同的模型,这本身包含了语义歧义性(semantic ambiguity)。所以,语义信源的平均语义熵,必然的小于信源的模型熵(model entropy,也即是把模型本身当作消息时,计算的经典香农熵)。也就是,平均语义熵对应于冯诺伊曼熵。这个熵小于模型熵,但是可能大于或者小于信源的语法熵。这提供了语义压缩的可能。

注意,Bennett & Shor 1998说(我的翻译):

若经典数据由于数字位的不等频率或数字位间的相关,是冗余的,可以利用某些技术如Huffman编码压缩。量子数据具有以上两种冗余,但还有第三种方式:若数据流中的状态是非正交的(例如 一水平和45度 对角光子的随机流),作为物理态不能完全区分。这样的数据流不能用经典方法压缩,因为发送站在试图读数据时可能会产生干扰。然而 在对输入的n个状态的数据块进行幺正变换后,量子编码可以(无须对状态有任何了解)将其所包含的信息压缩到较少的量子比特,在接收端通过相反的变换可以几乎完全重建原始信号。

利用量子纠缠进行量子压缩,对应于利用语义模糊进行语义压缩。

Reference

参: Seminar on Quantum Compression. Ofer Shayevitz

中文资料参: 量子信息讲座(中国科学院量子信息重点实验室)

我以前翻译的量子信息论文章(1999):
http://www.cs.iastate.edu/~baojie/acad/past/past.htm#quantum
原文是 Charles H. Bennett, Peter W. Shor: Quantum Information Theory. IEEE Transactions on Information Theory 44(6): 2724-2742 (1998)

分类: 思路, 信息论

数据压缩方法

2011/05/21 发表评论

数据压缩data compression),或者称为信源编码,对利用数据中的冗余(redundancy),来实现减少数据集大小的方法。

(1)统计冗余

传统的信息论的方法,是利用统计冗余(statistical redundancy)。何谓统计冗余?一般的说法是符号出现的概率不相等。为什么这样就叫冗余呢?因为一个各符号出现概率相等的信源(也即看起来完全随机)是最简洁的,也是我们对它没有任何知识的信源——这对应于物理中的能量均分原理。如果概率不相等,那我们对这个信源有一定的(统计)知识,就可以用来变换这个信源到另一个更接近完全随机信源的的信源,从而实现压缩。

大体有这样一些方法

定长块编码(Fixed-length block codes)。如果令X是一个信号源,X随机独立重复n次,那得到的n长序列,有很多可能。不过根据大数定理,其中只有很少一部分是典型的,也就是说,其他的序列,概率极小,统计上可以忽略。所以,我们只需要对这部分典型序列做编码。而且这些典型序列的出现概率都是近乎相等的。这个特性也就是著名的渐进等分原理(AEP)。香农信源编码定理利用这个原理,证明,用定长块编码,我们可以用nH(X)码长实现对X的n长序列的任意小错误率的编码。这种编码,只有理论价值,没有工程价值。

符号编码(symbol codes)做一个从原符号集到编码集的映射,并保证可以唯一解码。典型的是一些变长(variable-length)前缀码(prefix codes),如霍夫曼(Huffman)编码。基本原理是经常出现的符号给以短码。这也是利用统计冗余。

流编码(stream codes)不依赖一个事先定义的一一对应编码,而通过读输入数据流,动态构造编码。算术码arithmetic codes)把每个字符串映射到[0,1)上的一个区间,区间的长度就是这个字符串的概率;收发端都知道这个概率分布。Lempel-Ziv编码记住已经见过的字符串,构造一个字典,这样下次遇到同样的字符串,只要给出它在字典中的位置即可。

(2)统计语义冗余 (statistical semantic redundancy )

目前主要是用在数据库领域。这是利用有结构的数据中存在的统计依赖关系来压缩。

SPARTAN是利用决策树,去除关系数据表中的某些列(column)——因为这些列现在可以通过决策树恢复。

ItCompress是一种聚类的方法,对表中的行(row),指定一些行为代表,其他行只记录和代表行之间的差别。fascicles算法类似。

一般的,机器学习就是一个信息压缩的过程。现在有很多本体学习的算法(例:DL-Learner),都可以看作信息压缩算法。

统计语义依赖可以表达一般的统计依赖(贝叶斯依赖)不能表达的关系,例如使用量词: P(C(x)|\exists R(x,a))=0.7

(3)演绎语义冗余(deductive semantic redundancy)

给定一个逻辑知识库,如果数据集的一部分可以通过其他部分经逻辑演绎获得,那这部分数据属于语义冗余,可以除去。对RDF和OWL,都有冗余检测算法。

不过彻底的冗余除去是计算代价很高的过程。可能通过一些启发式算法来估计某些数据是冗余数据的可能行,以提高可扩展性。

分类: 信息论

语义通信这篇文章被录用了

2011/05/05 2 条评论

不是什么好会议,一个IEEE的workshop。不过这个题目从开始到现在,一年多了,这是第一篇文章,也算是稍有收获。只所以花这么久,第一是因为要学习的东西太多——信息论我已经很多年没有涉猎了。第二是不停地犯错误,曾经在算法信息论(algorithmic information theory)这个分支上晃悠了半年之久,最后发现对工程没有什么价值。现在这个文章,也还是很抽象的,没有说工程的事——不过香农的文章不也没有说吗?关键是下一步(如果我还做这个项目的话),如果指导编码?比如,如何更好的设计ontology来表达要表达的知识而只用最少的长度?

文章主要说了两个事

  • 什么是通信中的语义?怎么衡量这个语义?文中用的是模型论(model theory)+概率逻辑(probabilistic logic)
  • 语义对编码有什么意义?包括信源编码也就是数据压缩,和信道编码,也就是可靠性编码(和噪声对抗)。
下面这个框图,是Weaver最先提出的,我做了一点增删。等过段时间,再把全文和slides(BTW, 这个词的中文到底该怎么说?)放出来。

分类: 信息论

一些关于历代政治制度的疑问

2011/04/09 发表评论

【原文发在个人wiki(Net.Weblog.20051002),2005-10-01】

其实中国封建时代的政治不可以专制而概之。制度之设计与制度之落实,依赖政治系统各要素的博弈和信息处理能力。以下主要参考了《历代政治得失》等。

这里提几个观点。论据有待整理。

【1】汉至清,中央权力提高,同时官僚机构内部监督和分权机制日益完善。

明清地方官制三权分立,与汉代二千石太守比,每个部门的长官权力都大大缩小。就地方长官权力,汉大于唐宋,唐宋大于明清。这似乎符合人类政治发展的一般规律(中央权力相对地方逐渐提高)

皇权之发展,汉至唐,专制下降。唐三省制,有诏书副署权,皇帝不可为所欲为;至明清,专制再次提高。专制并非是直线提高的。

【2】中国的政府,是从古代贵族的家缓慢演化来的(此观点看自钱穆)。国家,国家,国来于家。

周代,家族和部落扩大为国家,国君的家事慢慢变为国事,中央和地方官制兼世袭。汉代之宰相,即从古之家相演化二来,而九卿之设置,亦由古之家仆演化二来(见《历代政治得失》)。此时国家为君主之国家。

东汉后期到唐初,由于选举和门阀制,国家为君主和贵族共有之国家。

唐中至明,除元代,由科举制,国家为君主和士大夫共有之国家。

清又是特例。辽金元清四朝,国家为君主和部族王公共有之国家。

促进选举制和科举制产生的社会博弈背景是什么?它们是如何降低了国家管理成本的?又是如何维持政治系统和自身的稳定性的?

【3】明之制度,名为专制,实际皇帝为非可以为所欲为。皇帝是一个职位,一个代表。但是离开官僚机构的配合,他什么也干不了;官僚机构离开皇帝的参与,却可以正常工作(如万历前期和后期)。但是,皇帝却是权力的来源(皇帝的权力又来于天)。从明中期以后的表现看,皇帝如同孩子,内阁如同父母,孩子虽然能反抗父母,甚至爬到父母的头上撒尿,但是真正的大事,总是父母才能拿主意。
明之制度,在中国最接近于君主立宪。若汉唐君主十年不理政,很难想象国家可以在政府(而非外戚)领导下自治。

明代皇帝杀大臣例子甚多,表面看是专制的提高,其实是专制的受限制。设想在清朝,大臣可能象在明朝那样干涉皇帝的家事,人事和外交权力吗?

明代政府,是皇帝和士大夫共有的的政府,士大夫有很强的主人翁思想;清代政府,是皇帝和满清贵族共有的政府,士大夫只相当于政府长期雇佣的公务员。

为什么一个专制君主也不能为所欲为?把帝国的政治看成君主、群臣、子民,及中央、地方两种博弈,是否可以认为明代政治制度是当时(14世纪中期)一个运行成本最低的设计?儒家教育制度和科举制度在其中起什么样的作用?

【3.1】 为什么在专制皇权制度下,明代皇帝,除非以军事暴力起家者,不能一意孤行?

比如外交权力,崇祯根本不敢公开和满清讲和,事情泄漏后只好杀兵部尚书。

比如立继承人权力,万历预立福王而不得。

比如皇族家政,嘉靖要封自己的生父为皇帝而为群臣反对。

(whiho@水木社区反驳“如李治立武后,一路问下去问到徐茂公才解决问题”。我的回答“高宗的例子,大臣只是行使咨询权。最后还不是“此乃陛下家事”,皇帝自己决定了如果换在明朝,武后能不能立,恐怕极难。”)

明代懒王甚多,如成化、嘉靖、万历。为什么会有这种现象?为什么朝政在这些懒王的统治之下,还可以基本正常运作?这种现象不是和专制制度的设计冲突吗?

这些事情,不能光从大臣道德的狭隘性来解释。作为一种制度,皇帝理论上可以有无限的手段来达到自己的目的,但是为什么在实际运作中,不得不和群臣妥协,甚至以变相辞职(万历)来抗议呢?中国其他朝代的君主,除了被个别权臣控制住的,还没有这样束手束脚的皇帝。为什么明朝的专制制度设计最后反而产生束缚君主行使绝对权力的运作现实呢?其中的博弈关系和动态过程是怎样的?

【4】或许可以这样来理解。

在封建中央政府中,参与博弈的有皇帝,外戚,宦官和百官。他们共同的利益是扩大中央政府在国家资源分配中的绝对或者相对数量,而在下一步分赃的的过程,每个博弈者又企图获得尽可能大的份额。

(这个博弈过程又是中央政府,地方政府,及官僚集团,农民集团的大博弈的组成部分。我们暂时忽略外部因素)

每个博弈者获得资源的能力又是被其他博弈参与者约束的。比如皇帝可以决定外戚,宦官和百官的财富;反过来,百官也可以约束皇帝过度消费。

这个博弈过程中,理论上皇帝是一切决策的主体。但是由于官僚系统的复杂性,皇帝无法获得完全信息做所有的决定,必须指定代理人(可以外戚,宦官或百官)做代理决策。

皇帝需要信任代理人,保证其决策符合自己的利益,同时,代理人可能会提高自己的利益而损害皇帝的利益,皇帝也需要对代理人提出可致信的威胁,以保证代理人在违背自己利益时,可以有效惩罚。

这样,皇帝必须获得足够的信息来确定代理人的致信度(“忠奸”,还有能力),而代理人也必须不断获得足够信息来判断威胁的致信度(比如皇帝打大臣板子)。这个过程,是双方的动态贝叶斯博弈过程。

一个集权的体制,要求皇帝对积极的获取代理致信度信息和发布威胁可信信息。如果皇帝对代理的初始信任很高,初始威胁可信度也很高,其致信度下降到极限的时间就会比较长。比如开国皇帝,其代理人都是自己亲自选择的,而且通过战争获得了足够的威胁可信度,代理和自身利益一致的可能性就比较高;而对一个守成的君主,把这两个致信度提高到可信的程度,都需要较长的时间,权力越集中,需要控制的代理人越多,这个时间就越长。

朱元璋设计的专制体制,需要后代皇帝有极高的信息处理能力和信息发布能力——尽管他自己并不需要也未必具有这样的高能力。其后代,随着代数的推移,皇帝越不能胜任;这体制越是集权,皇帝不胜任来的越快。

具体可以研究一下崇祯朝政治看看这个代理过程是怎么工作的。细节待考。

西瓜大丸子汤,2005-10-01

分类: 历史, 旧文, 信息论

为什么假定背景噪声是高斯噪声?

2011/04/07 1 comment

今天温习香农经典文章关于连续信源的一段,结果又恍然大悟(咦,为什么要说又?):为什么当我们不知道背景噪声的性质的时候,假设它是高斯噪声,即服从高斯(正态)分布的噪声。因为是噪声,我们又假定我们不能从一次采样中预测另一个采样的值,也就是不相关(“”)。

注:我以前有一个印象,白噪声就是高斯噪声,错。“白”是指任意两个不同时刻上的随机取值都是不相关的;高斯噪声是指概率密度函数服从高斯分布的噪声。更多分析见这里。为行文简洁,下面提到白噪声都是高斯白噪声。

高斯白噪的概率分布密度函数是(下引公式和图片,不另说明的,均来自维基百科):

这个函数的图示如下:

一般的一维白噪(比如电话背景噪声)是这个样子:

白噪声的频谱也是高斯分布(因为傅立叶变换是一种线性变换),见下图(来自空明流转blog,by lingjingqiu。第一个序列是时域幅度,第二个是它的频域幅度)。也就是,它在时域和频域都不可压缩。我以前有一种误解,白噪的频谱分布为常数,错。


白噪声的功率谱分布大体如下图,是常数。(那是不是说可以在功率域对白噪压缩呢?我的理解是不可以,因为时域到功率域的变换是有损变换,知道功率域分布,无法还原时域分布。而傅立叶变换是可逆的。)

这里有两个关键概念:1)“不知道”;2)“不可压缩”。

“不知道”,用信息论的语言就是我们对这个信息源的不确定性(uncertainty)最高,从度量的角度,也就是它的统计熵(entropy)最大。香农论证未知噪声的性质,就是基于这个熵最大原则(详后)。

“不可压缩”,在信息论也有严格定义,也就是信号本身的长度接近于它的最小描述长度(minimal description length, MDL)。通俗的说,就是一个信号 杂乱无章,毫无规律的可言,对它唯一的描述方法就是照葫芦画瓢原样给出,不存在更简洁的描述方式。这个MDL,就是柯尔莫哥洛夫复杂性Kolmogorov complexity),或者称为算法熵(algorithmic entropy)。

先说香农的统计熵。香农说,如果我们对一个信号什么不知道,除了它的平均功率是σ,那它的熵最大,按如下定义,其中p(x)是信号的概率分布



约束条件是平均功率为σ和p是概率分布:

拉格朗日乘子法,将约束化入目标函数,我们要最大化(对不同的p):

这等价于要求

同时调整常数项以满足约束函数,由此获得p的定义:

非常简洁。原来看似复杂的白噪定义,可以从一些很基本的假设(“不知道”+“功率受限”)推导出来。

那如果我们连功率受限也不知道呢?香农没有讲,我相信搞信息论的肯定有研究过的。我这里重新发明一下轮子。去掉和功率有关的约束项,我们要满足

(图来自wolframalpha)

也就是p(信号的幅度分布)是一个x的常数分布(uniform distrbution),也就是说每个x的取值等概率。如果我们不知道x的范围,那这个常数要无穷小。高斯噪声的时域幅度分布是瑞利分布(Rayleigh distribution)[出处]。幅度分布为常数的信号频域分布如何?傅立叶分析我已经都还回老师了,这里斗胆试一下。因为傅立叶变换是线性的,幅度分布为常数的信号,频谱分布也是常数(注意,如果幅度为常数的信号,频谱分布是单位脉冲函数)。这倒符合我以前的误解中的“白噪”。

下一篇讲白噪的算法熵。先挖个坑,还是那句老话,也许填,也许不填。

分类: 信息论

语义不确定性原理

2011/04/06 发表评论

科学松鼠会上看到一篇精彩的文章《不确定性原理的前世今生》(1,2,3,4),联想到语义信息论上的一些问题。关于测不准,我以前也写过一段介绍

【广告之后马上回来(其实是我要回家吃饭)】

P.S. 2011-04-08 这个坑看来一时半会是填不了了。我主要是在想对一个信号做逻辑的变换, i.e., 信号本身是模型而不是信号(看这话绕的),那获得的最终信号(i.e., 推理结果)的频域特征是什么?不确定性原理还是否有效?BTW, 一个茴字有四种写法,这个“茴”是模型,四种写法是信号…

P.S. 2011-05-28 似乎想明白点了。语义不确定性,就是对某些模型(model)不可区分。经典的信息论,传输的是模型本身,而语义信息论对应的是模型的叠加态。参后文《量子信息论和语义信息论

分类: 思路, 信息论

该亚细胞

2011/04/05 1 comment

2000-01-03。最早发在个人主页,这里修改了几个错别字。

【声明:关于盖亚假说,可以参考维基百科()。学术界存在很多对盖亚假说的批评。尽管过了11年,我依然很喜欢这个假说,而在这篇文章中,做了一些引申。这篇文章中的基本观点,11年以后并没有改变。但要警惕的是,在这个题目上,除了信息论的部分,我是道道地地的民科。】

引子

世界上没有什么事不是相关联的。我们都从混沌中走来,正是由于关联,才渐渐产生今天这个世界。世间万物在统一着。

每日早晨,豁然睁开双眼,世间的万物象潮水一样涌入,那一夜暂时混沌的大脑的各个单元,又像被起床号唤醒一样,投入了自己的工作岗位;这几百亿神经元的各就各位,又仿佛是在一瞬间完成的。这是多么巨大、高效和有序的神经元社会啊!

有时候走在晨光熹微的城市中,天还没有亮,道旁偶尔出现的是正在准备开张的小吃铺的几盏灯。渐渐地,城市的轮廓清楚起来,越来越多的人出现在街道上;当晨光从窗户投入房间时,又不知有多少人被唤醒,去投入自己的工作岗位。城市从混沌中清醒,又恢复了它的生命力。

当我们飞翔起来,透过一层薄薄的晨雾,俯览这片广阔的大地时,又不知有多少城市正在苏醒。沿着地球弯曲的表面,我们发现尽管相距极为遥远,这无数的城市和居民点仿佛有一种神奇的默契,当阳光渐次照耀到它们时,犹如向阳开放的花朵,这些如同细胞的小点在经过了一夜的混沌后,突然开始显示其活力了。不仅如此,这些细胞之间有着极为密切的关系,如血管似的道路骤然开始繁忙。细胞们本身也好像被一个无形的大脑在指挥,似乎在为了一个目标而运动。

这个目标如同豁然睁开双眼时惺忪的梦意,连它存在本身都是一个飘渺、难以琢磨的问题。不妨让我们飞向更高的高度,穿过那云层,飞过茫茫的太空,便会发现地球是多么的与众不同。刘易斯·托马斯在《世界最大的膜》中说:

“站在月亮上远望地球,让人惊讶得敛声屏气的事儿是,它活着。从照片上看,近景中干燥的、备受打击的月球表面,死沉沉如枯骨。高高地漂浮于天际,包裹着那层湿润的、发光的、由蓝天构成的膜的,是那正在升起的地球。在茫茫宇宙的这一方,唯它才是生机四溢的活物。假如你能看上足够长的时间,你会看到大块盘旋的白云半掩着陆地,陆地隐现于白云之中。假如你能看到从很远古的地质纪年的演化,你就会看到大陆本身也在移动,看到它们在地火的推动下,在地壳的板块上漂移。看上去,地球就是一个有组织的、自成一体的生物,满载着信息,以另人叹慕的技巧利用太阳。 ”

可是我们知道地球在是个婴儿的时候,并没有今天这样美丽;她的姐妹——金星和火星,虽然天资相近,今天却远无地球这般清扬婉美,顾盼生辉。有时候,朦胧地感到金星和火星还沉睡在静静的梦乡之中,而地球已早起,睁开惺忪的双眼,世间万物的信息涌入眼帘,使她聪慧,使她机敏,使她对自己进行改造,最后赋予她信心,更赋予她美貌。

社会生命

行星之梦可能难以理解,然而当我早上被这个社会唤醒,打开我的电脑时,我知道我也使它从梦乡中醒来了。在我打开电源之前,这机器,它的电路中的自由电子和空穴都是懒懒散散的,安逸于近热力学平衡态(如同我睡觉时我的部分脑细胞企图做的);一旦电源打开,这种好日子就到头了,每一个设备中的每一块电路,每一块电路中的每一个单元,每一个单元中的每一个触发器,每一个触发器中的每一个晶体管,每一个晶体管中的每一个电子,它们都别想再过无所事事、互不往来的生活,它们的物理自由就在这一刹那被剥夺了,而进入了了一种有组织的、各司其职的非平衡态。它们都无法再过梦一般的独立生活,它们组成了一个庞大的社会,这个社会从外界获取能量,降低了自己的熵(各晶体管的可能状态数大大减少);与此同时,这整个机器本身也获得了生命,它打着哈欠、伸着懒腰,直至完全清醒(有的专家把这个过程称为“启动”(boot)),即操作系统完全载入。

我想我自己早上起床的时候大概经历的也是一个类似的过程吧!“我”成功地剥夺了那些企图偷懒的脑细胞的自由,使它们不得不各司其职。当然这也是有代价的,这个神经元社会向我索取着能量和物质,又把熵排放给我:我不得不把神经元工作时所产生的热量和高熵废物用血液和其他运输工具运走,又转化成水蒸汽、二氧化碳和其他的高熵物质排放到我这个系统之外。

也许我自己也是这样一个脑细胞,在我所处的社会苏醒的时候,我重复了上面自由电子和神经元所经历的事情。我放弃了高熵状态:热被窝,哆哆嗦嗦地冒着深冬的冷空气穿上衣服,打开电脑。这一切行为都违反了我的物理学本性,但我却乐于做这些事、乐于某些自由被消灭,这真是一件奇怪的事。

自从有了电脑,我的自由被剥夺的程度越来越厉害了。从物理上说,以前的我从空间和物质构成上都是比较自由的。我会用不同牌子的笔各种写法写一个字,我会到不同的报摊去买我需要的报纸,我会十几分钟就在屋子里、院子里转悠转悠(甚至跑到很远的地方),我的手和脚也比较自由。如今这些自由不是消弱就是消失了:我只会用一种输入工具敲一模一样的字,我哪都不用去就能用鼠标从网上拉下更多的报纸,我会傻傻地在一台机器前一坐几个小时,连我的手和脚都规规矩矩地只具有很小的物理活动余地。

今天的我与我的祖先相比物理上是多么的不自由!我必须靠右行走,我必须按时工作,我必须按计划与别人精确协作,我要遵循与日俱增的法律,我要相信各种我大多数永远不会亲自实验的科学定律,我说话要与十几亿人遵循相同的语法,我直接和间接地被离我100米、1公里、1000公里、乃至1万公里的人和组织领导、制约。我从心理上或许是自由的,但若把我看成一个粒子,我的自由度绝对小于一个中世纪的农民,更不用说与还没有下地的猴子比了。

我们的社会就是在剥夺个体物理自由的过程中成长起来的。钟表和历法剥夺了人随意工作的自由,道路剥夺随意行走的自由,协作剥夺了自行其是的自由,政府剥夺了互不隶属的自由。在这个过程中,我们却一直认为:我们与自然斗争胜利了,自由了。

社会越来越有序,社会在组织起来,社会正在从一个梦中醒来。在这个过程中,我们在短短五千年的时间里,被关联起来,从一个个松散的小的灵长目动物种群发展到今天这个全球化的集体。社会正在向着一个目标前进:把一个个小小的人凝聚起来,使社会具有更强大的物质能量利用能力,而那一个个小小的人也在这过程中受益,并乐于牺牲某些自由,达成协作约定,形成所谓的“社会契约”。

我想,我从热被窝里出来去打开电脑,实际上是一种社会契约的作用结果,我知道这样做是某个更大的社会活动的一部分。所谓的信息化,正是这种社会契约加强到一定阶段的必然。正如从农业社会到工业社会,生产抛去了它的生物外衣,从工业社会到信息社会,生产又进一步抛去了它的物质外衣。生产过程是一种社会契约,而信息是契约程度的量度,信息化生产,就是生产契约本身成为社会生产的主流。这是一种难以理解的事吗?当年从农业社会向工业社会转化时,人们曾非常怀疑工业和商业是否能创造财富,在重农学派看来,只有农业生产才是社会财富的唯一源泉,但事实是工业促进了社会财富的极大丰富。社会财富本身,不是其他任何东西,而是社会有序程度的体现,一切货币(包括电子货币)和金银的价值就在于社会交换契约本身,货币的非原子化过程更使这一本质显露出来。信息化,是社会契约打败钢铁和小麦,成为生产的主要产品的开始,并将使社会能生产出比以前多得多的钢铁和小麦(如果还需要的话)。

在这个过程中,人类社会将实现社会化。首先,社会的生产将从物质生产为主转化为以信息生产为主,最重要的生产资料就是信息本身,这种生产资料必须为社会所有,不再允许被个人或小集体所垄断。这种新的生产方式已经在互连网上开始萌芽了。其次,再也没有一种自由的局部生产,生产只能在全球环境下考虑才能被正确理解。再次,社会的生产者不再是所谓的无产者,他们是一个在信息化生产条件下从事社会化生产的群体,是新意义上的“中产者”。

信息化、社会化、全球化和中产化,这些事情决不是相互独立的,而是密切关联着的,是社会有序化的必然,是两百万年来社会发展阶段中的一环,是社会即将进入一个新的“相”的曙光。这种相的产生曾经在历史上多次重演,40亿年前它发生在一群小分子的群体中,30亿年前它发生在一群大分子的群体中,6亿年前它发生在一群细胞的群体中,今天它发生在我们的群体中。它的名字,叫“大同”。

我们的DNA里也许记载着历史上发生过的大同事件,也许这种大同是我们这类系统发展到一定程度的必然。这样,自古以来哲人们对“大同”惊人相似的理解和预言,也许并不是什么奇怪的事,只是我们生物本性的一部分罢了。遗传告诉我们过去,遗传也告诉我们未来。

也许我们的信息化只是这个大同过程的很小一个阶段。那个以信息化、社会化生产为特点组织起来的新社会形态并不是人类社会发展的终结,只要不因为人类的自相残杀而同归于尽,社会将沿着50年来、5000年来、200万年来的自然规律接着走下去,走出混沌、走出无序,走出梦乡,开始自己的新的生活。

我们的社会,终将像一个生命一样——不是像,它本身就是一个生命,一个从原始生命分子以来繁衍出的大家族的新一代。我们是第三代,社会是第四代。社会将活着,它也从事着“物能换熵”把戏。也许这一天并不遥远,因为从200万年酝酿、5000年助跑、50年起跳的过程可以看出,这个过程与一切此类系统的发展相似,是加速的。100年以后的社会将超出今天知识的预测能力,一千年之后的社会将超越最野蛮的想象。

上面所说的,是第一种大统一:人类社会的大统一。

生态统一

今天的社会,已经有了半生命的特征。它从环境中获取物质和能量(如生物、煤、石油、洁净的水),经过处理后排泄出高熵废物(CO2、水蒸汽、食物残渣、垃圾)。我们一方面看到社会像一个孩子一样不断成长,另一方面也遗憾地看到,这个半生命也在无情地破坏着环境。

一切生命,如果它不能从环境中获取负熵维持和加强自身的有序程度,它就最终要为热力学第二定律征服:死亡。生命的有序总是以环境的无序为代价的,这本身并没有错误。然而,当某种灵长目动物组成社会时,原先为生命的前三代准备的环境就难以承受这新的家族成员了。原本生态系统的能量循环维持只需太阳能和地热能即可(还有剩余),但现在必须借助煤和石油;原本生态系统可通过光合作用和呼吸作用维持正常的氧化性大气,但现在二氧化碳和臭氧的含量都严重失衡了;原本可以通过正常的水蒸气循环向外层空间排放熵,但现在熵流赶不上熵产生,全球大气运行规律日益改变;原本存在足够的初级生产者维持多样的物种,现在连维持社会这一种消费者都很艰难了;原本存在一个动态的生态平衡,现在被一个物种——社会的独裁破坏了。

人类社会是从生态系统中成长起来的。我们曾经以为我们已外在于这生态系统,我们随意地向生态系统中排泄,但是我们错了。

今天的人们已经认识到这一点:人类社会的发展不能以环境的破坏为代价,此即所谓绿色化问题。30年来,环保逐渐成为各国政府的政策基本考虑点之一。不过,即使我们重视了这个问题,这个问题就一定能解决吗?

最为人津津乐道的例子之一就是伦敦泰晤士河的污染治理。泰晤士河中原本鱼虾绝迹,经过治理重新恢复了往日生机。但是,如果我们不是从泰晤士河这个局部,而是从全球总熵变的角度出发,便会得出并非乐观的结论。在泰晤士河的治理过程中,英国政府所投入的大量人力、物力,一切活动本身,同样不可避免着熵产生。如果泰晤士河是一个封闭系统,总的熵必然是增加的。泰晤士河变清,它的有序状态的恢复,意味着必然有物质能量的交换导致熵流向了别处,不是通过环保活动流向了英国的其他地方,就是通过产业结构的调整使熵产生最严重的部门迁移到了世界上别的国家——正如我们现在经常看到的。这正如在一盆清水中滴入一滴墨水,当你进行搅拌,过一会儿水似乎又变清了,其实那不过是“污染”的扩散而不是污染的消除。

绿色设计同样是人们十分重视的。但是我们应当认识到,绿色设计降低了在创造同样多的的价值(人类社会的有序度)时所需耗费的物质和能量的总量(实际上现在许多自诩为“绿色设计”的设计并没有达到这个目标),但是这并不能改变人类社会生产发展的趋势,不能改变人类社会有序化增长的趋势,不能改变人类社会向环境熵的总排放量增长的趋势。绿色设计是一种改良主义,它可以推迟环境大崩溃的那一天,但它不能避免那一天的到来。

我们能不能在达到增长的极限时停止增长,停止我们对环境的过度排泄呢?在一个理性社会假设下,这是完全可能的。可是事实是,社会作为一个反应系统,其理性还非常脆弱。一个根本原因是人类社会的分裂。众所周知,国家是现在人类社会维持的基本单位,一个统一的人类社会严格来说并未建立,人的个体是在国家这个范围内与环境发生关系的。国家本身,作为社会发展的一定阶段的产物,同样有强烈的熵排放本能;如果一个国家不能在能量、物质和信息(负熵)的争夺中取得优势,最后将不可避免被灭亡。在这一点上,现代国家与一个古代的部落并没有什么两样,与一只马达加斯加的狐猴并没有什么两样,与一只艰难求生的细菌也没有什么两样。国家的斗争,使国家不可能因为环境问题而牺牲对资源的追求和无限利用,国家不能冒自己过分关心环保而放弃发展机会从而使对手超过自己的危险。国家的对立是环境问题的死结,人类社会的统一得不到实现时,环境问题就不可能从根本上得到解决。

怎样实现我们的第二种大统一:人类社会与生态系统的大统一?我们如果不能降低我们的熵产生,我们能不能使熵流出地球的速度加快?我们需要使目前半开放的地球以更快的速度与外界交换物质和能量,成为真正的开放系统。如果人类社会的大统一得以实现,这或许就能成为一种可能:正如阿拉贡王国统一西班牙后即能获得美洲的富饶资源,我们将能在统一后利用到我们原本不能利用到的资源,进入新的生态位。我们将集中全部人类的力量来从地球之外获取新的物质和能量,从而从根本上解决地球的熵积聚问题,即所谓的绿色问题。我们前两种大统一是相互关联的。

该亚细胞

我们最终要使我们、环境、地球成为一个统一的整体。我们作为生命,一直在改造着地球,今天,这种改造将要达到一个新的高度。

地球的现状,是生命作用的结果。在生命出现以前和大概在生命出现相当长时间之后,地球大气是还原性的,没有游离氧;是32亿年前出现的营光合作用的生物创造了氧气。如果按现在某些人的“适合生物生长的星球”的观点,如合适的大气、水、温度,地球是不可能产生生物的。不光是地球孕育生物,生物也在改变着地球。

最明显的区别是地球、火星和金星的大气组成不一样。火星与金星的大气接近于热力学平衡态,所存在的不平衡可以很好地用物理化学中太阳辐射与气体的混合物的相互作用来解释。相反,几乎在每一方面地球都不一样。氧化气体与还原气体共存,二氧化碳虽然存在,但其浓度远远低于化学期望值,不稳定气体如N2O和甲烷意外的多。同样寒武纪初开始海水镁-钙比值下降,碳酸盐岩中白云石减少、方解石增多,这种变化与那时动植物几乎同时开始的骨骼化(钙化)有关。这种对平衡态的偏离如果不是由于生物的代谢,是不能维持的。

这种偏离和有序是生命营造自己的伊甸园的一种努力。氧气吸收的,正是紫外线光谱带中对核酸和蛋白质最具杀伤作用的部分,而同时它又允许光合作用所需的可见光充分通过。如果不是氧气的这种半透性,我们不会这样进化起来。氧气的含量使臭氧层得以维持。蓝菌释氧的光合作用造成大气圈自由氧的缓慢积累,使在元古宙中期(约20亿年前)自由氧分压达到今天的1%,为真核生物起源创造了条件;氧气含量的继续升高,臭氧层进一步发展,使得陆生植物的出现成为可能,氧浓度达到今天的10%,随后(3-4亿年前)使陆生动物得以出现:在石炭纪产生爬行动物,在二叠纪产生昆虫。这样的巧妙安排真的使人要怀疑应该假设一个“上帝”了。

然而,“上帝假设”是没有必要的。如果我们能认识到生物与地球的协演化,我们就知道今天的一切都是某种自然规律的结果。这个自然规律正是热力学第二定律的对立面,它说:

“开放系统在内部诸要素的非线性作用下,可以走向有序;并有可能产生这样一种系统,它不断增强自己的有序性,当这种有序性不能为其结构所支持时,它将采取层次化的方法进入新的资源空间。”

这是一个意味着有序、统一的规律,这是一个使世间万物相互关联的法则。地球本身最后将具有自己的生理学表现,这些行为包括控制表面温度和组成大气的活性气体,包括氧,以及pH值。地球是一个由聚居在地球表面的不断相互作用的生命组成的活跃的整体,它的生理学表现正是无数亿个貌似相互独立的生命行为的综合,而我们人类社会将在其中起到越来越重要的地位。唯一的选择是人类社会的代谢、生态系统的代谢与地球的代谢相统一。我们再也不能以邻为壑——无论是对邻国、对森林,还是对地球本身。我们是一个生命体中的成员——正如在你体中“独立” 生存的亿万线粒体(线粒体要占到你干重的大半),我们的生存和进步依赖于我们对这个生命体的珍视,依赖于我们采取措施来实现第三种大统一:生态系统(包含人类社会)与地球的大统一。

我们的地球,将发展成为该亚细胞。也许我们这个细胞将要伸延出我们的细丝,载运到其他星球,将它改造为与地球一样的细胞。宇宙绵延无尽,在宇宙的此处,地球在生存着,地球在成长着,地球将要繁殖。这是多么象太古初生时茫茫海水中最先诞生的那些生命小颗粒啊!只要不因为人类的愚蠢而将这第一个该亚细胞毁灭,生命发展的脚步就不会停止,这一个将变成千百万个,正如显微镜下不停分裂的绿藻,最终生命所曾经经历过的那些事情又将在新的高度重演:分化,捕食,协作,及其他一切生态关系。

也许此时此刻宇宙中正在诞生着其他的该亚细胞,我们不知道它们是否友好,但是加快自己的进化历程总是一个明智的选择。我希望不要有一天有一个其他的该亚细胞到了我们身边,伸出它的舌头将地球表面添得干干净净,而我们却没有还手之力。

如果我们幸运,能够成功地将地球的“DNA”繁衍下去,也许若干年后,银河系中将突然产生一种该亚细胞的聚合体——正如我们太古的祖先(也是该亚细胞和他们的聚合体的祖先)在海水中曾经做过的,那就是下一层层次化大戏又开演了。在它们看来,我们不过是岩石中的微生物化石,不过又有什么关系呢?我们是它们的祖先呀!

我们从混沌中来,我们向有序走去,我们服从着生命的基本准则。我们因为这个准则从分子发展到今天,我们还要沿着这条路向着更激动人心的未来前进。我们还有很多事要做,我们的统一历程还有很长的路要走;绿色文化也罢,信息化浪潮也罢,都是一大任务中相互关联的局部,我们应当在一个宏观规划下完成这一前所未有的任务。

让我们像线粒体一样努力地为此工作!

西瓜大丸子汤,2000-01-03

减排了,全球就不变暖了?

2011/03/30 发表评论

标题党。其实这个帖子讲的是语义信息(semantic information)和信念修正(belief revision)。详见我在Tetherless World Blog上的文章

http://tw.rpi.edu/weblog/2011/03/30/can-cutting-co2-emission-avoid-global-warming/

要义:知道了p → q,那我们对¬P^¬q的信念也增强了,因为p → q包含了对¬P^¬q正的互信息。

P = 减排

Q= 全球变暖

==============

OK, you have been fooled by the title. This post will not talk about environment policies, as I have no courage or knowledge to fight either school about global warming.

As a part of my recent work on “semantic information theory”, I’m reading Compression Without a Common Prior: An Information-theoretic Justification for Ambiguity in Language, by Brendan Juba of Harvard. I had some nice conversations with Brendan on Universal Semantic Communication when he was at MIT . It’s nice to read another paper from him.

In his paper, Brendan uses an example

For an English example, consider the example of sentence, You may step forward when your number is called. The implication is that you may not step forward before your number is called, for if that was not the intention, the sentence You may step forward at any time could have been used

Logically, that means if we know p → q, is ¬p →¬q true?

We know this is not a correct inference (i.e., the Denying the Antecedent fallacy). But why it is so often people fall for fallacies of this kind?

I tried to come up with a reasonable explanation using the semantic information theory (SIT). First introduced by Carnap and Bar-Hillel, SIT studies meanings carried by messages. If a sentence is less likely to be true, then it is more surprising. So “Today is hot, and tomorrow is also hot” means more than “Today is hot”. On the other hand, if we say “Today is hot, or today is not hot”, we give very little information.

In classical information theory, the entropy of a message is determined by the statistical probability of the symbols appearing it. In SIT, the entropy of a statement is determined by its logical probability, i.e., the likelihood of observing a possible world (model) in which this statement is true. To see the difference,  let’s see another example: the message “Rex is not a tyrannosaurus” (M1) is less “surprising” than “Rex is not a dog” (M2), not because the word “tyrannosaurus” is more common than “dog”, but because the individuals represented by “tyrannosaurus” (now considered extinct) are less common than the individuals represented by “dog”. Thus, M1 has less semantic information than M2, even if it may have more Shannon information based on the statistical distribution of English words.

Now back to ( p → q)→(¬p → ¬>q). We have the truth table:

pqp → q ¬P→¬q

TTTT

TFFT

FTTF

FFTT

As we are ignorant about the likelihood of p and q, let’s suppose all 4 situations in the truth table are equally likely.  So the logical probability of ¬P→¬q is

m(¬P→¬q)=3/4

Now we know that p → q is true, so the second row in the table is ruled out. Then, the conditional logical probability

m(¬P→¬q|p → q)=2/3 [less surprising, less information]

Thus, by hearing that “You may step forward when your number is called“, it’s rational to revise downwards one’s belief about that “You may not step forward before your number is called“. The first sentence, while not a logically sufficient condition for the second, carries some semantic mutual information about the other.

Wait, is it the reverse of what we want to justify?

Maybe the real implication of ”You may step forward when your number is called” is “No number called, no stepping forward”, i.e., instead of causation (¬P→¬q), we mean correlation (¬P^¬q). If that is true, it will be reasonable to not moving before your number is called:

m(¬P^¬q)=1/4

m(¬P^¬q|p → q)=1/3 [belief increases!]

Now return to the title, assuming P is “CO2 emission” and Q is “global warming”, and also assuming that the causation p → q stands, will ¬P^¬q, i.e., no CO2 emission will happen together with no global warming, make more sense? Well, based on the analysis above, it is. Logicians may disagree, but polar bears will certainly appreciate the argument.

Reference

[1] CARNAP, R., AND BAR-HILLEL, Y. An outline of a theory of semantic information. RLE Technical Reports 247, Research Laboratory of Electronics, Massachusetts Institute of Technology, Cambridge MA, Oct 1952.

[2] B. Juba, A. Kalai, S. Khanna, and M. Sudan. Compression Without a Common Prior: An Information-theoretic Justification for Ambiguity in Language. In 2nd Symposium on Innovations in Computer Science. Beijing, P.R. China. 2011.

分类: 信息论

《The Information》读后感(1)

2011/03/24 3 条评论

The Information: A History, a Theory, a Flood》已经到了,从昨天晚上开始看。Amazon上只要$16,还有语音书版本。

看了两章,还是很有趣的。比如里面说非洲土著有一种鼓语,和莫里斯电码差不多,用高低两种音调模拟单词(这些语言里还没有字母),利用大约8倍的语义冗余,可以向几公里外传递信息。

我用Twitter写了一些很短的读后感,集中在这里,没什么次序。

In fact, semantic msg predated symbolic ones: paleolithic paints of horses expressed models of horses, rather than the word “horse”

Some people worried about the use of calculator. They are not alone, Plato worried that writing will make ppl not practicing their memory

I conjecture entropy of Chinese names is >> English ones, not symbolically but in semantics, often with profound meaning tied to history etc

Transformative inventions have something in common: they lead to things unplanned. We still use wheels in ways unimaginable 10k yrs ago.

Persistence of writing allows so many unplanned possibilities (you name it). Persistence of LIFE (as web allows) isn’t less revolutionary

Writing first, then logics invented. Same here: structured web first (RDF? maybe, or not), then semantics. Warning: logics is never popular

Literacy allows one to describe notions without references to their models (instance) – this is a great semantic compression

Can there be math beyond simple counting without writing? Now Web is the extended brain, what new devices of thinking will be invented?

懒得翻译成中文了。先挖个坑,以后也许填,也许不填。

西瓜大丸子汤,2011-03-24

分类: 笔记, , 信息论

什么是复印机?

2011/03/21 发表评论
今天看到一个非常欢乐的法庭记录,详见【1】。这是俄亥俄的一个县政府关于复印机的官司。律师M(arburger)问县政府IT主管P(atterson)知道什么是”photocopying machine”,P说他不知道。为这个词的定义,双方鸡生蛋蛋生鸡了半天,浪费了足足10页法庭记录。最精彩的是最后一段:

Marburger: Have you ever–do you have machines there where I can put in a paper document, push a button or two, and out will come copies of that paper document also on paper? Do you have such a machine?

Patterson: Yes, sir.

Marburger: What do you call that machine?

Patterson: Xerox.

Marburger: Xerox. Is the machine made by the Xerox Company? Is that why it’s called Xerox?

Patterson: No.

Marburger: So Xerox, in the parlance that you’ve described, the language that you’ve described, is being used generically as opposed to describing a particular brand; is that right?

Patterson: All of my life I’ve just known people to say Xerox. It’s not commonplace to use the terminology that you’re using.

因为P,和这个县政府里的所有人,从来都把复印机叫“施乐”(Xerox),而不知道什么是“photocopying machine”或者“photocopier”。

 

典型的语义通信失败。

关于复印机,最近还看另外两个笑话。韩国人分不清”f”和“p”,所以在美国的韩国人,或者在韩国的美国人(链接找不到了),会为此闹乌龙, 把coffee machine说成copy machine,反之亦然。这是典型的信道噪声导致的语义噪声。

上星期五听NPR里介绍一本书《什么是信息》【2】,听起来很不错。作者是James Gleick,当年因为《混沌学传奇》得过普利策奖的,我读大学的时候读过。

NPR上另一篇简介信息概念的文章【3】也很不错,香农的理论,算法信息论都讲到,很好懂。

最后,这个周末我做了一个语义信息的计算器。一个句子,可以很长,但是废话–比如“今天要么下雨,要么不下雨”;反之,很短的句子也可以包含很深刻的思想(i.e., 可以从里面引申很多结论)。语义信息测量的不是句子本身的复杂性,而是句子的“废话”程度。目前只支持介词逻辑(Propositional Logic)。

(很抱歉没法写得更生动有趣些,脑子已经木了)

参考:

  1. Identifying photocopy machine poses problem for Cuyahoga County official http://blog.cleveland.com/metro/2011/03/identifying_photocopy_machine.html
  2. Bit By Bit, ‘The Information’ Reveals Everything http://www.npr.org/2011/03/08/134366651/bit-by-bit-the-information-reveals-everything
  3. What is information http://www.npr.org/blogs/13.7/2010/06/04/127473541/what-is-information
分类: 信息论

货币代表的是语义信息,而不仅是信息

2011/03/17 发表评论

接着”货币的量纲是焦耳/开尔文“扯。我现在做的这个项目,叫做语义信息论(semantic information theory)。这是一个少有的,我感兴趣又可以拿工资的工作。一起合作的,有人工智能,通信理论和算法方面的几个大牛,都是些极聪明的人。这是背景。

上面讲货币的本质是有序度的测量。哪一种有序度?传统信息论,研究的是随机信号,并不考虑信号背后的意义。DNA上一比特,和AV的一比特,无差别,所谓对错。

何谓语义,见仁见智,有许多不同的学派。我们这里用的,主要是模型论语义。也就是,我们说一个东西,比如“美女”,其实代表一个集合:美女={范冰冰,李冰冰,赵冰冰,钱冰冰,…(等等)}。这个集合,就是“美女”这个词代表的“模型”。不同的时候,不同的人,这个模型可能不同,有人认为芙蓉是,有人认为不是。总之,定义一个概念,主要是通过建立这个概念对应的实例的关系。我们家妞妞在看图识字,就是接受这个模型论语义的过程。

加上这个语义,我们讲语义信息,是指信号本身现在有了对错。看到范冰冰,惊呼“美女”!这个信号很靠谱,是对的。看到,唔,潘长江,惊呼“美女”,别人会认为你喝高了。这个对错,用模型论语义来检验。

所以有这个语义通信和工程通信的最基础区别:工程上,我们要传递的是信号;语义上,我们要传递的是信号代表的模型–信号变了(比如不说“美女”了,说“靓女”)都没关系,只要代表的模型没变。

为什么说货币代表是语义信息呢?你拿到一块钱,其实并不是真的关心这块钱的具体表现形式,硬币也可,纸币也可,电子信号也可。较真一点,没有两块钱是完全一样的,比如序列号。你关心的是这个一块钱能买到多少东西:10块巧克力,或者12个鸡蛋。这些东西,是这个钱代表的模型。

货币的购买力,取决于能购买的模型(商品和服务)的数量,以及它们的丰度。为什么物以稀为贵呢?well,动态的讲,你可以用供求理论,那么当市场到了一个平衡态(当然,这个平衡态不总是存在,我们这里不深入讨论),这个价格,就反映了一个物品令人“吃惊”的程度,表达这个稀缺度的,就是价格。鸡蛋常有,慈禧太后的夜壶不常有,所以后者贵。

那么平均来讲,一块钱能代表的,就是各种可能的交换对象的稀缺程度的数学期望。社会的有序度高,可以极大的提高商品交换的范围和服务的程度,使得物品相对“稀缺”(因为其他选择多了),从而提高购买力。这个东西,实实在在就是熵。严格一点,是逻辑熵,以和统计熵相区别。

这样,用钱来做支付工具,从信息的角度,是语义信息的传递,因为我们关心的不是票子本身,而是巧克力,鸡蛋,慈禧太后的夜壶,还有范冰冰…(面壁去)

http://baojiebaojie.wordpress.com/2011/03/17/money-is-semantic-information

西瓜大丸子汤 2011-03-17

货币的单位是焦耳/开尔文

2011/03/17 发表评论

这是我1996-1997年开始的一个观点,2008年金融危机后加深了这个看法。

不记得以前是不是写过文章解释这个观点。基本的思路是这样的

  • 现代社会货币的本质是信用(所以温家宝说,信心比黄金更宝贵)。
  • 美元对黄金脱钩后,目前这个国际货币体系的运转,依赖于对美元本身的信心。人民币发行很大一块是基于外汇储备(其实是被迫的),所以人民币的购买力间接的依赖对美元的信心,当然,对本国经济的信心是主要的。
  • 最根本的技术指标,就是美国国债的利率。这个利率,在各种主权债券中,是非常低的。你去投资发展中国家债券,搞不好可以10%回报,因为它的利率是非常高的。大家都认为美国政府是不会赖帐的–现在这样看的人在减少,据说莫迪也在考虑给美债降级–但是大多数人还是这个看法。
  • 当然,人们以前用其他货币,也是基于信心。
  • 这个信心的培养和丧失,是通过一系列的社会契约。元朝后期不断动用宝钞的准备金,这是空开做的,这个信心就垮了,通货膨胀。美国要杀萨达姆,因为他要搞石油的欧元结算,这是美国履行对他的货币的义务,这个战争行动就是履约。这约履得不好,所以美元指数从120跌到80。所以每一单位的货币,本质上就是对社会契约度,也就是可预测性的一种度量。
  • 具体的技术操作上, M0(纸币硬币),M1(+活期储蓄),M2(+货币市场帐号,小额定期储蓄),M3(+其他各种定期储蓄),就是这个契约性的一步步放大。其他的,还有股票,股票的n阶导数(期权),期货,房子,君子兰,郁金香,QQ币,等等。
  • 货币一级一级的放大,所谓的乘数效应,就是对这个契约程度的数量化。风险大的投资利率高,风险小的利率低。这个风险,就是对未来的不可知性,其中最主要的成分是违约的概率。
  • 所以货币的制造,就是对风险进行的量化。极端的说,如果世界上所有的人都100%不会违约,那我们想制造多少货币就制造多少货币(当然,那时也就不需要货币了),反正利率,准备金,保险都低得可以忽略了。反之,如果世界上的人的行为都是随机的(天下大乱),那也谈不上什么预测,钱就真成了废纸。
  • 数学上,一个变量的风险可以用标准差度量。变量很多的时候,可以用熵。一块钱,我可以拿来做很多事,这个事情越多,这个钱就越“值钱”;这个对可以做的事情的多少的数学期望,就是货币的熵,准确的说,负熵。系统的可预测性越好,选择越多(代表参与契约的人越多),负熵越大,钱更值钱(所以在货币扩张的过程中,国家有铸币税的好处)
  • 回到信息论,负熵就是信息,系统有序度的度量。
  • 熵的单位是焦耳/开尔文,说它是比特也可以。 1 比特 =k ln 2 焦耳 / 开尔文 =0.957 × 10^-23 焦耳 / 开尔文。

最后说一句,有人认为人民币会贬值,我看这种看法盯住了一些短期技术指标,却看不到货币的本质。随着对中国经济整体的信心的增长,中国内部各种契约程度的加深(比如社保),人民币的内在价值那肯定是一个又一个比特地涨。凡是一个国家内部发生这种秩序的增强,而货币长期不升值的,我还没有见到过。

以上都是瞎扯,茴字有四种写法之类。不过有陈志武,郎咸平之类的垫底,我还不至于是最胡扯。

参考:信息 (如果乱码,选择GBK或其他中文编码)

http://baojiebaojie.wordpress.com/2011/03/17/money/

西瓜大丸子汤,2011-03-17

股票和信息论

2011/03/16 发表评论

股票跌了,跌得鬼子哇哇叫。目标:Dow,11000点;SP500, 1180点。奇怪吗?一点不奇怪。从去年年底开始,超买信号就很强,没有日本地震,也有别的第二只靴子掉一来。

对搞博弈论和信息论的,没有比股票市场更有趣,更现实的的样本了。香农40岁退休,后面的35年据说都研究股票了,年化投资回报率28%。(见道升随笔829:信息论鼻祖香农的投资手法)他的文章是没发,我想如果发了,一定得炸药奖。

我在看Cover和Thomas的《信息论基础》(Elements of Information Theory)第15章,Information Theory and the Stock Market。很有趣。

现在又有了Social Media(比如stocktwits),Linked Data。这里面的流动的信息,不可以简单看做随机遍历过程,而是有语义在里面的。比如你去统计每个月第一天是星期几,基本上是一个均匀分布,但是你把看作随机分布,那就忽略了它背后的规律,并不是随机的。打住,如果有现在可以退休的机会,我绝不在这里讲。

BTW,我有个同学,博士毕业,已经致富退休了,比香农当年还年轻几岁。在养猪,其乐陶陶,当代陶朱公。

分类: 财经, 信息论

信源编码与洗脑

2011/03/12 发表评论

据说真理部和中国男足是改革开放后唯二没有进步的部门。对此我深表赞同。

比如说,真理部据说是搞宣传的,可是连个自己的网站都没有,更不用说自己的英文官方译名,弄到自己在维基百科英文版上的名字还是贬义的Propaganda Department而不是中性Publicity Department,叫人想帮它正名都没法。我们中国人最讲究名正言顺,名都不正,还谈什么宣传?

真理部最大的失败,不在于它宣传了什么,或者不准宣传什么,而在于它给人一个印象就是它是搞宣传的。洗脑的艺术,就在于让受众飘飘然不知道自己在被洗脑。赵本山卖拐给范伟,断不会说我是在忽悠你。我到美国十年,最大的感触之一就是美国媒体忽悠的妙处,以及我们勤劳善良朴素勇敢的美国人民不以为自己被忽悠的这份淳朴。

最近重新看香农的信息论经典文章, 忽然悟得美宣部舆论控制的理论基础,以及真理部之低效无能的根源。

原来当我们有若干信号要发送到某人,比如说,这篇博文,这信号乃构成社会上许许多多信号集合的一个部分。其中有些组合,是真理部(或者美宣部)希望出现的,其他一些则是不合时宜的。如何进行控制以达到多快好省的对全社会的洗脑效果,是一个技术活。香农的伟大贡献在于,比如说我们有M种思想,在一个长时间段T内,各种思想的组合出现O(2^(MT))种可能性。那我们需要去控制这所有的组合吗?答案是否定的,因为其中极大多数组合,都是可以忽略的。比如说,我在MIT的走廊里看到美国共产党的免费报纸,这就是可以忽略的一种小概率组合。剩下的典型组合,大约只有O(2^(H(X)T))种,其中H(X)是各种思想发生频率的熵(具体就不解释了,总之如果大家思想高度一致,这个熵很小;如果这个社会上七个人八种想法,这个熵大;总之,小于log M)。抓住这典型组合,T越大,代表性越高。这样,我们并没有必要去控制社会上全部的人的思想的组合,而只要控制好关键meme的分布,典型思想组合就自然以大概率起到洗脑的效果。美国主旋律宣传(aka pussy价值)之成功,相信在美国足够长时间的同学们都有体会,和这个相比,什么CNN/Fox的区别都是噪声,在长时段里可以忽略。

真理部不懂得抓大放小,非要把烂篱笆的每一个窟窿都糊上,它有多少人力物力可以做这样逆天的事情?其实就如同牧羊犬拢羊,如果羊真正是随机分布的,那牧羊犬累到吐血也断断完成不了任务;而事实上,虽然每只羊在什么地方可能是随机的,羊群从一个整体上说,是抱团的,所以牧羊犬只要沿着边缘散散步,大部分羊便跑不远。这个道理,香农把它用在数据压缩上,我建议把它用在思想压缩上(也就是洗脑)。真理部现在的做法,就象一只年轻气盛的牧羊犬,它自己到恨不得固定每一只羊的精确位置。可惜它不是麦克斯韦妖,下场必然是失败,非常的失败。我们勤劳善良朴素勇敢的羊群天天饶有趣味地围观这只小狗狗乱跑,给他们平凡乏味的生活增加了多少乐趣啊!

那真理部不如去做主旋律宣传以产生对他有利的思想分布?这当然是真理部梦寐以求的事。可惜,对一个大样本做概率分布的改变,是一个极困难又极缓慢的过程。比如进化过程,简化来讲,就是DNA编码从自然选择中获得信息以改变有利基因的分布频率的过程。这个过程有多慢?如果不考虑XXOO, 大概是1bit一代。思想的进化,差不多也至少10年一代(人20岁开始形成世界观,到30岁以后就很少能根本改变),这个任务也只能靠时间来解决。

最后推荐David MacKay的一本书,Information Theory, Inference, and Learning Algorithms, 实在是一本不可多得的好书,深入浅出,图文并茂。作者更提供了免费全文pdf下载。读过此书,再看各类中文信息论教材,几乎味同嚼蜡。即生瑜,何生亮,呵呵。

http://baojiebaojie.wordpress.com

西瓜大丸子汤 2011-03-12

分类: 时事, 信息论