妞两岁了
有一阵子没写妞了。妞爸妞妈都太忙。妞进步的速度已经超过了我们记忆的能力,只能挂一漏万地提几句。
妞妞换了一个新daycare一段时间了。上学第一天没有哭,更奇妙的是,爸爸妈妈接她的时候,她竟然无动于衷,直接忽略爸爸妈妈的存在,仍低头玩自己的,不愿意走。老师说她在班上最小,确特爱指挥人。比如,到外面玩的时候,她抢着给小朋友换鞋,吃完饭,她主动把小凳子推到桌子下面。
告状。比如要玩什么东西爸爸不给她玩,就哭着(没眼泪啦)找妈妈:“爸爸搞的”。要是妈妈不给妞吃冰淇淋,就哭着找爸爸:“妈妈搞的”。
搞清楚颜色了。比如盖被被,会要求说:“白色的(被被)”。
表演。会一边跳舞,一边说:“是这样(跳)的,是这样的”。最拿手的是“世上只有妈妈好”。唱第一段的时候脸上做幸福状,唱第二段的时候做哭状。
数数。每天下楼梯爸爸会数:“1,2,3,…17”。结果妞就学会数10以后的数了。在诱导下,还会数20以后的数。所以现在爸爸要去干什么事,妞妞象小尾巴一样缠着爸爸,爸爸就会说:“妞妞藏,数到60,爸爸找”。妞就会乐不及地去找个角落开始数数。
听故事能跟上情节了。最爱听《丑小鸭》,听到鸭妈妈不喜欢小天鹅,妞会说:“小天鹅哭了”,做哭状(拳头在眼睛外侧转转)。到听到小天鹅找到妈妈了,妞会说:“妈妈好”,把手放在脸边做幸福状。
玩Youtube玩得纯熟。能自己在Pad上打开Youtube图标,点历史视频,然后根据相关视频找自己想看的。上下屏翻,停止,重放,全会——没人教。
配合刷牙。以前给她刷牙,实在是体力、脑力和忍耐力的多重考验。现在告诉妞妞,牙齿有“黑虫”,如果不捉黑虫,会把牙齿吃掉。有时候,在她吃完饭后,还真揪出个肉末啊、菜叶啊,给她看,“黑虫”。所以现在给她刷牙,只要说一句“黑虫”,小人就乖乖地把嘴巴张得大大的,让你刷牙。
怕“舅舅”。自从上次舅舅来了,吼过妞妞几句(“好好睡觉!”),“舅舅”就变成了妞妞不好好睡觉时候妈妈的专用术语(“再不睡觉舅舅来了”)。结果“舅舅”慢慢就变成各种可怕事物的关联。比如去医院打疫苗,裤子还没脱,妞就开始大哭(以前打过,知道疼),大喊:“舅舅,舅舅”。
先说这么多——其实每天都不知道有多少好玩的事,根本记不过来。每天把这个小肉团抱一抱,别的什么狗屁事情都是浮云了。
P.S. 妞妈补充如下
罚站:爸爸妈妈偶尔让做错事的妞妞time out,结果妞妞也把这一招用到爸爸妈妈身上了。有一次爸爸不知道怎么得罪妞妞了(细节不记得,总之是把妞妞气哭了),爸爸说了“sorry”,妞妞还不依不饶,大叫“爸爸站!”爸爸不得不跑到罚站的垫子上表示一下。
撒娇:妞妞经常有些纯撒娇的无理取闹,大多数时候爸爸妈妈都当没看见,不理她。但,某些撒娇还挺管用。比如,妞妞小床边放了一张大床,是爸爸妈妈哄妞妞睡觉时候用的。爸爸每次陪妞妞睡觉到要离开的时候说“妞妞,爸爸走了,妞妞晚安”。妞妞就一下子冲过来,抱紧爸爸的脖子,爸爸就给征服了,软绵绵地躺回去。妞妞发现这个屡试不爽。
故意搞怪。有一次妈妈陪妞妞头靠头一起在旁边的大床上睡觉,妞妞一不小心,后脑勺撞了妈妈的眼睛鼻子,撞的生疼,妈妈大叫。妞妞很深情的说了“sorry”,还用小手摸了摸妈妈的眼睛。妈妈还在眼冒金星的状态没反应过来的时候,没想到,妞妞又躺成原来的姿势,又以同样的力度和角度把妈妈给撞了一下。“乖乖,妈妈今天倒什么霉呀。”妈妈很纳闷,也有点无奈,“这家伙怎么这么不小心”。就在妞妞重复了“sorry”和抚摸动作之后,妞妞立即躺倒,以同样的姿势又撞过来了。这次妈妈看到了,这家伙第一次是无意撞了妈妈,后来都是是有意撞的!妈妈侧着的脸稍微偏了一下方向,妞妞心里大概是纳闷“咦,这次怎么没撞上?”只见她,回过头来,瞄准了几秒钟,重新撞了过来。妈妈气不打一处来,自然又time out 她了。
语义网是什么?有什么好处?
我对知乎上一个问题的回答:http://www.zhihu.com/question/19550885
说来话长。不同的学派在这个问题上差距太大了。如果我们过滤掉各种学术理想的“噪声”,看现实工业应用有的语义技术,可能可以总结出如下特点——当然,哲学的讨论永远看不到结束的迹象。
- 语义网有所谓的W3C模式(就是RDF,OWL, SPARQL等)。这个模式发展很慢,很多人质疑。越来越多的人在探索其他模式。
- 很多所谓做语义网技术的公司核心技术都是别的,比如NLP,比如检索,比如数据库。语义网是他们数据的一层皮。看宣传一定要小心。
- 目前全世界做语义网技术提供方案的公司,排得上号的大概有150家左右。
那 语义网到底有什么用。用非常不精确的语言讲:
- 动态的数据建模,不需要什么schema或者shema可以快速演进(这是和数据库和XML比的好处)
- 让数据流动起来,而不是封固在一个个的网站或者应用里。
- 支持更多的任务自动化。(怎么做到?一些数据可机器处理,一些推理,一些查询)
语义网界研究早期有很多现在已经被纠正的概念(比如语义网的目的就是让机器读网页)——早期,大多数人都低估了它的困难程度。按Nova Spivack的说法,传统意义上的语义网(ca 2000定义)大概要到2030年才能实现。到2020年左右,如果运气好的话可能能实现Data Web,也就是让Web的上数据能自由流动起来。推理啊,机器理解啊,不是这个阶段的核心任务。
语义网的公司 True Knowledge
认字记
妞妞今天实现伟大的战略突破:认字。
每天从幼儿园回来,妞妞都会带当天的“作业”回来——贴纸啊,涂颜色啊。每张纸上都会写上“妞妞”的名字。老师是中国人,所以就直接写汉字了。
今天妞妞在玩的时候突然指着自己的“作业”说:“妞妞”。我发现她的小指头指着自己名字,就问:“什么是妞妞啊?”妞就指着那两个字又说了一遍“妞妞”。
我在纸上写了一个“好”字,一个“妞”字,问:“哪个是妞啊?”妞正确地指出来了!
增大难度,写了三个字:爸、妈、妞。妞妞又指出哪个是“妞”了。
—————–
另外一个突破,也是今天的:妞现在会数1到10了(这不是新闻)。但是今天她在玩数字积木的时候,找到了三个“6”,然后大喊“三个六!”这说明,她不但在语法形式上知道了数字,还在语义形式上知道了什么是“三”。
妞也开始会写数字,至少有两个:“2”和“3”,虽然走样走得充满想象力,毕竟在拓扑上还是同构的。
语言上还有一些突破
- “世上只有妈妈好”整个句子会说了。
- 叫妞妞去洗脸,妞妞说“洗过了”。状语和时态的概念也有了!
马上就要24个月(2岁)了!
哄觉记
(作者:妞妈)
2012-01-17:昨晚睡觉的时候,妞妞嚷嚷身上痒。妈妈给她挠了前胸后背,还痒,妈妈纳闷不是才洗澡么?后来妈妈抓遍了她身上每个可以触摸到的角落,包括鼻子,耳后跟,脚丫。最后妈妈说“好了,所有的地方都挠了,都不痒了,赶快睡觉吧”没想到,她小手一指,小嘴一噘,让妈妈挠她嘴唇。妈妈就顺便亲了一下“好了,该睡了”。接着她边翻白眼(想问题呢)边呲牙咧齿,把牙齿送过来…再后来,把小嘴做出N种形状送过来,还包括吐舌头。有人听说过舌头痒的吗?
2012-01-18:昨晚妈妈躺在妞妞边上哄妞妞睡觉,妞妞不免在妈妈身上翻来翻去。兴致高的时候,唱起“Head, shoulders, knees and toes, Knees and toes. And eyes, and ears, and mouth, And nose”。边唱边指点江山。小手指一下戳到妈妈眼睛,妈妈尖叫一声,捂起眼睛。妞妞发现问题了,怯生生地说了声“sorry”然后大声喊客厅的爸爸。妈妈奇怪,“妞妞为什么喊爸爸?”妞妞接着喊“爸爸,爸爸,站(这个“站”字是后来妈妈才反应过来的)”。等爸爸惊恐赶到,妞妞说“垫,站。垫,站 。”(参《罚站记》)原来妞妞知道做错事了,自动请罚。
外两则:
- 妞妞有时候唱歌的时候,爸爸妈妈跟着一起唱。她有时候就不高兴,小手食指放在嘴边“嘘”一下。言外之意,“你们别唱了”。
- 妞从1数到10已经很流利了。
反对SOPA和PIPA
我也来凑个数
简介1
【待续】
参:Jim Hendler反对SOPA和PIPA,给参议员Cantor的信
Clay Shirky: Why SOPA is a bad idea
http://www.ted.com/talks/defend_our_freedom_to_share_or_why_sopa_is_a_bad_idea.html
随想:Web的诞生与TBL(4)
(4)加上人后的可扩展性
在接着回顾Web诞生之初的一些选择之前,我想简单说几句可扩展性。
在过去十多年里,我接触过人工智能的几个不相干的领域:神经网络,机器学习,形式逻辑。许多模型,从理论上计算能力是没有问题的。比如神经网络,可以等价为图灵机,理论上可以解决图灵机可以解决的一切问题。逻辑,比如一阶逻辑或者描述逻辑,表达力非常得强,不乏专用领域成功应用的实例。
问题在于,当数据极大增加后,系统还是否工作?这个可扩展性,当然是常识,每个设计算法的人都会想到。对神经网络,机器学习,或者形式逻辑,都有无数的工作来研究如何提高它们的计算的可扩展性。
可是,到目前为止,成功都是有限的。机器学习的进步最大,特别是基于统计方法的这一块,广泛用到工业中。神经网络现在还在低潮中趴着。逻辑——除了数据库(其实SQL是一种逻辑)——始终无法大规模的应用;语义网(Semantic Web,同由TBL倡导)是逻辑界试图走向全球规模应用迄今的最后一战,前仆后继十余年,至今成绩极为有限。
在经历、目睹很多失败后,我渐渐觉得,所谓的可扩展性,不应该仅仅指计算的可扩展性,而应该是包括人在内的整个系统的可扩展性。数据的产生,知识的建模,到最后信息的消费,都要有人的参与。人的懒惰、人的心理、人的经济头脑,都会深刻影响一个系统能不能走出实验室。
当然,这种认识,回来看,常识得不能再常识了。可是一代一代的学者、工程师,总是很容易对一个技术倾倒、兴奋,但是劳心劳神做出来的美妙系统,没有人愿意用,或者用户一多就不灵了。这种经验,好像失恋的经验,似乎每个人都非亲身经历一下,才知道是怎么回事。
在TBL发明Web之前,别人也有类似的想法和实践。上节提到的oN-Line System (NLS,1968),就是一个杰出的代表。NLS是一个里程碑性质的伟大工程:超文本,鼠标,光栅显示器,窗口系统,演示程序,视频会议…都在NLS里第一次被应用。但是它最后没用走出实验室。它要求用户在做任何一点有用的事情之前,学习很多东西,服从一些严格的规定,记忆一堆奇怪的代号。“正常”人类不会心甘情愿地做这样的事。
Web的竞争者Gopher,要求所有的文档有一个严格的菜单结构,然后用户可以一级一级的走下去。对于熟悉文件系统的人,这是一个很自然的组织模式。可是,自己看自己的分类和看别人的分类是两回事,理解别人的分类从而找到自己需要的资源也不总是一件容易的事。更何况,分类本身就是一个头疼的工作。不信的话问问你的朋友,看多少人去分类自己的download文件夹。
TBL在设计Web的时候,在CERN这个极度多元化、极度分散的机构里,格外注意了“不给人找麻烦”这个样一个信条。我觉得这可能是技术因素之外,Web成功的最重要的一个因素。
TBL自己说(Weaving the Web, p19-p20):
“Having seen prior systems show down, I knew the key would be to emphasize that it would let each person retain his own organizational style and software on his computer.” (目睹了以前一些系统被干掉的事,我认识到问题的关键将是强调允许每个人对自己机器上的组织方式和软件各行其是)
“We can create a common base for communication while allowing each system to maintain its individuality” (我们可以建立一个通信的共同基础,同时又允许每个系统保持个性)
不要试图强加给用户一种你认为最好的信息组织方式——别人完全可能有不同的想法。(BTW,这也是为什么我认为几大搜索巨头的Schema.org未必能成功的原因)
允许人自由地以他自己高兴的方式发布信息,允许他们自己相互链接。没人需要先请示任何人来加一个链接。这就够了,奇迹会在这互联的过程中产生。
什么是知识?知识就是互联!
Web的可扩展性,依赖于它相对自由的组织方式、低门槛(按1991年的标准)的信息发布方式、和分布式的结构。这是技术和人的认知能力、人的社会性的恰当妥协,保证了它可以最终扩展为每一个人都可以用的技术。
这种自由的精神,被TBL一直贯彻了下去。比如对语义网,他也说:Raw Data Now!(TED2009年视;频:http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html):以你自己最舒服的方式发布你的数据,互联会慢慢产生,从而导致各种美妙的事情。
那怎么保证自由的发布和自由的互联呢?Web依赖三个重要的发明:URI(统一资源标识符),HTML(超文本描述语言)和HTTP(超文本传输协议)
待续
P.S. 我觉得语义网要成功,最重要的就是加上人以后的可扩展性:普通人(比如我外婆,如果她还活着)如何来组织知识?如何加强知识系统的分散性(而不是做任何改动之前要问另一个人来批准这个改动)?普通人如何传递知识?普通人如何互联知识?不要想当然。语义网不会是逻辑。普通人学会最基本的逻辑思考大概要再过一千年。
URL, URN, URI, IRI
“网址”到底是什么?一般的理解是URL(Uniform resource locator)
在RDF/OWL1/OWL2中却使用了不同的概念
- RDF和OWL 1使用了URI (Uniform resource identifier,也就是最初的语义网层次蛋糕的第一层)
- OWL 2使用了IRI(Internationalized Resource Identifier)
还有一个相关概念 URN(Uniform Resource Name)。他们有什么区别?
简述如下:
URL是这样的形式:
scheme://domain:port/path?query_string#fragment_id
如本页的编辑页面是 https://blog.baojie.org:80/wp-admin/post-new.php?post_type=post#
URI是URL的扩展,形式是:
<scheme name> : <hierarchical part> [ ? <query> ] [ # <fragment> ]
例:
foo://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose
Wikipedia上列有官方和非官方的URI scheme,如about, ed2k, doi, skype,都是。
URI不一定指向一个网址
URN是一种URI,形式如 urn:isbn:0451450523(书号),urn:mpeg:mpeg7:schema:2001(MPEG-7标准)。URN使我们可以描述一个资源而不必关系它的具体存档地址。
IRI是URI的扩展:URI只能用ASCII,而IRI可以用Universal Character Set (USC), Unicode——比如中文。
所以RDF和OWL里的资源,都不只是用“网址”来命名的。理论上,每个人都可以自己定义一个scheme来唯一确定自己的资源,不一定要放在网上,比如对我的冰箱,我可以命名为
urn:baojie-bengbu-iowa:冰箱:2012
更多关于URL/URI/IRI的请看W3C官方网页:Naming and Addressing: URIs, URLs, …
另参Tim Berners-Lee的Design Issues,Document Naming (1991)
Twitter能预测股市吗?[2010]
这是早先对印第安纳大学的Twitter预测股市的研究的感想。原文写于2010-10-19
总结为
- Twitter可能预测过去,但很可疑能不能预测未来
- 预测本身就是对未来的干扰,不可证伪
- 过去的相关性不能代表未来的因果性
我要是那个作者,就不发文章,先自己通过Twitter预测赚100万,然后把自己的交易记录贴在文后,比什么图啊,表啊,公式啊,都有说服力。
我的原文:
To be honest, I’m skeptical about the work in a couple of ways.
First, as some others already pointed out, correlation does not necessarily
mean causality.
Second, I’m not sure if it is more accurate (in predicting) than existing quantitative measurement of market calmness (or the lack of it) such VIX [1], or put/call ratio for an individual stock. While I don’t have any statistics, I personally find put/call ratio of GOOG is usually more informative (and direct) than reading tweets about $GOOG. Of course, their work is about the market as a whole, which I have no clue. Why their result is for 2-6 days later,
but not the next day?
Maybe the real catch of the study is, if it really works in the past and present, then people will follow the information and then the market will become fully efficient (in theory) as a result, hence the discovery will stop work after its publication. In the other words, it’s a theory that can not be falsified, and by Popper’s standard, not ”scientific”. I may be to too picky…we have to wait and see if it can continue the magic.
Google trend claims that it can predict the present, not the future. I would like to say that’s a safer claim.
I do believe tweets will be even more useful in financial analysis, in
many other ways.
[1] http://en.wikipedia.org/wiki/VIX
附:一些关于印第安纳大学工作的报道:
Twitter Can Be Used to Predict Stock Market, Say Researchers
http://rww.to/aJ6pF8
By Sarah Perez / October 18, 2010 6:47 AM
Researchers from Indiana University have devised a method for
predicting changes in the Dow Jones Industrial Average through the analysis of Twitter updates. Using two mood-recording algorithms, the Google-Profile of Mood States (GPOMS) and OpinionFinder, the researchers analyzed 9.7 million tweets posted between March and December 2008. They found that correlations between the calmness index, one of the six “moods” measured by GPOMS, could be used to predict whether or not the Dow Jones Industrial Average went up or down between two and six days later.
Twitter Mood Predicts The Stock Market
http://www.kurzweilai.net/twitter-mood-predicts-the-stock-market
October 18, 2010
An analysis by Johan Bollen at Indiana University and associates of almost 10 million tweets from 2008 shows how they can be used to predict stock market movements up to 6 days in advance.
原论文:Twitter mood predicts the stock market. Johan Bollen, Huina Mao, Xiao-Jun Zeng. arXiv:1010.3003 http://arxiv.org/abs/1010.3003
语义网是时候了
这是我在写《随想:Web的诞生与TBL(3)为什么在1991年》时产生的想法。
Web在1991年产生,首先是因为平台已经成熟了,比如Internet, SGML, TCP/IP,在上面再搞一点点创新,不是什么火箭科技。其次,是需求已经成熟了,信息不再只是几个人给几个人看(如Email),或者一群人给自己一群人看(如Usenet),而是全互联的,你无法预测谁会来看你的信息。
Gopher就是一个尝试,它失败了,我觉得主要因为两个原因:高估人的能动性和分类能力(多层菜单);试图收费。
Web避免了这两个问题,成功了。
语义网,需求是不是已经成熟了?
我看是的。语义网是对Social Web的进一步扩展。现在的Social Web,把每一个人看作一个点,把人和人关系映射到网上来。这个还远远不够。现实的人,不是一个点,关于这个人的信息的方方面面,有精细的结构。不理解这些结构,就没法理解用户(比如《Groupon是泡沫》),提供更好的服务。
语义网要建模的,大概不会是象开始想的那样,对文档加语义标签。而是更多的,把人连接起来,把人的各种日常“知识”一个一个的映射到网上来,再互联起来。(参《语义网是给人用的》,《Web3.0:互联用户产生的结构化资源》)
语义网,平台是不是已经成熟了?
W3C路线,RDF/OWL/SPARQL/Ontology,到现在争议很大。但是如果因为这个路线就否定语义网,就如同否定Gopher进而否定“Web”(嗯,不是特指WWW)。
如果放宽思路,有没有好的平台帮助我们把人的精细数据、信息、知识结构映射到网上来?这个平台其实已经存在了,就是移动互联网。(参《要命的Tetherless World 》,《Web 3.0与中国》,《Web 3.0 互联用户的知识》)
移动互联网不是传统互联网的简单扩展。从来没有一个时候可以象现在一样,对用户只要求这样低的门槛,实现随时随地的数据发布与采集。这种数据的互联与管理,必然的要求新的方法。而所有的支持技术几乎都已经具备,不需要火箭科技(比如数据挖掘、逻辑推理)就可以把它们整合起来。
我相信,在我写这段话的时候,世界上什么地方有其他人不但有了类似的想法,而且已经开始动手了。水到渠成,瓜熟蒂落,就是说这种情况吧。
P.S. 写完后看到这篇文章:Amit Sheth. 2011. Semantics Scales Up: Beyond Search in Web 3.0. IEEE Internet Computing15, 6 (November 2011), 3-6. [PDF] 说的不错,虽然我并不完全认同explicit semantics可以按文中所述途径产生。
Groupon是泡沫
想到这个是因为看到:Groupon’s fall to earth swifter than its fast rise (2011-10-21),其实是旧闻。文章说了Groupon的几个问题
- 高层分裂和动荡
- 购物体验问题
- Deal多面向女性,
- 参与商家得不到实际的好处
- 很少回头客。虽然有超过1.4亿用户(现在可能更多了),只有20%买过东西,10%买过超过一次东西。
- 利用会计手段夸大营收。2011年上半年,开始Groupon报了15亿收入;经SEC质疑后,这个数据缩小到不到7亿。
- 获得新客户极为昂贵。2011年上半年,Groupon花了3.45亿美元在营销(marketing)上,占真实收入的一半(先不谈盈利)。
- 债务过高:102%。相比之下,LinkedIn是30%。
我觉得,Groupon,准确的说是现在的Groupon,有一个内在的矛盾
- 团购,就是要组团
- Deal要理解用户才能起作用。如果10个deal里有9个我用不着,我还会再去看?直接自动过滤到垃圾邮件箱里。
要有足够多的交易,就要既要能组团,又要能理解用户。要能组团,就需要对用户深入理解,生成聚类。这个前提,是有足够多的数据。有足够多的数据,需要每个用户有足够多的交易。
鸡生蛋,蛋生鸡。
从技术上,Groupon并非不能解决这个问题。但是我觉得市场环境未必允许它从容地做这个转型。
Marc Andreessen,Groupon的投资人之一说:
Groupon would “eat the retail marketing industry.” (Groupon会吃掉零售营销业)
“We are in the middle of a dramatic and broad technological and economic shift in which software companies are poised to take over large swaths of the economy,” (我们处在一场急剧和广阔的技术和经济变迁中,软件公司将接手整个经济的一大块)
对第二个结论,我完全赞成。对第一个结论,我保留自己的看法。
Groupon是个泡沫,因为它不理解用户需要什么。它无法扩张到整个零售业这样的规模(比如Amazon做到的)。至于那些单纯模仿Groupon的,连泡沫都算不上。
P.S. Groupon当然试图在做用户理解, Rajesh Parekh, Yahoo Labs原来的 Director of Data Mining and Research,现在是Groupon的Director of Research。未来的Groupon可能会转型,尽管不容易。
LinkedIn流水帐
今天去LinkedIn找人聊了聊。由于最近去了很多Web公司,大同小异,工程师文化之类,毋庸赘言。
几点流水帐。
LinkedIn总部就在Google总部边上,短兵相接。
LinkedIn的食堂很小,伙食一般,和Facebook一个档次,和Google不能比。
LinkedIn现在也不算大,2000号人吧。研发队伍占的比例并不高(嗯,所以我看到很多小姑娘?),其中更以“发”为主。这类成长性企业是不怎么养“研”这种闲人的。
机器学习,机器学习,机器学习。似乎LinkedIn,或者其他类似的公司,只对AI的这一个分支感兴趣。
LinkedIn到目前的营收 (2010年2亿多,2011年估计翻倍)还没有超过Monster(2010年9亿$)。
我昨天用的Connected,三个月前被LinkedIn买了。去年它家还买了IndexTank和CardMunch。
随想:Web的诞生与TBL(3)
(3)为什么在1991年
很少有一种情况,一个重大的技术,是一个天才先知先觉独立发明的。更多的是在某个时候,几年甚至几个月前后,有若干个人想到这个想法。其中有一个,具有最好的执行力或者干脆就是幸运,最先把它实现。
水到渠成的时候,没有张三来发明,也会有李四来发明。
而在这之前,即使有最聪明的头脑和权势,也不见得能够做到。
比如同在1991年,Gopher协议在明尼苏达大学被发明和实现出来。稍早一点,WAIS (Wide Area Information Servers) 协议被几家商业公司制定出来,并在1991年开源。
而较早的尝试,如Vannevar Bush(曼哈顿计划协调人)的“memex”(1945), Ted Nelson(超文本发明人)的 Project Xanadu(1965), and Douglas Engelbart(也是鼠标发明人)的oN-Line System (NLS,1968),都没有获得成功。【这几个人都在TBL自己的书里提到】
这些人的资历、背景和可控制的资源,都远远超过1991年的TBL,为什么不能成功?
如果我们考虑到Internet的前身,ARPANET在1969年才开始运行,显然早先的计划实现起来有物理的、经济的限制。比如Memex,等于是基于微胶片的Web,即使实现了,代价大概也是极其高昂的。
从1969年到1991年,22年间,为什么没有人发明Web或者相似的东西?这期间,发生了哪些事件?简单列一下
- 1971年,电子邮件,FTP
- 1974年,TCP协议
- 1978年,IP协议;
- 1979年,UUCP协议(还记得Usenet?)
- 1984年,CERN(TBL的雇主)开始建立自己的CERNET
- 1980年代中期,ARPANET 逐渐进入民用
- 1980年代晚期,TCP/IP逐步取代其他协议,成为Internet的共同基础
- 1989年,BGP协议,Internet的路由成为一个分布式系统。
- 1989年,CERNET终于通过TCP/IP和外部网络接通(同一年,TBL提出Web计划)
- 1990年,ARPANET停止,被民用的NSFNET 取代(后者在1995年被停止,Internet全面完成民用化)
- 1990年,Dynatext,SGML发布工具出现。SGML影响了HTML的发明。
Web是Internet上的一个应用,它显然不能脱离Internet本身的存在而存在。直到80年代晚期Internet才真正成为全球性的通讯平台。也就是在这样的平台上,人们可以自由地发布、链接、浏览信息才成为一种可能和必须。
在这之前,Email, FTP, Usenet都不需要信息的网状结构,因为他们总是面向一个较少的群体,相对干净的信息。比如Email,如果要引用另一个Email,附在文后,加上”>”引用符号就好了。很多引用呢?“>>”或者“>>>”就够用了。通过上下文,读者可以知道谁在引用谁。这个法子笨但是很管用,到现在大家还在用。
当Internet变成一个全球性的存在,需要任何人都可以看任何人的信息,需要任何人自由地组织他/她能看到的信息,上面的应用就都不合适了。
于是几乎同时,Gopher, WAIS和Web(HTML, HTTP, URL)被发明出来。就算没有这几个项目,也必然有其他努力的来填补这个空白。
我们事后诸葛亮地来看,TBL几乎在第一时间抓住了这个机遇。
其实其他几个团队也一样——他们的资源甚至更多。
但是为什么是Web最终取得了胜利?
(待续)
本节还参考了TBL在2004年历史回顾的演示:http://www.w3.org/2004/Talks/w3c10-HowItAllStarted/?toc=true
题外闲话:语义网11年来,还没有得到广泛的应用。是不是一些相关的基础技术没有得到充分的发展?我以为然。但是,我觉得这些技术不包括
- 逻辑推理的效率
- 自然语言理解
- 机器学习与本体挖掘
- 甚至未必是语义数据库(triple store)
我隐隐觉得是一些别的因素(或其缺失)在起作用。这里人的因素要远远大于技术的因素。NLS系统的成败,很值得借鉴。
也许过几年,真相就会大白。
随想:Web的诞生与TBL(2)
10年前学习网络课程,实现HTTP协议,写了一个简单的服务器和客户端。写完了觉得,原来Web浏览器并不神秘,就是是在TCP上加了一层协议,传些文件、文本。
当时并不知道HTTP是TBL在1991年发明的。那一年,TBL还发明了HTML和URL
关于这些最初的发明的技术说明,还有世界上第一个Web网站的存档,可以看这里:
http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html
在这之前2年,TBL就开始了WWW项目的策划。根据TBL说的历史,1989年3月,他写了第一个项目计划书。1990年11月,项目开始实现。各个模块陆续实现,到1991年8月完成,公开宣布。
注:Web到底算是什么时候发明的,各有争议,有的说是1989-03-13(第一次项目计划书的时间),有的说是1990-11-12(项目书被接受,开始实现的时间),还有的说是1991-08-06(第一个服务器上线的时间)
WWW项目计划书要点如下
- 两阶段:第一阶段是实现只读浏览器,第二阶段是实现可读可写的浏览器。每个阶段3个月。
- 人力:4个
- 投资:大约80k(单位不详,大概是瑞士法郎)
可以看出,这个计划十分的超前。其第二部分,差不多就是Wiki的概念,到了10年以后才开始流行起来。我甚至不清楚这第二部分到底最后实现了没有。不过仅仅是第一阶段,回头来看,就值得所有的投资了。
需要指出的是,TBL并不是唯一实现系统的软件工程师。其他几个人是Robert Cailliau, Nicola Pellow,Jean-Francois Groff,后来陆续有十多个人加入。
我们不需要神话TBL,没有一团队的支持,他可能需要更长的时间才能实现他的理想。他为这个理想已经思考了很多年(见他的《Weaving The Web》),在36岁这年,终于争取到了资源来实现这个理想。
36岁,已经不能算年轻了。从1976年本科毕业开始,TBL在各个公司和研究机构做码工,已经15年了。这15年TBL的工作,现在几乎没有人记得。在1991年,也没有什么人知道TBL。
和TBL同岁的Bill Gates,1976年创立了微软,到1991年,已经是亿万富翁。
更巧合的,Steve Jobs也和上两位同岁,也同在1976年开始了自己的事业——苹果电脑。1991年的时候,Jobs虽然已经被踢出苹果,依然是亿万富翁。TBL用来写第一个网站的电脑,NeXT,就是Jobs那时候的产品。
1991年TBL依然只是一名普通的程序员,要为了八万块的投资写报告,还等上一年多。即使WWW计划很成功,他依然很挣扎。单位(CERN)觉得他不务正业,他几乎不能再得到支持。
那时候大概没有人意识到,TBL在做一件人类历史上最伟大的发明之一。我甚至怀疑他自己是不是意识到?
而做了这个发明,也只是万里长征走完了一小步。前面的问题,更为严重。
TBL按自己的理想走了下去,走了和上面两位完全不同的道路。千千万万人类的生活,在不久的将来即将开始被影响。这种影响,不会象某些产品,时髦几年后就消失在历史的垃圾堆里。
待续
我的LinkedIn联系人的可视化
第一个是LinkedIn一个工具InMaps,详见 http://blog.linkedin.com/2011/01/24/linkedin-inmaps/

http://inmaps.linkedinlabs.com/share/Jie_Bao/6599659045253981471532836668384358686
看来我的联系人主要是两块:语义网领域和艾奥瓦州立大学。图里除了我之外,还有一个大点联系这个两大块联系人,就是我的博士导师Vasant Honavar
第二个是Connected,可以生成我的联系人的地图
美国的
欧洲的
亚太的
注意,在中国的联系人并不是都集中在兰州,只不过不知道是在中国哪里,就放在中间了。
数据奴隶制
原文是《LinkedIn数据小结》的一部分,现在分出来。
今天试了一下Connected (http://connectedhq.com),可以在线管理分散在各网站,比如LinkedIn, Facebook, Twitter,Google,的联系人。觉得做得很不错。
进一步想:这些联系人信息,是属于我的还是属于那些网站的?他们为什么可以拿去卖钱?
当我的联系人加我为联系人的时候,我被授权看到一些数据。我有没有权力把他们保存下来?同时,我有没有给对方对称的授权来看一些数据?如果我不是一个人,是一个程序,我得到了这些授权,我可以做什么,不可以做什么?
到底用什么来保护数据?是版权还是隐私权?
找工作的时候,我也试过LinkedIn和Facebook,但是感觉他们对语义网不是很感兴趣。这也很容易理解:真正拥有高质量数据的组织,才不愿意容易地让别人分享。其他的公司,也是一样(参《为什么是Facebook来卖你的隐私?》)。传统语义网的战略,让数据流起来这种思想,在现在的商业社会里,确实难得很。这不是技术的问题,是人性和利益的问题。
数据应该是一种财产,财产的交换,不会只是交换的技术手段这样简单。现在的模式,是少数大公司用“免费”服务,诱导“用户”(不如说是产品)免费交出自己的数据,然后转手去卖钱——这是一种数据的奴隶制。奴隶主不也“免费”提供奴隶衣食?Web的数据生态系统要进步,必然打破这种数据的奴隶制,建立一种更自由的、涵盖范围更广阔的数据财产交换模式。这个模式,会创造出全新的、更大的市场。语义网的精神(不一定是现在的W3C路线),会是这个模式的一个重要组成部分。它天然的,不会,也不应该由现有的大公司(“数据奴隶主”们)来完成。
我作为社交网络大公司的“产品”,感谢它背后那些伟大的工程师们。但我也相信,未来必然有更好的替代。
W3C的中国会员
腾讯今天加入W3C。好奇有哪些中国公司在W3C里,就去查了一下。
W3C所有的成员列表说来自中国的成员是7个,占1.6%。我数了一下,应该不止,至少有下面10个:
- Academia Sinica (台湾)中央研究院
- Baidu, Inc. 百度
- Beihang University 北航
- Beijing University of Technology 北工大
- China Electronics Standardization Institute 中国电子技术标准化研究院
- China Unicom 联通
- Chinese Academy of Sciences 中科院
- Huawei 华为
- iFLYTEK 讯飞
- Zhejiang University 浙大
看W3C中国办事处的列表,不太一样,一共13个。
- UC优视
- 华为
- 百度
- 联通
- 北航
- 北工大
- 电子标准所
- 中科院
- 广州中间件研究中心
- 讯飞
- 倍多科技(IPEDO )
- 太原工大
- UncoverChina (这个不知道是什么)
八卦:W3C中国办事处的人对360的申请回复很有意思:
早晨看到了奇虎360加入W3C的申请,哪位360的亲告诉我你们是认真的么?
我相信随着中国互联网企业的继续成长,对参与W3C工作的重要性会进一步感到迫切,会有越来越多中国面孔出现在W3C的工作组和各种会议中。
P.S. 2011-01-12 万维网联盟中国区负责人说,
中国会员一共16家(不包括奇虎360,他们的加入流程还没走完),营利性组织有百度、华为、中国联通、腾讯、UCweb、科大讯飞等公司,剩下的都是大学和科研院所,比如北航和中国科学院等。
P.S. 2011-01-12 以中国人跟风的热情,以后w3c里的c就指china也未可知。sci不就是stupid chinese index,往好了说是smart chinese idea? Re @安琪_W3C中国:
太阳底下没有新鲜事儿。话说上个世界末的时候,在欧美也有一阵加入W3C的狂潮,那时如果哪家大型IT公司不是W3C会员,出门都不好意思跟人打招呼。后来时过境迁,有些公司找到了W3C的价值所在并乐在其中,有些留下来围观,有些默默地退出了。也许同样的故事会在中国重演。亲,加入之前请想好你想要什么~
随想:Web的诞生与TBL(1)
什么样的发明是人类最伟大的发明?那些能对存在的三种基本形式:物质、能量和信息的传输和转化做可扩展到为每一个人服务的发明。
对于信息,这意味着那些使信息可以更有效的转化和传输的方法:语言、图画、文字、纸、印刷术、电报、电话、电视、…、Internet、Web。
想改变人类历史吗?做一件能促进人与人的信息交换的事吧!
Tim Berners-Lee (TBL)就做了一件这样的事。他发明了Web。
TBL对我是一个极其神秘的人物,直到我有机会去近距离和他工作了一段时间。
原来TBL也是个人。
TBL骑自行车上下班。
TBL的房子不是什么豪宅。
TBL业余时间喜欢刻木头。
TBL会给本科生辅导编程。
但是这个人依然是一个奇怪的生物。
他说话非常非常快。语言这样一种低带宽信道对这个头脑是非常不合适的。
他的脑子里的东西,往往要别人很多年以后才能充分理解。比如他的那些Design Issues。
其中最典型的莫过于Semantic Web(语义网)。在最早的一些Design issues(1998年)里面,就做了语义网的规划。这些规划能完全实现,估计要到2030年。
但是Web本身,从1991年,只用了2、3年时间就从概念原型转变为商业的成功和国家级的发展战略。
为什么是这样?
理解Web,理解TBL,温故而知新,也许能让我们更好地发展未来。
下一篇:读Web的计划书 http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html
罚站记
自从妞妞舅舅指出我们对妞妞太惯了,我们决定要对妞加强革命纪律性教育。
琢磨了怎么搞,决定还是用在美国最常用的:Timeout,就是罚站或者罚坐规定的时间。
由于妞妞还小,我们先定了惩罚时间是一分钟。
这不,刚刚定好规矩,妞妞就开始挑战规则了:发脾气把平板电脑摔掉,把妈妈的膝盖打青了。
只好执行家法:掏出一块半米见方的垫子(playmat),严肃地对妞妞说:“妞妞你太调皮了,不可以乱扔东西,更不可以打妈妈”(心里其实顺着说:“扔掉会污染环境;就算没有砸到妈妈,砸到那些花花草草也不好…”)。
妞一看爸爸妈妈这么严肃,瞬时间嚎啕大哭。不知所措中被抱到垫子上罚站。
足足有半分钟,妞还没反应过来发生了什么事情,只顾哭:小嘴一张,两只眼睛全被挤成一条缝,只有眼泪哗啦啦地淌,哇一声,停几秒,再哇一声。
半分钟以后,妞明白了,凭什么我要站在这里啊?我要一边走一边哭!就试图迈开小腿到垫子外面去。爸爸(妈妈还站在一边揉腿呢)就把妞拉回去:“妞妞犯错误了,要站满一分钟”。
这可太没道理了!人家就要出去。这不,哭的连鼻涕都出来了。如是再二次,爸爸一看一分钟到了,就去扯纸巾给妞妞擦擦。再把垫子收起来。
然后抱着小人解释:你看,妈妈都受伤了(妈妈伸出腿来展示痛处),以后不可以用东西打人,更不可以在幼儿园打别的小朋友哦。小人一边延续抽泣(尾声那种),一边看得若有所思的样子。
然后一个惊人的事情发生了:妞突然从我身上站起来,说:“站!”然后跑去放垫子的地方,把垫子放倒,然后一脸无辜地站在上面。
诧异的爸爸妈妈面面相觑:这么懂事,不会吧!
赶快一把搂回来:“妈妈爱妞妞,爸爸爱妞妞”。
哈哈,爸爸妈妈得意得太早咯!
到了晚上,妞妞在屋里玩这玩那之际,突然又看到垫子,大叫:“站!”,噔噔噔抓下来,很高兴地站上去,然后好像做成一件什么大事似的,笑个不停。
原来人家把罚站看成一件好玩的事了!
爸爸妈妈再次面面相觑了:这招不灵了,下次又换什么招呢?
为什么我不用Foursquare?
今天看到Foursquare的融资演讲(2009-07-06)
This Is The First Pitch Deck Foursquare Ever Showed Investors (Businessinsider)
回去看我的记录,最早是在2009-07-27,看到一篇文章
Foursquare: Why It May Be the Next Twitter (Mashable)
我自己在2010-11-03注册了Foursquare,可是到目前为止,我很少用它——尽管我理论上算是它上千万用户的一员。我的朋友里,用它的也很少。同样的现况适用于Google Latitude。 (注:Google Latitude的前身Dodgeball和Foursquare都是由Dennis Crowley创建的)
为什么是这样?让我对照这个融资演讲里说的它家服务的好处。
第一,Friend Finder。发现朋友在哪里。这个对我一点也不重要。作为一个已婚有娃人士,我就很少会有这种情况会需要去什么地方要拉个人一起去,或者随机地需要知道我的朋友在哪里。
第二,Social City Guide。这个理论上有用,我是会在去一个地方吃饭前问问去过那里的朋友的意见的。可是,这只有在足够多的我的朋友用同一个服务之后才会有用。Critical mass kills。
第三,Check Earns Points。这个是游戏的意思。可能我太老了,对这种虚拟的“市长”角色我毫无兴趣 。就算我感兴趣,大概也只会和妞妈争我家的“市长”位子。
第四,Recommendation。当然是Location-based,你附近有什么好玩的、好吃的?这是一个好主意,我自己搬到加州的头两个星期,确实需要这种服务。可是,同样,我出发去哪里之前几乎总是确定了我要去的馆子。绝不会有开着车、看着手机、后座上坐着一个饿得哇哇叫的娃这种事。
上面四条,无一对我有价值。我显然不在Foursquare的目标用户群里。
还有两条额外的理由。
第五,GPS是电池杀手。为了到一天结束的时候我还能打电话,平时我总是把GPS关上的。到用的时候再打开,找星往往就要几分钟。这样,所有的LBS都和我无缘了。
第六,隐私。为了保护我的家人,我不希望我的位置被人知道,即使我的朋友都是我信任的——谁知道他/她的帐号不会被人盗用?
再次反思,我不用Foursquare是不是因为我太老了?Foursquare的目标用户群到底是什么样的人?列一下
- 有智能手机,带GPS而且电池超强
- 有很多朋友,都用同一个LBS
- 经常需要旅行或者去不熟悉的地方找馆子等
- 出去之前不事先规划而喜欢临时决定
- 对分享自己的实时位置没有隐私的顾虑
这个人群有多大?随着时间的推移,会不会增多?2012年能不能达到critical mass?不是2012年的话会是哪一年?
Foursquare的盈利模式,还是和Facebook一样,前端用“免费”服务换取用户传统上被认为是隐私的数据,然后在后端用数据来卖钱,而前端用户对这个过程基本没有发言权。这个数据生态系统会怎么发展?
LBS(基于位置的服务)的本质,其实是用户理解:利用用户提供的结构化数据来推测用户的环境(context),偏好(preference)和目的(intention)。如果单纯基于地理坐标,能在多大程度上实现有价值的前端服务?“LBS+社交”、“LBS+电子商务”,以及“LBS+游戏”这些概念本身能走多远?
现在这个IT泡沫2.0的时代,到底Foursquare是不是一个泡沫?这个虽然不好说,但是其他的很多复制Foursquare的LBS网站连一年都活不去。LBS这个概念,需要进一步深化。
参



