Archive

Archive for the ‘捣浆糊’ Category

语义网相关文章:一年汇总

2012/04/16 1 comment

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

旧英文贴

反思

产业评论

新思维

新思维2

(暂时保护中)

2 工程实践

问答系统

会议元数据

其他应用

语义网语言

3 产业化

语义网的公司

创业

4 个人研究

描述逻辑

Context

域态逻辑

语义信息论

语义维基

Web Science

咬文嚼字

胡思乱想

5 杂谈

入门与普及

八卦

活动

其他

我Twitter信息图 via vizify

2012/03/09 发表评论

另外一个信息图可视化 http://vizify.com/tweetsheet/baojie

感觉没有Visual.ly那个好。

分类: Web, 信息图

我的可视化简历

2012/03/08 发表评论

另一个信息图:visulize.me可以把我的LinkedIn的部分信息转化成一个信息图

在线版本:http://vizualize.me/baojie

另外,re.vu(http://re.vu/baojie)也可以做,不过感觉没有visulize.me做得好

分类: Web, 信息图

我Twitter信息图

2012/03/08 发表评论

Visual.ly可以图形化个人的推特表现。下面是我的推特(@baojie)的信息图(Inforgraphic)

分类: Web, 信息图

语义网是什么?有什么好处?

2012/02/16 发表评论

我对知乎上一个问题的回答:http://www.zhihu.com/question/19550885

说来话长。不同的学派在这个问题上差距太大了。如果我们过滤掉各种学术理想的“噪声”,看现实工业应用有的语义技术,可能可以总结出如下特点——当然,哲学的讨论永远看不到结束的迹象。

  • 语义网有所谓的W3C模式(就是RDF,OWL, SPARQL等)。这个模式发展很慢,很多人质疑。越来越多的人在探索其他模式。
  • 很多所谓做语义网技术的公司核心技术都是别的,比如NLP,比如检索,比如数据库。语义网是他们数据的一层皮。看宣传一定要小心。
  • 目前全世界做语义网技术提供方案的公司,排得上号的大概有150家左右。

那 语义网到底有什么用。用非常不精确的语言讲:

  • 动态的数据建模,不需要什么schema或者shema可以快速演进(这是和数据库和XML比的好处)
  • 让数据流动起来,而不是封固在一个个的网站或者应用里。
  • 支持更多的任务自动化。(怎么做到?一些数据可机器处理,一些推理,一些查询)

语义网界研究早期有很多现在已经被纠正的概念(比如语义网的目的就是让机器读网页)——早期,大多数人都低估了它的困难程度。按Nova Spivack的说法,传统意义上的语义网(ca 2000定义)大概要到2030年才能实现。到2020年左右,如果运气好的话可能能实现Data Web,也就是让Web的上数据能自由流动起来。推理啊,机器理解啊,不是这个阶段的核心任务。

============

2012-04-30 Part 2: 对另一个问题的回答 http://www.zhihu.com/question/20203785

第一点,解放思想,实事求是。语义网是一个被外界误解极深,内部分歧极大的领域。工业界的实践,和标准化组织、学术界的主流(也就是大家日常看到的各种入门教材),差距很大。最近两年,工业界的新实践(吸取了传统方法的种种血的教训后),大多都没有还没有来得及反应到教材里。很多早期的教材,读了反而有害。

做语义网的研究,最好是从问题出发。哪些问题是需要知识的?什么情况下结构化数据是可能获得的?可以廉价地获得的?有什么用处?带着问题去找方法,不管是不是RDF/OWL,只要能解决这类问题,就是语义网的方法。

大多数情况下,很少有一个单独的方法能解决整个问题;语义网的研究,只着眼于结构化数据/知识本身是不够的,相关学科,如自然语言理解、机器学习、非关系数据库、人机交互,都很重要。最有学术价值或者商业价值的研究,往往在这些领域的综合和交叉里

 

分类: 语义网

语义网的公司 True Knowledge

2012/02/06 1 comment

随想:Web的诞生与TBL(4)

2012/01/15 1 comment

续《随想:Web的诞生与TBL(3)

(4)加上人后的可扩展性

在接着回顾Web诞生之初的一些选择之前,我想简单说几句可扩展性。

在过去十多年里,我接触过人工智能的几个不相干的领域:神经网络,机器学习,形式逻辑。许多模型,从理论上计算能力是没有问题的。比如神经网络,可以等价为图灵机,理论上可以解决图灵机可以解决的一切问题。逻辑,比如一阶逻辑或者描述逻辑,表达力非常得强,不乏专用领域成功应用的实例。

问题在于,当数据极大增加后,系统还是否工作?这个可扩展性,当然是常识,每个设计算法的人都会想到。对神经网络,机器学习,或者形式逻辑,都有无数的工作来研究如何提高它们的计算的可扩展性。

可是,到目前为止,成功都是有限的。机器学习的进步最大,特别是基于统计方法的这一块,广泛用到工业中。神经网络现在还在低潮中趴着。逻辑——除了数据库(其实SQL是一种逻辑)——始终无法大规模的应用;语义网(Semantic Web,同由TBL倡导)是逻辑界试图走向全球规模应用迄今的最后一战,前仆后继十余年,至今成绩极为有限。

在经历、目睹很多失败后,我渐渐觉得,所谓的可扩展性,不应该仅仅指计算的可扩展性,而应该是包括人在内的整个系统的可扩展性。数据的产生,知识的建模,到最后信息的消费,都要有人的参与。人的懒惰、人的心理、人的经济头脑,都会深刻影响一个系统能不能走出实验室。

当然,这种认识,回来看,常识得不能再常识了。可是一代一代的学者、工程师,总是很容易对一个技术倾倒、兴奋,但是劳心劳神做出来的美妙系统,没有人愿意用,或者用户一多就不灵了。这种经验,好像失恋的经验,似乎每个人都非亲身经历一下,才知道是怎么回事。

在TBL发明Web之前,别人也有类似的想法和实践。上节提到的oN-Line System (NLS,1968),就是一个杰出的代表。NLS是一个里程碑性质的伟大工程:超文本,鼠标,光栅显示器,窗口系统,演示程序,视频会议…都在NLS里第一次被应用。但是它最后没用走出实验室。它要求用户在做任何一点有用的事情之前,学习很多东西,服从一些严格的规定,记忆一堆奇怪的代号。“正常”人类不会心甘情愿地做这样的事。

Web的竞争者Gopher,要求所有的文档有一个严格的菜单结构,然后用户可以一级一级的走下去。对于熟悉文件系统的人,这是一个很自然的组织模式。可是,自己看自己的分类和看别人的分类是两回事,理解别人的分类从而找到自己需要的资源也不总是一件容易的事。更何况,分类本身就是一个头疼的工作。不信的话问问你的朋友,看多少人去分类自己的download文件夹。

TBL在设计Web的时候,在CERN这个极度多元化、极度分散的机构里,格外注意了“不给人找麻烦”这个样一个信条。我觉得这可能是技术因素之外,Web成功的最重要的一个因素。

TBL自己说(Weaving the Web, p19-p20):

“Having seen prior systems show down, I knew the key would be to emphasize that it would let each person retain his own organizational style and software on his computer.” (目睹了以前一些系统被干掉的事,我认识到问题的关键将是强调允许每个人对自己机器上的组织方式和软件各行其是)

“We can create a common base for communication while allowing each system to maintain its individuality” (我们可以建立一个通信的共同基础,同时又允许每个系统保持个性)

不要试图强加给用户一种你认为最好的信息组织方式——别人完全可能有不同的想法。(BTW,这也是为什么我认为几大搜索巨头的Schema.org未必能成功的原因)

允许人自由地以他自己高兴的方式发布信息,允许他们自己相互链接。没人需要先请示任何人来加一个链接。这就够了,奇迹会在这互联的过程中产生。

什么是知识?知识就是互联

Web的可扩展性,依赖于它相对自由的组织方式、低门槛(按1991年的标准)的信息发布方式、和分布式的结构。这是技术和人的认知能力、人的社会性的恰当妥协,保证了它可以最终扩展为每一个人都可以用的技术。

这种自由的精神,被TBL一直贯彻了下去。比如对语义网,他也说:Raw Data Now!(TED2009年视;频:http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html):以你自己最舒服的方式发布你的数据,互联会慢慢产生,从而导致各种美妙的事情。

那怎么保证自由的发布和自由的互联呢?Web依赖三个重要的发明:URI(统一资源标识符),HTML(超文本描述语言)和HTTP(超文本传输协议)

待续

P.S. 我觉得语义网要成功,最重要的就是加上人以后的可扩展性:普通人(比如我外婆,如果她还活着)如何来组织知识?如何加强知识系统的分散性(而不是做任何改动之前要问另一个人来批准这个改动)?普通人如何传递知识?普通人如何互联知识?不要想当然。语义网不会是逻辑。普通人学会最基本的逻辑思考大概要再过一千年

分类: 语义网, Web

URL, URN, URI, IRI

2012/01/14 1 comment

“网址”到底是什么?一般的理解是URL(Uniform resource locator

在RDF/OWL1/OWL2中却使用了不同的概念

还有一个相关概念 URN(Uniform Resource Name)。他们有什么区别?

简述如下:

URL是这样的形式:

scheme://domain:port/path?query_string#fragment_id

如本页的编辑页面是  https://blog.baojie.org:80/wp-admin/post-new.php?post_type=post#

URI是URL的扩展,形式是:

<scheme name> : <hierarchical part> [ ? <query> ] [ # <fragment> ]

例:
foo://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose
Wikipedia上列有官方和非官方的URI scheme,如about, ed2k, doi, skype,都是。

URI不一定指向一个网址

URN是一种URI,形式如 urn:isbn:0451450523(书号),urn:mpeg:mpeg7:schema:2001(MPEG-7标准)。URN使我们可以描述一个资源而不必关系它的具体存档地址。

IRI是URI的扩展:URI只能用ASCII,而IRI可以用Universal Character Set (USC), Unicode——比如中文。

所以RDF和OWL里的资源,都不只是用“网址”来命名的。理论上,每个人都可以自己定义一个scheme来唯一确定自己的资源,不一定要放在网上,比如对我的冰箱,我可以命名为

urn:baojie-bengbu-iowa:冰箱:2012

更多关于URL/URI/IRI的请看W3C官方网页:Naming and Addressing: URIs, URLs, …

另参Tim Berners-Lee的Design IssuesDocument Naming (1991)

分类: 笔记, 语义网, Web

Twitter能预测股市吗?[2010]

2012/01/14 1 comment

这是早先对印第安纳大学的Twitter预测股市的研究的感想。原文写于2010-10-19

总结为

  • Twitter可能预测过去,但很可疑能不能预测未来
  • 预测本身就是对未来的干扰,不可证伪
  • 过去的相关性不能代表未来的因果性

我要是那个作者,就不发文章,先自己通过Twitter预测赚100万,然后把自己的交易记录贴在文后,比什么图啊,表啊,公式啊,都有说服力。

我的原文:

To be honest, I’m skeptical about the work in a couple of ways.

First, as some others already pointed out, correlation does not necessarily
mean causality.

Second, I’m not sure if it is more accurate (in predicting) than existing quantitative measurement of market calmness (or the lack of it) such VIX [1], or put/call ratio for an individual stock. While I don’t have any statistics, I personally find put/call ratio of GOOG is usually more informative (and direct) than reading tweets about $GOOG. Of course, their work is about the market as a whole, which I have no clue. Why their result is for 2-6 days later,
but not the next day?

Maybe the real catch of the study is, if it really works in the past and present, then people will follow the information and then the market will become fully efficient (in theory) as a result, hence the discovery will stop work after its publication. In the other words, it’s a theory that can not be falsified, and by Popper’s standard, not ”scientific”. I may be to too picky…we have to wait and see if it can continue the magic.

Google trend claims that it can predict the present, not the future. I would like to say that’s a safer claim.

I do believe tweets will be even more useful in financial analysis, in
many other ways.

[1] http://en.wikipedia.org/wiki/VIX

附:一些关于印第安纳大学工作的报道:

Twitter Can Be Used to Predict Stock Market, Say Researchers
http://rww.to/aJ6pF8
By Sarah Perez / October 18, 2010 6:47 AM

Researchers from Indiana University have devised a method for
predicting changes in the Dow Jones Industrial Average through the analysis of Twitter updates. Using two mood-recording algorithms, the Google-Profile of Mood States (GPOMS) and OpinionFinder, the researchers analyzed 9.7 million tweets posted between March and December 2008. They found that correlations between the calmness index, one of the six “moods” measured by GPOMS, could be used to predict whether or not the Dow Jones Industrial Average went up or down between two and six days later.

Twitter Mood Predicts The Stock Market
http://www.kurzweilai.net/twitter-mood-predicts-the-stock-market
October 18, 2010

An analysis  by Johan Bollen at Indiana University and associates of almost 10 million tweets from 2008 shows how they can be used to predict stock market movements up to 6 days in advance.

原论文:Twitter mood predicts the stock market. Johan BollenHuina MaoXiao-Jun Zeng.  arXiv:1010.3003  http://arxiv.org/abs/1010.3003

分类: 金融, Web

语义网是时候了

2012/01/14 1 comment

这是我在写《随想:Web的诞生与TBL(3)为什么在1991年》时产生的想法。

Web在1991年产生,首先是因为平台已经成熟了,比如Internet, SGML, TCP/IP,在上面再搞一点点创新,不是什么火箭科技。其次,是需求已经成熟了,信息不再只是几个人给几个人看(如Email),或者一群人给自己一群人看(如Usenet),而是全互联的,你无法预测谁会来看你的信息。

Gopher就是一个尝试,它失败了,我觉得主要因为两个原因:高估人的能动性和分类能力(多层菜单);试图收费。

Web避免了这两个问题,成功了。

语义网,需求是不是已经成熟了?

我看是的。语义网是对Social Web的进一步扩展。现在的Social Web,把每一个人看作一个点,把人和人关系映射到网上来。这个还远远不够。现实的人,不是一个点,关于这个人的信息的方方面面,有精细的结构。不理解这些结构,就没法理解用户(比如《Groupon是泡沫》),提供更好的服务。

语义网要建模的,大概不会是象开始想的那样,对文档加语义标签。而是更多的,把人连接起来,把人的各种日常“知识”一个一个的映射到网上来,再互联起来。(参《语义网是给人用的》,《Web3.0:互联用户产生的结构化资源》)

语义网,平台是不是已经成熟了?

W3C路线,RDF/OWL/SPARQL/Ontology,到现在争议很大。但是如果因为这个路线就否定语义网,就如同否定Gopher进而否定“Web”(嗯,不是特指WWW)。

如果放宽思路,有没有好的平台帮助我们把人的精细数据、信息、知识结构映射到网上来?这个平台其实已经存在了,就是移动互联网。(参《要命的Tetherless World 》,《Web 3.0与中国》,《Web 3.0 互联用户的知识》)

移动互联网不是传统互联网的简单扩展。从来没有一个时候可以象现在一样,对用户只要求这样低的门槛,实现随时随地的数据发布与采集。这种数据的互联与管理,必然的要求新的方法。而所有的支持技术几乎都已经具备,不需要火箭科技(比如数据挖掘、逻辑推理)就可以把它们整合起来。

我相信,在我写这段话的时候,世界上什么地方有其他人不但有了类似的想法,而且已经开始动手了。水到渠成,瓜熟蒂落,就是说这种情况吧。

P.S. 写完后看到这篇文章:Amit Sheth. 2011. Semantics Scales Up: Beyond Search in Web 3.0IEEE Internet Computing15, 6 (November 2011), 3-6. [PDF] 说的不错,虽然我并不完全认同explicit semantics可以按文中所述途径产生。

P.S. 2 2012-04-17 关于平台,最近有很多新的数据库,AffinityDB, 各种Graph Database (Neo4j, OrientDB),都可以做W3C路线的替代。

分类: 语义网, Web

Groupon是泡沫

2012/01/14 3 条评论

想到这个是因为看到:Groupon’s fall to earth swifter than its fast rise (2011-10-21),其实是旧闻。文章说了Groupon的几个问题

  • 高层分裂和动荡
  • 购物体验问题
  • Deal多面向女性,
  • 参与商家得不到实际的好处
  • 很少回头客。虽然有超过1.4亿用户(现在可能更多了),只有20%买过东西,10%买过超过一次东西。
  • 利用会计手段夸大营收。2011年上半年,开始Groupon报了15亿收入;经SEC质疑后,这个数据缩小到不到7亿。
  • 获得新客户极为昂贵。2011年上半年,Groupon花了3.45亿美元在营销(marketing)上,占真实收入的一半(先不谈盈利)。
  • 债务过高:102%。相比之下,LinkedIn是30%。

我觉得,Groupon,准确的说是现在的Groupon,有一个内在的矛盾

  • 团购,就是要组团
  • Deal要理解用户才能起作用。如果10个deal里有9个我用不着,我还会再去看?直接自动过滤到垃圾邮件箱里。

要有足够多的交易,就要既要能组团,又要能理解用户。要能组团,就需要对用户深入理解,生成聚类。这个前提,是有足够多的数据。有足够多的数据,需要每个用户有足够多的交易。

鸡生蛋,蛋生鸡。

从技术上,Groupon并非不能解决这个问题。但是我觉得市场环境未必允许它从容地做这个转型。

Marc Andreessen,Groupon的投资人之一说:

Groupon would “eat the retail marketing industry.” (Groupon会吃掉零售营销业)

“We are in the middle of a dramatic and broad technological and economic shift in which software companies are poised to take over large swaths of the economy,”  (我们处在一场急剧和广阔的技术和经济变迁中,软件公司将接手整个经济的一大块)

对第二个结论,我完全赞成。对第一个结论,我保留自己的看法。

Groupon是个泡沫,因为它不理解用户需要什么。它无法扩张到整个零售业这样的规模(比如Amazon做到的)。至于那些单纯模仿Groupon的,连泡沫都算不上。

P.S. Groupon当然试图在做用户理解, Rajesh Parekh, Yahoo Labs原来的 Director of Data Mining and Research,现在是Groupon的Director of Research。未来的Groupon可能会转型,尽管不容易。

分类: Web

LinkedIn流水帐

2012/01/14 1 comment

今天去LinkedIn找人聊了聊。由于最近去了很多Web公司,大同小异,工程师文化之类,毋庸赘言。

几点流水帐。

LinkedIn总部就在Google总部边上,短兵相接。

LinkedIn的食堂很小,伙食一般,和Facebook一个档次,和Google不能比。

LinkedIn现在也不算大,2000号人吧。研发队伍占的比例并不高(嗯,所以我看到很多小姑娘?),其中更以“发”为主。这类成长性企业是不怎么养“研”这种闲人的。

机器学习,机器学习,机器学习。似乎LinkedIn,或者其他类似的公司,只对AI的这一个分支感兴趣。

LinkedIn到目前的营收 (2010年2亿多,2011年估计翻倍)还没有超过Monster(2010年9亿$)。

我昨天用的Connected,三个月前被LinkedIn买了。去年它家还买了IndexTankCardMunch

 

 

分类: Web

随想:Web的诞生与TBL(3)

2012/01/14 3 条评论

续:随想:Web的诞生与TBL(2)

(3)为什么在1991年

很少有一种情况,一个重大的技术,是一个天才先知先觉独立发明的。更多的是在某个时候,几年甚至几个月前后,有若干个人想到这个想法。其中有一个,具有最好的执行力或者干脆就是幸运,最先把它实现。

水到渠成的时候,没有张三来发明,也会有李四来发明。

而在这之前,即使有最聪明的头脑和权势,也不见得能够做到。

比如同在1991年,Gopher协议在明尼苏达大学被发明和实现出来。稍早一点,WAIS (Wide Area Information Servers) 协议被几家商业公司制定出来,并在1991年开源。

而较早的尝试,如Vannevar Bush(曼哈顿计划协调人)的“memex”(1945), Ted Nelson(超文本发明人)的 Project Xanadu(1965), and Douglas Engelbart(也是鼠标发明人)的oN-Line System (NLS,1968),都没有获得成功。【这几个人都在TBL自己的书里提到】

这些人的资历、背景和可控制的资源,都远远超过1991年的TBL,为什么不能成功?

如果我们考虑到Internet的前身,ARPANET在1969年才开始运行,显然早先的计划实现起来有物理的、经济的限制。比如Memex,等于是基于微胶片的Web,即使实现了,代价大概也是极其高昂的。

从1969年到1991年,22年间,为什么没有人发明Web或者相似的东西?这期间,发生了哪些事件?简单列一下

  • 1971年,电子邮件,FTP
  • 1974年,TCP协议
  • 1978年,IP协议;
  • 1979年,UUCP协议(还记得Usenet?)
  • 1984年,CERN(TBL的雇主)开始建立自己的CERNET
  • 1980年代中期,ARPANET 逐渐进入民用
  • 1980年代晚期,TCP/IP逐步取代其他协议,成为Internet的共同基础
  • 1989年,BGP协议,Internet的路由成为一个分布式系统。
  • 1989年,CERNET终于通过TCP/IP和外部网络接通(同一年,TBL提出Web计划)
  • 1990年,ARPANET停止,被民用的NSFNET 取代(后者在1995年被停止,Internet全面完成民用化)
  • 1990年,Dynatext,SGML发布工具出现。SGML影响了HTML的发明。

Web是Internet上的一个应用,它显然不能脱离Internet本身的存在而存在。直到80年代晚期Internet才真正成为全球性的通讯平台。也就是在这样的平台上,人们可以自由地发布、链接、浏览信息才成为一种可能和必须。

在这之前,Email, FTP, Usenet都不需要信息的网状结构,因为他们总是面向一个较少的群体,相对干净的信息。比如Email,如果要引用另一个Email,附在文后,加上”>”引用符号就好了。很多引用呢?“>>”或者“>>>”就够用了。通过上下文,读者可以知道谁在引用谁。这个法子笨但是很管用,到现在大家还在用。

当Internet变成一个全球性的存在,需要任何人都可以看任何人的信息,需要任何人自由地组织他/她能看到的信息,上面的应用就都不合适了。

于是几乎同时,Gopher, WAIS和Web(HTML, HTTP, URL)被发明出来。就算没有这几个项目,也必然有其他努力的来填补这个空白。

我们事后诸葛亮地来看,TBL几乎在第一时间抓住了这个机遇。

其实其他几个团队也一样——他们的资源甚至更多。

但是为什么是Web最终取得了胜利?

(待续)

本节还参考了TBL在2004年历史回顾的演示:http://www.w3.org/2004/Talks/w3c10-HowItAllStarted/?toc=true

题外闲话:语义网11年来,还没有得到广泛的应用。是不是一些相关的基础技术没有得到充分的发展?我以为然。但是,我觉得这些技术不包括

  • 逻辑推理的效率
  • 自然语言理解
  • 机器学习与本体挖掘
  • 甚至未必是语义数据库(triple store)

我隐隐觉得是一些别的因素(或其缺失)在起作用。这里人的因素要远远大于技术的因素。NLS系统的成败,很值得借鉴。

也许过几年,真相就会大白。

分类: Web

随想:Web的诞生与TBL(2)

2012/01/12 2 条评论

续:随想:Web的诞生与TBL(1)

10年前学习网络课程,实现HTTP协议,写了一个简单的服务器和客户端。写完了觉得,原来Web浏览器并不神秘,就是是在TCP上加了一层协议,传些文件、文本。

当时并不知道HTTP是TBL在1991年发明的。那一年,TBL还发明了HTML和URL

关于这些最初的发明的技术说明,还有世界上第一个Web网站的存档,可以看这里:

http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html

在这之前2年,TBL就开始了WWW项目的策划。根据TBL说的历史,1989年3月,他写了第一个项目计划书。1990年11月,项目开始实现。各个模块陆续实现,到1991年8月完成,公开宣布。

注:Web到底算是什么时候发明的,各有争议,有的说是1989-03-13(第一次项目计划书的时间),有的说是1990-11-12(项目书被接受,开始实现的时间),还有的说是1991-08-06(第一个服务器上线的时间)

WWW项目计划书要点如下

  • 两阶段:第一阶段是实现只读浏览器,第二阶段是实现可读可写的浏览器。每个阶段3个月。
  • 人力:4个
  • 投资:大约80k(单位不详,大概是瑞士法郎)

可以看出,这个计划十分的超前。其第二部分,差不多就是Wiki的概念,到了10年以后才开始流行起来。我甚至不清楚这第二部分到底最后实现了没有。不过仅仅是第一阶段,回头来看,就值得所有的投资了。

需要指出的是,TBL并不是唯一实现系统的软件工程师。其他几个人是Robert Cailliau, Nicola Pellow,Jean-Francois Groff,后来陆续有十多个人加入。

我们不需要神话TBL,没有一团队的支持,他可能需要更长的时间才能实现他的理想。他为这个理想已经思考了很多年(见他的《Weaving The Web》),在36岁这年,终于争取到了资源来实现这个理想。

36岁,已经不能算年轻了。从1976年本科毕业开始,TBL在各个公司和研究机构做码工,已经15年了。这15年TBL的工作,现在几乎没有人记得。在1991年,也没有什么人知道TBL。

和TBL同岁的Bill Gates,1976年创立了微软,到1991年,已经是亿万富翁。

更巧合的,Steve Jobs也和上两位同岁,也同在1976年开始了自己的事业——苹果电脑。1991年的时候,Jobs虽然已经被踢出苹果,依然是亿万富翁。TBL用来写第一个网站的电脑,NeXT,就是Jobs那时候的产品。

1991年TBL依然只是一名普通的程序员,要为了八万块的投资写报告,还等上一年多。即使WWW计划很成功,他依然很挣扎。单位(CERN)觉得他不务正业,他几乎不能再得到支持。

那时候大概没有人意识到,TBL在做一件人类历史上最伟大的发明之一。我甚至怀疑他自己是不是意识到?

而做了这个发明,也只是万里长征走完了一小步。前面的问题,更为严重。

TBL按自己的理想走了下去,走了和上面两位完全不同的道路。千千万万人类的生活,在不久的将来即将开始被影响。这种影响,不会象某些产品,时髦几年后就消失在历史的垃圾堆里。

待续

分类: Web

我的LinkedIn联系人的可视化

2012/01/12 1 comment

第一个是LinkedIn一个工具InMaps,详见 http://blog.linkedin.com/2011/01/24/linkedin-inmaps/

http://inmaps.linkedinlabs.com/share/Jie_Bao/6599659045253981471532836668384358686

看来我的联系人主要是两块:语义网领域和艾奥瓦州立大学。图里除了我之外,还有一个大点联系这个两大块联系人,就是我的博士导师Vasant Honavar

第二个是Connected,可以生成我的联系人的地图

美国的

欧洲的

亚太的

注意,在中国的联系人并不是都集中在兰州,只不过不知道是在中国哪里,就放在中间了。

分类: Web

数据奴隶制

2012/01/12 1 comment

原文是《LinkedIn数据小结》的一部分,现在分出来。

今天试了一下Connected (http://connectedhq.com),可以在线管理分散在各网站,比如LinkedIn, Facebook, Twitter,Google,的联系人。觉得做得很不错。

进一步想:这些联系人信息,是属于我的还是属于那些网站的?他们为什么可以拿去卖钱?

当我的联系人加我为联系人的时候,我被授权看到一些数据。我有没有权力把他们保存下来?同时,我有没有给对方对称的授权来看一些数据?如果我不是一个人,是一个程序,我得到了这些授权,我可以做什么,不可以做什么?

到底用什么来保护数据?是版权还是隐私权?

找工作的时候,我也试过LinkedIn和Facebook,但是感觉他们对语义网不是很感兴趣。这也很容易理解:真正拥有高质量数据的组织,才不愿意容易地让别人分享。其他的公司,也是一样(参《为什么是Facebook来卖你的隐私?》)。传统语义网的战略,让数据流起来这种思想,在现在的商业社会里,确实难得很。这不是技术的问题,是人性和利益的问题。

数据应该是一种财产,财产的交换,不会只是交换的技术手段这样简单。现在的模式,是少数大公司用“免费”服务,诱导“用户”(不如说是产品)免费交出自己的数据,然后转手去卖钱——这是一种数据的奴隶制。奴隶主不也“免费”提供奴隶衣食?Web的数据生态系统要进步,必然打破这种数据的奴隶制,建立一种更自由的、涵盖范围更广阔的数据财产交换模式。这个模式,会创造出全新的、更大的市场。语义网的精神(不一定是现在的W3C路线),会是这个模式的一个重要组成部分。它天然的,不会,也不应该由现有的大公司(“数据奴隶主”们)来完成。

我作为社交网络大公司的“产品”,感谢它背后那些伟大的工程师们。但我也相信,未来必然有更好的替代。

分类: Web

W3C的中国会员

2012/01/11 2 条评论

腾讯今天加入W3C。好奇有哪些中国公司在W3C里,就去查了一下。

W3C所有的成员列表说来自中国的成员是7个,占1.6%。我数了一下,应该不止,至少有下面10个:

  • Academia Sinica (台湾)中央研究院
  • Baidu, Inc. 百度
  • Beihang University 北航
  • Beijing University of Technology 北工大
  • China Electronics Standardization Institute 中国电子技术标准化研究院
  • China Unicom 联通
  • Chinese Academy of Sciences 中科院
  • Huawei 华为
  • iFLYTEK 讯飞
  • Zhejiang University 浙大

看W3C中国办事处的列表,不太一样,一共13个。

  • UC优视
  • 华为
  • 百度
  • 联通
  • 北航
  • 北工大
  • 电子标准所
  • 中科院
  • 广州中间件研究中心
  • 讯飞
  • 倍多科技(IPEDO )
  • 太原工大
  • UncoverChina (这个不知道是什么)

八卦:W3C中国办事处的人对360的申请回复很有意思:

早晨看到了奇虎360加入W3C的申请,哪位360的亲告诉我你们是认真的么?

我相信随着中国互联网企业的继续成长,对参与W3C工作的重要性会进一步感到迫切,会有越来越多中国面孔出现在W3C的工作组和各种会议中。

P.S. 2011-01-12 万维网联盟中国区负责人说,

中国会员一共16家(不包括奇虎360,他们的加入流程还没走完),营利性组织有百度、华为、中国联通、腾讯、UCweb、科大讯飞等公司,剩下的都是大学和科研院所,比如北航和中国科学院等。

P.S. 2011-01-12 以中国人跟风的热情,以后w3c里的c就指china也未可知。sci不就是stupid chinese index,往好了说是smart chinese idea? Re @安琪_W3C中国:

太阳底下没有新鲜事儿。话说上个世界末的时候,在欧美也有一阵加入W3C的狂潮,那时如果哪家大型IT公司不是W3C会员,出门都不好意思跟人打招呼。后来时过境迁,有些公司找到了W3C的价值所在并乐在其中,有些留下来围观,有些默默地退出了。也许同样的故事会在中国重演。亲,加入之前请想好你想要什么~

分类: Web

随想:Web的诞生与TBL(1)

2012/01/11 3 条评论

什么样的发明是人类最伟大的发明?那些能对存在的三种基本形式:物质、能量和信息的传输和转化做可扩展到为每一个人服务的发明。

对于信息,这意味着那些使信息可以更有效的转化和传输的方法:语言、图画、文字、纸、印刷术、电报、电话、电视、…、Internet、Web。

想改变人类历史吗?做一件能促进人与人的信息交换的事吧!

Tim Berners-Lee (TBL)就做了一件这样的事。他发明了Web。

TBL对我是一个极其神秘的人物,直到我有机会去近距离和他工作了一段时间。

原来TBL也是个人。

TBL骑自行车上下班。

TBL的房子不是什么豪宅。

TBL业余时间喜欢刻木头。

TBL会给本科生辅导编程。

但是这个人依然是一个奇怪的生物。

他说话非常非常快。语言这样一种低带宽信道对这个头脑是非常不合适的。

他的脑子里的东西,往往要别人很多年以后才能充分理解。比如他的那些Design Issues

其中最典型的莫过于Semantic Web(语义网)。在最早的一些Design issues(1998年)里面,就做了语义网的规划。这些规划能完全实现,估计要到2030年。

但是Web本身,从1991年,只用了2、3年时间就从概念原型转变为商业的成功和国家级的发展战略。

为什么是这样?

理解Web,理解TBL,温故而知新,也许能让我们更好地发展未来。

下一篇:读Web的计划书 http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html

分类: 语义网, Web

为什么我不用Foursquare?

2012/01/08 2 条评论

今天看到Foursquare的融资演讲(2009-07-06)
This Is The First Pitch Deck Foursquare Ever Showed Investors (Businessinsider)

回去看我的记录,最早是在2009-07-27,看到一篇文章
Foursquare: Why It May Be the Next Twitter (Mashable)

我自己在2010-11-03注册了Foursquare,可是到目前为止,我很少用它——尽管我理论上算是它上千万用户的一员。我的朋友里,用它的也很少。同样的现况适用于Google Latitude。 (注:Google Latitude的前身Dodgeball和Foursquare都是由Dennis Crowley创建的)

为什么是这样?让我对照这个融资演讲里说的它家服务的好处。

第一,Friend Finder。发现朋友在哪里。这个对我一点也不重要。作为一个已婚有娃人士,我就很少会有这种情况会需要去什么地方要拉个人一起去,或者随机地需要知道我的朋友在哪里。

第二,Social City Guide。这个理论上有用,我是会在去一个地方吃饭前问问去过那里的朋友的意见的。可是,这只有在足够多的我的朋友用同一个服务之后才会有用。Critical mass kills。

第三,Check Earns Points。这个是游戏的意思。可能我太老了,对这种虚拟的“市长”角色我毫无兴趣 。就算我感兴趣,大概也只会和妞妈争我家的“市长”位子。

第四,Recommendation。当然是Location-based,你附近有什么好玩的、好吃的?这是一个好主意,我自己搬到加州的头两个星期,确实需要这种服务。可是,同样,我出发去哪里之前几乎总是确定了我要去的馆子。绝不会有开着车、看着手机、后座上坐着一个饿得哇哇叫的娃这种事。

上面四条,无一对我有价值。我显然不在Foursquare的目标用户群里。

还有两条额外的理由。

第五,GPS是电池杀手。为了到一天结束的时候我还能打电话,平时我总是把GPS关上的。到用的时候再打开,找星往往就要几分钟。这样,所有的LBS都和我无缘了。

第六,隐私。为了保护我的家人,我不希望我的位置被人知道,即使我的朋友都是我信任的——谁知道他/她的帐号不会被人盗用?

再次反思,我不用Foursquare是不是因为我太老了?Foursquare的目标用户群到底是什么样的人?列一下

  • 有智能手机,带GPS而且电池超强
  • 有很多朋友,都用同一个LBS
  • 经常需要旅行或者去不熟悉的地方找馆子等
  • 出去之前不事先规划而喜欢临时决定
  • 对分享自己的实时位置没有隐私的顾虑

这个人群有多大?随着时间的推移,会不会增多?2012年能不能达到critical mass?不是2012年的话会是哪一年?

Foursquare的盈利模式,还是和Facebook一样,前端用“免费”服务换取用户传统上被认为是隐私的数据,然后在后端用数据来卖钱,而前端用户对这个过程基本没有发言权。这个数据生态系统会怎么发展?

LBS(基于位置的服务)的本质,其实是用户理解:利用用户提供的结构化数据来推测用户的环境(context),偏好(preference)和目的(intention)。如果单纯基于地理坐标,能在多大程度上实现有价值的前端服务?“LBS+社交”、“LBS+电子商务”,以及“LBS+游戏”这些概念本身能走多远?

现在这个IT泡沫2.0的时代,到底Foursquare是不是一个泡沫?这个虽然不好说,但是其他的很多复制Foursquare的LBS网站连一年都活不去。LBS这个概念,需要进一步深化。

分类: 语义网, Web

检讨我的语义维基尝试

2012/01/08 发表评论

以前我提到过很多次我在语义维基(Semantic Wiki)上的一些尝试,详参文后列表。

我最早的semantic wiki的尝试是在2003年,写WiKiOnt系统,后来转移研究方向,不了了之。到2007年又开始对Semantic MediaWiki感兴趣,2008年转到RPI后,继续研究,是我在2008年到2009年的主要研究方向。但是,我创建的所有的基于semantic wiki的系统,用户都非常的少。特别是TW Wiki,也就是RPI Tetherless World Constellation自己的Wiki,也很少人用它的语义特征,也即,大部分用户是把它当普通wiki来用的。

是用户不懂semantics吗?TW Wiki的用户可不是这样:这可是语义网最主要的一个研究小组。又如W3C OWL工作组自己的wiki,一个semantic wiki,几乎没有人用它的语义特征。世界上还有什么用户群会比这个工作组更狂热支持语义建模、元数据、推理和查询吗?可是这群人(包括我)为什么自己不在自己的工作中贯彻自己提倡的原则呢?

2010年,在“The Unbearable Lightness of Wiking”(维基中不可承受之轻)里,我写了几个问题

  • Knowledge modeling
  • Context
  • Collaboration protocols
  • Project management

现在想,其实总结起来,一个字就够了:懒。

两个字:麻烦

细化下来,有如下问题。这里只列摘要,,每个问题以后都可能详细检讨(其实有很多以前也讲过)

  1. 要求用户来主动提供元数据是不现实的。哪怕只是填表(用Semantic Forms)这种方式。催一下,动一下,不催,不动。
  2. 大多数用户不会去主动的语义思考。分类简单吧?一点也不简单。标签简单吧?很少有人来用。不是他真不会,他觉得很麻烦。非不能也,乃不为也。
  3. 用户不愿意改变自己的工作方式,除非是被逼的。比如写会议记录,我用笔写写就好了,自己看,干嘛要上wiki?我本来用wiki写就好了,干嘛要加元数据?
  4. 静态的schema不适应动态的数据。不止一次被头叫去问,你这个表单少一个属性,我要加,怎么办?然后回去改Template、Form。其实应该来说不是semantic wiki不支持数据演进,而是我们还是按数据库的思维来建应用,浪费了这个能力。
  5. 高估可扩展性。SMW经常导致宕机,连带影响所有使用MySQL的应用。SMW的查询复杂性可是“极低”的(按语义网的标准),多项式时间(P),但是加上复杂的模板,在还只有几万个页面的时候就不行了。
  6. 忽视知识的开放性。用户会有很多知识在外面,怎么连进来?特别是,怎么方便地连进来?wiki本身侧重本地知识,和linked open data这个概念,不完全一致。我们试过几次distributed query, distributed wiki,还不是很成功。
  7. 忽视知识的个人性。一提到知识,往往就是ontology,就是“shared conceptualisation” (Tome Gruber, 1993)。就我在wiki上工作的经验,其实属于个人的知识,可能要比共享的知识更多,也许10倍还多。比如很多博客,总结,文章,都是私人或者只给少数人看的。还有,你知道要让所有的管理员都认可一个分类系统有多费劲吗?
  8. 忽视知识的组织。Triple这个单位太小,不利于交换、演进、管理、个人化。

这个列表还可以加长。这些教训,或可为以后的工作提供参考。

附:到目前为止有关semantic wiki的文章:

还有一些工作参 http://tw.rpi.edu/wiki/Semantic_Portal_Wiki

另参: 语义网是给人用的 2011-12-20

分类: 语义网