Archive

Archive for the ‘科技民工’ Category

学习的陷阱

2012/02/29 发表评论

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

停止学习,开始做,在做中学习。似乎是一个好想法。——但是这个想法一样是危险的。其实,连这个系统是否有人会用,我都不知道。做一个没人用的东西有什么意义?

我决定停止学习一段时间,想清楚这个几个问题

  • 我需要什么样的团队?通过什么样的途径能够找到第一流的人才在这个团队里?制约因素是什么?我自己不可能学会建一个可用的系统的所有知识,也不要知道。
  • 我的假设是什么?怎么验证这些假设?(Lean Startup原则)
  • 我的利益相关方是谁?谁可能提供我需要的资源?
  • 怎么才能和用户走得近一些,再近一些?

P.S. 回去又看了一遍任正非的《一江春水向东流》。感觉又深了一层。这里面有些东西,大概是大多数美国人(包括硅谷的这些企业家和管理专家)无法理解的。

 

 

分类: 工程创业

语义网的公司(9): Garlik

2012/01/07 3 条评论

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

  • 3store - 这个是AKT项目的产品。3就是triple吗。
  • 4store - 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
  • 5store - 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
  • Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
  • 为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
  • 把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
  • FOAF有应用吗?Garlik就是。
  • 用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。

总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。

语义博客[2008]

2012/01/02 2 条评论

【原文写于2008-05-05 到 2008-05-10】

I will try to use this wiki as a blogging tool.

{{BlogInfo
|page=Blog:Baojie
|title=A Blog test
|visitor=Jie Bao
|date=2008/05/05 01:16:38 AM EDT
|tag=Jie’s Words
}}

I get the basic idea on how to implement semantic blogging on the top of semantic wiki.

If an application — may not necessarily be an enterprise application — can be implemented by a relational database, then it can be implemented on a semantic wiki.

{{BlogInfo
|page=Blog:Baojie
|title=Semantic Blogging
|visitor=User:Baojie
|date=2008/05/09 02:51:24 PM EDT
|tag=Semantic Blog,Jie’s Words
}}

很久没有灌水。很久不写Blog,也在于没有一个Blog系统是我喜欢的。这个基于semantic wiki的blog,因为是自己搭的,自己喜欢,就再写一点。现在可以做到每个用户X能且只能编辑自己的Blog (在Blog:X之下的页面)。

我觉得这会发展成一个挺好的东西。[[Zemanta]]之类,不适合我。[[Twine]]我也不喜欢,没有真正的语义,主要是自然语言理解的东西。语义博客,当然要有一点本体,简单的也好。我不认为现在有任何一个Blog可以真正称为semantic blog的,虽然这个词出来有几年了。

{{BlogInfo
|page=Blog:Baojie
|title=接着灌水:语义博客
|visitor=User:Baojie
|date=2008/05/10 03:52:21 AM EDT
|tag=Semantic Wiki, Semantic Blog,Jie’s Words
}}

刚刚更新了一下回复机制。实验一下。应该每个用户的回复也成为自己Blog的一部分

{{BlogInfo
|page=Blog:Baojie
|title=刚刚更新了一下回复机制
|visitor=User:Baojie
|date=2008/05/10 05:01:29 AM EDT
|tag=Jie’s Words
}}

分类: 编程, 语义网, 旧文

新产业革命[2008]

2011/12/27 发表评论

【原文写于2008-12-18,http://tw.rpi.edu/wiki/Blog:Baojie/Item-129】

抛开纷繁芜杂的表象,人类历史的进步主要是对物质和能源利用的能力的进步。其中的核心,又是对能源的利用:有了新的能源,就能利用以前所不能利用的物质。

2008年种种问题,从历史长程看,很可能来催生一次新的产业革命。从19世纪末开始的石油,内燃机经济时代,很可能会被一种新的能源结构所取代。这种革命,将带来无数我们不能预期的社会变革乃至动荡。

在今后的几十年中,我们可能会看到核能和太阳能的比例逐渐提高。大量的沙漠地带会被利用起来。由于昼夜影响,全球性的电力贸易或许会大发展。现有的电网会加以大的改造,电动汽车将取代内燃机汽车成为主流。高速公路系统将更新,一种全新的超高速客运公路将被修建,通过汽车之间的联网调控和自动驾驶能力,这种公路可能达到200公里每小时甚至更高。

{{BlogInfo
|page=Blog:Baojie
|title=新产业革命
|visitor=User:Baojie
|date=2008/12/18 05:36:11 PM UTC
|tag=Jie’s Words
}}

分类: 幻想, 时事

智学八卦之Horrocks[2006]

2011/12/26 发表评论

【Net.Weblog.20060324.txt】

【原文写于2006-03-24。那时候我还不认识Horrocks。2008到2009年,我在OWL工作组,Horrocks是工作组主席,有了更多接触。】

Ian Horrocks (http://www.cs.man.ac.uk/~horrocks/)在描述逻辑界可谓泰山北斗,常人不可望之项背。看他的履历,确也并非一条直线。1981年,Ian在曼彻斯特大学计算机本科毕业,去一家微处理器实验室,后来去一个数据流并行结构工作组工作。1983年他去了一家公司,负责字处理程序和桌面出版软件的开发。 (引自其博士论文)。直到1994年,Ian才回到曼大读硕士,95年毕业。又过了2年,作出了Fact推理机,拿到了博士学位。此时Ian已经40岁上下,无论如何不能算少年得志了。况且,他3年只有2个workshop论文(根据其个人主页),若按美国标准申请教职,怕连面试机会都不会有。

然而Ian的博士论文却是一个震撼性的结果。以前,逻辑学家觉得一个逻辑语言,如果有超过多项式的复杂性,就是一个不应该被考虑的,不实际的语言。而Ian 实践证明,有若干优化算法,可以极大的降低一些有丰富表达力的语言的复杂性(甚至达到三个数量级),这就使后来一系列语言如S, SH, SHIQ, SHOQ, SHION(也就是OWL-DL)成为可能。这是一个很了不起的突破。当时还没有语义网,连XML也没有,可是Ian的工作为10年之后今天的应用打下了坚实的基础。

从此以后,Ian的创造力犹如滔滔江水,连绵不绝。除了在推理优化之外,他在DL表达力的丰富, RDF, OIL 和OWL语言的指定,ABox推理,datatype扩展,语义网规则语言等方面都有不凡的贡献。和许多研究者不同,Ian的大量工作是自己(而不是学生)的原创。大多数年份,他能有10篇甚至更多的第一作者论文,而且绝对是高质量的论文。对于大多数研究人员,这就是奇迹了。

我04年见过Ian Horrocks一面,有幸他坐到我的桌子对面也拿出笔记本改slides,聊了几句. 他给我的印象是个很内敛的人。[2011-12-26补充:后来接触多了,进一步发现,他说话非常的“英国”,一种慢条斯理,带着绅士风度,而其内在立场十分坚定的风格。]

【下面是我的发挥,和Ian的履历其实没有多大关系。这些是2006年的认识,现在看又不成熟。有时间以后再改了。】

Ian 四十岁前并无为世人知的成就,而五十岁时则可以一代宗师的地位傲视群雄。我辈后生,除景仰外,又能得到什么启示呢?

我个人觉得,当代科学,早已不是天才的时代。Ian是不是天才?我不敢说。不过我辈昭昭俗人,恐怕没有几个是天才。博士毕业,大多也30左右了,比之牛顿,爱因斯坦,狄拉克,海森堡之类青年得志者,已经足够老了。不过既然现在科学研究是大科学,个人在其中无非是一个螺丝钉,或者一个在科学进化的育种场中提供随机变异用的种子,真正的个人聪明,比重是越来越小了。科学家成名的年龄越来越晚,实在是一个时代的趋势。这不是一个浮躁者的舞台。(当然,当不了科学家还可以当学术官僚,一样功成名就。)

许多时候,感觉读博士一种程序性的折磨。无穷无尽的寻找,失败,再寻找,再失败。在对一个领域没有了解的时候,寻找的方法不是意义不大,就是别人已经做过了,或者有意义别人也没做过但是自己或者老板的水平又不足以解决。所以许多人都希望开始就找到一个好的题目,不要”浪费时间”。不过快毕业的回过头来一看,恰恰不是最后写在博士论文里的那些东西,而往往是被否定掉的那些想法和方向,使自己对整个领域有了广泛的了解。选择做什么难,选择不作什么就更难了。这恐怕也是博士教育和硕士教育的一个区别吧。

2011-12-26补:我现在回去看自己的博士论文,又有了不同的看法。我现在回去写博士论文,绝不会那样选题,也绝不会是那样做法。

之所以说到这个是从Ian的履历想到,其实人何尝能一开始就找到自己的人生定位呢?如果Ian接着做字处理软件,是不是也会一样出色哪?一个具体的研究课题是一种选择,一个学位是一种选择,在什么国家生活和居住,在什么行业从事工作,和什么样的人终身生活,等等,一个选择就意味着更多的不选择。怎样才能知其可,知其不可呢?如何看待生活中的无穷无尽的寻找,失败,再寻找,再失败呢?

其实一个好的学者,往往有一个好的心态。不急躁,不冒进,调查而后结论;名利视之当然,失败视之当然。我想博士的程序性折磨,对形成这种健康的心态是有益的。教育当然不仅是塑造一个学者,也是塑造一个人,一个健康的,全面的,成熟的人。

再回到选择的问题。博士选题,什么样的最好?我以为计算机科学有大体有两种:树叶型的树枝型的。树叶型的研究,基于既有的理论,或者加以修订,或者加以应用,春天长出,秋天落下,来年便不再有人记得。有的博士论文,就是三四个树叶的集合,何以能指望产生持久影响呢?树枝型的研究,并不着眼于立即生叶开花,而是找到领域的一个切入点,寻求一个不光是对特定对象有效的研究方法,扎扎实实的做几年比较和积累,或许几个春秋之后,才能长出叶芽。而一旦奠定这样的基础,每年都会有新的叶子产生,过几年之后,小枝变大枝,又衍生出新的小枝。Ian的选题,无疑就是一个恰当的树枝,而现在的树叶,也无非是厚积薄发,从当年的小枝演化而来的具体成果。

知道什么不去做是最难的。如果着眼于眼前的publication,做了几个树叶,也及时发了几篇论文,是否就是最优的选择呢?有没有一个规划让自己的工作在更广泛的范围内产生影响呢?Ian如果当年的切入点就是医学知识库的建模和具体实现(其博士论文的资金来源),是否还会产生今天这样大的影响力呢?

子曰,从心所欲不逾矩,大概就是指这种”不选择“的艺术吧。

执行力与组织研讨会

2011/12/20 发表评论

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要


分类: 工程创业 标签:

语义网是给人用的

2011/12/20 3 条评论

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

后来有很多年,对语义网的宣传就是这样讲的:让机器来读网页的内容,并理解网页。

这么说,本来并不错。语义网技术的发展,也基本按TBL在1998年就定下的调子走。

问题是,就算经是好的,念经的和尚难免把经念歪了。这导致了后来的一系列问题。

从TBL的road map出发,大家的思路自然是,那我们先去设计一种语言,帮人来做网页的元数据标注(metadata annotation),不就好了。于是就有了RDF, SHOE, DAML, OIL, DAML+OIL, OWL,等等。无数的银子砸进去。

听到一点点响。

后来(2006年),大家觉得是不是经有问题?为什么大企业大多都不跟进呢?是不是太复杂了?后来就有了对语义网技术栈的简化。TBL又发了一条敕令:Linked Data。又是无数的银子砸进去。

这会听到的响多一些。linked data (http://linkeddata.org) 的数量,现在有300多个数据集,300多亿triple。在用在Watson等系统里了,效果不错。

不过,这又过了5年,对语义网质疑的声音,依然是远远超过支持它的声音。大企业的跟进,依然是笛卡尔对宗教的那种态度:试一试,试一试。说实在的,在这样的环境下,没有一点宗教的热忱或者愚蠢,那是不容易坚持下去的。

问题出在哪里?

某年我参加了一个研讨会。会上大家畅所欲言,说了推理啊,查询啊,界面啊,种种问题。然后有人问了一个问题:数据呢,数据在哪里?

主持人就问:大家说说看,你们在用什么数据?

一种不大不小的尴尬在会场蔓延。是的,在场的绝大多数人都没有从用户那里来的“真实”的数据,更不用说元数据。

从用户那里,很难拿到高质量数据,几乎不可能拿到大量的用户添加过元数据的数据。

用户都是人。人做一件事,是要考虑成本和收益的。人是有心理和感情的。人是有极大的认知局限的。大多数人本性是爱偷懒和虚荣的。我们现在的教育,没有教会大多数人怎么管理数据(因为直到不久以前,大多数人的问题是数据太少而不是太多)。如果从人那里来的就是垃圾数据,那你休想指望从中提取出太多有用的信息(除非你只关心一些宏观的统计指标)。

我开始觉得,语义网的问题,其实不在机器的语言设计的是不是简单,是不是可以推理、理解,也不是可扩展性。核心问题,其实在人,在人能不能被激励去做一些事情,然后机器才可以去做 一些相对简单的事。在设计一个语义应用前,我要问自己一系列问题:

  • 数据在哪里?谁提供数据?
  • 元数据会一并提供吗?
  • 用户会不会提供元数据?他们会因此得到什么好处?他们的心理是什么?到什么程度他们会烦?
  • 产生数据和元数据的代价是多大?用户需要付出多大的努力?
  • 用户需要多长时间才会从提供元数据得到好处?
  • 总用户里,有多少会主动提供元数据?在这些人里,又有多少会提供高质量的元数据?
  • 数据的依赖性如何?是不是要等很多用户都来提供数据了,系统才能有用?单个用户的数据有多少用?
  • 需要多少数据/元数据系统才会有一点用?明显有用?要几天,几个月,还是几个世纪才能达到?
  • 什么样的元数据是对用户/客户对有价值的?如果没有,有多大可能用工具获得?
  • 对现有系统,需要多大的改动?现有的工作模式是不是会被改变?这些人有动机做这种改变吗?会不会有抵触?怎么解决?
  • 在这个应用的全生命周期,哪些人会参与? 有多少人需要重新培训?培训的代价是多少?
  • 等等,还有很多这里不说了

语义网是给人用的。语义网上的数据,除了一些用来科研和生产的(比如天文观测和工业仪表),大头还是要由人的活动来产生。要抓住人性,才能抓住数据,然后才有后来的一切。

语义网这场革命,正如社交网络(social network),主要是一种社会的革命,模式的变迁(Paradigm Shift),而以技术支持为手段。

语义网,是要为人民服务。不要把自己关在屋里想,去设计社会该什么走,什么是“合理”的。反之,应该走出去,抓住人的欲望和能力,体察社会的趋势,从“存在”中寻找合理性,那些有助于机器来帮助”人理解人”的合理性。

至于这个东西还叫不叫语义网,已经不重要了。

《三体》之发散思维

2011/12/10 1 comment

《三体》读后感

今天和人胡扯《三体》的各种问题。

朋友说,三体有一个大bug。罗辑往宇宙里发一个星图,验证黑暗森林理论,结果那个星星就被干掉了。可是如果有这么一两次,有星星这么被干掉了,别的星星上的文明知道了,就会预防这种事。既然我们不知道哪个星星上有生命,那索性把所有的星星的星图都向宇宙广播,让宇宙亮如白昼。这时,那些“黑点”说不定就是目标。

我琢磨了一下,觉着这个理论有些问题。首先,宇宙里的星星这么多,能把所有的星星的坐标都精确掌握了吗?就算都掌握了,能有足够的资源把所有的星星坐标都发布出去?说不定,你以为宇宙只有这么大,广播一下你知道的空间,其实正好给别人做靶子。打个比方,你在一个村子里住,只认识村子里的人。有人发spam邮件,盗用你家邮件地址;你也搞不清是谁干的,索性,你也发spam邮件,把全村所有人的邮件地址都用上。可世界上还有很多其他的村子,人家发现这个村子老是发spam,虽然搞不清具体是谁,索性把你们全灭了(封)了事。

还有一个问题,就是一个星际文明发出的信息,另一个文明看得懂吗?蚂蚁发出的信息,人看得懂吗?人发出的信息,蚂蚁也不一定懂。就算你发布了星图,谁能确定别的文明就知道是什么意思?

当然,人灭蚂蚁,不需要理由(我要毁灭你,与你何干?)。人家灭了太阳系,也未必就是因为黑暗森林理论,可能就是玩。人也不一定刻意要去灭蚂蚁,其实知道蚂蚁是没有威胁的。所以发布一个星图出去,就导致这个星星的被打击,其实是一个小概率事件。好比一群蚂蚁要告诉人类另一群蚂蚁的窝的位置,人能理解?理解了又会去灭它(因为担心蚂蚁会迟早进化得比人高级)?

朋友说,博弈论,进化论,社会生物学,在宇宙文明的尺度上,是不是也成立?是否遵从自然选择?

我想,是。这个宇宙尺度的博弈,未必就是一锤子买卖。黑暗森林这样的关系,如果有足够多的星际文明,交互足够长的时间,未必就不能发展出更复杂的生态关系。各种利他主义的行为,合作的进化,等等,都未必不能产生。所以我觉得,与其叫宇宙社会学,不如叫宇宙生态学,更符合可能多样的文明间关系。

不同的文明,可能生活在不同的生态位上。有的靠矿物生活(象人类),有的靠电磁波生活,有的靠强相互作用生活,等等。同一个生态位上的文明,可能有比较强的竞争关系(比如地球人和三体人)。在不同生态位上的,可能会相互影响,可能更一般的关系,是井水不犯河水,反正你的资源我也不感兴趣。

宇宙很大,一些具体的物理定律,比如光速不变,说不定只是我们可观察宇宙的一个局部的规律。其他的部分,既然不可观察了,也就不可知。在宇宙的其他部分,说不定根本就是其他的规律在起作用。

一个宇宙,可能就是一个模拟运行的世界。你在计算机上跑一个模拟世界,你设定的规则,在那个世界的生物里,就是他们的物理定律。这个计算机上的模拟世界,可能除了跑这个程序的人,对真实世界的其他人根本就是无所谓存在不存在的。模拟世界的生物纠结的各种问题(比如地球的毁灭问题),在真实世界看来根本就是无所谓的伪问题。模拟世界的生物也根本不可能知道真实的世界是什么样的。

宇宙中的物理定律完全可能是不一样的。比如光拿空间的维度在做文章(如二向箔)有什么意思?如果空间是从11维一路打仗到现在的3维和未来的2维,那时间为什么不会是从过去的x维降到现在的1维?也许时间本身的维度也可以在宇宙战争中作为武器来用。我们现在人类所能想象的,无非是一维时间上的一些运动(比如回到过去啊,加快对手的时间速度让他迅速老死啊),至多是二维的时间(比如在每一步都有无限可能的平行宇宙,而且这些可能性之间可以进行平行宇宙间的跳跃)。三维的时间是什么?更高维的呢?

也许宇宙根本就不只存在时间(宙)和空间(宇),还有别的什么“间”。姑且称为屁间。我们这个观察到的宇宙,说不定只是一个别的世界的投影,一个影子罢了。你会和自己的影子怄气吗?同理,那高级的宇宙的智能体,会在乎我们这些生活在影子里的小虫子的世界吗?也许他们根本就无法观察我们,正如我们无法观察他们。

说不定还有别的投影,根本就没有时间,只有空间和屁间。因为没有时间,连我们熟知的因果律都没有,什么物理定律都没有,什么我们知道的数学结构都没有——比如在那个世界里就没法数数,连数的概念都套不进去。什么(时间意义上的)存在,毁灭,这些都不存在,压根就不存在所谓的生和死;人家担心的问题,根本就是我们八杆子打不着的其他烦恼。

再极端一点,说不定又有一些世界,连空间也没有,只有屁间,或者我们不知道其他的特征面。我们习知的星星组成的宇宙,在他们那里根本就是无法想象的——因为他们没有时间和空间的概念,就好象我们无法想象“屁间”是什么东西。连什么是生物都定义不出来:不要说蛋白质,就是熵你都定义不出来(注:生物的抽象定义是一种熵减系统)。很难想象,人家会来和我们抢地球。《庄子》里不是说,猫头鹰抓到一个死老鼠,以为凤凰要来和它抢,就“嚇”一声要保护自己的死老鼠。这个地球就是我们的死老鼠。

想到这里,顿时觉得不用杞人忧天,地球可能暂时还是很安全的。大家皆大欢喜,洗洗睡了。

分类: 读书, 幻想

Raw Thoughts Now!

2011/12/04 发表评论

TBL说:Raw Data Now!

我想说:Raw Thoughts Now! 记录原始思想

每个人类个体,其实都是知识的宝库。不光是技能的,而且是那段历史的知识。每个人的失去,都是人类知识的一个损失。有没有办法在人的去世之前,把他/她的知识全部记录下来?现在的技术条件,只能为少数人做传记;即使是这种传记,也只是这个人人生极小一部分的记录。有没有可能为世界上每一个人,都记录下完整的人生轨迹?有了这样的原始数据,总有办法来产生“摘要”,为后人研究这个个人或者这段历史提供条件。

如果有这样的手段,人类的发展可能会有很大的不同。

其实这个已经可以部分的实现。我想,如果要恢复我的人生轨迹,大体上从1998年到现在这一段,基本上每天的基本活动是可以恢复的,因为我保存了所有的电子邮件,所有的下载记录和每一份电子文件。这些,加上我的上网记录,Wiki编辑等,可以代表我的一个界面。

这个界面比传统的日记的方式,无疑更全面地记录了一个人。我非常想发展一种技术,自动地做全面的人生记录,并自动地从记录的源数据中提取相关的知识。这个在现在的技术条件下,是可以达到的。

可是这还是远远不够的。真正能够记录下的思想和经历,其实有没有1%?剩下的那99%,有时候是因为似乎不那么重要,但更多的时候,是因为没有时间和条件记录。人的思想的速度,远远高于能够用嘴或者手可以把它记录的速度;而且现在的记录手段,无论是用语音、打字或者写字,都需要一定的环境条件,让许多转瞬即逝的想法和见闻消失。人脑和外界交互的带宽限制(和机器比,低得可怜),恐怕是现在人类知识积累的最大障碍。

我敢说,如果我们能够及时地记录那剩下的99%的思想,这个世界将会完全不一样——也许更好,也许更坏。这种变化,会比当年发明文字带来的变化还要大。

有人也许会说,这些琐碎的思想和生活中鸡毛蒜皮的小事,有没有必要记录下来?如果有这种琐碎的记录,会不会反而阻碍我们进行深入的思考。其实这种担心在文字发明的时候就有,柏拉图就担心过,文字记录会妨碍人们使用自己的记忆。老子也说:“使民复结绳而用之”。与之恰恰相反,长远看,一切使“数据”的发布更容易的方法,都是人类历史的主要的推动:结绳记事,文字,纸,印刷术,计算机,万维网…以及未来的脑机界面

有没有一种技术,在我们进行思考的时候,已经记录下来这个思考的内容或者大纲?记录下来各种各样的Raw Thoughts(原始思想),不用动嘴,不用动手,放在一个属于个人的存储空间,没有其他任何人、任何政府可以访问。个人可以有选择地记录,也可以有选择地对外面发布其中一些思想。剩下的数据,比如过了一百年,就进入一个人类思想宝库,在严格保护隐私的前提下,被一些专家研究和利用。

倒是一个好的科幻小说的题材——不过我相信应该有人想过这个并写过了。

P.S. 进阶阅读

 

分类: Web, 幻想

执行力与卖饺子

2011/11/27 发表评论

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

把陷裹在面里蒸,这个是点子。网上见到的,大多数人想到的,就是这个层次。这个不值钱,连专利都申请不了。

饺子的形状,和面,擀皮,做馅,开蒸一系列工艺,这个是技术(可以申请专利)。开始,是要会做的,至少懂一点。

从少量的做给自己吃,到大量的做给别人吃,这个是工业化,有更多的技术问题。

从能做出来,到能开个店卖出去,这个是产业化问题

从能卖出去,到能挣钱,这个是市场问题

到这里,万里长征走完了第一步。每一步的know-how,综合起来就是执行力,也只是一部分。更重要的,空想也想不出来,还是要从实践中来,到实践中去。

参考

分类: 工程创业

Towards Webtop [2008]

2011/11/24 2 条评论

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50

http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

[P.S. 2011-11-24 It's dubbed "Cloud" this time. 也就是坑爹的“云”忽悠。其实云才不是关键。关键是知识管理,把知识从用户行为和生成数据中提取出来(注意,不是挖掘,而是提取,相对容易)。]

One reason is from my personal experience. From about two years ago, I stopped installing many software that have been with me for many years: Encarta is replaced by Wikipedia.com, Outlook is replaced by Gmail, MS Street is replaced by Google Maps, MS Word is replaced by writing in wiki, Powerpoint is replaced by online latex writing with the Beamer package, among a long list of other things. Browser is the application I stayed for more than 80% of time when I’m on my computers. There is indeed a strong need for me to organize all such online applications and data — simply bookmarking is barely a solution. I need something that can organize them, enable me quick access to them, and last but not least, pretty and neat. A webtop does exactly those things.

How semantic technologies help in providing a webtop? Actually, long before the term “ontology” getting popular, users are already creating ontologies on daily basis: email classification, creating file folder trees, grouping contacts or naming a photo as “Wedding picture at Troy”, all those efforts are creating relations between things or annotating a “meaning” to an entity. With semantic technologies, those relations and annotations can be made explicit so that data can be more easily managed and queried. For example, I may query that “find all 2005 photos of my friends”, or “show all meetings (even if they are not called meeting, such as “briefing”) in the past month”. A webtop based on semantic technologies will make such an ability universal to any application on its top.

[P.S. 2011-11-24 嗯,就是语义搜索个人“知识”库。这个不远的将来就可能出现在市场上]

There have been controversies about semantic web ever since that term is coined. I think this is partly because the semantic web community as a whole, failed to provide enough end-user friendly tools that can do something helpful in daily life. I wish to see more tools to help daily web activities: semantic email, semantic blog, semantic calender, semantic abstract of news (a little more than RSS), tagging files (picture, mp3,…) with taxonomy, etc. Even more important, to survive, such an application should never ask users to learn RDF or anything needs more than 3 minutes to understand. Bring such applications together, it’s a webtop. I believe something like this is one of the killer apps the community has long been waiting for.

[P.S. 2011-11-24 现在回来看这个三年前的blog,觉得后悔,为什么浪费了三年不实现这些想法。也不是不想实现,实在是“执行力”不到——比如支配自己时间的权力和能力,比如稳定后方基础的工作,比如将想法转化为现实可行的技术配置,比如PPT的忽悠能力,比如人脉...这些都是今后一年我要重点学习的东西]

{{BlogInfo
|page=Blog:Baojie
|title=Towards Webtop
|visitor=User:Baojie
|date=2008/07/25 00:00 EDT
|source=http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/
|tag=Jie’s_SW_Blog, Webtop
}}

参考:

Jie Bao, Li Ding, Deborah L. McGuinness, James A. Hendler. Towards Social Webtops Using Semantic Wiki, In International Semantic Web Conference (ISWC), Poster Track, 2008 (Download) (Slides) .

Enhanced by Zemanta

好想法和执行力

2011/11/16 3 条评论

今天有人问我,你为什么要写博客?你在博客里有时候写你自己的一些专业想法,不怕别人抄吗?

我解释道,我写的东西,都是些不值钱的泛泛之谈。重要的不是想法,而是如何实现想法,以及如何把想法和盈利模式结合起来。如果真的有什么可以商业化的想法,公司的知识产权政策也不允许我写出来——我就是自己不去执行,卖给公司也有一万美元可以赚呢(专利奖金)。硅谷这里,一天有不止一万个新奇的想法冒出来,真正有几个人能把这些想法实现?

放下电话后,看到这篇文章:《没有执行力,最牛逼的idea也只值20美元》。原文:ideas are just a multiplier of execution,作者 Derek Sivers。作者说:

最牛逼的idea,没有执行力,只值20美元。
最牛逼的idea乘以非常牛逼的执行力值2亿美元。

深表赞同。

前几天,我列了一个2012年年度计划。现在回去看,觉得还是偏了。重点应该在执行力的增强上。

分类: 工程创业

海归谈海归

2011/11/14 7 条评论

妞妈的一个以前的同事两三年前回国创业。这次同事(以下称为“海归”)回美国“考察”,顺便吃个饭,聊聊生活、事业。

杂七杂八谈了一个晚上,什么都谈了些,实在没有时间细写。写几个要点。

海归和妞妈一样,是搞半导体的。具体一点,是搞射频芯片设计的。海归说,现在国内有不少小公司搞起来。从技术上说,并不比美国的这几个公司(RFMD,Skyworks, Triquint, Avago等)差太多。国内的公司,大多当然搞不了制造,专于设计,制造都到台湾搞。人才方面,当然没有美国的素质高,不过开始有点差距,努力努力也就缩小了。别看几百个人,一年的销售可以上十亿(忘了问是人民币还是美元)。海归看,美国这几个公司,今后几年至少一个完蛋一两个。这和我的看法一样:美国的射频芯片设计产业,长远看一定会被中国的竞争对手全面搞垮;这个行业的美国工程师,其实是无法养老的。

中国的这些公司,自己竞争很激烈。国内的客户,谈不上什么忠诚度,对手便宜几分钱就换过去了。现在想进欧美市场还不容易,出口主要还是亚非拉。欧美市场为什么难?设备和运营商绑定(AT&T,Verizon之流),你规模小(国内的公司现在一般也就几百人),很难够格和他们谈。

我问回去有什么意想不到的困难?海归说,主要是国内的设备不合格,连个PCB板子都能给你做坏。仪器什么的质量不合格,家常便饭。政府?政府其实还不制造麻烦(海归这次考察的钱,就是政府出的)。现在也暂时不用交税。回去的时候,当地政府还请所有创业的老板在本地最好的馆子吃饭——结果所有人吃坏肚子。

生活。忙。回国就不要谈什么个人生活了。海归说,他经常睡不着觉。当地找的雇员,很多不合心意:比如不敬业,都不愿加班,给钱都不加;太容易跳。前面有大厂压,后面有人追,他这样几十个人的公司,危机感很强。

怀念美国吗?刚回去的时候有点,这里的生活方式,不操心的方方面面。习惯了就好。

房子。投资地点房子还不贵,9000人民币一平方吧。现在还开始跌了。一般“中产”,买不到一百平方的房子。【工资呢?他们主力设计人员,大概是50万年总收入的样子】

为什么回中国而不是在硅谷?半导体已经是夕阳概念了,硅谷这里很难搞到VC 。中国相比还是好搞钱一点。不过硬件哪里都难搞,还是互联网吹泡泡好吹一点,VC都喜欢。

怎么搞到投资?认识人。你不认识人家,自己找上门,人家不见得理你——VC都很忙的。你的项目要是真得好,VC要是没钱,说不定也介绍别人来投资你。中国的VC投资力度多大?小项目,300万美元很正常。

一个小插曲:我们说到中美生活比较,餐馆的服务员插嘴说:“唉,可不,这在美国不就是受洋罪来了”——她解释是说指餐馆老板。国内的餐馆老板哪有这么苦的。我听她的语气,想,也有说她自己的成份吧。

上面也就是挂一漏万。这几年,我的老同学们海归一个接一个。我总觉得,我和妞妈也是一定要归的。但是具体到什么时间,什么地点,怎么归,又是不得不慎重的事——哪里象当初来美国,拍拍屁股两个箱子就来了。在我岳父的眼里,在美国活实在是太苦了;在我们家原来保姆的眼里,美国差不多是天堂了。真实的美国(以及中国),是在这两个看法的中间。纠结,纠结才是人生吗。

分类: 生活, 工程创业

The Return of C 复习C语言

2011/06/18 2 条评论

有十年没用C了吧。从Hello World开始复习

习题代码在这里 http://codepad.org/users/baojie

资源:

基本功

链表 Linked List
树 Tree
数组和字符串
递归
I/O
未分类
分类: 编程

语义网的红旗能打多久?

2011/06/16 7 条评论

1) 语义网的头10年(2001-2011),是成功的10年,也是失败的10年。语义网的后一个10年,要强调实事求是、群众路线和“武装”斗争。

2)语义网的头10年是成功的,因为10年前除了在少数专业领域(比如医学和生物),几乎没有对广大Web用户有价值的数据集的存在。在10年中,各种标准语言,如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来,并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家,而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在,有很多的开放域数据可供我们使用,例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集,在提高某些问题解决方案(比如问答系统)的实践中,被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业,一些人已进入了决策阶层。

3)语义网的头10年是失败的,因为它发展的速度大大低于预期和Web本身。Web在1991年出现后,短短3、4年就为决策层高度重视,到2001年时,已经产生了百亿美元以上的市场,并几乎改变了IT和非IT产业的游戏规则。大约到2001年前后,目前意义上的社交网络(Social Web)开始形成(代表性事件是wikipedia的建立和blog进入主流);到2011年,已经出现了数以千计的各种Social Web公司,十亿以上的用户和百亿以上的市场。语义网的成功,与Web本身或者Social Web,还有两个以上数量级的差别。2001年《科学美国人》上的文章,目前还被看成一种科幻。

4)语义网发展的相对缓慢,从宏观上,很大程度上源于三个脱离:脱离现实,脱离群众,脱离市场。近年来,已经有很多工作来解决这三大问题,但到目前为止,还是初步的。

5)说语义网脱离现实,是因为早期的语义网推动力,高校和W3C,集中注意力于技术的发展和规范。但是,一些实验室的方法无法推广到实际的Web应用去,例如如下问题:

  • 认为推理能力是必要的,并强调推理的完备性和正确性。这使OWL使用描述逻辑DL作为建模基础
  • 认为Web是分散的从而本体也是分散的和自主的,可以使用本体映射的方法来做数据集成
  • 认为用户会使用本体编辑器或某些标注工具来提供元数据
  • 认为用户可以进行简单的本体建模,如区分概念、关系和实例,建立概念分类树
  • 现有的工具(如推理机和语义数据库)无法处理Web级的数据(这直到最近一两年才得到改观)
  • 认为表达力的限制是制约语义网发展的核心问题(从而制定了OWL2和RIF)

6)相对的,语义网的发展,应该实事求是。应当放弃逻辑推理为主的想法。语义网的实现,应当是多种技术的综合使用,比如信息检索、机器学习、数据库、自然语言处理、数据采集、可视化等。推理在其中,是起到一个辅助的而不是主要的地位。应当从问题出发,探索既有技术的集成和发展,而不是从主义出发,至上而下规划技术的发展。从问题出发,就要多开发如IBM的沃森系统和TripIT(建立和旅行相关的元数据)这样的系统,在解决具体问题的过程中发现问题,解决问题。从主义出发,就是象OWL 2的制定一样,先定下技术基调,再通过OWL ED这样“自己人”的小圈子来寻找应用案例,最后用技术的考虑(例如推理的完备性和最差时间复杂性)而不是实际应用的考虑来决定取舍。应当重视Web工程系统的复杂性和现实数据的低质量性。Web科学和Web工程,如同化学和化工的区别,要考虑各种实验室中不会出现的问题。用户会“犯错”,数据必然是杂乱和充满噪声的,90%的正确率在实验室中是很好的结果而在应用中往往不可接受;绝大多数程序员还不能接受传统语义网技术(如RDF和OWL)所要求的知识建模能力;语义网技术规范集的复杂性超过了许多中小企业和开发团队的接受能力。具体如何制定可行的技术路线,应当从实践中来,到实践中去,大兴调查研究之风,而不是本本主义。某些W3C的工作组,制定Web的规范而几乎一个大Web公司的代表都没有,这是闭门造车,结果十九是碰壁。

7)说语义网脱离群众,是因为早期的语义网的“用户”,过多集中于特殊行业用户,如制药、医学、出版等大型企业和研究机构。从这些特定用户、特定案例获得的经验,难以推广到数以十亿计的普通Web用户那里。如何从普通用户那里获得数据?如何使语义网数据可以造福普通用户?长久以来,人们在呼唤语义网的“杀手级应用”,到目前为止还没有出现。我认为很重要的原因,就是脱离对普通用户的需求的关注,着眼的数据集既不是从普通用户那里来,也不是普通用户所需要的,哪里能建立好的、普通用户喜欢的应用?

8)语义网要走群众路线,就是要急群众之所急,想群众之所想。普通Web用户需要什么?衣食住行,饮食男女。找工作,有找工作的数据;买房子,有买房子的数据;炒股,有炒股的数据。看电影是数据,打电话也是数据;买菜是数据;治病也是数据。先有了语义网的数据,才有了语义网的应用。先有了语义网的高质量数据,才有了语义网的高质量应用。Social Web之所以成功,一是它利用了Web Form,解决了数据输入的门槛;二是利用了社交粘性,解决了数据发布的即时回报效用。语义网的高质量数据,也要首先降低结构化数据输入的门槛,使数据在用户的自然活动中产生并被采集、提取,甚至不一定需要键盘、鼠标或者触摸屏的输入;其次,要使用户在发布数据的短期内就可以得到回报,保持其数据发布的意愿。一个杀手级应用,设计之初就应当面向百万之上的用户,而且与普通人的日常生活相结合。群众是要分两亩地不是要共产主义;群众是要搜仓老师的作品而不是仓老师的foaf。

9)说语义网脱离市场,是说早期的语义网推广路线,不是依赖Web公司循序渐进,而是企图至上而下,事先规划了行业的发展方向。语义网是一种革命,好的革命的路线要也要有人事的配合,也要有“武装”的支持——这里的武装,就是市场,具体就是投资。作为规划,既要有远期(3年以上)的蓝图,也要有近期(6-12个月)的规划。Google和Microsoft等大公司在语义网技术的采用上是谨慎的,当然并不是保守的。他们通过并购的方式吸纳语义网的小公司(如Freebase和Powerset),并试图消化语义网的团队技术到他们的主流产品中,这是一种渐进而稳妥的方式。我们期待更多的这种并购出现,比如在Facebook或者LinkedIn。

10)语义网要坚持“武装”斗争,就是要充分利用现有的产业平台,而不是另起炉灶。要先降低姿态,以初级阶段的语义网技术来辅助现有的产业平台来提高某些应用的性能,也许只能有几个百分点的提高。关键是通过关键应用(比如搜索、广告和推荐)的这几个百分点的提高,起到语义网技术的示范作用。要让语义网的技术沾满铜臭,然后才能有进一步的良性循环。

11)总结:我认为,语义网的三个(还有其他n个)未来应着眼的重点是

  • 实事求是:放弃实验室思维,重视工程实践
  • 群众路线:面向普通用户采集数据,为普通用户开发应用
  • “武装”斗争:从人事和资金上,加强利用现有产业平台(主要是大Web公司),渐进实现技术-市场的良性循环
P.S. (2011-06-17) 中国革命开始的设想,是工人城市暴动。这个方法不是很成功。首先,在社会的主要组成群体还是农民的时候,工人不与农民相结合,不能有大的作为。其次,革命的武装,其主要成员必然是农民;在革命的早期阶段,也要根植与农村,提出农民可以接受的、可以理解的口号和政策。语义网的今天,“农民”和“农村”就是现有的最广泛的、面向普通Web用户的应用。现有的大多数“应用”,无论是Protege, Swoogle, Sindice, NCBO Index (2010 SWC winner), TrialX (2009 SWC winner),都不是为普通用户设计的。这一点应该在不久的未来得到改变。
P.S.2 (2011-06-18) 文中提到的决策层,既包括政府,也包括商业和各种非营利组织的政策制定者。语义网技术从开始到现在最主要的支持者就是美国军方,从DARPA, IARPA到ARL(Army Research Lab)。Data.gov计划和英国政府数据计划都是在政府的大力支持下展开的;这些计划,是争取了包括英国首相和美国CIO在内的高级政府官员才得以展开。

从XSLT调用PHP

2011/06/15 发表评论

call PHP from XSLT [ XSLTProcessor->registerPHPFunctions() ]

<?php
$xml 
= <<<EOB
<all><user>bob</user></all>
EOB;
$xsl = <<<EOB
<?xml version=”1.0″ encoding=”UTF-8″?>
<xsl:stylesheet version=”2.0″
xmlns:xsl=”http://www.w3.org/1999/XSL/Transform”
xmlns:php=”http://php.net/xsl”>
<xsl:output method=”txt” encoding=”utf-8″ indent=”yes”/>
<xsl:template match=”all”>
<xsl:for-each select=”user”>
<xsl:value-of  select=”php:function(‘ucfirst’,string(.))”/>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
EOB;
$xmldoc DOMDocument::loadXML($xml);
$xsldoc DOMDocument::loadXML($xsl);

$proc = new XSLTProcessor();
$proc->registerPHPFunctions();
$proc->importStyleSheet($xsldoc);
echo 
$proc->transformToXML($xmldoc);
?>

分类: 编程

schema.org浏览笔记

2011/06/13 4 条评论

schema.org是最近三大搜索引擎公司(Google, Yahoo, Microsoft)推出的元数据网站(参2006年三大联合推出了sitemaps.org的模式)。就目前的市场看,G是主,Y和M是陪客。这个东西在语义网界争议很大,在SemTech上听到的词都是step back, embarrassing, bizarre, terrible 等——因为它没有用W3C的标准。所以有人(Michael HausenblasRichard Cyganiak)建了个Schema.RDFS.org,把那些schema转化成RDF。

先说我的屁股:我的屁股不在W3C那边,虽然也不一定在Google这边。

带着这样的偏见,我看了看schema.org。

它的格式称为Microdata。该文档目前是HTML Working Group的Last Call Draft(也就是基本完稿了),算HTML5的一部分。不奇怪的是,编辑是Google的Ian Hickson

Microdata看起来象这样:

<div itemscope itemtype ="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <span>Director: <span itemprop="director">James Cameron</span> (born August 16, 1954)</span>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

也可以内嵌,如

<div itemscope itemtype ="http://schema.org/Movie">
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
</div>

schema.org提供了一些标准的词汇(全部),如:

一些“高级”的元数据包括

  • 时间,例 <time itemprop=”startDate” datetime=”2011-05-08T19:30″>May 8, 7:30pm</time>
  • 说明取值范围 <link itemprop=”availability” href=”http://schema.org/InStock”/>
  • 不显示的数据:<meta itemprop=”ratingValue” content=”4″ />

schema.org说

The data model used is very generic and derived from RDF Schema (which in turn was derived from CycL, which in turn …)

为什么提到CycL? 大概是因为Ramanathan Guha现在在Google,见他的Blog (Jun 2, 2011)

Google在FAQ里对它的技术路线做了辩护。它说Why not RDFa or microformats?

Focusing on microdata was a pragmatic decision. Supporting multiple syntaxes makes documentation for webmasters more complex and introduces more overhead in terms of defining new formats. Microformats are concise and easy to understand, but they don’t offer an open extensibility mechanism and the reuse of the class tag can cause conflicts with website CSS. RDFa is extensible and very expressive, but the substantial complexity of the language has contributed to slower adoption. Microdata is the most recent well-known standard, created along with HTML5. It strikes a balance between extensibility and simplicity, and is most suitable for building the schema.org. Google and Yahoo! have in the past supported both microformats and RDFa for certain schemas and will continue to support these syntaxes for those schemas. We will also be monitoring the web for RDFa and microformats adoption and if they pick up, we will look into supporting these syntaxes. Also read the section on the data model for more on RDFa. 【总之RDFa太复杂(更不用说RDF或者OWL),Microformat扩展性不好】

Why don’t you support other vocabularies such as FOAF, GoodRelations, etc?

In creating schema.org, one of our goals was to create a single place where webmasters could go to figure out how to mark up their content, with reasonable syntax and style consistency across types. This way, webmasters only need to learn one thing rather than having to understand different, often overlapping vocabularies. A lot of the vocabulary on schema.org was inspired by earlier work like Microformats, FOAF, GoodRelations, OpenCyc, etc. 【言下之意就是大家只学一个schema就够了,而我这个是最棒的】

Peter Mika (Yahoo之Semantic Search guy)说

one of the key problems of the Semantic Web design of the W3C has been that it considered only technical issues, and not the need for a social process that would lead to bootstrap the system with data and schemas… With regard to schemas — we used to call them ontologies, until we found it scared people away — the expectation was that they would be developed in a distributed manner and machines would do the hard job of schema matching or somehow agreements would emerge. However, schema matching is a hard problem to automate….Finding stable and mature schemas with sufficient adoption has eventually become a major pain point.

我基本同意。W3C是要草根民主和计划经济。在现实世界中,还是寡头垄断加市场经济效果更好。你觉得这两点矛盾吗?呵呵。

你和一个Webmaster说一天RDF,不如给他一个工具,给他的页面加了一些schema(5分钟),然后过了1分钟,这个页面就上Google了,这样他就有加metadata的动力。何必纠缠于RDF这个皮相呢?从这个角度,我对Schema.RDFS.org不以为然。

Semantic Web不可能毕其功于一役,有初级阶段(linked data)和初级阶段的初级阶段(schema)。Schema.org就是语义网有Google特色的初级阶段的初级阶段。

P.S. (2011-09-12) Schema.org本身的成败其实无所谓,关键是它在推动这个生态系统形成的过程中所起的示范和教育语义。让商家和个人觉得元数据有用,愿意来发布,目的就达到了。过几年,长江后浪推前浪,Schema.org死在沙滩上也就没什么了。

How to explore an ontology using SPARQL 如何浏览一个本体

2011/05/31 1 comment

This article gives some typical SPARQL queries I used for getting familiar with an ontology which is only accessible by a querying endpoint.

1. Classes used

SELECT count(?x) ?type
WHERE{
 ?x a ?type.
}
GROUP BY ?type

2. OWL Classes

Sometime also need to find instances of rdfs:Class

SELECT ?x
WHERE{
 ?x a owl:Class .
}LIMIT 100

Instance counting

SELECT count(?y) ?x
WHERE{
 ?x a owl:Class .
 ?y a ?x .
}
GROUP BY ?x

3. Class Hierarchy

SELECT ?s ?o
WHERE{
 ?s rdfs:subClassOf ?o .
}
LIMIT 100

4. Properties used

SELECT DISTINCT ?p
WHERE{
 ?x ?p ?o .
}
ORDER BY ASC(?p)
LIMIT 100

5. Property Axioms
Domains and ranges

SELECT ?s ?domain ?range
WHERE{
 ?s a rdf:Property .
 ?s rdfs:domain ?domain .
 ?s rdfs:range ?range .
}
ORDER BY ?p
LIMIT 100

Inverse Properties

SELECT *
WHERE{
 ?p1 owl:inverseOf ?p2 .
}
ORDER BY ?p1
LIMIT 100

6. Instances (Triples)

Total triples:

SELECT count(*)
WHERE{
 ?s ?p ?o .
}

Triples by property

SELECT (count(*) AS ?c) ?p
WHERE{
 ?s ?p ?o .
}
GROUP BY ?p
ORDER BY ?c

7. Class Slots

Example query

SELECT DISTINCT ?p
WHERE{
 ?s a loticoowl:Member .
 ?s ?p ?o .
}
ORDER BY ?p
LIMIT 100

Some properties are used by instances with no class membership

SELECT DISTINCT ?p
WHERE{
?s ?p ?o .
OPTIONAL { ?s a ?x }
FILTER ( ! bound(?x) )
}

References:

分类: 编程, 语义网

智学八卦:一将功成万骨枯之红酒本体

2011/05/18 2 条评论

如果你不知道红酒本体(wine ontology),那你对语义网还要加强学习。

Wine OntologyDeborah L. McGuinness原创,后来被广泛用在各种语义网的基础教程中,比如OWL GuideOntology 101Protege。这个本体,早年是Deb读书的时候,为了方便演示开发的。最早的版本似乎是F-Logic的,现在一般用OWL(也就是描述逻辑)来写。

Deb一直想把这个本体真正实用化,所以做了几个版本的Wine Agent [KSL版RPI版]。主要的功能,就是在你点菜的时候,推荐你要喝什么红酒。现在已经有了一个iPhone的应用,不过并没有进Apple Store。其实,这个东西应用应该有很多,比如网上买红酒的店(如Lot18)或者菜谱网站(如Yummly ),都可以用。

Deb能做出这个本体,是建立在深厚的对红酒的了解上的。她家单单红酒的瓶塞,就有满满一大篮子,几十斤重肯定是有的。这就叫一将功成万骨枯。

题外话:OWL2也需要一个入门(OWL 2 Primer),里面改用家庭关系而不是红酒做例子。为什么呢?因为有人提意见,认为酒这个东西,在一些文化里是禁忌,用它恐怕政治不正确。不过,这个世界变化这么快,OWL 2 Primer里说的一些“常识”,比如“Man”和“Woman”互斥,“hasWife”的range是“Woman”, “hasParent”和 “hasSpouse”关系互斥,说不定将来也会变成政治不正确。到了OWL3,大概还得换换。

智学八卦:勤快

2011/05/10 1 comment

“智学八卦”分类用来记我听说的,见过的各种学术界,主要是人工智能界的八卦。因为是八卦,不保证正确性,无非是些村谈野语。和此相关的,有“黑客公案”(Hacker Koan),可以自己去搜。

Ian Horrocks现在在牛津,以前在曼大(Manchester),是描述逻辑(DL)的主要代表人物。

当初OIL(OWL的前身之一)制定的时候,有DL和Logic Program (LP)两种主要的逻辑模型竞争。后来有人问,为什么选了DL,Ian说,不过是因为我勤快些。

如果你在任何一个工作组工作过,就会知道勤快是多么重要。一天回一百个邮件,是重体力劳动。

过几年,LP派回过味来,也勤快起来,所以现在有了RIF。

分类: 智学八卦