Archive

Archive for the ‘工程创业’ Category

学习的陷阱

2012/02/29 发表评论

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

停止学习,开始做,在做中学习。似乎是一个好想法。——但是这个想法一样是危险的。其实,连这个系统是否有人会用,我都不知道。做一个没人用的东西有什么意义?

我决定停止学习一段时间,想清楚这个几个问题

  • 我需要什么样的团队?通过什么样的途径能够找到第一流的人才在这个团队里?制约因素是什么?我自己不可能学会建一个可用的系统的所有知识,也不要知道。
  • 我的假设是什么?怎么验证这些假设?(Lean Startup原则)
  • 我的利益相关方是谁?谁可能提供我需要的资源?
  • 怎么才能和用户走得近一些,再近一些?

P.S. 回去又看了一遍任正非的《一江春水向东流》。感觉又深了一层。这里面有些东西,大概是大多数美国人(包括硅谷的这些企业家和管理专家)无法理解的。

 

 

分类: 工程创业

语义网的公司(9): Garlik

2012/01/07 3 条评论

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

“captures and monitors information from web and social networking sites, and then generates an alert when an online loss/disclosure or theft of consumer data is detected”

这件并购其实发生在去年年底,SemanticWeb.com有一篇更详细的文章:Experian Acquires Garlik, Ltd.

Garlik的顾问有Tim Berners-Lee(Web发明人,W3C主席),Nigel Shadbolt(英国计算机学会主席)和Wendy Hall(ACM主席)——这三个人以前是语义网,现在是Web Science主要推手。Garlik现在的CTO是Steve Harris——他以前和Nigel一起在University of Southampton很多年。

Garlik和AKT(Advanced Knowledge Technologies)项目——一个英国主要的语义网项目——很有关系。不意外的,Nigel是AKT的PI之一,而Steve是AKT里面做triple store的。这也算是一个研究产业化成功的一个典型范例了。

关于Garlik如何应用语义网技术(特别是大规模语义数据库triple store)来帮助在线身份管理,可以看下面几个讲话:

对于我们搞技术的,Garlik主要还是因为它推出的几个开源语义数据库闻名,命名很有意思

  • 3store - 这个是AKT项目的产品。3就是triple吗。
  • 4store - 这个很受人的好评。可以装15G triples,支持RDF推理。注意它底层不是基于别家的关系数据库的。
  • 5store - 进一步提高可扩展性。据说可以支持1T triples,但不支持推理。
从Garlik案例看来,有哪些心得?今天没时间细写,以后有时间再补充,只说几个结论
  • Garlik本质上是做语义数据集成。集成人的信息当然不简单,比如各种拼写错误等,要做一些自然语言理解。注意:不能指望用户来提供语义数据,而是努力从用户提供的随便什么数据里搞出语义数据来。
  • 为什么要用triple store?如果是静态的数据,用关系数据库也没什么不可以。可是,在线数据的特点就是老是变。你总不能老是去改表结构。语义建模的优势,就在于与时俱进的能力强。
  • 把智能放在数据里而不是代码里。比如它家的DataPatrol,程序的控制很多就是放在RDF里,加个triple,去个triple,功能就变了。这样有利于适应复杂多变的数据
  • FOAF有应用吗?Garlik就是。
  • 用cluster,可以低价地实现大规模RDF推理。不需要MapReduce, Hadoop啥的——当然,那也是一条路。

总结1:Garlik的成功,展示了语义网在处理动态数据上的优势。以后如果有数据库界的同仁再质疑,可以和他说,你的个人信息,在Experian都是用语义网的技术管理的。

总结2:最近一年大公司买语义网小公司的例子越来越多,过去两个月几乎每个星期都有这样的例子发生。这是1年前都没有的现象,是技术走向成熟的一个标志。中国的语义网市场现在还近乎空白,其实欧美这上百家语义网的小公司(可能更多,我没细数过),很多都很值得抄一抄。

执行力与组织研讨会

2011/12/20 发表评论

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要


分类: 工程创业 标签:

语义网是给人用的

2011/12/20 3 条评论

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

后来有很多年,对语义网的宣传就是这样讲的:让机器来读网页的内容,并理解网页。

这么说,本来并不错。语义网技术的发展,也基本按TBL在1998年就定下的调子走。

问题是,就算经是好的,念经的和尚难免把经念歪了。这导致了后来的一系列问题。

从TBL的road map出发,大家的思路自然是,那我们先去设计一种语言,帮人来做网页的元数据标注(metadata annotation),不就好了。于是就有了RDF, SHOE, DAML, OIL, DAML+OIL, OWL,等等。无数的银子砸进去。

听到一点点响。

后来(2006年),大家觉得是不是经有问题?为什么大企业大多都不跟进呢?是不是太复杂了?后来就有了对语义网技术栈的简化。TBL又发了一条敕令:Linked Data。又是无数的银子砸进去。

这会听到的响多一些。linked data (http://linkeddata.org) 的数量,现在有300多个数据集,300多亿triple。在用在Watson等系统里了,效果不错。

不过,这又过了5年,对语义网质疑的声音,依然是远远超过支持它的声音。大企业的跟进,依然是笛卡尔对宗教的那种态度:试一试,试一试。说实在的,在这样的环境下,没有一点宗教的热忱或者愚蠢,那是不容易坚持下去的。

问题出在哪里?

某年我参加了一个研讨会。会上大家畅所欲言,说了推理啊,查询啊,界面啊,种种问题。然后有人问了一个问题:数据呢,数据在哪里?

主持人就问:大家说说看,你们在用什么数据?

一种不大不小的尴尬在会场蔓延。是的,在场的绝大多数人都没有从用户那里来的“真实”的数据,更不用说元数据。

从用户那里,很难拿到高质量数据,几乎不可能拿到大量的用户添加过元数据的数据。

用户都是人。人做一件事,是要考虑成本和收益的。人是有心理和感情的。人是有极大的认知局限的。大多数人本性是爱偷懒和虚荣的。我们现在的教育,没有教会大多数人怎么管理数据(因为直到不久以前,大多数人的问题是数据太少而不是太多)。如果从人那里来的就是垃圾数据,那你休想指望从中提取出太多有用的信息(除非你只关心一些宏观的统计指标)。

我开始觉得,语义网的问题,其实不在机器的语言设计的是不是简单,是不是可以推理、理解,也不是可扩展性。核心问题,其实在人,在人能不能被激励去做一些事情,然后机器才可以去做 一些相对简单的事。在设计一个语义应用前,我要问自己一系列问题:

  • 数据在哪里?谁提供数据?
  • 元数据会一并提供吗?
  • 用户会不会提供元数据?他们会因此得到什么好处?他们的心理是什么?到什么程度他们会烦?
  • 产生数据和元数据的代价是多大?用户需要付出多大的努力?
  • 用户需要多长时间才会从提供元数据得到好处?
  • 总用户里,有多少会主动提供元数据?在这些人里,又有多少会提供高质量的元数据?
  • 数据的依赖性如何?是不是要等很多用户都来提供数据了,系统才能有用?单个用户的数据有多少用?
  • 需要多少数据/元数据系统才会有一点用?明显有用?要几天,几个月,还是几个世纪才能达到?
  • 什么样的元数据是对用户/客户对有价值的?如果没有,有多大可能用工具获得?
  • 对现有系统,需要多大的改动?现有的工作模式是不是会被改变?这些人有动机做这种改变吗?会不会有抵触?怎么解决?
  • 在这个应用的全生命周期,哪些人会参与? 有多少人需要重新培训?培训的代价是多少?
  • 等等,还有很多这里不说了

语义网是给人用的。语义网上的数据,除了一些用来科研和生产的(比如天文观测和工业仪表),大头还是要由人的活动来产生。要抓住人性,才能抓住数据,然后才有后来的一切。

语义网这场革命,正如社交网络(social network),主要是一种社会的革命,模式的变迁(Paradigm Shift),而以技术支持为手段。

语义网,是要为人民服务。不要把自己关在屋里想,去设计社会该什么走,什么是“合理”的。反之,应该走出去,抓住人的欲望和能力,体察社会的趋势,从“存在”中寻找合理性,那些有助于机器来帮助”人理解人”的合理性。

至于这个东西还叫不叫语义网,已经不重要了。

执行力与卖饺子

2011/11/27 发表评论

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

把陷裹在面里蒸,这个是点子。网上见到的,大多数人想到的,就是这个层次。这个不值钱,连专利都申请不了。

饺子的形状,和面,擀皮,做馅,开蒸一系列工艺,这个是技术(可以申请专利)。开始,是要会做的,至少懂一点。

从少量的做给自己吃,到大量的做给别人吃,这个是工业化,有更多的技术问题。

从能做出来,到能开个店卖出去,这个是产业化问题

从能卖出去,到能挣钱,这个是市场问题

到这里,万里长征走完了第一步。每一步的know-how,综合起来就是执行力,也只是一部分。更重要的,空想也想不出来,还是要从实践中来,到实践中去。

参考

分类: 工程创业

Towards Webtop [2008]

2011/11/24 2 条评论

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50

http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

[P.S. 2011-11-24 It's dubbed "Cloud" this time. 也就是坑爹的“云”忽悠。其实云才不是关键。关键是知识管理,把知识从用户行为和生成数据中提取出来(注意,不是挖掘,而是提取,相对容易)。]

One reason is from my personal experience. From about two years ago, I stopped installing many software that have been with me for many years: Encarta is replaced by Wikipedia.com, Outlook is replaced by Gmail, MS Street is replaced by Google Maps, MS Word is replaced by writing in wiki, Powerpoint is replaced by online latex writing with the Beamer package, among a long list of other things. Browser is the application I stayed for more than 80% of time when I’m on my computers. There is indeed a strong need for me to organize all such online applications and data — simply bookmarking is barely a solution. I need something that can organize them, enable me quick access to them, and last but not least, pretty and neat. A webtop does exactly those things.

How semantic technologies help in providing a webtop? Actually, long before the term “ontology” getting popular, users are already creating ontologies on daily basis: email classification, creating file folder trees, grouping contacts or naming a photo as “Wedding picture at Troy”, all those efforts are creating relations between things or annotating a “meaning” to an entity. With semantic technologies, those relations and annotations can be made explicit so that data can be more easily managed and queried. For example, I may query that “find all 2005 photos of my friends”, or “show all meetings (even if they are not called meeting, such as “briefing”) in the past month”. A webtop based on semantic technologies will make such an ability universal to any application on its top.

[P.S. 2011-11-24 嗯,就是语义搜索个人“知识”库。这个不远的将来就可能出现在市场上]

There have been controversies about semantic web ever since that term is coined. I think this is partly because the semantic web community as a whole, failed to provide enough end-user friendly tools that can do something helpful in daily life. I wish to see more tools to help daily web activities: semantic email, semantic blog, semantic calender, semantic abstract of news (a little more than RSS), tagging files (picture, mp3,…) with taxonomy, etc. Even more important, to survive, such an application should never ask users to learn RDF or anything needs more than 3 minutes to understand. Bring such applications together, it’s a webtop. I believe something like this is one of the killer apps the community has long been waiting for.

[P.S. 2011-11-24 现在回来看这个三年前的blog,觉得后悔,为什么浪费了三年不实现这些想法。也不是不想实现,实在是“执行力”不到——比如支配自己时间的权力和能力,比如稳定后方基础的工作,比如将想法转化为现实可行的技术配置,比如PPT的忽悠能力,比如人脉...这些都是今后一年我要重点学习的东西]

{{BlogInfo
|page=Blog:Baojie
|title=Towards Webtop
|visitor=User:Baojie
|date=2008/07/25 00:00 EDT
|source=http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/
|tag=Jie’s_SW_Blog, Webtop
}}

参考:

Jie Bao, Li Ding, Deborah L. McGuinness, James A. Hendler. Towards Social Webtops Using Semantic Wiki, In International Semantic Web Conference (ISWC), Poster Track, 2008 (Download) (Slides) .

Enhanced by Zemanta

好想法和执行力

2011/11/16 3 条评论

今天有人问我,你为什么要写博客?你在博客里有时候写你自己的一些专业想法,不怕别人抄吗?

我解释道,我写的东西,都是些不值钱的泛泛之谈。重要的不是想法,而是如何实现想法,以及如何把想法和盈利模式结合起来。如果真的有什么可以商业化的想法,公司的知识产权政策也不允许我写出来——我就是自己不去执行,卖给公司也有一万美元可以赚呢(专利奖金)。硅谷这里,一天有不止一万个新奇的想法冒出来,真正有几个人能把这些想法实现?

放下电话后,看到这篇文章:《没有执行力,最牛逼的idea也只值20美元》。原文:ideas are just a multiplier of execution,作者 Derek Sivers。作者说:

最牛逼的idea,没有执行力,只值20美元。
最牛逼的idea乘以非常牛逼的执行力值2亿美元。

深表赞同。

前几天,我列了一个2012年年度计划。现在回去看,觉得还是偏了。重点应该在执行力的增强上。

分类: 工程创业

海归谈海归

2011/11/14 7 条评论

妞妈的一个以前的同事两三年前回国创业。这次同事(以下称为“海归”)回美国“考察”,顺便吃个饭,聊聊生活、事业。

杂七杂八谈了一个晚上,什么都谈了些,实在没有时间细写。写几个要点。

海归和妞妈一样,是搞半导体的。具体一点,是搞射频芯片设计的。海归说,现在国内有不少小公司搞起来。从技术上说,并不比美国的这几个公司(RFMD,Skyworks, Triquint, Avago等)差太多。国内的公司,大多当然搞不了制造,专于设计,制造都到台湾搞。人才方面,当然没有美国的素质高,不过开始有点差距,努力努力也就缩小了。别看几百个人,一年的销售可以上十亿(忘了问是人民币还是美元)。海归看,美国这几个公司,今后几年至少一个完蛋一两个。这和我的看法一样:美国的射频芯片设计产业,长远看一定会被中国的竞争对手全面搞垮;这个行业的美国工程师,其实是无法养老的。

中国的这些公司,自己竞争很激烈。国内的客户,谈不上什么忠诚度,对手便宜几分钱就换过去了。现在想进欧美市场还不容易,出口主要还是亚非拉。欧美市场为什么难?设备和运营商绑定(AT&T,Verizon之流),你规模小(国内的公司现在一般也就几百人),很难够格和他们谈。

我问回去有什么意想不到的困难?海归说,主要是国内的设备不合格,连个PCB板子都能给你做坏。仪器什么的质量不合格,家常便饭。政府?政府其实还不制造麻烦(海归这次考察的钱,就是政府出的)。现在也暂时不用交税。回去的时候,当地政府还请所有创业的老板在本地最好的馆子吃饭——结果所有人吃坏肚子。

生活。忙。回国就不要谈什么个人生活了。海归说,他经常睡不着觉。当地找的雇员,很多不合心意:比如不敬业,都不愿加班,给钱都不加;太容易跳。前面有大厂压,后面有人追,他这样几十个人的公司,危机感很强。

怀念美国吗?刚回去的时候有点,这里的生活方式,不操心的方方面面。习惯了就好。

房子。投资地点房子还不贵,9000人民币一平方吧。现在还开始跌了。一般“中产”,买不到一百平方的房子。【工资呢?他们主力设计人员,大概是50万年总收入的样子】

为什么回中国而不是在硅谷?半导体已经是夕阳概念了,硅谷这里很难搞到VC 。中国相比还是好搞钱一点。不过硬件哪里都难搞,还是互联网吹泡泡好吹一点,VC都喜欢。

怎么搞到投资?认识人。你不认识人家,自己找上门,人家不见得理你——VC都很忙的。你的项目要是真得好,VC要是没钱,说不定也介绍别人来投资你。中国的VC投资力度多大?小项目,300万美元很正常。

一个小插曲:我们说到中美生活比较,餐馆的服务员插嘴说:“唉,可不,这在美国不就是受洋罪来了”——她解释是说指餐馆老板。国内的餐馆老板哪有这么苦的。我听她的语气,想,也有说她自己的成份吧。

上面也就是挂一漏万。这几年,我的老同学们海归一个接一个。我总觉得,我和妞妈也是一定要归的。但是具体到什么时间,什么地点,怎么归,又是不得不慎重的事——哪里象当初来美国,拍拍屁股两个箱子就来了。在我岳父的眼里,在美国活实在是太苦了;在我们家原来保姆的眼里,美国差不多是天堂了。真实的美国(以及中国),是在这两个看法的中间。纠结,纠结才是人生吗。

分类: 生活, 工程创业

语义网的红旗能打多久?

2011/06/16 7 条评论

1) 语义网的头10年(2001-2011),是成功的10年,也是失败的10年。语义网的后一个10年,要强调实事求是、群众路线和“武装”斗争。

2)语义网的头10年是成功的,因为10年前除了在少数专业领域(比如医学和生物),几乎没有对广大Web用户有价值的数据集的存在。在10年中,各种标准语言,如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来,并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家,而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在,有很多的开放域数据可供我们使用,例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集,在提高某些问题解决方案(比如问答系统)的实践中,被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业,一些人已进入了决策阶层。

3)语义网的头10年是失败的,因为它发展的速度大大低于预期和Web本身。Web在1991年出现后,短短3、4年就为决策层高度重视,到2001年时,已经产生了百亿美元以上的市场,并几乎改变了IT和非IT产业的游戏规则。大约到2001年前后,目前意义上的社交网络(Social Web)开始形成(代表性事件是wikipedia的建立和blog进入主流);到2011年,已经出现了数以千计的各种Social Web公司,十亿以上的用户和百亿以上的市场。语义网的成功,与Web本身或者Social Web,还有两个以上数量级的差别。2001年《科学美国人》上的文章,目前还被看成一种科幻。

4)语义网发展的相对缓慢,从宏观上,很大程度上源于三个脱离:脱离现实,脱离群众,脱离市场。近年来,已经有很多工作来解决这三大问题,但到目前为止,还是初步的。

5)说语义网脱离现实,是因为早期的语义网推动力,高校和W3C,集中注意力于技术的发展和规范。但是,一些实验室的方法无法推广到实际的Web应用去,例如如下问题:

  • 认为推理能力是必要的,并强调推理的完备性和正确性。这使OWL使用描述逻辑DL作为建模基础
  • 认为Web是分散的从而本体也是分散的和自主的,可以使用本体映射的方法来做数据集成
  • 认为用户会使用本体编辑器或某些标注工具来提供元数据
  • 认为用户可以进行简单的本体建模,如区分概念、关系和实例,建立概念分类树
  • 现有的工具(如推理机和语义数据库)无法处理Web级的数据(这直到最近一两年才得到改观)
  • 认为表达力的限制是制约语义网发展的核心问题(从而制定了OWL2和RIF)

6)相对的,语义网的发展,应该实事求是。应当放弃逻辑推理为主的想法。语义网的实现,应当是多种技术的综合使用,比如信息检索、机器学习、数据库、自然语言处理、数据采集、可视化等。推理在其中,是起到一个辅助的而不是主要的地位。应当从问题出发,探索既有技术的集成和发展,而不是从主义出发,至上而下规划技术的发展。从问题出发,就要多开发如IBM的沃森系统和TripIT(建立和旅行相关的元数据)这样的系统,在解决具体问题的过程中发现问题,解决问题。从主义出发,就是象OWL 2的制定一样,先定下技术基调,再通过OWL ED这样“自己人”的小圈子来寻找应用案例,最后用技术的考虑(例如推理的完备性和最差时间复杂性)而不是实际应用的考虑来决定取舍。应当重视Web工程系统的复杂性和现实数据的低质量性。Web科学和Web工程,如同化学和化工的区别,要考虑各种实验室中不会出现的问题。用户会“犯错”,数据必然是杂乱和充满噪声的,90%的正确率在实验室中是很好的结果而在应用中往往不可接受;绝大多数程序员还不能接受传统语义网技术(如RDF和OWL)所要求的知识建模能力;语义网技术规范集的复杂性超过了许多中小企业和开发团队的接受能力。具体如何制定可行的技术路线,应当从实践中来,到实践中去,大兴调查研究之风,而不是本本主义。某些W3C的工作组,制定Web的规范而几乎一个大Web公司的代表都没有,这是闭门造车,结果十九是碰壁。

7)说语义网脱离群众,是因为早期的语义网的“用户”,过多集中于特殊行业用户,如制药、医学、出版等大型企业和研究机构。从这些特定用户、特定案例获得的经验,难以推广到数以十亿计的普通Web用户那里。如何从普通用户那里获得数据?如何使语义网数据可以造福普通用户?长久以来,人们在呼唤语义网的“杀手级应用”,到目前为止还没有出现。我认为很重要的原因,就是脱离对普通用户的需求的关注,着眼的数据集既不是从普通用户那里来,也不是普通用户所需要的,哪里能建立好的、普通用户喜欢的应用?

8)语义网要走群众路线,就是要急群众之所急,想群众之所想。普通Web用户需要什么?衣食住行,饮食男女。找工作,有找工作的数据;买房子,有买房子的数据;炒股,有炒股的数据。看电影是数据,打电话也是数据;买菜是数据;治病也是数据。先有了语义网的数据,才有了语义网的应用。先有了语义网的高质量数据,才有了语义网的高质量应用。Social Web之所以成功,一是它利用了Web Form,解决了数据输入的门槛;二是利用了社交粘性,解决了数据发布的即时回报效用。语义网的高质量数据,也要首先降低结构化数据输入的门槛,使数据在用户的自然活动中产生并被采集、提取,甚至不一定需要键盘、鼠标或者触摸屏的输入;其次,要使用户在发布数据的短期内就可以得到回报,保持其数据发布的意愿。一个杀手级应用,设计之初就应当面向百万之上的用户,而且与普通人的日常生活相结合。群众是要分两亩地不是要共产主义;群众是要搜仓老师的作品而不是仓老师的foaf。

9)说语义网脱离市场,是说早期的语义网推广路线,不是依赖Web公司循序渐进,而是企图至上而下,事先规划了行业的发展方向。语义网是一种革命,好的革命的路线要也要有人事的配合,也要有“武装”的支持——这里的武装,就是市场,具体就是投资。作为规划,既要有远期(3年以上)的蓝图,也要有近期(6-12个月)的规划。Google和Microsoft等大公司在语义网技术的采用上是谨慎的,当然并不是保守的。他们通过并购的方式吸纳语义网的小公司(如Freebase和Powerset),并试图消化语义网的团队技术到他们的主流产品中,这是一种渐进而稳妥的方式。我们期待更多的这种并购出现,比如在Facebook或者LinkedIn。

10)语义网要坚持“武装”斗争,就是要充分利用现有的产业平台,而不是另起炉灶。要先降低姿态,以初级阶段的语义网技术来辅助现有的产业平台来提高某些应用的性能,也许只能有几个百分点的提高。关键是通过关键应用(比如搜索、广告和推荐)的这几个百分点的提高,起到语义网技术的示范作用。要让语义网的技术沾满铜臭,然后才能有进一步的良性循环。

11)总结:我认为,语义网的三个(还有其他n个)未来应着眼的重点是

  • 实事求是:放弃实验室思维,重视工程实践
  • 群众路线:面向普通用户采集数据,为普通用户开发应用
  • “武装”斗争:从人事和资金上,加强利用现有产业平台(主要是大Web公司),渐进实现技术-市场的良性循环
P.S. (2011-06-17) 中国革命开始的设想,是工人城市暴动。这个方法不是很成功。首先,在社会的主要组成群体还是农民的时候,工人不与农民相结合,不能有大的作为。其次,革命的武装,其主要成员必然是农民;在革命的早期阶段,也要根植与农村,提出农民可以接受的、可以理解的口号和政策。语义网的今天,“农民”和“农村”就是现有的最广泛的、面向普通Web用户的应用。现有的大多数“应用”,无论是Protege, Swoogle, Sindice, NCBO Index (2010 SWC winner), TrialX (2009 SWC winner),都不是为普通用户设计的。这一点应该在不久的未来得到改变。
P.S.2 (2011-06-18) 文中提到的决策层,既包括政府,也包括商业和各种非营利组织的政策制定者。语义网技术从开始到现在最主要的支持者就是美国军方,从DARPA, IARPA到ARL(Army Research Lab)。Data.gov计划和英国政府数据计划都是在政府的大力支持下展开的;这些计划,是争取了包括英国首相和美国CIO在内的高级政府官员才得以展开。

schema.org浏览笔记

2011/06/13 4 条评论

schema.org是最近三大搜索引擎公司(Google, Yahoo, Microsoft)推出的元数据网站(参2006年三大联合推出了sitemaps.org的模式)。就目前的市场看,G是主,Y和M是陪客。这个东西在语义网界争议很大,在SemTech上听到的词都是step back, embarrassing, bizarre, terrible 等——因为它没有用W3C的标准。所以有人(Michael HausenblasRichard Cyganiak)建了个Schema.RDFS.org,把那些schema转化成RDF。

先说我的屁股:我的屁股不在W3C那边,虽然也不一定在Google这边。

带着这样的偏见,我看了看schema.org。

它的格式称为Microdata。该文档目前是HTML Working Group的Last Call Draft(也就是基本完稿了),算HTML5的一部分。不奇怪的是,编辑是Google的Ian Hickson

Microdata看起来象这样:

<div itemscope itemtype ="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <span>Director: <span itemprop="director">James Cameron</span> (born August 16, 1954)</span>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

也可以内嵌,如

<div itemscope itemtype ="http://schema.org/Movie">
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
</div>

schema.org提供了一些标准的词汇(全部),如:

一些“高级”的元数据包括

  • 时间,例 <time itemprop=”startDate” datetime=”2011-05-08T19:30″>May 8, 7:30pm</time>
  • 说明取值范围 <link itemprop=”availability” href=”http://schema.org/InStock”/>
  • 不显示的数据:<meta itemprop=”ratingValue” content=”4″ />

schema.org说

The data model used is very generic and derived from RDF Schema (which in turn was derived from CycL, which in turn …)

为什么提到CycL? 大概是因为Ramanathan Guha现在在Google,见他的Blog (Jun 2, 2011)

Google在FAQ里对它的技术路线做了辩护。它说Why not RDFa or microformats?

Focusing on microdata was a pragmatic decision. Supporting multiple syntaxes makes documentation for webmasters more complex and introduces more overhead in terms of defining new formats. Microformats are concise and easy to understand, but they don’t offer an open extensibility mechanism and the reuse of the class tag can cause conflicts with website CSS. RDFa is extensible and very expressive, but the substantial complexity of the language has contributed to slower adoption. Microdata is the most recent well-known standard, created along with HTML5. It strikes a balance between extensibility and simplicity, and is most suitable for building the schema.org. Google and Yahoo! have in the past supported both microformats and RDFa for certain schemas and will continue to support these syntaxes for those schemas. We will also be monitoring the web for RDFa and microformats adoption and if they pick up, we will look into supporting these syntaxes. Also read the section on the data model for more on RDFa. 【总之RDFa太复杂(更不用说RDF或者OWL),Microformat扩展性不好】

Why don’t you support other vocabularies such as FOAF, GoodRelations, etc?

In creating schema.org, one of our goals was to create a single place where webmasters could go to figure out how to mark up their content, with reasonable syntax and style consistency across types. This way, webmasters only need to learn one thing rather than having to understand different, often overlapping vocabularies. A lot of the vocabulary on schema.org was inspired by earlier work like Microformats, FOAF, GoodRelations, OpenCyc, etc. 【言下之意就是大家只学一个schema就够了,而我这个是最棒的】

Peter Mika (Yahoo之Semantic Search guy)说

one of the key problems of the Semantic Web design of the W3C has been that it considered only technical issues, and not the need for a social process that would lead to bootstrap the system with data and schemas… With regard to schemas — we used to call them ontologies, until we found it scared people away — the expectation was that they would be developed in a distributed manner and machines would do the hard job of schema matching or somehow agreements would emerge. However, schema matching is a hard problem to automate….Finding stable and mature schemas with sufficient adoption has eventually become a major pain point.

我基本同意。W3C是要草根民主和计划经济。在现实世界中,还是寡头垄断加市场经济效果更好。你觉得这两点矛盾吗?呵呵。

你和一个Webmaster说一天RDF,不如给他一个工具,给他的页面加了一些schema(5分钟),然后过了1分钟,这个页面就上Google了,这样他就有加metadata的动力。何必纠缠于RDF这个皮相呢?从这个角度,我对Schema.RDFS.org不以为然。

Semantic Web不可能毕其功于一役,有初级阶段(linked data)和初级阶段的初级阶段(schema)。Schema.org就是语义网有Google特色的初级阶段的初级阶段。

P.S. (2011-09-12) Schema.org本身的成败其实无所谓,关键是它在推动这个生态系统形成的过程中所起的示范和教育语义。让商家和个人觉得元数据有用,愿意来发布,目的就达到了。过几年,长江后浪推前浪,Schema.org死在沙滩上也就没什么了。

Web3.0:互联用户产生的结构化资源

2011/05/03 9 条评论

Web3.0就是互联用户产生的结构化资源

Jie Bao

2011-05-03

==Web1.0和Web2.0的成功==

Web的成功,来自它是“Web”:它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术,但是它们不是Web本身。后来的Web应用,比如QQ,P2P,GoogleMaps,它们用了很多更新颖的通信技术,并不是说,浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用,如果不遵循Web的互联原则,它不能算Web应用: 比如Latex(至少到目前为止)。

Web 2.0的成功,来自它增加了资源的来源。Web 1.0时代,资源主要来自少数网站的编辑。Web2.0使每个人,只要会使用计算机,都可以成为资源的提供者。一个新的资源(比如一个新的Tweet),又会激发其他的资源被产生。这里面最主要的技术,我以为是Web Form(表单):表单使用户不需要知道HTML或者服务器设置就可以发布资源。

==Web2.0到Web2.5==

在我看来,论坛(Forum, BBS)这种形式就已经是Web 2.0了,中国的Web时代开始于90年代后期,赶上了Web1.0时代的尾巴,而论坛大行其道一直到现在,这就是Web 2.0,比什么Wiki, blog, microblog都成功。美国这边BBS不发达(相对中国),email list, usenet当年是主流,所以后来有了social web,觉得新鲜,其实中国大学生泡妞早就用BBS了:请比较美国电影《电子情书》( You’ve Got Mail,1998)和同年的小说《第一次亲密接触》,你会发现美国泡妞和中国(小说是台湾的,大陆也一样)泡妞技术手段有代表性的不一样。到今天,天涯论坛的影响力还是开心网不能比的。

Web 2.0被称为social web,有些人认为是因为它将社会关系引入网络故而成功。我以为,社会关系是web 2.0已经成功以后的添加剂,如果依然使用HTML来发布资源,社会关系是无法大规模映射到网络上的。有一种观点:一个失败的Web公司建一个网站,一个成功的Web公司建一个社区。社区的构造,并不自Facebook始,也不自实名制始。社会关系的引入,是个人化了原有的社区,论坛等,使原来不适合在大众场合发布的资源(比如:“我现在在吃早饭”),现在合适了,这就激发了资源的发布。资源数量的增长,使大规模的和用户相关的数据分析成为可能,从而激发了新的商业模式和盈利手段,使这个过程可以良性循环下去。

那为什么Facebook和Twitter抢了大量的眼球而不是传统的论坛(以至于电影《Social Network》就是讲Facebook)?因为他们意识到了传统的交互式发布手段所忽视的一些东西:关系。这些关系,可以是人的关系(比如朋友,比如关注),可以资源的关系(比如回帖,比如附件),可以是人和资源的关系(比如发布,比如喜欢)。早期的社交应用,比如QQ或者BBS,坐在这样的宝山上不知道用,把这些关系本身隐藏着在他们的系统的零零散散的地方。Facebook和Twitter将这些都打破了。对商业来说,你用户说了什么其实不最重要,你和其他用户或者某种产品的关系才是重要的。Facebook和Twitter提供了这种资源采集的手段,作为Web上的“关系”的传感器,绕过了机器学习或者自然理解这些复杂的手段,直截了当地使资源被利用。从这个角度讲,Facebook这一代应用应该称为 Web 2.5。

==什么是Web3.0==

Web 3.0,并不是语义网,更不是RDF/OWL。我觉得,这个核心就是如何促进更多的资源被加入正循环:更多资源,更多商机,更多资源… 之所以我们需要高质量的资源,是因为高质量的资源包含更多的商机(相对成本),而不是因为我们喜欢高质量本身。比Web 2.0或者Web 2.5时代实现资源采集和使用方式的本质变化的,就是Web 3.0。

其实Web3.0时代已经开始了,和所有的技术演进一样,它是悄悄的,不经宣传的。它也通常是不经规划,而通过对成熟技术的整合而出现的。事先的规划未必有效,发展的动力未必是技术的追求。对代的变化,应着眼于资源生态链的模式变迁,而不是一种具体的技术手段。

尽管Web3.0的最终模式我们不可预料,它早期的一些脉络,我们或可管窥。

首先,Web 3.0将是对Web2.5的一种演进而非革命。正如Hendler在Web 3.0: Chicken Farms on the Semantic Web里讲的,Social Web有助于Semantic Web所需要的数据发布手段。Web 3.0上的资源,最大量的,还是人们日常生活中的那些活动和资源在Web上的映射。比如我们在哪里买东西,买了什么,我们和谁打电话,我们在路上看到什么。这些,现在大家在Facebook和Twitter上都在做。Web 3.0将以一种前所未有的方式将更多有用“没用”的数据弄到Web上来。谁忽视这些“没用”的数据,谁就会失去商机。

其次,Web 3.0上的资源,必然需要一种门槛更低,更方便的发布方式。Web 1.0时代(HTML时代)的数据发布者大概不过几千万人。Web2.0时代(表单时代)在十亿人规模。Web3.0时代(传感器时代),要将世界60亿人口中绝大多数都变成数据的发布者。这个方式的雏形,现在是利用手机之类移动平台。手机作为全方位的传感器:文字,语音,图像,光线,重力,时间,空间(GPS),姿态,压力,方向,加速度…….是极佳的数据采集平台。而且,它对使用者的要求远比计算机低,使文盲和老人都有可能参与进来。手机的意义,就如同当年表单的引入,使资源发布的规模出现数量级的变化。不仅有硬件的传感器,还有软件的传感器:用户在终端上的行为会被详细记录,经过某种优化、过滤和隐私保护,自动发布到Web上形成有价值的数据。以后有什么更新颖的方式,不可预料。

又次,Web 3.0上的资源,将不仅仅是文字,图像,视频这些传统的资源,而且会有更多的非传统数据,比如GPS位置,比如速度,比如背景噪声。通过这些数据的分析,并利用Web 3.0上其他的数据,商家(在一定隐私保护条件下),可以推理出,某人正在接孩子上学,某人正在开会,某人和某人是同事等等。这些信息,对商业的意义,不言而喻。

这些Web 3.0上的新资源,天然是结构化的。我们身边结构化的数据并不少,比如我们回邮件,邮件之间有“回复”关系。可惜这种关系通常被浪费了,你要在一堆”RE”,”RE RE”中来阅读查找,而不可以查询。Web 3.0将充分使这些用户产生的数据用一开始就是结构化的,而不需要依赖并不成熟的AI技术来从非结构化数据中获取结构化数据。这种数据,使我们对它做语义的标注和推理成为可能。比如我们可以通过用户历史GPS位置采样和商店的分布数据来推理他的购物偏好。从这个角度,语义网将成为Web 3.0的一个支持技术。但语义网的大规模应用,将是在用户产生的高质量结构化数据成为现实之后,而不是之前。目前的语义应用,很多只能称为语义技术的应用,而不是语义网的应用——正如Latex是标注语言的应用而不是Web的应用。

==从动作到资源==

Web 1.0 和Web 2.0时代的资源,大多通过鼠标和键盘建立。Web 3.0时代,只需要更少的努力,就可以将资源发布。所有的动作,都可以产生资源,主要是各种数据。

不仅手机将是这种资源的来源,人的各种行为都将容纳到Web资源的发布中。比如电视节目的选择和查询。又如带wifi的体重仪,可以将体重自动发布到用户的健康监督网站,甚至自动发送给他的医生。又如通过带有3G和GPS的车辆,Web用户将精确地知道发生交通堵塞的地点和原因和各路段的平均速度。其他如电表,冰箱,跑步机,婴儿床,都可能成为数据的来源。

各大网站目前都在做用户行为数据的收集。但是,这些数据被作为私有资源,提供数据的用户本身并不能从中得到直接利益。这种模式不利于刺激数据的产生。只用当用户的数据被以某种方式安全的方式互联,并直接反馈利益给用户,数据才会以前所未有的速度产生。

P.S. (2011-05-19)  上面说的,有读者认为类似“物联网”的概念。我认为,物联网本身并不是我试图推销的概念。关键,是合理的记录用户的行为,自动产生有价值的数据。传感器是一种有效的方式,还可能有很多其他的方式,试举几个生活中的例子

  • 我在查询一个研究方向的过程中,下载了很多文章,然后将这些文章归档,建立页面并加链接到Bibtex。有时,还要搜索作者的个人主页。这些工作,很多完全可以自动化,在我浏览的过程中可以通过记录我的行为完成,并加以部分的数据集成(如从DBLP)
  • 每年报税的时候,一年中所有的收入和交易应该自动汇总,而不需要报税人手工输入。

==数据之互联==

用户所产生之结构化数据,需要在不同Web应用之间建立关系。我搬一次家,要在上百个网站修改我的家庭地址(一种结构化数据)。我所有的web login,打印出来起码有10页纸。整合此类数据的跨系统集成和重用,被很多人认为是Web3.0的特征之一。

这种互联,比如Facebook就在做。OpenID做了很多年,不成功,因为它缺少背后的商业利益。Facebook的互联,形成了一种可怕的数据集成力量。这种力量可以用来做非常多的事情,正面或者邪恶的。

用户行为产生的数据,将可以和某种知识库相联系,如电视可以和IMDB相连,ATM可以和Yodlee相连。由此,可做某种简单的查询和推理,例如列出今晚各频道所有有中国血统演员的电影。或者进行推荐。其间用到的推理,一般会是极简单的规则(如分类树),但需要实时的响应。

==什么不是Web3.0==

Web3.0现在是一个流行词(Buzz word)。本文只讨论Web3.0上资源的一些特点,Web3.0还有很多其他可能的特性,并未涉及。但有些技术,并不可视为Web3.0的核心特征。他们和Web3.0或有相关性,而非因果性。

  • 云计算和网络存储(从BBS时代开始,就已经“云”了)
  • 实时网络(实时性乃是数据采集方式变化的另一个结果)
  • 智能网络(所谓的复杂的推理和agent技术,并不是Web3.0的必要条件)
  • 物联网(Web3.0需要数据来自用户的行为,数据发布自动化;传感器是一种方式,但未必是唯一的方式)

==总结==

本文认为,Web的代际演进,核心问题是资源的发布和利用方式的变化。Web 3.0将是在现在的Social Web的基础上演化出来的新的资源生态模式。其支持技术包括资源发布技术(如手机),资源采集范围(如地理位置)和资源集成方式(如语义网和推理)等。新资源发布和利用方式和新商业盈利模式的良性循环互动,是其成功之关键。

==参考==

2011-04-30 语义网、蒸汽机、电视电话

2011-04-28 语义网是一层数据的皮

2011-04-28 Web 3.0:基础与基础之基础

2011-04-23 语义网和世界语

2011-04-21 语义网就是数据

语义网与国学

2011/05/01 发表评论

我长久以来有一个理想,就是把国学经典给形式化了,比如二十四史。我曾经试图做过《史记五帝本纪》的语义化,和《论语》的语义化,都是用semantic wiki来做。AURA似乎也是这个思路。

这个思路很难做下去。因为,第一,你要看得懂问题域,对知识背景要求高,成本一下就上来了。第二,随着标注的增多,词汇表越来越大(先不论公理axioms),管理很麻烦。第三,如果很多人搞,那基本不可能用统一的建模方法——三五个人你还可以用行政命令强迫他们用一个词汇表;人多了,词汇混乱那是一定的。

Watson走了另一条路,就是不试图去理解自然语言(文言文可以机器理解吗?呵呵),也不做人工建模,而是走统计的路。但对国学这样的,似乎也不适用。

我觉得,最终的路,还是介乎其间。NLP和机器学习获得一般知识shallow knowledge,放在wiki上,让人去进一步优化。也可以参考captcha,利用闲散人脑资源来计算。说到底,不光是要做人工智能,而且是要搞一个平台去利用人的智能。也就是所谓的Social Machine

几个日常生活中的元数据应用域

2011/04/30 1 comment

流水帐一下我最近觉得特别需要元数据metadata的地方

找房子:要知道哦有哪些社区;要去city-data看收入,看犯罪率,看人口结构;要去trulia, zillow 看历史房价和周边情况。

找工作:要看人家的主页,有哪些人在那个组里,这些人有什么文章。最近有哪些talk。要看DBLP,Google Scholar,看很多人的主页。

选股票/基金:要去morningstar看趋势、财务等,去fidelity看分析师意见(pdf),去fool.com看社区的意见,去Twitter看实时评论。如果一个股票价格变化了,要看这种新闻里理解为什么有这些变化,还要关注产业链(上下游,竞争对手),大盘等的相关新闻。选基金或者ETF,要看它的投资组合,和每个组合里证券的基本面。这样看一个基金,都要好几个小时。

共同特点:数据都是网页的形式给我的,查询起来很不方便(比如,我想过滤city-data上某个人群>10%的城市)。通常涉及很多网站的数据,要人工来浏览和集成(我通常会用纸做笔记,或者打印出来比较)。很多网站收费太高(一年几百块),象我这样的用户不愿意掏这么多钱。业余做这个事,不可能花很多时间。

元数据集成在这些领域,应该可以做很多事情。

语义网、蒸汽机、电视电话

2011/04/30 4 条评论

关于语义网的讨论,往往从技术的角度。其实技术的问题都不是问题。钱才是问题。如果一个技术真的能给人挣钱,那还会没有发展吗?反之,一个技术,10年了,发展到本行的人都不敢说是做这行的,那真要问一下,这个技术的挣钱能力在哪里?

Semantic web或者linked data如何帮助企业盈利了?目前有些小的例子,比如原来搞一个文档,要5个星期,现在用了semantic wiki,3个星期就够了。但是对于大的企业,大的项目,涉及的人员成千上万的应用,生产效率有没有提高?生产成本有没有下降?

这些问题,是工程的问题,是市场的问题。

比如你穿越回十八世纪问,实现蒸汽机最大的障碍是什么?不是因为热力学知识不够,而是到底生产要不要一个大规模的扩展的问题。英国的采矿业、纺织业发展,是因为世界市场在十八世纪逐渐开始形成,生产规模的扩张成为一种经济上的必然,蒸汽机采用,可以提高单位时间的生产效率,自然而然就形成它被采用的动力。反之,在中国,自然经济下生产饱和,采用更高效率的机器也无利可图,那谁会去搞?从终端用户的角度,元数据有没有提高他的工作效率?从Web巨头的角度,元数据有没有提高它广告的投放回报?这些事情,不能想当然。就象分类树,我一度给自己的Gmail,Delicious做了几百个tag,后来发现自己根本记不住 ,而且把自己的屏幕搞的很乱,所以最后还是要搜索。

蒸汽机原理是很简单的,无非是用某种燃料加热水,利用蒸汽推动某种机械的往复运动。但是,不同种类的蒸汽机,效率是大不一样的,依赖机械上的一些“小”发明,比如分离式冷凝器、行星式齿轮、平行运动连杆机构,蒸汽机才最终成功被应用,是很多技术的集成。即使如此,最初把蒸汽机用来拉火车,还是跑不过马。这就好比现在数据库的人问:你语义网和我比,到底好在哪里?工程上形成可以用的技术平台,比如好用的web-scale triple store,推理机,要很多年的技术积累,也会是很多技术的集成。W3C的协议栈,只是其中很小的一块。Jena, Protege这些东西,长远看都是些玩具罢了。

我本科当年学习电视电话,学的是怎么在模拟视频信号上做图像的压缩(比如背景往往是不变的)。这个技术难度很大。你要是问,实现电视电话最大的障碍是什么?15年前我可能会说是这个电话线的带宽或者高频低频信号的分离问题。那现在,视频聊天加上移动互联网,电视电话在技术上早就不成问题了。为什么15年前没有?第一,市场问题,以前电视电话只是极少数人的需要,现在成本下降了,变成了大众需求;第二,相关工程技术的进步,比如 那时候CCD摄像头还是稀罕产物,谁家能有闲钱买个摄像机?数字视频流,宽带移动互联网,这些都是15年前想不到的技术。

语义网现在遇到的困难,我猜测,15年后看,都不是啥困难。这个思路(i.e., 元数据共享和互联)是好的,以后必然会被实现,以后必然会有市场。具体的技术路线,却不一定是W3C这一套了。可是我明天就要吃饭,所以要变通一下暂时先把这个做理想了。

P.S. 2011-11-29:现在又过去了7个月,我觉得上面讲的两点,市场问题,相关工程技术的进步,都明朗了很多。很高兴的是,这既是理想,又可以吃饭。

P.S. 2 2012-04-30 今天正好是这个帖子写了一年。这一年反反复复想语义网的各种问题,否定之否定,大体上坚定了一个信念:只要解放思想,实事求是,语义网的杀手应用,就是这一两年的事。然后呢?就雨后春笋,冒蘑菇了。

从语义内联网到语义互联网(零散笔记)

2011/04/28 4 条评论

今天又和另外一个传统公司的语义网研究人员谈语义网在这个公司的应用问题。涉及的话题太多,现在没有时间细写。先放个稍做整理的原始笔记在这里

==语义内联网==

企业为什么会有想法做语义网?试试看,反正不能错过。

语义网在企业中应用,首先只要提高企业的效率,要能挣钱

如何挣钱?节约时间就是挣钱,比如用semantic wiki。或者降低成本cost。

内部推广语义网,涉及mindset的改变。在不同的BU(bussiness unit)之间做,要先搞定人。两种搞定法,自上而下,先搞定经理,或者自下而上,先搞定技术人员,让他们和自己的经理谈

Data mining, machine learning对BU有明确的好处。如果他发布了数据,只对别的BU有好处,他没兴趣搞。

让数据在企业内部流起来。这个过程,语义网起什么作用?不清楚,怎么就format change 到paradigm change?

这么做,和ERP和CIMS有什么关系?

Semantic intranet,外面看不到,有什么意义?BU有什么incentive来做语义发布?

Developer gap – rule的方式很好理解,他本来写在代码里的logic,现在做为一个文件,他再调用一下。但是OWL那种,对程序员的思维方式挑战太大。

语义网能不能有利于重用软件中的知识——很多公司内部的软件都是重复的(code expressed knowledge)。感觉不实用。

太难的本体,不需要,没人会

太容易的本体,大家觉得用不着,写代码里就好了。

RDF的URL命名要不要?内联网上URL是不是鸡肋?

==语义互联网==

大家为什么要publish semantic data?

web 1.0 时代 – 不定向的数据发布。开始发布网页的好处什么?知名度,广告等

web 2.0 时代 - 定向的数据发布,对受众有比较明确的认识?好处?social reward?为什么往Facebook上贴照片?知道有人关注。

我为什么发自己的blog?为什么会根据不同的内容在不同的平台(Facebook, Twitter, Weibo, Kaixin)上转发?明确的回报预期。

Social network在提高数据质量上有什么用?Social network现在可以用来分析受众的特征,根据特征来做有针对性的营销。语义有用吗?暂时不知道。

做RDF Wrapper很简单,问题是BU会问,publish data对我有什么用?

政府数据的推手,想叫政府来示范。现在看,企业界没怎么跟进。政府数据自己的问题也很多。

另外,要注意publish page和publish data的区别

Traffic上来了,revenue不见得上来。Bestbuy搞了RDFa,据说traffic上了30%,但是这后面几个季度,revenue和net income糟糕的很。这两个事,是相关而不一定有因果。

人的因素。每个人提供少量而高质量的数据。所以看好RDFa和Drupal。Semantic wiki也很好,案例也比较多。现在正在开SWMCon

Semantic internet,跨系统数据集成,如同mint.com或者expedia.com。语义网有用吗?

从数据关联中得到什么好处?从科幻的角度,当然可以说很多。看这本书:”Pull: The Power of the Semantic Web to Transform Your Business

具体如何做数据的联想?如何让相关方愿意开放数据?

80%的时间在数据收集和整理上。真正的数据分析只要很少的时间,比如15%。剩下的5%,语义网或许可以用上一点,锦上添花。经理会问,有什么是语义网可以做,别的做不了的?

语义网是一层数据的皮

2011/04/28 4 条评论

今天和一个学术界的同仁(某君)谈语义网的前景问题。他们做的有几个很好的数据集成系统,很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先,语义网第一个要解决的问题是“数据怎么来”。你没有数据,后来做推理、查询不是空谈吗?有标注工具——可是那些工具这么复杂,一般人谁会去用呢?某君把数据用RDF输出,那不过是一层皮。我同意,就象BestBuy, Amazon把自己的一些数据包一包,你可以用RDF看,这不是什么核心的东西。真正有价值的数据,你是看不到它的RDF的,而且也不需要RDF。

所以,信息获取是关键。某君的系统,主要还是机器学习。数据的净化,数据的挖掘(比如推荐,同名异义分析),都是统计的算法。挖掘得到许多关系,你可以用来做有意义的事情,比如查询,比如推荐。最后得到的数据,是很简单,你用不用SPARQL,其实没有本质的区别。

—————–

我今天正好看了OWL ED 2011的主页,里面有一个keynote是介绍OWL的大规模应用的经验。据说,他们已经给上千人培训过了,各行各业都有,很成功。但是我想,如果培训是针对如何使用OWL,如何建立OWL的知识库,那对OWL应该来说是很悲剧的事,因为绝大数Web用户(>十亿)是不可能用OWL的。所以,OWL(或者RDF)就好象Java或者C++一样,是用来支持面向用户的系统的(这好像是废话)。但是和Java不同,代码写在那里就不用动,OWL要处理的是数据和知识,是要不停变化的,你想事先建一个好的KB,那太难了。

Google说,数据有难以置信的有效性(The Unreasonable Effectiveness of Data),就是说,你与其试图去建一个复杂的模型,还不如收集足够多的数据,跑一些简单的算法,效果往往更好。比如单词纠错和单词联想,你做一个本体来搞,就不如用统计和用户行为分析。分析好了的结果,你当然可以用RDF发布在做一层皮。要不要这层皮,目前,暂时还不重要。以后有了生态系统,或许重要。不过到那天,大概我家的妞也会打酱油了。

Web 3.0:基础与基础之基础

2011/04/28 4 条评论

我很赞成一个说法,就是语义网是一个基础技术。作为基础技术,往往工作在底层,在表面上你却看不到。这一点,Frank van Harmelen黄智生讲的很好,我无需狗尾续貂。

Web 3.0,有人说是数据网data web,也有人说是语义网semantic web。按上面的观点,web 3.0并不是semantic web – 就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术,而不是web3.0本身。

问题是,语义网的基础又是什么?如果你说,根据层次蛋糕,是URI,XML乃至RDF等,那我认为,这是答错了。

互联数据(linked data),是看到了语义网发展的障碍,认为是协议层次太复杂,所以抽出一小块来——就好象XML是SGML的一个简化——来推进语义网的普及。那么现在Linked data是在迅速的增长。但是我觉得,互联数据的数量,在整个语义网的大环境下,还是沧海一粟,不足以构成临界点critical mass。特别是,我们可以认为,互联数据目前的指数增长趋势,可以外推下去,象摩尔定律那样吗?

另外一点,是互联数据,或者说所有语义网的数据,质量如何?有一种观点,把数据转化为RDF,就把数据变成了语义网数据(互联数据云的一大部分,其实是这样)。我越来越觉得这有问题。我把醋倒进酱油瓶子里(形式的改变),醋并不会变成酱油。同样,我把数据从Excel或者RDB变成RDF,并不会降低数据处理的困难程度,那么原来数据的质量问题,如果你不引入新的知识,在新的数据里一样存在。比如美国政府data.gov的数据,里面质量问题成堆,花了RPI(丁力等人)很多时间来清理,也只清理了一小部分。

这让我觉得,数据质量才是问题的核心。垃圾进,垃圾出。

我今天又和工业界的人咨询。一个是Web2.0公司,另一个是Web1.0时代就存在的一个巨头。到底什么样的技术才是他们需要的?

主要是数据挖掘和统计。首先,用户放进来的数据,问题很多,比如敲错字,比如重复,比如格式问题,这些都要纠正。这里面,主要是统计和机器学习在起作用。另一块,就是从数据里我们能得到什么,比如预测,比如推荐,比如抽取,这些一样是数据挖掘的长项。至于元数据,那通常是极少量的(相对这些公司的数据的规模),或者也是数据挖掘的结果。

我得到这样两个印象

第一,Web上的数据,从语义网的角度,质量是很差的。为了提高质量,必须利用其它的AI技术。这些技术用于语义网,现在还在一个摸索阶段——比如本体映射。从这个阶段到工业应用,还有很长的路要走。

第二,知识的形成,最后形成本体,同样要依赖其他的AI技术,比如NLP或者机器学习。从实验室到工业化,同样需要很长的时间。

所以,我认为,语义网的基础是其他AI技术,最主要的是机器学习,自然语言理解等。没有这些技术帮助来提供高质量数据,互联数据本身不会有什么普遍的商业价值。

那么那些垂手可得的关系数据呢?比如schema数据(象Email的send, to, subject,或者Facebook的know, likes)。这些可以很容易的机械的转化成高质量的RDF。问题在于,这样的简单的数据,如同RSS一样,似乎并不需要语义网的处理方法,至少现在大多数Web应用上是这样。

我们看语义技术用的比较好的,比如医药、出版、生物,那都有许许多多的专家(或者作者),专门来生成高质量的数据。这个模式如何扩展到Amazon或者ebay这样规模的数据上,我看,还有很长的路要走。

但是,也有极大的可能,我说的是错的。比如检测生产线上的空肥皂盒,你可以用X光,也可以用电风扇吹。AI就是X光机,我隐隐觉得不靠谱。如果有一种神奇的电风扇,把低质量的triple都吹走,剩下的全是高质量的,那Web 3.0也就成了。

搜索引擎的早期,有一个搜索质量问题。Yahoo开始做人工的索引,质量是高,但是无法扩展(Scale)。后来有几个聪明人,说“可以用链接来提升搜索质量”。这句话值多少钱?看看Google的市值就知道。“可以用XYZ来提升数据质量”,这句话又值多少钱?我要是知道XYZ具体是什么[=电风扇?],立马把这个博客关掉,飞到硅谷找棵树使劲晃,晃下来两三个风投,然后腰缠十万贯,骑鹤下扬州。

一个Web 2.0公司和语义网

2011/04/27 1 comment

今天继续咨询语义网在工业界的应用。

今天的咨询对象是一个颇有规模的Web 2.0公司,用户数已经超过千万了。和我谈的某君,自己在语义网领域曾浸润多年,现在所做的,却和语义网没有什么关系了。

我问,这公司需要什么样的AI技术。

某君说,主要还是数据挖掘data mining和机器学习machine learning。自然语言理解natural language processing(NLP)也有用处。公司里有data scientist,也做统计的。数据很多很杂(由用户自己产生),所以需要很多净化cleaning的工作,比如entity resolution(名字匹配)。自动tagging也会有用。

我问,你们好像也用一些微格式microformat,为什么对语义网没有兴趣呢?

某君说,microformat对数据让别人来用,有些用;公司自己,其实并不太在意这一点。内部的数据,没有任何语义网的存储。推理是不太需要的,就算有,也就一两步推理,直接写到代码里就好,不值得用语义网这样复杂的架构。

我问,你自己为什么离开语义网界

某君说,语义网有个核心问题,是数据怎么来。没有数据来源,后面的一系列研究都无用武之地。那么这么多年过去了,问题还是当年的问题。所以现在语义网的博士毕业,工作很不好找。

下面是我自己的一点感想。

现在很多公司都会支持把自己的数据用RDFa或者microformat来markup(参
语义网:走向下一代杀手级应用)。即使不直接做,把数据用某种格式发布出来,XML也好,JSON也好,TXT也好,那总有人很快做出XXX2RDF的工具来——Facebook OG,有人一个下午就把OG2RDF做好了。这个不难。但是很少有公司拿RDF来做存储。所以,所谓的支持语义网或者互联数据,主要是说,RDF可以用来做一种交换格式。问题是,难道这可以说是语义网的胜利吗?以前,XML是说用来做交换格式的。如果抛开推理(因为大多数Web公司对这个还不甚感兴趣),RDF格式本身,有多少新的因素呢?

当然,一个简单的交换格式也有可能催生应用。比如RSS,对Blog的发展就是很有价值的。不要忘了,RSS最早是称为“推”(push technology)的一个技术,我印象里,大概96年-97年,是一个很时髦的名词。但是“推”没有找到自己的发力点,很快就和许多时髦名词一样消失了,直到5、6年之后,Blog兴起了,RSS才作为婢女找到了一份工作。

现在语义网界,各种时髦名词多得很。Linked data本身,也已经5年历史了。到底哪些永远只是个名词,哪些会成为别的技术的婢女,哪些会成为正室,大概还是要多参考参考历史。我也会继续咨询业界的各种不同意见。

某传统行业对语义网技术的(不)采用

2011/04/26 1 comment

今天继续咨询工业界的语义网人士,这个语义网到底是怎么用的,或者用了多少。下面的话,有些是某君的,有些是我的。

今天咨询的是一个传统行业,卖设备。设备需要软件,又有数据,这里就需要进行一些知识的管理,语义网就派上一些用场了。我上次说,语义网就是数据,不全面,严谨的说,语义网是处理含有一定知识的数据。不过,哪里有数据不包含知识的呢?不管哪一行,数据多了,数据背后的关系,数据和现实世界的关系就可以挖掘出来了,这都是知识。

某君说,搞语义网,在公司内部阻力不少。在很多传统公司,都有搞数据库的,甚至搞知识管理的部门,都有很多历史数据。你要推语义网,要是首先推一种新数据格式,比如RDF,人家一听眉头就皱起来了——除非你通天,能说动大boss,让行政命令来说话。就算这样,如果人家心里抵制,你这强扭的瓜不甜,上有政策下有对策。还是那句话,在大组织里,官僚机构的本性就是多一事不如少一事。你要是有一个建议,大家都立即有好处而且只要你一个人出力,那当然皆大欢喜。可以你要做一个事,三年五载不见得有用,又要大家顺着你做些新的事情,那最好还是先去看看《是,大臣》再来琢磨琢磨怎么在大组织里生存。语义网,就是这么一个不上不下的技术。

我的理解RDF是两块,一块是推理,一块是用URI命名。分别问之。

首先,推理是有用的,比如进行一致性(consistency)检查或者完整性(integrity constraint)检查。有些是数据库不能支持的。不过这里,还是用rule(规则),而不是OWL的推理。推理用LP的引擎。rule一般也很简单,很多是自动生成的。那为什么说这和语义网有关呢?其实无关,这个公司也没有用RDF存储。只不过现在语义网成了一个概念垃圾桶(类似网格计算或者纳米技术),什么和知识表现有关的都可以塞进来。

关于URI,对人家是画蛇添足,没有用。

我问,这个语义网的研究人员,怎么能让工业界对这个感兴趣?

首先,你要让对方觉得,你能解决对方的问题。注意,是对方的问题而不是你的技术。要理解对方的问题域,也要求语义网这边的人有工程经验,而不仅仅是语义网。反正人家感兴趣的是知识管理,语义网是一层皮,不要被这皮蒙蔽了自己。

不同的行业对语义网的接受程度不同,还要多比较。

和一个海归聊天

2011/04/25 发表评论

一个同学,10多年前一起奋斗出国的,去年回国创业了。今天打电话聊了聊,下面是一些零散的笔记。

我问他有没有逆向culture shock(文化冲击),他说还好,因为打交道的都是商人,感觉还比较有规矩。

生活上爽太多——特别是吃。太太也比较满意(这个很重要)。生二胎,找关系也能上户口,没这么难。

很忙很累很爽,因为是给自己干。现在给自己开工资,生活没问题;公司暂不盈利,不过刚开始总是这样。现在已经有8个人了。失败了不大了回美国当程序员。

房子泡沫太大。二三线城市房价到不高,没必要挤在几个一线城市。

根据他的观察,国内有钱人太多,机会太多。只要有想法,就有投资人。[当然,米国也一样。]事情变化太快,2006年回去就好了,现在晚了点。

人生要给自己定目标,然后直接按这个目标去努力。比如他现在的目标是到40岁(也就再过四五年)个人资产到200万美元,然后就可以做自己兴趣所在的事,而不仅是谋生。

当初回国是没有办法,因为没有什么退路。人一逼,跳出自己的小圈子,反倒进入一个新天地了。要是瞻前顾后,那现在还是什么都没有。

总的来说,谈的都是正面的东西。负面的东西他没谈,但可以感觉出来,整个人的心态和在美国不同。大概心态越好,看到阳光的东西就越多。

分类: 工程创业