Web3.0就是互联用户产生的结构化资源
Jie Bao
2011-05-03
==Web1.0和Web2.0的成功==
Web的成功,来自它是“Web”:它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术,但是它们不是Web本身。后来的Web应用,比如QQ,P2P,GoogleMaps,它们用了很多更新颖的通信技术,并不是说,浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用,如果不遵循Web的互联原则,它不能算Web应用: 比如Latex(至少到目前为止)。
Web 2.0的成功,来自它增加了资源的来源。Web 1.0时代,资源主要来自少数网站的编辑。Web2.0使每个人,只要会使用计算机,都可以成为资源的提供者。一个新的资源(比如一个新的Tweet),又会激发其他的资源被产生。这里面最主要的技术,我以为是Web Form(表单):表单使用户不需要知道HTML或者服务器设置就可以发布资源。
==Web2.0到Web2.5==
在我看来,论坛(Forum, BBS)这种形式就已经是Web 2.0了,中国的Web时代开始于90年代后期,赶上了Web1.0时代的尾巴,而论坛大行其道一直到现在,这就是Web 2.0,比什么Wiki, blog, microblog都成功。美国这边BBS不发达(相对中国),email list, usenet当年是主流,所以后来有了social web,觉得新鲜,其实中国大学生泡妞早就用BBS了:请比较美国电影《电子情书》( You’ve Got Mail,1998)和同年的小说《第一次亲密接触》,你会发现美国泡妞和中国(小说是台湾的,大陆也一样)泡妞技术手段有代表性的不一样。到今天,天涯论坛的影响力还是开心网不能比的。
Web 2.0被称为social web,有些人认为是因为它将社会关系引入网络故而成功。我以为,社会关系是web 2.0已经成功以后的添加剂,如果依然使用HTML来发布资源,社会关系是无法大规模映射到网络上的。有一种观点:一个失败的Web公司建一个网站,一个成功的Web公司建一个社区。社区的构造,并不自Facebook始,也不自实名制始。社会关系的引入,是个人化了原有的社区,论坛等,使原来不适合在大众场合发布的资源(比如:“我现在在吃早饭”),现在合适了,这就激发了资源的发布。资源数量的增长,使大规模的和用户相关的数据分析成为可能,从而激发了新的商业模式和盈利手段,使这个过程可以良性循环下去。
那为什么Facebook和Twitter抢了大量的眼球而不是传统的论坛(以至于电影《Social Network》就是讲Facebook)?因为他们意识到了传统的交互式发布手段所忽视的一些东西:关系。这些关系,可以是人的关系(比如朋友,比如关注),可以资源的关系(比如回帖,比如附件),可以是人和资源的关系(比如发布,比如喜欢)。早期的社交应用,比如QQ或者BBS,坐在这样的宝山上不知道用,把这些关系本身隐藏着在他们的系统的零零散散的地方。Facebook和Twitter将这些都打破了。对商业来说,你用户说了什么其实不最重要,你和其他用户或者某种产品的关系才是重要的。Facebook和Twitter提供了这种资源采集的手段,作为Web上的“关系”的传感器,绕过了机器学习或者自然理解这些复杂的手段,直截了当地使资源被利用。从这个角度讲,Facebook这一代应用应该称为 Web 2.5。
==什么是Web3.0==
Web 3.0,并不是语义网,更不是RDF/OWL。我觉得,这个核心就是如何促进更多的资源被加入正循环:更多资源,更多商机,更多资源… 之所以我们需要高质量的资源,是因为高质量的资源包含更多的商机(相对成本),而不是因为我们喜欢高质量本身。比Web 2.0或者Web 2.5时代实现资源采集和使用方式的本质变化的,就是Web 3.0。
其实Web3.0时代已经开始了,和所有的技术演进一样,它是悄悄的,不经宣传的。它也通常是不经规划,而通过对成熟技术的整合而出现的。事先的规划未必有效,发展的动力未必是技术的追求。对代的变化,应着眼于资源生态链的模式变迁,而不是一种具体的技术手段。
尽管Web3.0的最终模式我们不可预料,它早期的一些脉络,我们或可管窥。
首先,Web 3.0将是对Web2.5的一种演进而非革命。正如Hendler在Web 3.0: Chicken Farms on the Semantic Web里讲的,Social Web有助于Semantic Web所需要的数据发布手段。Web 3.0上的资源,最大量的,还是人们日常生活中的那些活动和资源在Web上的映射。比如我们在哪里买东西,买了什么,我们和谁打电话,我们在路上看到什么。这些,现在大家在Facebook和Twitter上都在做。Web 3.0将以一种前所未有的方式将更多有用“没用”的数据弄到Web上来。谁忽视这些“没用”的数据,谁就会失去商机。
其次,Web 3.0上的资源,必然需要一种门槛更低,更方便的发布方式。Web 1.0时代(HTML时代)的数据发布者大概不过几千万人。Web2.0时代(表单时代)在十亿人规模。Web3.0时代(传感器时代),要将世界60亿人口中绝大多数都变成数据的发布者。这个方式的雏形,现在是利用手机之类移动平台。手机作为全方位的传感器:文字,语音,图像,光线,重力,时间,空间(GPS),姿态,压力,方向,加速度…….是极佳的数据采集平台。而且,它对使用者的要求远比计算机低,使文盲和老人都有可能参与进来。手机的意义,就如同当年表单的引入,使资源发布的规模出现数量级的变化。不仅有硬件的传感器,还有软件的传感器:用户在终端上的行为会被详细记录,经过某种优化、过滤和隐私保护,自动发布到Web上形成有价值的数据。以后有什么更新颖的方式,不可预料。
又次,Web 3.0上的资源,将不仅仅是文字,图像,视频这些传统的资源,而且会有更多的非传统数据,比如GPS位置,比如速度,比如背景噪声。通过这些数据的分析,并利用Web 3.0上其他的数据,商家(在一定隐私保护条件下),可以推理出,某人正在接孩子上学,某人正在开会,某人和某人是同事等等。这些信息,对商业的意义,不言而喻。
这些Web 3.0上的新资源,天然是结构化的。我们身边结构化的数据并不少,比如我们回邮件,邮件之间有“回复”关系。可惜这种关系通常被浪费了,你要在一堆”RE”,”RE RE”中来阅读查找,而不可以查询。Web 3.0将充分使这些用户产生的数据用一开始就是结构化的,而不需要依赖并不成熟的AI技术来从非结构化数据中获取结构化数据。这种数据,使我们对它做语义的标注和推理成为可能。比如我们可以通过用户历史GPS位置采样和商店的分布数据来推理他的购物偏好。从这个角度,语义网将成为Web 3.0的一个支持技术。但语义网的大规模应用,将是在用户产生的高质量结构化数据成为现实之后,而不是之前。目前的语义应用,很多只能称为语义技术的应用,而不是语义网的应用——正如Latex是标注语言的应用而不是Web的应用。
==从动作到资源==
Web 1.0 和Web 2.0时代的资源,大多通过鼠标和键盘建立。Web 3.0时代,只需要更少的努力,就可以将资源发布。所有的动作,都可以产生资源,主要是各种数据。
不仅手机将是这种资源的来源,人的各种行为都将容纳到Web资源的发布中。比如电视节目的选择和查询。又如带wifi的体重仪,可以将体重自动发布到用户的健康监督网站,甚至自动发送给他的医生。又如通过带有3G和GPS的车辆,Web用户将精确地知道发生交通堵塞的地点和原因和各路段的平均速度。其他如电表,冰箱,跑步机,婴儿床,都可能成为数据的来源。
各大网站目前都在做用户行为数据的收集。但是,这些数据被作为私有资源,提供数据的用户本身并不能从中得到直接利益。这种模式不利于刺激数据的产生。只用当用户的数据被以某种方式安全的方式互联,并直接反馈利益给用户,数据才会以前所未有的速度产生。
P.S. (2011-05-19) 上面说的,有读者认为类似“物联网”的概念。我认为,物联网本身并不是我试图推销的概念。关键,是合理的记录用户的行为,自动产生有价值的数据。传感器是一种有效的方式,还可能有很多其他的方式,试举几个生活中的例子
- 我在查询一个研究方向的过程中,下载了很多文章,然后将这些文章归档,建立页面并加链接到Bibtex。有时,还要搜索作者的个人主页。这些工作,很多完全可以自动化,在我浏览的过程中可以通过记录我的行为完成,并加以部分的数据集成(如从DBLP)
- 每年报税的时候,一年中所有的收入和交易应该自动汇总,而不需要报税人手工输入。
==数据之互联==
用户所产生之结构化数据,需要在不同Web应用之间建立关系。我搬一次家,要在上百个网站修改我的家庭地址(一种结构化数据)。我所有的web login,打印出来起码有10页纸。整合此类数据的跨系统集成和重用,被很多人认为是Web3.0的特征之一。
这种互联,比如Facebook就在做。OpenID做了很多年,不成功,因为它缺少背后的商业利益。Facebook的互联,形成了一种可怕的数据集成力量。这种力量可以用来做非常多的事情,正面或者邪恶的。
用户行为产生的数据,将可以和某种知识库相联系,如电视可以和IMDB相连,ATM可以和Yodlee相连。由此,可做某种简单的查询和推理,例如列出今晚各频道所有有中国血统演员的电影。或者进行推荐。其间用到的推理,一般会是极简单的规则(如分类树),但需要实时的响应。
==什么不是Web3.0==
Web3.0现在是一个流行词(Buzz word)。本文只讨论Web3.0上资源的一些特点,Web3.0还有很多其他可能的特性,并未涉及。但有些技术,并不可视为Web3.0的核心特征。他们和Web3.0或有相关性,而非因果性。
- 云计算和网络存储(从BBS时代开始,就已经“云”了)
- 实时网络(实时性乃是数据采集方式变化的另一个结果)
- 智能网络(所谓的复杂的推理和agent技术,并不是Web3.0的必要条件)
- 物联网(Web3.0需要数据来自用户的行为,数据发布自动化;传感器是一种方式,但未必是唯一的方式)
==总结==
本文认为,Web的代际演进,核心问题是资源的发布和利用方式的变化。Web 3.0将是在现在的Social Web的基础上演化出来的新的资源生态模式。其支持技术包括资源发布技术(如手机),资源采集范围(如地理位置)和资源集成方式(如语义网和推理)等。新资源发布和利用方式和新商业盈利模式的良性循环互动,是其成功之关键。
==参考==
2011-04-30 语义网、蒸汽机、电视电话
2011-04-28 语义网是一层数据的皮
2011-04-28 Web 3.0:基础与基础之基础
2011-04-23 语义网和世界语
2011-04-21 语义网就是数据