Microdata, RDFa, 语义超摩尔定律

HTML Working Group和RDFa主席反对Microdata的文章: Objection to Microdata Candidate Recommendation

Microdata是schema.org的数据格式。几个有趣的论点:1)Microdata和RDFa基本重叠,而RDFa已经是标准 2)除了Google,几乎没有人用Microdata(<1%)。我的观点:其实,不是已经有JSON了?

Peter Mika和Tim Potter今年关于Web上元数据统计: Metadata Statistics for a Large Web Corpus

30%的网页有语义元数据。几个主要的元数据网站是Facebook, tabelog,venere, yahoo, tripadvisor(含中文网站daodao), answers, myspace。基本就是两个领域:交友和旅游。从数据总量看,Facebook和tripadvisor是两个最大的语义网上的公司

到2012年1月,搜索引擎可见的语义网的规模有多大?Peter Mika报告说:至少170亿三元组,其中10%由Facebook产生。17b数据,估计放在内存里也就几个T,在大数据里算是很小的数字

不过根据我的不完全统计,语义数据在最近5年的发展,大体上每年涨一个数量级,远超内存的增长——我称之为语义超摩尔定律。具体统计数字现在不在手上,以后补上。 估计三到五年后,语义数据的分析和使用将面临很大的大数据挑战。这都是高质量数据,不是打酱油数据,意义很大。