魅力人本计算
魅力人本计算利用这一技术,129年的《纽约时报》可以在不到两年内实现数字化。互联网上有些事人可以做好,而计算机却做不好,如何把人的这些资源利用起来,就是“人本计算”的研究内容《财经网》专稿/记者 何华峰美国卡内基.梅隆大学28岁的计算机科学家路易斯.梵阿纳(Luis Von Ahn)最近摘得“麦克阿瑟天才奖”,并获得了50万美元奖金。尽管这个奖项并非如诺贝尔奖般具有盛名,但业内对于梵阿纳和他的发明早已耳熟能详。实际上,我们每个人也都在享受其发明带来的成果我们在登陆电子邮箱以及在网上银行付款或者注册一个网站时,都会碰到检验码(或识别码),即一些字母有些扭曲的字条,这就是梵阿纳的发明,叫做Captchas这项突破性的技术是梵阿纳与他的论文指导老师Manuel Blum在2000年开发的,现在已经被无数的网站采用。有数据显示,这项技术在推出后的短短五年内,每天就有2亿个检验码在被使用我们平时在使用检验码时,并不会去注意到它。实际上,这背后是一门新的学科,叫做“Human putation”或者“Human based putation”。我们暂且称之为“人本计算”为什么扭曲的字母可以做为检验码?因为,这些扭曲的字母,人有能力识别,计算机却没有能力识别。在互联网中,恶意攻击都是通过机器来实现的,由于机器无法识别这些扭曲的字母,于是成为拦截恶意攻击的一堵Chinese Wall对于梵阿纳来说,这只是其早期比较重要的一个发明。此后,他又完成了许多发明,也都是基于“人本计算”原理。即在互联网上,有些事情人可以轻易做到,而计算机却无法做到。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果《纽约时报》数字化梵阿纳目前是卡内基.梅隆大学的助理教授。在发明检验码后,他的另一个发明,让从事新闻媒体的人备感亲切这就是把《纽约时报》数字化。《纽约时报》于1851年开始出版,至今已有156年。但目前实现上网的只是1981年以来的内容,即短短27年的内容。此前129年的资料都没有实现数字化而为了把过去27年的内容数字化,《纽约时报》雇佣了打字员,一个字一个字地敲到电脑中去,还经过了仔细的校对。这项工程耗费了长达10年的漫长光阴而梵阿纳的发明是要把《纽约时报》之前的129年的内容在不到24个月的时间里全部实现数字化,让大家可以在网站上读到完整的《纽约时报》。这个项目预计在2009年下半年左右完成这次,梵阿纳用的方法被称为reCaptchas,与前面的检验码技术一脉相承《纽约时报》已经把之前的129年的报纸完整扫描。扫描是相对容易的,但得到的只是图片。而图片的最大缺点就是占用内存大石器开服一条龙服务、下载困难且无法被搜索。所以,要真正实现数字化,还需要把图片变成文本这一过程梵阿纳在2005年就发现,当时每天有2亿个检验码被使用,虽然每个只要花10秒时间,但是加起来有20亿秒,相当于50万个小时。他想把这些时间利用起来现在,网络上用的检验码比2005年要多得多。对梵阿纳来说,这意味着更多的时间可资利用梵阿纳决定把这些时间用在《纽约时报》的数字化上。方法就是把《纽约时报》的扫描内容的一段拿过来,在人们填检验码时填写,用户输入的内容就是数字化的内容,把无数用户输入的内容整合起来,就是一个数字化的《纽约时报》但怎么保证用户输入的内容正确呢?冯阿纳的做法是:一段文字石器开服一条龙服务,第一个用户读了后美丽世界开服一条龙服务,假定他是正确的,然后,把这段文字给其他许多人读。如果大家读的结果是一样的,就可以确认其正确性。如果读的不一样,就重新验证据梵阿纳在他的网页中介绍,2007年时,除了《纽约时报》,他还致力于让Inter Archive(互联网档案计划)数字化。Inter Archive定期收录并永久保存全球网站可抓取信息,大网站,比如Google会每天备份一次,每次收录入十个左右网页,一些小网站每年只收录几次。用户可以通过Inter Archive的“Take Me Back”对网站的发展与历史资料进行研究梵阿纳在他的网页上挂出了reCaptchas的程序链接,鼓励各个网站去用有用的游戏通过ReCaptchas,梵阿纳成功地利用了人远超于计算机的能力,做了很有用的事情。梵阿纳还在朝着这个方向前进。他现在最常用的手段是游戏,让人们在游戏中不知不觉地完成一些重要的事情。2006年,梵阿纳推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分在这个游戏中,两个互不相识的人给出了相同的关键词,就意味着,他们给的关键词是正确的。这张图片遂有了属于自己的关键词为图片写出关键词,对人而言绝不是一件难事,但对于计算机来说,却是一件非常困难的事情。通过这个游戏,理论上来说,如果有足够多的人参加,就可以在不长的时间内,给互联网上所有的图片都写上正确的关键词,而这对于图片搜索至关重要,会大大提高图片搜索的精确性为了鼓励用户的参与,游戏采用积分制——你写的正确的关键词越多,得到的积分就越多。比如,如果一个图片的关键词是:天空(50分),鸟(60分),足球(120分),奔跑(60分)。这些分数会积累,网站上也将公布每天得分最高的人的名字这的确激发了很多人参与的热情。有人甚至每周花40小时玩这个游戏。今年1月,梵阿纳说,已经有20万人玩过这个游戏,并收集了5000万个关键词。崭新的传奇故事已开始 乌兹谈恋爱不如跳舞天谕春田、半