舊資料查詢 舊資料查詢 - 閱讀專區

【點閱數:910】

數位書房-reCAPTCHA電腦做不到的事,你可以!

內容

數位書房-reCAPTCHA電腦做不到的事,你可以!
2011-12-03 中國時報 【周易正(行人文化實驗室總編輯)】
 
     網路除了便於溝通及搜尋資料,更讓人類產生新的組織合作方式,得以完成過去不可能的任務。reCAPTCHA將網路的認證作業與書籍數位化結合,便是成功案例。

     「在 沙漠裡,有一隻烏龜朝你爬來。你把牠翻過來,讓牠四腳朝天受太陽照射,而你不打算幫牠。」

     這是電影《銀翼殺手》的經典對話,場景是未來的世界,複製人開始在外星殖民地叛亂,所以地球上開始肅清複製人。因為肉眼無法區辨真人與複製人,統治者發明了一套叫做Voight-Kampff Machine的辨識機制,經由提問一連串問題,配上呼吸、臉紅的監測,便可以檢驗出誰才是「真人」。複製人里昂聽了上述的烏龜問題之後,逐漸失去控制,開槍把詢問者殺死,電影由此開始。

     和你互動的可能是一支程式

     雖然,我們還沒步入面對面都無法辨別真假的複製人時代(按照小說設定,這問題在桃園機場捷運通車的2019年就會發生),但區分真假已經是這個時代必要的設備。在只經由傳輸線溝通的網路世界,我們無法確認電腦另一頭和你互動的是不是人類。而網路上也的確有一堆「機器人」到處橫行,有的是為了協助搜尋引擎,有的是為了幫忙偵測網路問題,但還有一大群,則是為了不良目的而存在。例如四處留言,讓某個商業組織或產品的網路排名快速上升的機器人;或者到處猜密碼破解帳號惡意入侵、灌票、假下單、刻意塞爆伺服器的機器人等等。

     為了判別網路另一端是否是真正的「人類」使用者,類似電影中的檢驗機制應運而生,因此我們在各網站上註冊、留言、查詢或買東西時,便經常遇上螢幕跳出各種歪斜扭曲的文字或數字,要求我們辨識的狀況。

     只有人類才懂的辨認機制

     這項「人或電腦」的檢驗技術,稱作CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),是由美國卡內基美隆大學的幾位研究員在2000年左右發明。由於電腦使用的文字辨識系統(OCR)仍有局限,只要文字受到其他因素干擾(色彩、變形、大小等等),在電腦眼中就變得無法判讀。換句話說,只要利用這些「人類一看就懂,但電腦理解有困難」的問題文字,就可以避免有人利用程式從事大量非法行為。

     CAPTCHA被大量用於網路認證之後,發明人之一的路易斯.馮安(Luis von Ahn)曾經統計其使用率,發現每天平均有20億人次使用CAPTCHA,每次約花10秒鐘。如此計算,每天全球網民為了證明自己是個人類,就花了超過550萬個小時。馮安於是想,如何進一步讓這個服務既發揮效用,又可以做一些「人類做得到,但電腦還不行」的好事?

     既然是在辨識文字,馮安把腦筋動到書籍數位化上。當然,到處都有人在執行數位化工作:古騰堡計畫利用全球志工來校對,Amazon則是將書送到中國與印度掃描辨識。但無論如何,其中有許多工作都是電腦無法獨立完成的。如果人們在使用CAPTCHA的時候,也同時進行文件或書籍的數位化,每天不就等於多了全球志工免費550萬小時的協助?

     CAPTCHA發明人之一的Ben Maurer,告訴因網路蟑螂而不堪其擾的網站管理者,只要採用CAPTCHA機制:「你不只可以解決垃圾留言的問題,還可以讓人類的書寫歷史進入數位時代。」於是,各地使用者為了證明自己不是惡意程式,認命地過關斬將、辨識文字,在不知不覺中,就完成了一篇篇文章的電子化。這個最後集結了全球7億5000萬個志工的小裝置,就叫做reCAPTCHA。

     與書籍數位化結合

     基本上,送到reCAPTCHA的文件都會經過兩種文字辨識軟體掃描過,如果某個字出現不同的辦識結果,或者辨識出的字無法在字典中查得,就會被標定為「可疑字」。可疑字之所以會出問題,通常是因為原始文件有污漬或印刷不清楚(或掃描不清楚)。這些電腦處理不來的問題,就可以派人類上場。

     使用reCAPTCHA機制的網站,認證碼上需要辨識的文字會有兩組,其中一組仍扮演區辨使用者是真人或程式的角色,另一組則是請人類使用者幫忙辨識的文字。這套系統測試下來發現,經過reCAPTCHA的文件,正確率為99.1%(一般電腦文字辨識的正確率為83.5%),非常接近花錢請專業人士完成的正確率,卻節省了絕大部分的經費與時間。

     這套系統最後將整整20年份的《紐約時報》完整數位化,2009年被Google收購後,繼續進行Google Books的數位化工程,目前更擔負全世界4萬家出版社、四百多種語言的數位化任務(所以在回答reCAPTCHA問題時,發現有不認識的字是很正常的)。另一方面,今年11月,史丹佛大學表示已經能破解CNN、VISA等大公司使用的CAPTCHA技術,但reCAPTCHA這個「順手做好事」的系統依舊保有相當的安全性。光這一點,就足以吸引更多人加入數位化全世界書籍的行列。

     網路帶給我們的,不只是更便於溝通、更容易搜尋資料,它還讓人類產生新的組織合作方式,得以完成過去不可能的任務,這正是理論家克雷.薛基(Clay Shirky)的重要論點。reCAPTCHA這個例子,讓我們「真的」看到每個人一點點的貢獻,能如何聚集起來。過去,政府與商業組織分別在不同時代帶來重要革命,如今,無關金錢的組織方式、純粹民眾的結合,將會扮演更重要的角色,有的是靠志工們在網路集結,有的則是像reCAPTCHA,在不知不覺中共同完成任務。

     比起英文世界,中文世界有更多的古籍或現代文學需要數位化(或者協助句讀)。或許我們也能找到類似「一石兩鳥」的模式,讓所有人貢獻自己的一點語文能力,協助更多中文經典在網路上重現。
人腦運算(human-based computation)
     借助部分人力完成的電腦任務,稱為「人腦運算」,路易斯.馮安正是這方面的專家,也是首位使用人腦運算這個詞的人。

     目前在卡內基美隆大學任教的馮安,曾經發明一個叫做ESP的遊戲:讓兩個陌生人看同一張圖片,要求他們描述看到的內容,如果兩人使用了相同的語詞,就能進到下一關。這個遊戲,等於是為各類圖片標上屬性,建立後設資料。這支程式後來被Google買下,用來讓網友協助Google圖片搜尋的功能。馮安最近的新計劃duolingo(已於11月30日開站),則是利用眾多的語言學習者,讓這些人在學習語言的同時,順便為大家翻譯各國新聞與網站。

     「人腦運算」有幾個共同特點:1、可分解的任務。2、人類覺得簡單,但電腦執行困難的工作。3、製造動因,讓大家參與。當這3個條件具備,就相當於招募到數量龐大的志工與腦力,協助你完成某項工作。reCAPTCHA背後是每天550萬小時的潛力;而如果能跟遊戲搭上線,就會有來自全球電腦玩家每天3億小時的潛力。這是網路時代有待開發的資源。

TOP