國語文學科中心-高中國文學習網

數位書房－reCAPTCHA電腦做不到的事，你可以！

發佈時間：2011-12-03

內容

數位書房－reCAPTCHA電腦做不到的事，你可以！
2011-12-03 中國時報【周易正（行人文化實驗室總編輯）】

　網路除了便於溝通及搜尋資料，更讓人類產生新的組織合作方式，得以完成過去不可能的任務。reCAPTCHA將網路的認證作業與書籍數位化結合，便是成功案例。

　「在沙漠裡，有一隻烏龜朝你爬來。你把牠翻過來，讓牠四腳朝天受太陽照射，而你不打算幫牠。」

　這是電影《銀翼殺手》的經典對話，場景是未來的世界，複製人開始在外星殖民地叛亂，所以地球上開始肅清複製人。因為肉眼無法區辨真人與複製人，統治者發明了一套叫做Voight-Kampff Machine的辨識機制，經由提問一連串問題，配上呼吸、臉紅的監測，便可以檢驗出誰才是「真人」。複製人里昂聽了上述的烏龜問題之後，逐漸失去控制，開槍把詢問者殺死，電影由此開始。

　和你互動的可能是一支程式

　雖然，我們還沒步入面對面都無法辨別真假的複製人時代（按照小說設定，這問題在桃園機場捷運通車的2019年就會發生），但區分真假已經是這個時代必要的設備。在只經由傳輸線溝通的網路世界，我們無法確認電腦另一頭和你互動的是不是人類。而網路上也的確有一堆「機器人」到處橫行，有的是為了協助搜尋引擎，有的是為了幫忙偵測網路問題，但還有一大群，則是為了不良目的而存在。例如四處留言，讓某個商業組織或產品的網路排名快速上升的機器人；或者到處猜密碼破解帳號惡意入侵、灌票、假下單、刻意塞爆伺服器的機器人等等。

　為了判別網路另一端是否是真正的「人類」使用者，類似電影中的檢驗機制應運而生，因此我們在各網站上註冊、留言、查詢或買東西時，便經常遇上螢幕跳出各種歪斜扭曲的文字或數字，要求我們辨識的狀況。

　只有人類才懂的辨認機制

　這項「人或電腦」的檢驗技術，稱作CAPTCHA（Completely Automated Public Turing test to tell Computers and Humans Apart），是由美國卡內基美隆大學的幾位研究員在2000年左右發明。由於電腦使用的文字辨識系統（OCR）仍有局限，只要文字受到其他因素干擾（色彩、變形、大小等等），在電腦眼中就變得無法判讀。換句話說，只要利用這些「人類一看就懂，但電腦理解有困難」的問題文字，就可以避免有人利用程式從事大量非法行為。

　CAPTCHA被大量用於網路認證之後，發明人之一的路易斯.馮安（Luis von Ahn）曾經統計其使用率，發現每天平均有20億人次使用CAPTCHA，每次約花10秒鐘。如此計算，每天全球網民為了證明自己是個人類，就花了超過550萬個小時。馮安於是想，如何進一步讓這個服務既發揮效用，又可以做一些「人類做得到，但電腦還不行」的好事？

　既然是在辨識文字，馮安把腦筋動到書籍數位化上。當然，到處都有人在執行數位化工作：古騰堡計畫利用全球志工來校對，Amazon則是將書送到中國與印度掃描辨識。但無論如何，其中有許多工作都是電腦無法獨立完成的。如果人們在使用CAPTCHA的時候，也同時進行文件或書籍的數位化，每天不就等於多了全球志工免費550萬小時的協助？

　CAPTCHA發明人之一的Ben Maurer，告訴因網路蟑螂而不堪其擾的網站管理者，只要採用CAPTCHA機制：「你不只可以解決垃圾留言的問題，還可以讓人類的書寫歷史進入數位時代。」於是，各地使用者為了證明自己不是惡意程式，認命地過關斬將、辨識文字，在不知不覺中，就完成了一篇篇文章的電子化。這個最後集結了全球7億5000萬個志工的小裝置，就叫做reCAPTCHA。

　與書籍數位化結合

　基本上，送到reCAPTCHA的文件都會經過兩種文字辨識軟體掃描過，如果某個字出現不同的辦識結果，或者辨識出的字無法在字典中查得，就會被標定為「可疑字」。可疑字之所以會出問題，通常是因為原始文件有污漬或印刷不清楚（或掃描不清楚）。這些電腦處理不來的問題，就可以派人類上場。

　使用reCAPTCHA機制的網站，認證碼上需要辨識的文字會有兩組，其中一組仍扮演區辨使用者是真人或程式的角色，另一組則是請人類使用者幫忙辨識的文字。這套系統測試下來發現，經過reCAPTCHA的文件，正確率為99.1%（一般電腦文字辨識的正確率為83.5%），非常接近花錢請專業人士完成的正確率，卻節省了絕大部分的經費與時間。

　這套系統最後將整整20年份的《紐約時報》完整數位化，2009年被Google收購後，繼續進行Google Books的數位化工程，目前更擔負全世界4萬家出版社、四百多種語言的數位化任務（所以在回答reCAPTCHA問題時，發現有不認識的字是很正常的）。另一方面，今年11月，史丹佛大學表示已經能破解CNN、VISA等大公司使用的CAPTCHA技術，但reCAPTCHA這個「順手做好事」的系統依舊保有相當的安全性。光這一點，就足以吸引更多人加入數位化全世界書籍的行列。

　網路帶給我們的，不只是更便於溝通、更容易搜尋資料，它還讓人類產生新的組織合作方式，得以完成過去不可能的任務，這正是理論家克雷.薛基（Clay Shirky）的重要論點。reCAPTCHA這個例子，讓我們「真的」看到每個人一點點的貢獻，能如何聚集起來。過去，政府與商業組織分別在不同時代帶來重要革命，如今，無關金錢的組織方式、純粹民眾的結合，將會扮演更重要的角色，有的是靠志工們在網路集結，有的則是像reCAPTCHA，在不知不覺中共同完成任務。

　比起英文世界，中文世界有更多的古籍或現代文學需要數位化（或者協助句讀）。或許我們也能找到類似「一石兩鳥」的模式，讓所有人貢獻自己的一點語文能力，協助更多中文經典在網路上重現。
人腦運算（human-based computation）
　借助部分人力完成的電腦任務，稱為「人腦運算」，路易斯.馮安正是這方面的專家，也是首位使用人腦運算這個詞的人。

　目前在卡內基美隆大學任教的馮安，曾經發明一個叫做ESP的遊戲：讓兩個陌生人看同一張圖片，要求他們描述看到的內容，如果兩人使用了相同的語詞，就能進到下一關。這個遊戲，等於是為各類圖片標上屬性，建立後設資料。這支程式後來被Google買下，用來讓網友協助Google圖片搜尋的功能。馮安最近的新計劃duolingo（已於11月30日開站），則是利用眾多的語言學習者，讓這些人在學習語言的同時，順便為大家翻譯各國新聞與網站。

　「人腦運算」有幾個共同特點：1、可分解的任務。2、人類覺得簡單，但電腦執行困難的工作。3、製造動因，讓大家參與。當這3個條件具備，就相當於招募到數量龐大的志工與腦力，協助你完成某項工作。reCAPTCHA背後是每天550萬小時的潛力；而如果能跟遊戲搭上線，就會有來自全球電腦玩家每天3億小時的潛力。這是網路時代有待開發的資源。

回列表頁

舊資料查詢 - 閱讀專區

數位書房－reCAPTCHA電腦做不到的事，你可以！

內容