大數據文摘出品
來(lái)源:Medium
編譯:千雪、牛婉楊
Luis Von Ahn是一位才華橫溢的數學(xué)教授,我們登錄新網(wǎng)站或APP時(shí)經(jīng)常用到的驗證碼(CAPTCHA),還有一款語(yǔ)言學(xué)習軟件“多鄰國”(Duolingo),都是他創(chuàng )建的。
就連比爾·蓋茨都花了45分鐘才說(shuō)服當時(shí)年僅20多歲的危地馬拉數學(xué)教授Luis去微軟工作。
顯然,Luis和微軟是一個(gè)爆炸性的組合,驗證碼正是Luis的創(chuàng )意。而這個(gè)創(chuàng )意誕生一周后由雅虎實(shí)施,幾年后被谷歌收購。Luis的第二個(gè)孩子“多鄰國”(Duolingo)則在推出兩年后估值達到2000萬(wàn)美元,現今已達到15億美元。
對我們這些普通人來(lái)說(shuō),只是花幾秒時(shí)間填寫(xiě)一下驗證碼(單詞類(lèi)),卻不曾想到我們每年竟然能在無(wú)形當中完成230萬(wàn)本圖書(shū)的數字化。對我們來(lái)說(shuō),Duolingo也是一個(gè)學(xué)習語(yǔ)言的平臺,沒(méi)想到原來(lái)用戶(hù)在學(xué)習過(guò)程中就幫助Duolingo賺了錢(qián),因為憑借大家的力量,幾周內就可以將CNN和紐約時(shí)報多年以來(lái)的全部?jì)热莘g成其他語(yǔ)言,然后向這些新聞機構要翻譯費。
看,這些都是Luis想出來(lái)的。
有一天,一位雅虎的頂尖研究人員兼人才偵察員來(lái)到Luis Von Ahn的學(xué)校,做了一場(chǎng)題為“雅虎最難解決的十個(gè)問(wèn)題”的演講。他們的問(wèn)題之一,是垃圾郵件發(fā)送者會(huì )使用自動(dòng)軟件創(chuàng )建數以百萬(wàn)計的假電子郵件地址,然后將廣告一堆堆地發(fā)送出去。雅虎相當于是本世紀初的谷歌,以技術(shù)為導向的年輕Luis立刻開(kāi)始著(zhù)手解決這項工作。
其實(shí)解決方案很簡(jiǎn)單。Luis的一位博士同學(xué)告訴他,電腦很難看懂手寫(xiě)或者打印出的文本。一個(gè)人或多或少能讀懂一張模糊圖片里潦草的手寫(xiě)筆跡,但軟件永遠無(wú)法與之匹敵。因此,只有非常專(zhuān)注的人,才可以通過(guò)驗證碼的考驗。
CAPTCHA
雅虎一周內就實(shí)現了這項功能,Luis完全可以憑此接受一聲“謝謝”。
但Luis是一個(gè)對自己要求極高的人,他無(wú)法接受讓人類(lèi)每天浪費50萬(wàn)小時(shí)來(lái)填寫(xiě)驗證碼。畢竟每天50萬(wàn)小時(shí)是一大筆時(shí)間,應當好好利用。
很快,一個(gè)契機出現了。s和谷歌圖書(shū)花了大量時(shí)間將舊書(shū)、文章和文檔掃描轉換成數字化的電子版本。書(shū)籍是由單詞組成的,單詞又是由字母組成的,驗證碼也是如此。
簡(jiǎn)單來(lái)說(shuō),之前的驗證碼版本是模糊的數字和字母組合,新版本則是讓用戶(hù)辨別兩個(gè)單詞,這兩個(gè)詞都出自那些已經(jīng)掃描過(guò)的文檔或書(shū)籍。
第一個(gè)單詞出自公司通過(guò)掃描已經(jīng)確定下來(lái)的那部分詞匯,它是用來(lái)測試用戶(hù)是否是人類(lèi)的。而第二個(gè)單詞是從他們還不確定的那部分詞匯里選出,一旦有10個(gè)用戶(hù)輸入了某個(gè)相同的單詞,他們就知道這是正確答案。
通過(guò)這種方式,reCAPTCHAs每年可以將230萬(wàn)本舊書(shū)數字化成可編輯、可搜索的網(wǎng)絡(luò )文檔。后來(lái),谷歌買(mǎi)下了這家公司,這筆收購的錢(qián)足以讓Luis這輩子都不用工作了,而他唯一要做的就是在谷歌待上3年。但是他沒(méi)有。
對于一個(gè)出生在平均月薪只有200美元的國家的人來(lái)說(shuō),教育是一個(gè)令人痛苦的話(huà)題。雖然學(xué)習平臺本來(lái)應該為公民提供平等的機會(huì ),但往往反而會(huì )讓貧富差距變得更大。因為學(xué)習平臺把人分成了兩類(lèi),一類(lèi)是有500美元可以花在英語(yǔ)課程上的人,另一類(lèi)是根本沒(méi)有500美元的人。
Luis說(shuō),人們在學(xué)習了英語(yǔ)之后,收入往往會(huì )翻倍。僅在中國就有4億人學(xué)習英語(yǔ)——這幾乎是美國和英國人數的總和。除了那些顯而易見(jiàn)的工作原因,還有更多潛在的力量在起作用。
互聯(lián)網(wǎng)上的大部分內容都是英文的,這意味著(zhù)只有懂英語(yǔ)的人才能接受教育。Youtube上的耶魯課程、解說(shuō)型視頻、亞馬遜圖書(shū)、新聞網(wǎng)站、博客——我們可以停下來(lái)想想,真正被翻譯成我們自己語(yǔ)言的東西是多么的少。比如,世界上有4.37億人說(shuō)西班牙語(yǔ),但維基百科中的西班牙語(yǔ)只有英文版的20%左右。
所以當Luis決定用他的智慧為此做些事情時(shí),他與一個(gè)叫Severin Hacker的人合作了。他們旨在為世界上大多數人創(chuàng )造一個(gè)免費學(xué)習語(yǔ)言的途徑,為所有可以上網(wǎng)的人提供一個(gè)大眾化的學(xué)習平臺。
Luis已經(jīng)成為一位經(jīng)驗豐富的企業(yè)家,他知道這個(gè)免費的應用程序需要有一個(gè)賺錢(qián)的方式,畢竟他的資金不能永遠為新公司提供支撐。這個(gè)軟件必須從一開(kāi)始就自給自足。Luis雇傭了那些熟練使用驗證碼的技術(shù)人員。他一邊讓用戶(hù)上課,一邊讓用戶(hù)為他賺錢(qián)。
在Duolingo學(xué)習任何一種語(yǔ)言時(shí)都不會(huì )隨機分配單詞。有時(shí)候,是隨機分配一個(gè)句子來(lái)翻譯;還有些時(shí)候,句子不是隨機的,而是節選自Duolingo眾多客戶(hù)的某篇文章——比如CNN和紐約時(shí)報。
顯然,一個(gè)語(yǔ)言學(xué)習者絕對不是合格的翻譯。為了確保翻譯結果是正確的,Duolingo會(huì )用類(lèi)似驗證碼的幕后技術(shù)來(lái)“點(diǎn)石成金”,將10個(gè)業(yè)余翻譯變成一個(gè)專(zhuān)業(yè)翻譯,最終的結果甚至可以和一個(gè)訓練有素的翻譯翻出的結果沒(méi)有區別。
除了最初的技術(shù)成本,Duolingo可以說(shuō)是“免費”的翻譯。如果《紐約時(shí)報》為每個(gè)字的翻譯支付0.10美元,同時(shí)還必須花費人力資源來(lái)管理翻譯過(guò)程,那么Luis就能以每字0.05美元的價(jià)格提供翻譯。只要有足夠多的用戶(hù)訂閱Duolingo,它甚至可以在幾天內翻譯出一年的作品——這將為L(cháng)uis和他的合作伙伴帶來(lái)42000美元的收入。
Luis表示,翻譯是一個(gè)棘手的行業(yè),世界上總會(huì )有一個(gè)翻譯愿意以半價(jià)接手你的工作。此外,Duolingo本身也開(kāi)始變得更像一家翻譯公司,而不是教育公司?;谶@些原因,Duolingo現在正在走傳統的訂閱路線(xiàn)。
雖然Luis并不喜歡談?wù)撍侨绾卧谑袌?chǎng)營(yíng)銷(xiāo)方面發(fā)展Duolingo的,但是,就像其他偉大的創(chuàng )始人一樣,他在獨特的核心機制上確實(shí)花了很多心思。
課堂上,學(xué)生更像是必須認真聽(tīng)課的“人質(zhì)”。而app卻還要與Instagram或Facebook這些終極對手爭奪學(xué)生的注意力。為此,Luis和他的合作伙伴花了10年時(shí)間來(lái)完善每一個(gè)彈出窗口、每一個(gè)通知、每一種字體和每一種聲音,只是為了捕捉用戶(hù)的專(zhuān)注力。
作者表示,他第一次用Duolingo練習中文時(shí),正坐在一家他從來(lái)沒(méi)有去過(guò)的咖啡館,但他一杯咖啡都沒(méi)有喝。即使有時(shí)間可以消磨,他仍然專(zhuān)注于Duolingo的學(xué)習。
一周后,他發(fā)現自己在同樣的時(shí)間路過(guò)了這家咖啡館。Duolingo讓他開(kāi)始主動(dòng)地去學(xué)幾個(gè)新單詞。后來(lái)他才意識到這正是他第一次用Duolingo進(jìn)行學(xué)習的地方。
Duolingo的決策者們對更加廣泛的教育領(lǐng)域也充滿(mǎn)了雄心壯志。對于發(fā)展中國家的聰明學(xué)生來(lái)說(shuō),雅思或托福這樣的認證考試是一個(gè)特別痛苦的障礙。不僅學(xué)習和考試要花錢(qián),還常常要花好幾個(gè)小時(shí)才能趕到考試場(chǎng)所。為此,Duolingo正在悄悄地制定他們自己的標準化考試,并被一個(gè)又一個(gè)的學(xué)習機構所接受。
Duolingo主要宣傳的點(diǎn)是:他們比教室更好。雖然我們對這些數字半信半疑,但Luis說(shuō),一個(gè)學(xué)生在Duolingo上用32小時(shí)就能學(xué)會(huì )普通學(xué)生在校一個(gè)學(xué)期的語(yǔ)言。他用A/B測試來(lái)解釋這一現象:老師們經(jīng)常為了讓學(xué)生掌握副詞而不斷練習,Duolingo則積極測試不同的學(xué)習方法,看看哪一種效果最好——比如應該先學(xué)習復數還是代詞。
但Luis關(guān)注的不只是語(yǔ)言。對他來(lái)說(shuō),每一個(gè)能夠大規模移植到數字世界的學(xué)習過(guò)程都是值得追求的,而任何方式——包括通過(guò)電影字幕學(xué)習——都是可行的選擇。
相關(guān)報道:
實(shí)習/全職編輯記者招聘ing
加入我們,親身體驗一家專(zhuān)業(yè)科技媒體采寫(xiě)的每個(gè)細節,在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長(cháng)。坐標北京·清華東門(mén),在大數據文摘主頁(yè)對話(huà)頁(yè)回復“招聘”了解詳情。簡(jiǎn)歷請直接發(fā)送至zz@bigdatadigest.cn
聯(lián)系客服