時(shí)至春季,人工智能的春天也來了。
從去年 AlphaGo 與李世石的人機(jī)大戰(zhàn)之后,人工智能瞬間成為科技行業(yè)最為耀眼的明星。除了國內(nèi)外的巨頭動(dòng)作頻繁,該領(lǐng)域的創(chuàng)業(yè)公司也如雨后春筍般生長起來。而這背后,自然離不開讓機(jī)器學(xué)會(huì)思考的造物主們。本文,我們就來認(rèn)識一些將人工智能夢想變成現(xiàn)實(shí)的功臣們。
阿蘭⋅圖靈
二戰(zhàn)時(shí)阿蘭⋅圖靈在布萊切利公園擔(dān)任解碼專家,于 1940 年創(chuàng)造出可以破譯德軍密報(bào)的機(jī)器 Bombe,為盟軍的勝利立下了汗馬功勞。戰(zhàn)后,他任職于泰丁頓國家物理研究所,開始從事“自動(dòng)計(jì)算機(jī)”的邏輯設(shè)計(jì)和具體研制工作。1946 年,圖靈發(fā)表論文闡述存儲程序計(jì)算機(jī)的設(shè)計(jì),因此被稱為計(jì)算機(jī)之父。
基于計(jì)算機(jī),他還思考怎么去創(chuàng)造一個(gè)思考的機(jī)器(Thinking Machine)。他說:“要建造一個(gè)智能的機(jī)器的話,可能最好的方法就是用錢買得到的最好的感知器來組建它,并教會(huì)它使用英文。”
圖靈并沒有建立起人工智能這個(gè)領(lǐng)域,但是他帶來了最初的一些重要的思想元素:我們要做一個(gè)會(huì)思考的機(jī)器,里面就需要包括:視覺、語言。另外,圖靈還提出著名的“圖靈測試”,指出如果第三者無法辨別人類與人工智能機(jī)器反應(yīng)的差別,則可以論斷該機(jī)器具備人工智能。“圖靈的成就不得地讓我們聯(lián)想,是否等到人類滅亡之后會(huì)留下機(jī)器人來統(tǒng)治這個(gè)世界。”互聯(lián)網(wǎng)之父文特·瑟夫如此評論。正是圖靈開啟了人工智能研究的先河。如今,由美國計(jì)算機(jī)協(xié)會(huì)(The Association for Computing Machinery)設(shè)立圖靈獎(jiǎng)為其最高獎(jiǎng)項(xiàng),以表彰圖靈在計(jì)算機(jī)以及人工智能領(lǐng)域的特殊貢獻(xiàn)。
Terry Winograd
Terry 是人工智能界,第一代把圖靈的思想付諸實(shí)踐的人,他也是現(xiàn)在在世的計(jì)算機(jī)界最偉大的科學(xué)家之一。Terry 不光在人工智能領(lǐng)域做了最重要的工作,而且他后來轉(zhuǎn)行去做人機(jī)交互,也把這個(gè)領(lǐng)域重新帶動(dòng)了起來。
在 Terry 看來,要實(shí)現(xiàn)人工智能,需要有這 3 個(gè)要素:語法,語義和推理。他說一個(gè)人,或者一個(gè)機(jī)器,要去理解世界,需要去感知。感知以后,需要做的第一件事是對這個(gè)世界的結(jié)構(gòu)進(jìn)行理解,這叫語法的理解(Syntax Understanding)。Terry 說,機(jī)器能夠理解語法以后,接下去需要做的就是理解語義(Semantics)。語義就是指含義,語言有語言的含義,視覺有物體、有動(dòng)作,有視覺的含義。最后,當(dāng)我們把語法和語義解決以后,智能的機(jī)器或者是人主要解決的問題就是統(tǒng)計(jì)推理(Inference)這個(gè)過程。1970 年,Terry Winograd 教授在麻省理工學(xué)院人工智能實(shí)驗(yàn)室創(chuàng)建了 SHRDLU(積木世界),其被譽(yù)為微世界程序的最高成就,它能用普通的英語句子與人交流,還能作出決策并執(zhí)行操作。可以說它既是自然人展示自己如何借助計(jì)算機(jī)實(shí)現(xiàn)自然語言理解的一個(gè)經(jīng)典示例,也是怎樣應(yīng)用計(jì)算機(jī)有效進(jìn)行自然語言處理的一個(gè)里程碑。
Geffory Hinton
人類大腦有數(shù)十億個(gè)神經(jīng)細(xì)胞,它們之間通過神經(jīng)突觸相互影響,形成極其復(fù)雜的相互聯(lián)系。然而科學(xué)家們并不能解釋這些具體的影響和聯(lián)系。神經(jīng)到底是如何進(jìn)行學(xué)習(xí)以及計(jì)算的,對于 Hinton,這些正是他所關(guān)心的問題。他不知道所有的答案,但在他的努力之下已經(jīng)取得了進(jìn)展。
Geoffrey Hinton 被尊稱為“神經(jīng)網(wǎng)絡(luò)之父”,將 Back Propagation(反向傳播)算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),還提出了“Dark Knowledge”概念。他將神經(jīng)網(wǎng)絡(luò)帶入到研究與應(yīng)用的熱潮,這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對其做出反應(yīng)。它們能對事物的外形和聲音做出解釋。它們對語言的理解也在進(jìn)步。它們可以自行學(xué)習(xí)與工作,而不需要人為提示或者參與控制。這些正是它們與傳統(tǒng)的學(xué)習(xí)機(jī)器的區(qū)別。隨著時(shí)間的推移,計(jì)算機(jī)能力的發(fā)展,神經(jīng)網(wǎng)絡(luò)也更加快速,靈活,高效,得到了很好的擴(kuò)展。
據(jù)了解,早在 80 年代初期,當(dāng) Hinton 和他的同事們剛開始這項(xiàng)研究時(shí),那時(shí)的電腦還不夠快,不足以處理有關(guān)神經(jīng)網(wǎng)絡(luò)的這些龐大的數(shù)據(jù),他們?nèi)〉玫某删褪怯邢薜摹6?dāng)時(shí) AI 普遍的研究方向也與他們相反,都在試圖尋找捷徑,直接模擬出行為,而不是試圖通過模仿大腦的運(yùn)作來實(shí)現(xiàn)。在這樣艱難的環(huán)境下,只有 Hinton 和他的同事堅(jiān)持了下來,而事實(shí)則證明他們是對的。
Geoffrey Hinton 于 2006 年在《Science》上發(fā)表的論文首次提出深度學(xué)習(xí)的主要觀點(diǎn)。從 2012 年取得 ImageNet 競賽的標(biāo)志性事件之后,深度學(xué)習(xí)不斷取得一系列的重大進(jìn)展,解決了人工智能界的盡最大努力很多年仍沒有進(jìn)展的問題,除了在圖像識別、語音識別等領(lǐng)域打破了紀(jì)錄,還在其他的領(lǐng)域擊敗了其他機(jī)器學(xué)習(xí)技術(shù),包括預(yù)測潛在的藥物分子的活性、分析粒子加速器數(shù)據(jù)、重建大腦回路、預(yù)測非編碼 DNA 突變對基因表達(dá)和疾病的影響。更令人驚訝的是,深度學(xué)習(xí)在自然語言理解的各項(xiàng)任務(wù)中也有非常可喜的成果,特別是主題分類、情感分析、自動(dòng)問答和語言翻譯。
可以說,正是 Geoffrey Hinton 將“深度學(xué)習(xí)”從邊緣課題變成了谷歌等互聯(lián)網(wǎng)巨頭仰賴的核心技術(shù)。
Yann LeCun
Yann LeCun,Geoffrey Hinton 的博士后學(xué)生,也是將 CNNs 應(yīng)用最成功的人(CNNs,是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型)。目前感興趣的研究領(lǐng)域包括人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)感知、機(jī)器人和計(jì)算神經(jīng)科學(xué)。他最出名的是對深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的貢獻(xiàn),特別是廣泛用于計(jì)算機(jī)視覺和語音識別應(yīng)用的 CNN(卷積神經(jīng)網(wǎng)絡(luò)),他第一個(gè)把 BP 算法用在 CNN 上并且完善 CNN 使得它可以在真實(shí)場景中得以應(yīng)用,并在這些主題以及手寫字體識別、圖像壓縮和人工智能硬件等主題上發(fā)表過 190 多份論文。
LeCun 使 CNN 成為目前人工智能領(lǐng)域最有用的模型。在谷歌,卷積神經(jīng)網(wǎng)絡(luò)幫助他們在安卓手機(jī)上開發(fā)語音識別系統(tǒng);而百度則可以利用它開發(fā)全新的視覺搜索引擎。
Yann LeCun 是紐約大學(xué)終身教授,現(xiàn)任 Facebook 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。LeCun 位列新澤西州的發(fā)明家名人堂,并獲得 2014 年 IEEE 神經(jīng)網(wǎng)絡(luò)先鋒獎(jiǎng)、2015 年 IEEE PAMI 杰出研究獎(jiǎng)、2016 年 Lovie 終身成就獎(jiǎng)和來自墨西哥 IPN 的名譽(yù)博士學(xué)位。
Yoshua Bengio
Yoshua Bengio 教授是機(jī)器學(xué)習(xí)大神之一,尤其是在深度學(xué)習(xí)這個(gè)領(lǐng)域。他連同 Geoff Hinton 以及 Yann LeCun 教授,締造了 2006 年開始的深度學(xué)習(xí)復(fù)興。
其他方面,Bengio 的《a neural probabilistic language model》這篇論文開創(chuàng)了神經(jīng)網(wǎng)絡(luò)做 language model 的先河,里面的思路影響、啟發(fā)了之后的很多基于神經(jīng)網(wǎng)絡(luò)做 nlp(自然語音處理) 的文章。
Bengio 博士后的導(dǎo)師 Jordan 曾提到:“到目前為止,在更高級的自然語言處理任務(wù)中,深度學(xué)習(xí)并未像在語音識別、物體識別等任務(wù)上做到的那樣,顯著降低錯(cuò)誤率。”所以在 Hinton 提出深度學(xué)習(xí)概念激活了整個(gè)領(lǐng)域、lecun 發(fā)表了卷積神經(jīng)網(wǎng)絡(luò) (CNN) 這樣的階段性突破成果的前提下,Bengio 對自然語音處理難題的貢獻(xiàn)是非常有意義的。
Jürgen Schmidhuber
1997 年,Schmidhuber 博士和他的同事發(fā)表了一篇技術(shù)論文,后來證明這篇論文對最近的視覺和語音上的快速進(jìn)展起到了關(guān)鍵作用。這個(gè)方法被稱長短期記憶,簡稱為 LSTM。這個(gè)方法在剛引進(jìn)時(shí)沒有得到廣泛的理解。它主要提供了一種記憶形式,或者說是一種神經(jīng)網(wǎng)絡(luò)的環(huán)境。
就像人類不會(huì)每次都從頭學(xué)起一樣,神經(jīng)網(wǎng)絡(luò)的機(jī)制中存在循環(huán)和記憶的機(jī)制,每個(gè)輸入的單詞和觀察到的像素都會(huì)被其理解。長短時(shí)記憶(LSTM)的出現(xiàn)讓這種系統(tǒng)的表現(xiàn)得到了很大的提升,輸出結(jié)果瞬間變得準(zhǔn)確。
去年,谷歌的研究人員在這一方面的研究得到發(fā)表,他們使用 LSTM 減少了 49% 的語音識別錯(cuò)誤,這是一個(gè)飛躍性進(jìn)步。