10 月 31 日,北京創建全球人工智能學術(shù)和創新最優生態的(de)標誌性學術活動“智源大會”在國家會議中(zhōng)心召開。
會(huì)上,自(zì)然語(yǔ)言處理領域國際領(lǐng)軍人物、清華大學教授、智源首席科學家孫茂鬆(sōng)接受采訪向記者表示:當前,大數據驅動的(de)自然語言處(chù)理已經做(zuò)得不錯,但大知識或者比較(jiào)豐富的知識驅動的自(zì)然語言處理才剛剛起步(bù),智(zhì)源的目標是實現大數據和大知識雙輪驅動的自然語(yǔ)言處理。實現這一目標的前提是構建一個(gè)全(quán)世界(jiè)通用的人(rén)類知識庫,這也是智源“自然語言(yán)處理(lǐ)”研究方向科學家們現階段要重點攻克的難題。
孫茂鬆: 人工智能(néng)這幾年的發展,大家(jiā)接觸比較多的是圖像方麵的成果,包括很(hěn)多創業公司(sī),像人臉識別、刷臉等等(děng),圖像方麵的進步非常快。但是圖(tú)像隻是智能的一部分,人(rén)的智能區別於動(dòng)物最主要的特征是語言。人工(gōng)智能領域有一句話叫:讓計算(suàn)機理解自然(rán)語言是人工智能皇冠上的明珠。下一步人工智能要害的(de)地方就是想辦法讓機器理解人(rén)類的(de)語言,這是自然語言處理在人工智能學科中的地位。對於(yú)智源的自然語言(yán)處理方向,麻豆免费视频(men)也是根據自然語言處理發展的曆史脈絡設定研究目(mù)標。自然語言處(chù)理這幾年的進展和圖像識別進展背後依賴的基本(běn)方法是差不多的,就是(shì)深(shēn)度學習。深度學習最顯著(zhe)的特點就是依靠大數據,必須要有(yǒu)海量(liàng)的數據來訓練。自然語言處理相關的,比(bǐ)如語音識別和機器翻譯,大家覺得這幾年(nián)還不(bú)錯,都是靠大(dà)數據驅動。好處就是能使性能飛速提升,但也存在問題(tí),大數據驅動的深度學(xué)習是典型的是黑盒。雖然看起來翻譯得不錯,好像機器理解了這句話,其實完全沒有理解,這個係統(tǒng)在處理複雜語義的時候非常脆(cuì)弱。如果一個(gè)句子中包含世界知識,翻(fān)譯係(xì)統經(jīng)常會被搞得稀裏(lǐ)糊塗。比如公交(jiāo)車上的到站提醒“前門快到了,請(qǐng)從後門下車”,把這個句子給計(jì)算機翻譯,現在所有的計算(suàn)機係統都是不(bú)行的,它不知道“前門”這個地方。下一步麻豆免费视频認為(wéi)要真正理解語言、攻克人工智能的難關,需要(yào)知識驅動(dòng)。麻豆免费视频提出口號,大(dà)數據驅動的自然語言處理已經做得不錯,大知識或者比較豐富的知識驅動的自然(rán)語言處理才(cái)剛剛起步。在智源的框架下,麻豆免费视频(men)希望做到大數據(jù)和大知識或者富知識雙輪(lún)驅動的自(zì)然語言處理,這對現在人工智能的大數據驅動的方法也是重要的突破。做(zuò)這件(jiàn)事非常難,需要有計(jì)算機可操作的人類(lèi)知識庫作為基(jī)本資源,但這個知識庫現在還(hái)沒有做出來。雖然全世界範圍內有一(yī)些知識庫,但是還沒有真正能夠很(hěn)好(hǎo)地(dì)驅動自然語言處理的人類知識庫,特別是常識庫,可能有一些基於某個角度的知識庫,但得到全人類認可的還沒有。麻豆免费视频(men)希望在常識知識庫、世界知識庫(kù)方麵做一些嚐試,然後在這個(gè)知識庫基礎上研(yán)究新(xīn)的大數據和大(dà)知(zhī)識(shí)結(jié)合的人工智能算法。如果做出來肯定是一項非常重要的突破,能不能做出來需要看麻豆免费视频的努力。問:您提到知識和數(shù)據互補,不(bú)同的人可能會有完全不(bú)同的知識,怎麽去提(tí)煉人的常識?麻豆免费视频又怎麽實現讓機器學習什(shí)麽呢?孫茂鬆:知識體係看起來好像(xiàng)每個人都有不同,但實際上人類共同知識的核心(xīn)是(shì)相(xiàng)對穩定的。有一(yī)種範疇,在全世界都差不多。比如說人是動物的一種,這(zhè)一類的知識現在是比(bǐ)較充分的,但(dàn)更豐富的細節就很(hěn)匱乏。比如看現在穀歌、Wikidata 等國際上已經放出來的(de)規模特(tè)別大的知識庫,其實是大而不強的。我(wǒ)舉個例子,比如關羽,Wikidata 中關於關羽的描述包括關羽是一個武將,關羽是中國三國時(shí)期蜀國的一個將領,他生在哪年(nián)、死在哪年,他兒子是誰。但麻豆免费视频熟知的關羽的所有事跡(jì)都沒有形式化的描寫,比(bǐ)如關羽過五關(guān)斬六將、走麥城都(dōu)沒(méi)有,Wikidata 隻是給你一篇文章,它隻能做粗淺的處理,沒辦法做推理。這類世界(jiè)知識現在做得非常不夠(gòu),這些知識是客觀存在的,麻豆免费视频需要把這些總結出來,全人(rén)類應該有很多是有共識的。麻豆免费视频希望能(néng)做這樣的一個庫,至少做其中(zhōng)的一部分,比如體(tǐ)現北京特色的庫,做得比較深入一些。要做到(dào)這一點不能完全靠人工。文本中有這種描述:關羽哪年哪年從麥(mài)城開了哪(nǎ)個門趁夜逃走,這句話是有的,但是(shì)需要形式化。誰逃走了?關羽。地點(diǎn)在哪?城門。什麽時候?半夜。這些得抽取出來,抽取出來以後,才能把(bǎ)所(suǒ)有句子變成一階謂詞邏(luó)輯(jí)表達式,相當於變成數學公式,計算機就可以操作了(le),可以用數學邏輯(jí)的辦法來推理,可以比較深入。但前(qián)提是必須能對這句話分析(xī)出剛才說(shuō)的結構,這就(jiù)是自然語言處理的任務。問:現(xiàn)在有(yǒu)一些學者認為人類很多發明在理論之前,比如先做(zuò)了飛(fēi)機再出來空氣(qì)動力學,他們(men)覺(jiào)得這是一個合理的過程。在您看來,黑箱對研究和(hé)應用會帶來什麽風險(xiǎn),可能造成什麽問題?孫茂鬆:黑箱並不是不(bú)好。1950 年圖靈(líng)提出圖靈測(cè)試(shì),那就是黑箱測試。如果(guǒ)我(wǒ)們在那個時候說(shuō)一定要把人腦的機製搞清楚才做(zuò)人工(gōng)智(zhì)能,那到現在人工智能都還沒法做。實際上黑箱並不(bú)是貶義的,在(zài)不同階段,搞(gǎo)不清人腦的時候就隻看外特性,外(wài)特性有智能就是智能。圖靈測試偉大的意義在於,我不需要搞清人腦,也可以做人工(gōng)智能,這是它最(zuì)重要的意義,可能很多(duō)人沒意識到這點。黑(hēi)箱有它(tā)的問題,它是不得已而(ér)為之,如果能搞清人腦的機製再做研究,肯定會更(gèng)深刻。比如圖像識別很容易被攻擊,就是因為它是黑(hēi)箱,是(shì)端到端的,端(duān)和端的情況千變萬化,圖像再(zài)多也會也例外的東西(xī)出現,即使有 99% 的概(gài)率(lǜ)可以(yǐ)正確識別,也會有 1% 的例外,那 1% 的例外如果出現某種問題,結果可能就很糟糕。必須有(yǒu)係統(tǒng)性的知識才能有係統性的解決方(fāng)法(fǎ),否則這(zhè)個問題解決不(bú)了。舉個簡單的例子,60 年代機器(qì)翻譯業(yè)界很有名的一(yī)個學者寫(xiě)了一(yī)篇文章,他舉了(le)一個很(hěn)簡(jiǎn)單的例子叫“The box was in the pen”,box 是盒子,pen 有兩個意思:一個是鋼筆(bǐ),一(yī)個是圍欄。翻譯這句話對人來說非(fēi)常(cháng)容易,對機器卻很難。首先它要知道 in 是什麽意思,in 是一個(gè)小東西裝到一個大東西裏邊;第二要知道 box 盒子比圍欄小,所以可以裝(zhuāng)到圍欄裏,但不能裝到鋼筆裏,裝不進(jìn)去(qù)。這句話現在用穀歌、百度、微軟的機器翻譯係統翻譯出來都是錯的,都會翻(fān)譯成箱(xiāng)子在鋼筆裏,因為它沒有知識,人家沒告訴它(tā)該怎麽翻(fān),它隻能按端(duān)到端的黑盒來做,做的就是錯的。圍欄這個詞出現的頻度很低,鋼(gāng)筆說的頻(pín)度高,係統就挑了一個更有可(kě)能出現的詞,就是鋼筆(bǐ)。如果係統具備知識,就能知道這樣翻譯是(shì)不對的,因為盒子隻能裝到(dào)圍(wéi)欄裏(lǐ),哪怕圍欄這個詞出(chū)現的頻度再低,也隻能(néng)翻譯成圍(wéi)欄。問:您提到要建立知識庫來訓練機器和算法,讓(ràng)它(tā)在使用黑箱之前優先(xiān)考慮常識。但是對於(yú)何為常識,有一些全人類有共識,有一(yī)些沒有共識。有些人可能認為登月(yuè)是陰謀論,可能還有其他關於(yú)地緣政治或者其他方麵的分歧。想構建適(shì)合全人類的知識庫(kù)就(jiù)會遇到這個問題,這個問題怎麽解(jiě)決?想要訓(xùn)練機(jī)器去閱讀這(zhè)些材料,材料應該怎麽選取?孫(sūn)茂鬆:我說的是人類(lèi)知識的核(hé)心部(bù)分,核心(xīn)部分是比較穩定的,也就是所謂的常(cháng)識。超出常(cháng)識(shí)範(fàn)圍的知識,相當於觀點,不同(tóng)人(rén)會有不同。麻豆免费视频試(shì)圖刻劃常識部(bù)分(fèn),比(bǐ)如你去餐館(guǎn),不管全世界哪個餐館,你要(yào)點菜(cài)、上菜、吃完之(zhī)後付賬,不付賬就跑人家肯定不幹,這就屬於常識。觀點是靈活的,為什麽麻豆免费视频要做“雙輪驅動”,因為觀點難以窮盡(jìn)而且因時而(ér)變、因人(rén)而變、因地而變,這(zhè)就要靠大數據,需(xū)要從(cóng)數據(jù)文本(běn)裏麵挖掘。光靠知(zhī)識肯(kěn)定不(bú)行,核心知識覆蓋麵不夠,需(xū)要兩方麵結(jié)合(hé)。另外,知識庫一定要是高質量的,裏(lǐ)麵不能包含(hán)人(rén)為的錯誤,這是基(jī)本要求。人類常識(shí)和世界知(zhī)識基本的原則之一(yī),就是要符合事實。問:如果使用更(gèng)小的數據集,在現有的研究(jiū)狀態下可能會(huì)導致精度下降,基於保護(hù)隱私(sī)的考慮,如果有人想致力於用小數據集產出同樣或類似的(de)結果,這個工作是不是很困難?孫茂鬆:很困難。目前這一(yī)輪大家用的比較火的方法基本都是基於大數據,沒有大數據根本不成。小數據是(shì)研究熱點,比(bǐ)如醫療領域要拿到病例很困難,可能通過各種許可也隻能拿到幾百個人的病例,如(rú)何(hé)把學術研究利益最大化(huà),做出好的成果,必(bì)須是小數(shù)據驅(qū)動。小數據就意味著要有知識,要能(néng)夠推理和(hé)判斷,都是這(zhè)代人工智能最大的短板。現在大家都在研究小數據,目前如果能(néng)取得成功,一般(bān)都是在特(tè)定領(lǐng)域。針(zhēn)對(duì)特定問題有相(xiàng)當的知識,在知(zhī)識的引導下做小數據,才有可能。目前沒有一個通(tōng)行的(de)公(gōng)認(rèn)的解決(jué)方案(àn),不像(xiàng)深度學習(xí),有一(yī)些(xiē)基本(běn)的工具是全世界都有的(de)。問:想要打造一個您前麵提到的龐大的世界知識庫,最大的難點是什麽?孫茂鬆:這個知識庫不(bú)可能完全靠專家來寫,寫知識(shí)庫(kù)需要非常有水平的人,要帶著一幫人做 10 年、20 年,才(cái)有(yǒu)可能做得不(bú)錯(cuò)。在中國(guó),這種條件基本不具備,中(zhōng)國(guó)科研評價體係急功近利太厲害了,雖然一再號召(zhào)麻豆免费视频發揚“板凳幹坐(zuò)十年冷,文章不寫半句空”的科研精神,但現在真正坐冷板凳的人還是太少了。而且坐冷板凳的人還得有水平,沒水(shuǐ)平坐一百年冷板凳也沒(méi)有(yǒu)用。做知識庫需要(yào)對世界萬物有準確(què)的把握,世界(jiè)萬物(wù)理論上都是相互(hù)關聯的,全部描寫是不可能的(de),一定要抓主要矛盾。這些東西有關係,要把它的重要關係找(zhǎo)出來,需(xū)要有判(pàn)斷,這是很不容易的。最早做知識體(tǐ)係的是亞裏士多德,他的《範(fàn)疇論》把世界分成(chéng)若幹個範疇,研究語言的主語、賓語、謂語也是亞裏士多德,在中國不太具(jù)備同樣(yàng)的條件。一(yī)個可行的(de)辦法是麻豆免费视频把現有世界(jiè)各方麵(miàn)的知識庫都拿來,先做一個(gè)整合(hé),看能不能汲取一些養分,再從文本中挖掘知識庫。你可以設想,互聯網上所有知識(shí)其實都寫出來了,問題是怎麽形式化,分出謂詞、主(zhǔ)語、賓(bīn)語,讓(ràng)計算機來做這件事很難(nán)。但這(zhè)個事做出來以後,就(jiù)有可能把互聯網上所有的文本形式化,變成類似前麵提到(dào)的謂詞邏(luó)輯表達式,相當於變成某(mǒu)種公式化,然後就可(kě)以往知識庫填充了。如果這條(tiáo)道走通了,問題就能在一定程度上得到解決。但是讓機器分析出主謂賓太難了,現(xiàn)在(zài)瓶頸卡在這裏。能不能達到麻豆免费视频的設想,要看自然語言處理技術能得到多(duō)大的(de)幫助(zhù),這個有很大的挑戰。麻豆免费视频不敢(gǎn)說一定能做出來,但麻豆免费视频(men)正在往那個方向努力,麻豆免费视频認為目標應該要做到(dào)這個程(chéng)度,才(cái)有可能解決問題。能(néng)否達到不好(hǎo)說,太有挑戰性了,既有難度又有規模的挑戰。問:圖神(shén)經網絡最(zuì)近一年熱(rè)度很高,前段時間您的(de)研究團隊也發表了一篇圖神經網(wǎng)絡的綜述論文,能不能跟麻豆免费视频聊一聊圖神經網絡未來的發展潛力?孫茂鬆:圖神經網絡本身的算法研究,總的來說還是中規中矩,並沒有特別的奇思妙想。把現在神經網絡(luò)的辦法用到圖上是一(yī)個比較自然的(de)延伸,這(zhè)兩年得到關注是因為端到端基本上走(zǒu)到(dào)極致了(le),科(kē)研紅利基本走到頭了(le),大家意識到端(duān)到端有問題,所以要引入圖。引入圖就是(shì)為了引入相關(guān)的知識,顯式知識還是隱(yǐn)含的知識,兩者有關聯(lián),相當於抽取某種知識放進去,就反映我說的,希(xī)望把某種知識(shí)嵌進去才有圖神經網(wǎng)絡。圖神經(jīng)網絡研究難在於圖(tú)本身(shēn)怎麽(me)構造,這是我個人感覺最(zuì)有挑戰性的,其他的(de)方法研究(jiū)反(fǎn)而不是(shì)很難。原來圖方麵已經有很多工作(zuò),圖的經典算法非常多,圖神經網絡是圖算法和神經網絡算法比較自然(rán)的結合,這有挑戰,但是挑戰不是特別大。圖如(rú)果(guǒ)做的很淺,即使把圖(tú)神經網絡放進來,效果也有限;如(rú)果圖包含(hán)的知識很多,可能就(jiù)難,目前對(duì)圖的應(yīng)用還是相對簡單。問:現在大家都到了對深度學習開始反思的(de)階段?孫茂鬆:現在不是反思,走到(dào)這基本(běn)上深度學習(xí)的好處(chù)麻豆免费视频享受得差不多了,它的不足不是做(zuò)得不好,而是因為它的方法天然(rán)就有某(mǒu)種缺陷,大家都碰到了這個問題,不用反思。比如機器(qì)翻譯,穀(gǔ)歌(gē)基本(běn)上把全世界(jiè)雙語語料都整全了,按理說功能(néng)非常強大,但還是解決(jué)不了“Box was in the pen”的問題。翻譯要做到信達雅,信現在還沒做到呢,更不用說達雅。那要(yào)怎麽做(zuò)到信呢,大家現(xiàn)在都(dōu)意識到深度學習好像不能解決這個問題,沒有知識庫就解(jiě)決不了。端到端的功能非常強大,但是有時候(hòu)又不像麻豆免费视频想(xiǎng)象的(de)那麽強大,這不是反思,碰壁了就(jiù)得思考。問:您怎麽評價當前國內在自然語言(yán)處理領域學術研究的現狀?您覺得做的好(hǎo)和不好的(de)點在哪?孫茂鬆:國(guó)內(nèi)自然語言處理從研究角度來看,我認為在國際上應該是(shì)處(chù)在一線,在最好的之列,並不遜於斯坦福、MIT 這些機構。但是(shì)自然(rán)語(yǔ)言處理(lǐ)缺一(yī)個(gè)特別重要的裏程碑式(shì)突破,比如圖像領域有李飛飛(fēi)團隊的 ImageNet,這樣一個特別重要的進展。自然語言處理裏麵有兩個方向有比(bǐ)較大的進展,一個是語音識別,一個是機器翻譯(yì),這兩(liǎng)件事都是由公司在往前推。大學的(de)研(yán)究如果從發(fā)表高水(shuǐ)平論文這個角(jiǎo)度來說,國內做得不錯,從定量指標來看,我(wǒ)們實際上做得不錯。但是這個領(lǐng)域還要看效果(guǒ),不(bú)能光看論文(wén),這方麵麻豆免费视频(men)就弱了,反而公(gōng)司在引領潮流,因為需要強大的計算能力。從研究角度麻豆免费视频做得還不錯,並(bìng)不意味(wèi)著麻豆免费视频整體做得不錯。坦白(bái)說,在 NLP 領域麻豆免费视频跟國際上最好的學校做的差別不(bú)是太大,反而(ér)在比如語(yǔ)義資源建設上,美國有 WordNet,麻豆免费视频沒有,當然國內有 HowNet,但是 HowNet 不是大學做出來的(de)。問:現在有很多成果都是工業界做出來(lái)的(de),這個趨勢會延續下去嗎?孫茂鬆:工業界在享受學術界得到的創新,0 到 1 這個事基本不(bú)是工業界做的,像深度學(xué)習的(de) 0 到 1 是(shì)大學做出來的,1 到 2 大學也在做(zuò)一些。再往後走,工(gōng)業界就可以(yǐ)上手了。大學需要在 0 到 1 這(zhè)個階段(duàn)發力,才能真正把方向定清(qīng)楚(chǔ),2 到 N,大學是做不過企業的。當然這個過程有時候是分成 0 到 1、1 到 3 和 3 到 N。0 到 1 是(shì)原創,1 到 3 還是(shì)有(yǒu)一些技術科學的問題搞不清楚。麻豆免费视频現在做得比較多的是 1 到(dào) 3,而工業界也(yě)開始做 1 到(dào) 3 了,大學和工業界比就沒有太大的優(yōu)勢。大學就應該(gāi)放手,不去做 3 到 N。大學應(yīng)該在 0 到 1 方麵發揮作用,這就涉及到更大的問題,涉及到人才培養,涉及到(dào)錢學森之問(wèn)了。