【特稿】人工智能年度人物——第四范式首席科學(xué)家楊強(qiáng)

不斷成熟的“人工智能”(AI)技術(shù),讓學(xué)術(shù)領(lǐng)域和企業(yè)家們更加意識(shí)到高效利用這項(xiàng)技術(shù)的重要性。如何在日新月異的當(dāng)下不斷挖掘人工智能的深度、拓寬應(yīng)用廣度是必須思考的問(wèn)題。恰逢2017年開(kāi)春之際,DVBCN&DVBCN推出了人工智能年度人物專(zhuān)欄,聚焦當(dāng)前人工智能領(lǐng)域,本期分享第四范式先后系科學(xué)家楊強(qiáng)對(duì)人工智能的真知灼見(jiàn)。
楊強(qiáng) / 第四范式首席科學(xué)家。人工智能領(lǐng)域?qū)W術(shù)界的領(lǐng)軍人物,華人界唯一的國(guó)際人工智能協(xié)會(huì)院士,人工智能前沿科技的領(lǐng)導(dǎo)者。華為諾亞方舟實(shí)驗(yàn)室主任,香港科技大學(xué)計(jì)算機(jī)與工程系教授, IAPR Fellow, AAAS Fellow ,IEEE大數(shù)據(jù)期刊主編,ACM杰出科學(xué)家。兩次獲得國(guó)際數(shù)據(jù)挖掘領(lǐng)域最高級(jí)別競(jìng)賽KDD Cup世界冠軍。發(fā)表論文400多篇,被引用超過(guò)20000次。

楊強(qiáng)先生認(rèn)為人工智能研究需要的五大條件:夠大的數(shù)據(jù)積累、清晰的問(wèn)題邊界、外部反饋、龐大的計(jì)算資源以及頂級(jí)的數(shù)據(jù)科學(xué)家。而想要滿足這些條件可不是一件容易的事情,因此AI亟需降低門(mén)檻。這也是第四范式正在做的事情。他認(rèn)為我們一方面可以發(fā)展低數(shù)據(jù)依賴(lài)性的遷移學(xué)習(xí)技術(shù);另外,開(kāi)發(fā)一個(gè)真正通用的人工智能平臺(tái),減少對(duì)高端人才和巨大資金支持的需求,降低整體投資成本和風(fēng)險(xiǎn)。
深度學(xué)習(xí)存在一些局限
楊強(qiáng)說(shuō)深度學(xué)習(xí)有一些局限這個(gè)觀點(diǎn)是成立的。它的局限來(lái)自于幾個(gè)方面,因?yàn)橐粋€(gè)模型畢竟是一個(gè)現(xiàn)實(shí)的反映,等于是現(xiàn)實(shí)的鏡像,它能夠描述現(xiàn)實(shí)的能力越強(qiáng)就越準(zhǔn)確。但是我們看到深度學(xué)習(xí)有一個(gè)限制,因?yàn)闄C(jī)器學(xué)習(xí)都是用變量來(lái)描述世界的,深度學(xué)習(xí)能handle的變量數(shù)是有限的,深度也是有限的,另外它對(duì)數(shù)據(jù)的需求量隨著模型的增大而增大,現(xiàn)實(shí)中有那么大、那么質(zhì)量高的數(shù)據(jù)的情況還不多。實(shí)際上一方面是數(shù)據(jù)量,一方面是數(shù)據(jù)里面的變量,深度學(xué)習(xí)來(lái)描述數(shù)據(jù)的復(fù)雜度還不夠復(fù)雜,所以這方面還是有局限性的。

但深度學(xué)習(xí)它是不是目前最好的機(jī)器學(xué)習(xí)的方法? 楊強(qiáng)表示應(yīng)該說(shuō)目前對(duì)某些問(wèn)題是最好的,比方說(shuō)人臉識(shí)別、語(yǔ)音識(shí)別,但是對(duì)其他的問(wèn)題并不是最好的,比方說(shuō)對(duì)于有延遲的反饋,比如機(jī)器人的行動(dòng)。AlphaGo下圍棋也不是深度學(xué)期包打所有的,它還有強(qiáng)化學(xué)習(xí)的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學(xué)習(xí)任務(wù)都不一定是深度學(xué)習(xí)才能來(lái)完成的。

楊強(qiáng)表示現(xiàn)在他做的一項(xiàng)研究是把深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合起來(lái),讓深度學(xué)習(xí)有目標(biāo)。基于有目標(biāo)的延遲反饋的機(jī)器學(xué)習(xí)在現(xiàn)有的深度學(xué)習(xí)中做的不是太好,比如 RNN 能夠解決序列到序列的學(xué)習(xí)(Sequence to Sequence Learning),但它比較短視,沒(méi)有最終目標(biāo)和最終反饋。這就會(huì)出現(xiàn)很多問(wèn)題,比如說(shuō)推薦系統(tǒng)就沒(méi)有辦法在對(duì)話中有效地,自然地使用。同時(shí),在自然語(yǔ)言對(duì)話中,只會(huì)出現(xiàn)毫無(wú)目的的閑聊,使得用戶(hù)體驗(yàn)會(huì)不太好。要改變這些問(wèn)題,就一定要引入強(qiáng)化學(xué)習(xí),這樣才可以進(jìn)行推理并具有長(zhǎng)期的目標(biāo)。同時(shí)在這些算法之上再加一個(gè)遷移學(xué)習(xí)的算法層。這樣,可以把一個(gè)通用的學(xué)習(xí)模型「?jìng)€(gè)性化」到每個(gè)人不同的需求和興趣上。這是目前所聚焦的研究領(lǐng)域。
AI的商業(yè)風(fēng)口

智能客服
楊強(qiáng)表示,人機(jī)交互的智能客服,產(chǎn)生了很多外界公開(kāi)的數(shù)據(jù)以及內(nèi)部的數(shù)據(jù)、知識(shí)庫(kù)等,都可以用來(lái)制造機(jī)器人。尤其是可以用客服過(guò)去的數(shù)據(jù)來(lái)做訓(xùn)練,這個(gè)數(shù)據(jù)量現(xiàn)在在垂直領(lǐng)域是逐漸在增加的?,F(xiàn)在的對(duì)話系統(tǒng)也已經(jīng)逐漸成為深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的焦點(diǎn)。
新聞?lì)I(lǐng)域
另外一個(gè)楊強(qiáng)認(rèn)為比較看好的領(lǐng)域是新聞?lì)I(lǐng)域,新聞的分發(fā)和自動(dòng)寫(xiě)作。有很多編輯、解說(shuō)、自動(dòng)校對(duì)、作家等,其實(shí)是數(shù)據(jù)量足夠多的,有這么多的文本,而且外界反饋也越來(lái)越多了。他指出,給一篇文章,可以用機(jī)器學(xué)習(xí)來(lái)做自動(dòng)摘要。 這樣一個(gè)工作的外部反饋來(lái)自哪里呢?實(shí)際上寫(xiě)的那些paper就是一個(gè)外部反饋,因?yàn)槊科猵aper都有摘要,如果一篇paper被收了,就說(shuō)明摘要寫(xiě)的還不錯(cuò),所以外部反饋還是可以實(shí)現(xiàn)的。
特定任務(wù)的智能機(jī)器人
例如Amazon 的KIVA機(jī)器人,楊強(qiáng)說(shuō)Amazon一個(gè)很大的優(yōu)勢(shì)就是所有的倉(cāng)儲(chǔ)都是由機(jī)器人來(lái)完成的,但是它也有工人,被雇來(lái)用手做抓取,因?yàn)楝F(xiàn)在機(jī)器人的抓取是非常難的,那么人和機(jī)器的優(yōu)點(diǎn)就結(jié)合起來(lái)了。此外,醫(yī)療機(jī)器人也是非常專(zhuān)業(yè)的一個(gè)領(lǐng)域,它可以給人開(kāi)刀縫線,但它不是自動(dòng)的,而是通過(guò)遠(yuǎn)程控制的,但控制的精密度非常高,如果它收集到足夠量的數(shù)據(jù),是可以達(dá)到自動(dòng)的效果的,以后可能開(kāi)刀就由機(jī)器人來(lái)代勞了。楊強(qiáng)還指出在醫(yī)護(hù)領(lǐng)域,無(wú)障礙輔助的應(yīng)用領(lǐng)域痛點(diǎn)特別強(qiáng)烈,現(xiàn)在數(shù)據(jù)量可能還不是特別多,因?yàn)楫吘惯@一群體還是少數(shù)人,但是痛點(diǎn)很強(qiáng),所以未來(lái)也許會(huì)有數(shù)據(jù)。

AI+有機(jī)食品
楊強(qiáng)講到,他在香港曾去訪問(wèn)過(guò)一個(gè)有機(jī)食品工廠,這個(gè)實(shí)驗(yàn)室里的每一株菜,周邊的所有環(huán)境全都記錄起來(lái),比如濕度、溫度、光照,然后就可以收集這樣的數(shù)據(jù)訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)的模型,最后用這個(gè)模型來(lái)做蔬菜。所以得來(lái)的蔬菜滋味可以控制,要脆感還是要甜的,都可以通過(guò)模型學(xué)習(xí)出來(lái)。
FINTECH智能投顧
楊強(qiáng)表示其實(shí)金融是一個(gè)非常好的領(lǐng)域,第四范式在金融領(lǐng)域也積累了很多成功案例。金融領(lǐng)域里的任務(wù)都是非常清楚的,而且每個(gè)任務(wù)的數(shù)據(jù)都有痕跡、有數(shù)據(jù)足跡,數(shù)據(jù)的維度也是多維度的數(shù)據(jù),有外界的、也有內(nèi)界的,非結(jié)構(gòu)數(shù)據(jù)比較多,例如文本和報(bào)告。數(shù)據(jù)也是形成了孤島,鏈條也非常長(zhǎng),并且鏈條里面都有銜接。
中國(guó)人工智能發(fā)展
談到目前國(guó)內(nèi)的人工智能發(fā)展情況,楊強(qiáng)表示國(guó)內(nèi)目前還是相當(dāng)樂(lè)觀的,很多大學(xué)都在研究人工智能。但與國(guó)外相比,國(guó)內(nèi)的不足之處也比較明顯,國(guó)內(nèi)過(guò)多去做機(jī)器學(xué)習(xí),而忽略了人工智能的其他領(lǐng)域,比如邏輯推理、智能規(guī)劃、機(jī)器學(xué)習(xí)的可解釋性和多智能體等前沿領(lǐng)域。

對(duì)人工智能科研人員的建議,楊強(qiáng)認(rèn)為國(guó)內(nèi)的人工智能研究不能太跟風(fēng),要對(duì)自己的研究領(lǐng)域有信心、不斷創(chuàng)新,尤其是在大學(xué)的研究者,每個(gè)大學(xué)的教授應(yīng)該是獨(dú)樹(shù)一幟的,自己領(lǐng)先一個(gè)子領(lǐng)域,而不是跟著別人去做。其實(shí)在科研和工業(yè)界都是需要持續(xù)創(chuàng)新力的,不過(guò)對(duì)公司而言,還是要首先考慮生存,也不要以為人工智能可以包羅萬(wàn)象。
“現(xiàn)在人們對(duì)于人工智能有許多擔(dān)憂,彌合公眾對(duì)人工智能的誤讀是科學(xué)家該做的事情,規(guī)避人工智能不被某些集團(tuán)壟斷、引導(dǎo)人工智能走向大眾更是一個(gè)科學(xué)家的使命。”
—— 楊強(qiáng)
關(guān)于未來(lái)的展望,楊強(qiáng)覺(jué)得未來(lái)應(yīng)該是幾個(gè)人在運(yùn)行一個(gè)公司,每一個(gè)人都能率領(lǐng)成千上萬(wàn)個(gè)機(jī)器人,這些機(jī)器人在做不同的事情,也是它被訓(xùn)練得很擅長(zhǎng)的事情。他指出就當(dāng)前的現(xiàn)狀來(lái)說(shuō),在一個(gè)傳統(tǒng)行業(yè)里,往往是20%的人在做80%的工作,那么這20%的人就是未來(lái)的運(yùn)營(yíng)公司的人,剩下80%的人所做的工作將交由機(jī)器來(lái)完成。一個(gè)公司的自動(dòng)化,智能化程度,也代表了這個(gè)公司在商業(yè)上的反應(yīng)速度和競(jìng)爭(zhēng)力。

楊強(qiáng)表示人工智能給人類(lèi)帶來(lái)的變革是非常深遠(yuǎn)的,人工智能不僅僅是一場(chǎng)比賽、一個(gè)應(yīng)用,而是整個(gè)社會(huì)真正地徹底地在改變。機(jī)器和人將成為一個(gè)共同的“軍隊(duì)”不斷地攻克堡壘,推動(dòng)人類(lèi)進(jìn)程向更好的方向發(fā)展。