
姚星首先回顧騰訊與中國互聯網二十年的發展歷程,從最初的窄帶時代到現在的移動互聯網時代,在每一個重要節點騰訊都有一款重量級產品出現。在最近進入到 AI 爆發的階段,騰訊也順勢成立了自己的 AI Lab。演講中正式向外公布騰訊 AI Lab 所關注 AI 四個基礎研究領域和 4 個專屬研究方向。也談及在趨之若鶩的 AI 浪潮中,大家對人工智能的希望來自于深度學習的算法、模型和數學理論的突破,但同時深度學習自身的能力局限、計算能力的限制以及數學理論的不可解釋性為過高的期望降溫。
以下為演講內容整理:
各位朋友大家下午好。今天我演講的題目——AI:真實的希望與喧嘩的隱憂。希望表明了大家對 AI 的期待,而隱憂則說明大家期望過高。
騰訊與中國互聯網二十年的發展
回顧中國互聯網過去二十年的發展,這二十年是信息高速發展的二十年,大致經歷了三個發展階段:上個世紀九十年代、21 世紀初期以及2010 年后。

在上世紀九十年代初期,中國第一次連上互聯網——「跨越長城,連接世界」。隨著第一封 e-mail 的發出,中國正式進入到互聯網大家庭中來。但是由于當時網絡速度的問題,大部分互聯網應用只限于溝通。溝通解決了當時的很多問題,人們不再需要面對面才能進行交流,或者通過傳統書信的方式進行溝通。不論天涯海角,只要能連上互聯網,人們總是可以接觸到信息。
隨著整個網絡設備和傳輸能力的發展,特別是 2000 年以來,網吧的大量涌現、網絡連接速度的大幅提升、網絡帶寬速度的快速提升,人們對互聯網的訴求不再僅僅是消息的傳遞和溝通,更多的是分享。當時興起了很多基于分享的應用,博客、MSN、 Facebook、QQ 空間等都是基于分享的。人人為我,我為人人——有很多內容或者信息都是通過互聯網來分享的,比如跟朋友分享生活的喜悅和苦惱。
隨后移動時代的發展,特別是以智能手機為代表的智能終端的發展,也即自 2010 年以來,移動互聯網高速發展所帶來明顯的變革——人們不再受限于特定時間和特定空間的互聯網連接。以前大家都是在網吧或者工作的地方才能獲取互聯網信息,現在大家隨時隨地通過智能手機就可以與互聯網連接。可以看出,中國互聯網過往二十年的發展是隨著設備的發展、產業的發展、信息產業的發展而演進的。
伴隨著互聯網過往二十年的發展,騰訊在過去二十年里做了些什么?實際上在每一個階段,騰訊都有一款重量級的產品出現。

在上世紀九十年代,也即中國互聯網的早期發展階段——窄帶時代,就如剛才所說,當時的互聯網主要是用于溝通,在那個階段騰訊推出了 QQ。QQ 是目前世界上同時在線人數最多的應用,已經達到兩億人同時在線的體量。而到了寬帶時代,在 2000 年初的時候,QQ 空間誕生。QQ 空間目前日上傳照片數超過五億張,這個規模跟世界上最大的社交網絡 Facebook 相比,幾乎是同一個量級,在總照片數量上跟 Facebook 也幾乎是同一個量級(2013 年 Facebook 公開數據顯示其日上傳照片數大概是在 2.5 億張左右,總照片數大概 6000 億張)。
然后來到移動互聯網時代,為大家所熟知的一個產品就是微信。這款產品不僅是一個簡單的應用,WeChat 是一個超級 APP。微信不僅解決了溝通問題,還解決了社交、分享的問題,還支持線下支付、線下打車,甚至醫院掛號看病、交水電費等一系列功能都可以在這一個軟件上實現。實際上,騰訊的這三款產品在整個世界范圍內都是領先的。
從整個發展史來看,我們可以看出過往的發展史經歷窄帶時代、寬帶時代,然后到現在的移動互聯網時代,它猶如生物進化一般,從原始的單細胞生物到多細胞生物到最后有智能的生物。那么今年來講「智能」,智能會更加的廣義,不僅僅是智能終端,大家討論更多的智能是 AI。

騰訊的 AI 布局
2016 年正好是 AI 發展六十周年,從去年開始 AI 迅速爆發,可以說是家喻戶曉。這也是為什么我剛剛在跟很多嘉賓聊的時候說,大家覺得騰訊在 AI 上很低調,沒有什么大動作。甚至有很多人問我騰訊到底有沒有在做 AI?怎么從來沒有向外界宣布任何 AI 相關的布局規劃呢?實際上騰訊有自己的 AI 部門,從 2016 年 4 月份開始,騰訊成立了自己的 AI Lab,目前已經有 30 多位的 Research Scientists,絕大多數擁有博士學歷及以上且都有海外研究經歷。他們中業界的來自于微軟、IBM、Facebook 等公司,學術界是從世界最頂級學府引進的人才,包括斯坦福、加州伯克利、康奈爾、麻省理工、哥倫比亞大學等頂級高校。

目前在騰訊,我們已經組織了一個 30 人左右的 AI Lab,而且規模還在擴張。騰訊的 AI 可能不像其它公司的 AI 為人所了解,比如說谷歌的 AI,很多人都知道 DeepMind 在做圍棋,他們用強化學習來實現,而且他們用強化學習來完成很多任務。以及他們提出了很多的神經網絡結構(neural network),比如 WaveNet,deepNet,LipNet 等;而百度為大家所熟知的有無人車、度秘等一些產品。但騰訊的 AI 一直沒有對外宣傳,今天我也跟大家分享騰訊在 AI 上面的一些考慮。
實際上騰訊的 AI 主要基于四個垂直領域,計算機視覺(Computer Vision)、語音識別(Speech Recognition)、自然語言處理(NLP)和機器學習(Machine Learning),每一個領域都是代表了 AI 的一個基礎的研究方向,但是每個領域都可以更多深層次的研究拓展。比如在計算機視覺領域,除了傳統的圖像處理還會有增強現實(AR)的研究拓展,也會引入空間定位(Simultaneous Localization and Mapping)技術;比如在語音識別領域,我們除了傳統的語音識別、語音合成以外,還會引入更多的跟語音相關的拓展研究比如說自動翻譯(Translation)。另外在 NLP 里,除了傳統的自然語言處理的對人的認知行為的一些研究,我們還會做聊天機器人的一些研究。在 ML 里,從監督類的機器學習到無監督的機器學習,然后到增強學習的機器學習,都會展開相關的研究。這四個領域基本上涵蓋了當今整個 AI 基礎研究領域的方方面面,也是騰訊 AI Lab 將會關注的四個基礎研究領域。

然后我們還提出了四個專屬的研究方向,這是結合整個騰訊公司的業務來進行的。
我們提出了內容 AI(Content AI),我們把基于內容類的推薦和搜索類的應用都歸屬在內容 AI 里。
另外還有我們的社交 AI(Social AI),騰訊是一個社交應用上很強勢的公司,包括剛剛說的 QQ 空間、微信都是社交平臺,所以在社交 AI 上面我們會基于社交考慮來研究相關的 AI 技術,比如社交中的對話、聊天機器人、智能助手等,都會納入這個研究方向中來。
另外一個方向,我認為是和全世界其他所有的公司都不太一樣的一個 AI 方向,即我們的游戲 AI(Game AI)。大家可能會問我,DeepMind 也有做圍棋的 AI,但是它只是一個圍棋游戲,它不會涉及到太多的游戲。而對于騰訊來講,在整個騰訊集團里面,游戲是騰訊一塊很大的業務。我們會在游戲里面引入更多 AI 能力,實際上這個 AI 游戲的想像空間是非常大的。大家試想一下,會不會有一天 LOL 里 AI 也來參加世界電競賽,與人類交戰。大家知道現在騰訊有一款很受歡迎的手游叫做「王者榮耀」,如果把這里面的能力提升,是不是可玩性、樂趣性就會更多,騰訊對這一塊也是很關注的。
除此之外我們還會提供很多工具類的 AI,會結合到騰訊的云服務,我們需要研發相關技術從而加強相關能力來實現這些工具的開放。這些工具將包括基于圖像的人臉識別的能力、語音識別的能力、在自然語言處理里的輿情處理能力等,還包括我們在深度學習上的開放深度學習平臺的能力。
所以說從目前來講,整個騰訊 AI 研究的基礎領域是四個,我們的專屬研究方向也是四個。
深度學習喧囂之下的隱憂
AI 不是一個新的概念,它的發展經歷了六十多年,在這六十年里,人工智能的發展之路并不平坦。在去年人工智能又突然爆發了,勢頭一直延續到了現在。1956 年的達特茅斯會議,AI 這個名詞被首次提出。人工智能比較有名的事件是九十年代 IBM 深藍打敗了卡斯帕羅夫,也就是那個時代的 AlphaGo 和李世乭。人們記憶中最清晰的一件事還是去年 AlphaGo 圍棋打敗圍棋世界冠軍李世乭,這表明在圍棋這個最古老、最復雜的游戲上面,AlphaGo 的智能已經超越了人類。

當然整個發展史里面也有很多技術方面的演進,比較有代表性的就是 2006 年,Geoffery Hinton 在深度學習上有了巨大的突破,帶領 AI 的所有發展方向極速提升。我認為這次人們期待 AI 最主要的原因是這一次 AI 的底層算法在深度學習上面有了實質性的突破。
這次 AI 的發展是從 2012 年開始的,先在業界落地。可以看到整個深度學習的方法和傳統方法完全不一樣,不像以前的研究方法,是通過模仿來實現的。這一情形和早期人類想粘上羽毛學習飛翔比較類似,我們都知道真正的飛翔是通過空氣動力學去完成的,這也是深度學習的一個思想之一。之所以現在能有很多應用上的突破,是因為研究員們掌握了內在的學習方法,而不是表面的模仿。所以從這一點來說,我們現在在深度學習的研究方法上是正確的。
第二個是模型上的提升,剛才我說了,AI 的發展有六十年,機器學習以及深度學習并不是最近才突然出現的。神經網絡早在六十年代就有過——當時提出來感知機(perceptron)。機器學習在八九十年代也非常火,當時有一個叫 SVM(支持向量機)的分類器,已經是非常厲害的一種機器學習的算法。那么現在為什么又重新提出來?深度學習同原來的機器學習相比,在模型能力上有非常大的提升。大家都知道我們所有的機器學習的方法,都是從 A 到 B 去尋找一個擬合函數,實現一個最佳的擬合過程。在這個過程中如果選取的特征越多,擬合的效果就會越好。但同時有一個問題,當特征太多的時候,計算能力就會出現問題。在淺層模型中,如果要模擬出一個從 A 到 B 的完美擬合過程,它的數據能達到幾億甚至幾十億的規模,當他達到這種規模的時候它的計算能力就會急劇下降,會通過一個非常復雜的復合函數去描述數據。但是深度學習的方式能夠很好的解決這個問題,它通過深度學習神經網絡的多層連接,其特征表達是一個指數層倍的關系,如果說用一個全連接(fully connected)描述十億的特征,可能我們只需要三層一千個節點的連接,就能構建十億個特征的權重出來。所以從本質來講,模型上的提升也是深度學習的一個突破。
另外,針對反向傳播問題(BP),AI 界從 80 年代開始真正使用 BP 算法來訓練多層神經網絡。在神經網絡里,當輸入信息由多層網絡向前傳播之后,將網絡的輸出結果與實際結果的誤差,從輸出層向輸入層反向傳播。在整個 BP 過程,都是需要通過隨機梯度下降的方式進行求解,以逐漸逼近最優值。今年來,隨著網絡結構的不斷加深,使用傳統的 Sigmoid 激活函數使深層網絡的參數優化過程中出現梯度消失的問題。通過一些數學的理論和技巧,可以很好解決這種梯度消失問題,以用于訓練非常深層的神經網絡。

正因為這三方面的優勢,使得在這次 AI 的浪潮里,深度學習才會如此之火。而且我堅信這次的 AI 浪潮會持續很久。在 1993 年到 2000 年左右,整個傳統的淺層機器學習的研究進展還是很不錯的,圖中可以看到這段時期錯誤率有明顯的下降,也即識別效果的提升很快。但是從 2000 年到 2010 年這十年,可以看出沒有明顯的下降變化。可能是在方法上面,在模型上面都沒有太大的研究進展。在 2012 年左右有一個明顯的轉折點,也就是微軟研究院第一個在業界把深度學習用于語音識別,取得了極大性的突破,隨后又進行了一系列性能上的提升。在過往的五年當中,深度學習的發展是非常快的。
講了很多深度學習的內容,剛才談到深度學習的快速發展,它的方法很好,模型也很好,數學算法也在突破,但是現狀是什么呢?今天我想談的話題是大家對 AI 的期待很大,但期待有些過,為什么會這么講?作為一個從業者,我認為目前 AI 上還是有很多局限的,可能需要提出來,與大家一起探討。
第一個是深度學習本身所具備的能力,即大家所說的將 AI 與人類相比,存在多大的差距。實際上如今所有的深度學習方法,不論這個方法有多么的新,其學習過程都是要從頭開始,需要經歷數據重新訓練的過程。這一點和人的學習能力相比確實有很大的差距,因為人有很多的智能是與生俱來的,如小孩剛出生,他感知這個世界是三維的并不需要多長時間,并且如果你將一個物體放在電視機后面,他會知道電視機后面有這樣一個物體,這些能力是與生俱來的,其與生物的進化是相關的。所以靈長類動物和單細胞生物相比是有與生俱來的能力的,人類的小孩不需要再次經歷單細胞演進到靈長類動物這一過程。但在目前的深度學習方法下,不論我們提出了多么優秀的模型,其都需要從最開始的數據開始學。這和人類的學習能力相比,是一個巨大的缺陷。
第二個是計算能力。不論是多么好的深度學習模型或者神經網絡出現,本質上還是通過計算能力去解決大數據的問題,更好的計算能力去做更好的擬合。在這個計算力上面,過往的十年是整個硬件發展的十年,是符合摩爾定律的。但是在以后需要訓練更多參數的情況下,我們能否有足夠的計算力以達到預期效果還有待商榷。
從 2012 年提出來的 AlexNet 網絡模型,這個模型在當時的 ImageNet 挑戰賽中獲得冠軍,到劍橋大學提出的 VGGNet,谷歌提出的 GoogleNet,再到 2015 年 MSR 提出的殘差神經網絡 ResNet,每一次新模型的提出都伴隨著模型層級的增加、神經單元復雜度的加強、訓練過程的加長,當然得出來的結果也更好。但是這種通過計算力去解決問題的方式是不是還能像以前一樣可持續,有待商榷。
剛才所說的都是圖像方面的研究,談及人工智能來解決系統認知問題,那么與人的差距就更大了。人類語言是一個序列問題,這個語言序列問題如果通過神經網絡去訓練的話,僅通過計算力是不可能解決這個問題的。人在對話當中很容易回溯到長時間語句的某個片段關鍵詞里。但在機器學習中卻不一定能做到這樣,雖然從最早的 RNN 模型中構建了 LSTM(長短期記憶單元)模式,后來又提出了帶注意力的模型。但總體上,這種模型的演進和人類相比是遠不如人類的。舉個自然語言處理(NLP)的例子,有三個人在對話,兩個人在聊湖人跟快船的比分是幾比幾,然后中間有大段話題轉到去哪里吃飯,突然插進來第三個人問太陽呢?機器這時候很難理解「太陽」到底是哪個太陽,聊天者知道這是描述太陽隊,因為在「去哪吃飯」這個話題前有湖人和快船的話題。但是機器基本上沒辦法識別,又如「夏天能穿多少穿多少,冬天能穿多少穿多少」,這兩句基本一樣,但前面的描述突出少,后面的突出多。這種認知行為到目前為止,深度學習上再先進的方法也沒辦法處理。
第二個例子是語音識別,我看過一個笑話,語音識別很難處理,「您好,方便面試嗎?」我在重復這句話的時候,我都不知道自己在講方便面——是嗎,還是方便——面試嗎,這的確是一個非常難的問題。但是人的理念里有很多東西,是可以通過反問,多次獲取信息來最終理解。所以說目前人工智能情況,在圖像方面,例如人臉識別的精確率有多么高能達到 99% 的識別率,但實際上是在很多的約束條件下才能實現,識別正臉的模型不能識別側臉,或者是把同一個人的側臉完全識別成另外一個人。在語音識別里也是如此,目前語音識別是在獲取的信息源很干凈的情況下才能有很好的效果,比如噪音比較小、沒有混響、沒有風噪和車噪,在這樣的條件下,機器在聽語音識別的時候才可能會識別出比較好的效果。但對人來說,這完全不是問題,以及多人的面部識別,語音跟蹤,這些對人來說都不是很難。但是對機器而言,即便在我剛剛所說的感知領域——圖像識別和語音識別,它跟人基本的能力相比還有很大差距,更別提在認知的任務處理上,比如 NLP 的語意理解。

對于整個人工智能領域來說,我認為人們現在對 AI 的期待過高。我們要回歸現實,AI 現在方興未艾,這個趨勢是很好。但未來 AI 發展的方向是什么呢?我覺得 AI 跟人,也即深度學習跟人的能力相比還是有些差距的。
跟人相比第一個是創造力的不足。我們現在所有深度學習的模型都是基于大數據的,這些數據從何而來?目前的數據還是通過傳統的方法獲取到的,但能不能通過深度學習本身創造出更多的數據?AlphaGo 已經在驗證這樣的問題,通過增強學習產生了人類從未下過的棋局并以此來訓練模型,這是一種創造數據的能力。我覺得未來在這方面發展,在增強學習上,我們要進行更多的發展和突破。
第二個是舉一反三能力。AlphaGo 下圍棋能贏世界冠軍,但是它如果改下其他的棋,它的下棋方法就不行了,因為它的算法只是為圍棋而設。人的很多能力是可以舉一反三的,比如小孩做數學題,當他學會列二元一次方程之后,他會很快掌握二元一次方程的技巧去解決這一類的數學應用。這種能力在機器學習里面也有一個同質的算法——遷移學習。當我們在一個全新的應用場景里,在少量數據的情況下去測試一個在大數據集上表現非常好的模型,如何把原來的模型遷移過來并且能夠應用在新場景里,這是一個非常重要的研究方向。
第三是歸納總結的能力。人的總結能力是很強的,比如牛頓第一定律、萬有引力定律等,都是總結出來的,還有很多公理也都是歸納總結出來的。但是目前機器學習是沒辦法進行歸納總結的,機器學習的結果再好也只是一個擬合過程,并沒有能力去歸納提煉。未來我們要在模型歸納總結能力上提高,如何從海量的結構化或者非結構化的數據中,通過機器學習來完成知識的總結和提煉神經網絡中的知識(distill knowledge)。
這三個能力,我認為這是未來 AI 需要進行提升的地方。
另外一個維度的缺陷是在數學理論的發展方向上,剛剛講過的很多機器學習適用的數學原理和方法,實際上是很脆弱的。跟過往淺層學習的數學理論相比,深度學習的數學原理還有很多不可解釋。在淺層學習里,有完備的統計學概率論理論提供支撐。比如求解凸函數的極值,有很多完善的數學理論能夠證明有最優解的存在。但是在深度機器學習的研究中,雖然前面有提到可以用隨機梯度下降的方法去求解局部最優值,但是它只是一個框架。我們在很多方面還在使用啟發式的約束,比如初始化參數的設置、激活函數的設置、學習率是多少,這都是基于啟發式的,也即依賴于人的經驗。未來機器學習的繼續發展,在數學理論上面一定要有強大的支撐。此外,在交叉學科的研究上要繼續加強,我們知道感知機以及神經網絡的提出來源于腦神經學科,未來 AI 發展肯定要引入更多學科,不僅是統計學科、數學學科、計算機學科,還要引入腦神經學科。之前所提到的殘差神經網絡,這個網絡在設計上已經有一點接近腦神經的設計了。因此,未來 AI 能有更完備的發展,是需要將這些學科的研究都綜合起來的。
再有一點,就是 AI 研究的開放與平等。我認為對任何公司和任何人,AI 都應該是平等的,這也是我們要做開放 AI 的立足點之一。在現在的 AI 領域里,所有的大公司都在做開源,騰訊當然會開放自己的研究。各大公司在開源上都表現出很積極的一面,比如谷歌開源了自己的機器學習框架 TensorFlow,還有很多機器學習的先行者(DeepMind、OpenAI)在做開源,在開放開發框架和訓練數據。騰訊未來也會進行開源很多內容,提供一個讓更多人參的平臺,共同開發人工智能。

對于未來 AI 技術的發展,首先是能力的提升,在創造能力、舉一反三能力以及歸納總結能力上有長足進步;另一方面是機器學習的完備性,我們要在數學完備、學科完備上進一步進行探索;同時,所有的科技公司,AI 的參與者都要以更加開放的心態去面對人工智能。
未來 AI 大有可為
說到這個話題,我又想再次強調 AI 對騰訊來說是非常重要的,對整個中國互聯網都很重要。回顧整個互聯網浪潮,在互聯網時代的初始階段,中國的互聯網公司跟美國最強的互聯網公司相比有一定的差距。而當下的 AI 時代,我堅信中國的互聯網公司跟世界上一流的公司是處于同一位置的,為什么?第一點原因,我們數據足夠多,中國的互聯網人數是世界上其他國家的互聯網人數的總和。在騰訊的業務里面,微信、QQ、QQ 空間,已經產生了海量數據。在中國的其他互聯網公司,比如電商和搜索的公司也會產生大量數據,這些對中國公司來說,是一個非常好的優勢。第二個原因是來自應用場景,對于騰訊的業務來說,我們有很多種把 AI 這種聽起來似乎遙不可及的技術在微信、游戲、新聞、QQ 里通過 AI 產品去落地,哪怕只是一個小點上的應用。第三點是人才,目前的數據表明從事深度學習的研究人員中相當一部分人都是中國人。雖然國內在機器學習上的專業還比較少、學科也比較少,但是在全球范圍內,研究深度學習和機器學習的華人是非常多的。我參加 16 年的 ICML 和 NIPS,ICML 有 3000 多人,NIPS 有 6000 多人,有 30-40% 的參會人員都是華人,40% 的會議 paper 都是華裔寫的,在人才結構上,中國有很好的人才基礎。正是基于我們數據的優勢,場景落地的優勢,人才結構的優勢,我覺得騰訊以及其他中國互聯網公司,未來在 AI 上大有可為。
最后,騰訊的 AI 使命: Make AI Everywhere——讓 AI 無所不在。
相關推薦
“退潮之后裸泳者立顯”,隨著倫敦奧運會結束,急于通過大事件營銷上位的騰訊正面臨尷尬局面:其重金投入打造的主打視頻自制節目招商失敗、廣告為零,不得不從主打欄目推薦位撤下;而其微博奧運戰略,雖然號稱重金簽下數十位國家奧運體育明星,但在各項數據上卻全面敗給了新浪;兩大業務線合力,鑄造了史上花錢最多、錢景最慘淡的“門戶奧運戰”。“騰訊重金打造、巨資推廣的主打視頻節目《品蔚英倫》,從上線到下線,居然一個廣告都沒賣出去。另一檔節目中途為了招攬客戶而換將、改名,才算賣出了個冠名。”一位行業分析人士表示,在騰訊網上可以看到,原本作為騰訊奧運主打視頻欄目的《品蔚英倫》不僅沒能賣出一家廣告,而且隨著賽事開始,早早