就像人在競爭/合作環境中會進步更快一樣,如果讓多個人工智能來進行對抗或者協作,它們的學習和進化速度是否會得到大幅提升?




位于Google本部的人工智能團隊Google Brain(不是 DeepMind),就針對這個問題在去年做了一個很有趣的實驗。結果發現:他們搭建的人工智能系統,在實驗里自己創造出了一個加密算法,不光人猜不透,還能“自我升級”,讓算法無法破解。這一切,就發生在三個人工智能系統的比賽中。
研究者用到了三個并不復雜的神經網絡來搭建這個實驗,它們分別名為 Alice、Bob和 Eve。
Google 大腦的兩個人工智能竟然自主“進化”了
Alice 和 Bob 為同一方,均未學過任何的加密知識,而是單純依靠二者之間的共識(一段共享的密鑰 K),去自己“琢磨”,設計出一個加密的方法……研究者給出一段16個字節的原文本 P,Alice 按照自己設計出的方法輸出一段密文 C。Bob 再用密鑰 K 配合 Alice 發來的密文 C,自己設計出解密的方法,不斷嘗試,解密出一個答案。
而 Eve 則扮演“敵方”的監聽者的角色,能夠竊聽到密文 C,在沒有密鑰 K 的前提下,同樣是自己設計解密方法,去猜測原文本是什么。
研究者沒有對 Alice、Bob 和 Eve 進行過任何的加密訓練,實驗的全稱也沒有外部輸入任何加密知識,全靠猜。至于猜沒猜對,研究者不會給它們簡單的“對”或者“錯”,而是會分別告訴 Alice、Bob 和 Eve,它們以及對方猜的答案,和原文本之間錯了多少位。
整個實驗的邏輯和戰爭時期的電臺通訊差不多。但需要注意的是 K 并非加密方法,只是一串非常單純的密鑰而已。就好像同在舊上海的兩個共軍特工,雙方都知道對方是自己人,但僅此而已,沒有通用的密碼本,只能靠不斷地試錯去逐漸明白對方采用的加密方式,還要不斷地提升自己的加密技巧,好讓國軍特務無法突破。
等等,你說什么?提……升?
沒錯!盡管實驗開始之前誰都不知道“加密”到底是個什么玩意,這些神經網絡還真的在過程中提高了加密技巧……它們會根據上一輪各自的錯誤程度,去修改加密算法。
研究人員發現,當總猜測次數超過了六、七千次的時候,作為“己方”的 Bob 和“敵方”的 Eve,每次猜測的錯誤位數都呈現出了下降的趨勢。Eve 的性能提升比較緩慢,在之后的將近五千次嘗試中錯誤的位數從8降低到了 6;而 Bob 的準確度飛速提高,很快就將錯誤位數降低到了 1 位……
Google 大腦的兩個人工智能竟然自主“進化”了

這還沒完——有沒有看到上圖中,接近一萬次左右的時候,紅線 (Bob) 的錯誤率又提高了?發生了什么?
這正是整場試驗最有趣之處。那時的 Alice 做了一個決定:“提高”它設計的加密算法復雜程度……
Alice 的決定,立刻影響了另外兩個神經網絡的性能。好在 Bob 只花了一千次左右的嘗試就回到了正軌,繼續降低錯誤率直至 0,很快和 Alice 之間建立了完整的共識,之后無論 Alice 怎么調整都能很快完成修正。
至于 Eve,再也找不到之前的感覺,錯誤率再度升高,在后來的幾次 Alice 調整算法中,完全失去了方向。
這個實驗的環境,在深度學習領域被稱為生成式對抗網絡 (Generative Adversarial Network, GAN)。這種結構通常有兩個、三個甚至多個神經網絡,各自扮演自己的角色,在環境搭建好之后人類研究者只輸入極少量的原始信息,主要用來觀察神經網絡各自的表現。
生成式對抗網絡是時下人工智能學界最熱門的技術之一。一般來說,當人類想要研究人工智能“舉一反三”的能力時,生成式對抗網絡是體現效果最好的技術。去年年底,蘋果公司公開發表了它的第一篇人工智能論文,介紹了一種能降低圖像識別功能開發成本技術,采用的就是類似于生成式對抗網絡的結構。
Google 大腦的兩個人工智能竟然自主“進化”了

這個實驗證明了什么?至少從實用的角度,我們發現作為兩個未經訓練的神經網絡,Alice 和 Bob 有能力在一萬次嘗試之內學會一種加密算法,而且沒有進行直接的對話——這就好比兩個三歲小孩用了幾個小時就研究明白了大學級別的密碼學……還挺讓人印象深刻的。
至于人工智能是不是已經學會了欺騙?倒不用擔心它會背著人類偷偷搞事情。Alice 和 Bob 所采用的加密算法,的確是兩個神經網絡自己摸索出來的,人類沒有提供教學。但畢竟人類是實驗環境的搭建者,需要做一些非常細致的工作,比如設計和搭建神經網絡,以及對正確、錯誤、勝利和失敗的定義等等。
更有趣的是,不光是 Brain 團隊,Google 之前收購的另一家公司 DeepMind 也在搞類似的人工智能合作-對抗實驗。
Google 大腦的兩個人工智能竟然自主“進化”了
DeepMind 找了兩個人工智能玩對抗游戲。第一個游戲名叫 Gathering(上圖左),比賽收集蘋果,人工智能控制的玩家可以用激光凍結對方。研究者發現,當蘋果的余量充足時,雙方相安無事,但當余量不足時,對抗就比較激烈了,凍結的情況經常發生。而當其中一方換成級別更高人工智能時,它會更主動地提前凍結對手。研究者猜測這種行為源自更復雜的策略,只有高級智能才可以掌握。
第二個游戲名為 Wolfpack(上圖右),兩個人工智能一同扮演紅色的“狼”,在復雜的障礙環境中追逐藍色的“羊”,但規則要求只有雙方都在羊的附近時,才能形成包圍,捕獲從而得分。
和第一個游戲類似的情況出現了:研究者發現,引入的人工智能界別越高,約容易明白得分的道理和最快路徑……
責任編輯:吳昊