聽音識圖？DeepMindAI產生圖、音概念并識別關聯

智慧廣電 dvbcn編輯 2017-08-15 14:19 閱讀 5,113 來源：DVBCN 　

對于一個未經訓練的人工智能來說，世界不過是一個模糊的數據流。大多數人類都可以無障礙地理解周圍的畫面和聲音，但只有這些畫面和聲音被明確地標記出來，算法才能掌握這一技能。

如今，人工智能公司DeepMind開發了一種新的AI技術，通過讓其觀察短小的視頻片段，AI就能學會一系列視覺和聽覺的概念并將其識別區分。例如，這種人工智能可以理解草坪修剪或撓癢癢的概念，但它還沒有掌握如何用語言來描述它感受到的畫面或聲音。

對此，加州大學伯克利分校教授皮利特·阿格拉沃爾說：“我們想要制造一種機器，它能以自主的方式不斷從自身所處的環境中學習進步。”阿格拉沃爾說，這個項目讓我們更接近創造真正人工智能的目標，通過自學來觀察和傾聽周圍的世界。

大多數計算機視覺算法需要輸入大量的標簽圖像，這樣它就能區分不同的物體。通過展示成千上萬張貓咪的照片，它很快就能學會識別貓，即使是之前從未見過的圖片。

但DeepMind的項目負責人Relja Arandjelovic表示，這種被稱為“監督學習”的教學算法是不可擴展的。它的算法不再依賴于人標記的數據集，而是通過將所看到的與所聽到的內容相匹配，從而學會識別圖像和聲音。

像人一樣學習

“人類尤其擅長這種學習，”瑞士伯爾尼大學的教授保羅·法瓦羅說道。他說：“我們身邊可沒有人到處跟著我們，告訴我們一切都是什么。”

據悉，他是通過兩個網絡來創建算法的：一個專門識別圖像的網絡，以及一個識別音頻的網絡。他展示了從短片中截取的圖像識別網絡，而音頻識別網絡則從每段視頻中截取的1秒的音頻片段中進行了訓練。

第三個網絡將靜態圖像與音頻片段進行對比，以了解視頻中哪些聲音與哪些視頻中的圖像相符合。總之，這個系統是經過40萬個視頻中截取的6000萬個靜態音頻訓練的。

該算法學會了在沒有單一概念的特定標簽的情況下，如何識別音頻和視覺概念，包括人群、踢踏舞和水。舉個例子，當你看到某人拍的照片時，大多數時候它知道哪個聲音與哪個圖像有關。

視覺與聽覺

“這種合作學習方法還可以延伸到除了視覺和聽覺之外的感官，”他說。“比如，同時學習視覺和觸覺功能，可以讓人工智能在黑暗中搜索物體，并學習諸如摩擦力等物體屬性。”

消息稱，DeepMind將在10月下旬在意大利威尼斯召開的計算機視覺國際會議上展示這項研究。

雖然DeepMind項目中的人工智能與現實世界沒有互動，但研究人員表示，完善自我監督學習最終會讓我們創造出能夠在現實世界中運行的人工智能，并從它所看到和聽到的東西中學習。

但在我們達到這一目標之前，自我監督式學習可能是一種很好的方式，這樣可以訓練圖像和音頻識別算法，而無需輸入大量人類標記的數據。DeepMind的算法可以將80%的音頻剪輯按照時間的順序正確地歸類，這使得它在音頻識別方面比許多在標簽數據上訓練的算法更出色。這些可喜可賀的成果表明，類似的算法或許能夠通過分析YouTube上數百萬個在線視頻等海量未標記的數據集來學習更多的知識。“世界上的大多數數據都沒有被標記出來，因此開發從未標記的數據中學習的系統是有意義的，”阿格拉沃爾教授這樣說道。