剛剛得到的消息,科技汽車公司特斯拉宣布計算機視覺著名學者 Andrej Karpathy 加盟,他已成為該公司自動駕駛研究部門的一員。在此之前,Karpathy 是伊隆·馬斯克旗下的人工智能研究機構 OpenAI 的研究者。這位畢業于斯坦福大學的計算機視覺專家擁有人工智能領域的豐富履歷,他在博士期間曾師從于著名學者李飛飛,研究卷積/循環神經網絡架構與計算機視覺應用。
在學習期間,Andrej Karpathy 還共同構建了斯坦福大學最受尊敬的深度學習教程,他在斯坦福大學的研究著重于構建一個神經網絡系統,通過識別圖像中離散的特征點用自然語言對圖片進行標注。此外,他還構建了一個反向系統,通過用戶描述的自然語言(如「白色網球鞋」)來搜索圖片庫中的圖像。
從斯坦福畢業后,Karpathy 曾在谷歌研究院、DeepMind 等公司和機構實習,他的研究專注于深度學習。他在計算機視覺領域的專長顯然被特斯拉視為巨大的財富——這家著名公司一直試圖打造面向未來的自動駕駛技術。
Andrej Karpathy 在特斯拉的新職位是:人工智能和自動駕駛視覺總監(Director of AI and Autopilot Vision),特斯拉表示,Karpathy 將直接向馬斯克負責,但同時也會與特斯拉副總裁、負責自動駕駛硬件與軟件工程的 Jim Keller 共同工作。
特斯拉宣布 Andrej Karpathy 加盟的聲明如下:
Andrej Karpathy,世界一流的計算機視覺和深度學習專家之一,現在已經以人工智能和無人駕駛視覺總監的身份加入了特斯拉,可以向 Elon Musk 直接進行匯報。Andrej 曾經通過對 ImageNet 的研發給予計算機以視覺,通過對生成模型的開發給予計算機以想象力,并且通過強化學習給予其瀏覽互聯網的能力。
Andrej 在斯坦福大學拿到了他的計算機視覺博士學位,在那里他就可以應用深度神經網絡來推導出圖像的復合形式。比如,不僅僅能簡單地識別圖片里有一只貓,還能識別出這是一個「橙色斑點」貓,正騎在一個棕色木板和紅色輪子制成的滑板上。他也創辦并且教授了「用于視覺識別的卷積神經網絡」(「Convolutional Neural Networks for Visual Recognition」)這門課程,這是斯坦福大學的第一個深度學習課程,直到現在仍然處于業內領先地位。(相關課程鏈接:http://cs231n.stanford.edu/2016/)(http://cs231n.stanford.edu/2016/%EF%BC%89)
Andrej 將會和 Jim Keller 緊密配合,后者現在已經全權負責無人駕駛的硬件和軟件開發。
Karpathy 的個人簡歷時間線
個人簡介:Andrej Karpathy 是深度學習計算機視覺領域、生成式模型與強化學習領域的研究員。博士期間師從李飛飛研究卷積/循環神經網絡架構,以及它們在計算機視覺、自然語言處理以及二者交叉領域的應用。在讀博期間,兩次在谷歌實習,研究在 Youtube 視頻上的大規模特征學習,2015 年在 DeepMind 實習,研究深度強化學習。與李飛飛一起工作時,設計、教授了新的斯坦福課程《卷積網絡進行視覺識別(CS231n)》。博士畢業論文為《CONNECTING IMAGES AND NATURAL LANGUAGE》。
論文:連接圖像與自然語言(CONNECTING IMAGES AND NATURAL LANGUAGE)
論文鏈接:http://cs.stanford.edu/people/karpathy/main.pdf
審核導師
摘要:人工智能領域的一個長期目標是開發能夠感知和理解我們周圍豐富的視覺世界,并能使用自然語言與我們進行關于其的交流的代理。由于近些年來計算基礎設施、數據收集和算法的發展,人們在這一目標的實現上已經取得了顯著的進步。這些進步在視覺識別上尤為迅速——現在計算機已能以可與人類媲美的表現對圖像進行分類,甚至在一些情況下超越人類,比如識別狗的品種。但是,盡管有許多激動人心的進展,但大部分視覺識別方面的進步仍然是在給一張圖像分配一個或多個離散的標簽(如,人、船、鍵盤等等)方面。
在這篇學位論文中,我們開發了讓我們可以將視覺數據領域和自然語言話語領域連接起來的模型和技術,從而讓我們可以實現兩個領域中元素的互譯。具體來說,首先我們引入了一個可以同時將圖像和句子嵌入到一個共有的多模態嵌入空間(multi-modal embedding space)中的模型。然后這個空間讓我們可以識別描繪了一個任意句子描述的圖像,而且反過來我們還可以找出描述任意圖像的句子。其次,我們還開發了一個圖像描述模型(image captioning model),該模型可以根據輸入其的圖像直接生成一個句子描述——該描述并不局限于人工編寫的有限選擇集合。最后,我們描述了一個可以定位和描述圖像中所有顯著部分的模型。我們的研究表明這個模型還可以反向使用:以任意描述(如:白色網球鞋)作為輸入,然后有效地在一個大型的圖像集合中定位其所描述的概念。我們認為這些模型、它們內部所使用的技術以及它們可以帶來的交互是實現人工智能之路上的一塊墊腳石,而且圖像和自然語言之間的連接也能帶來許多實用的益處和馬上就有價值的應用。
從建模的角度來看,我們的貢獻不在于設計和展現了能以復雜的處理流程處理圖像和句子的明確算法,而在于卷積和循環神經網絡架構的混合設計,這種設計可以在一個單個網絡中將視覺數據和自然語言話語連接起來。因此,圖像、句子和關聯它們的多模態嵌入結構的計算處理會在優化損失函數的過程中自動涌現,該優化考慮網絡在圖像及其描述的訓練數據集上的參數。這種方法享有許多神經網絡的優點,其中包括簡單的均質計算的使用,這讓其易于在硬件上實現并行;以及強大的性能——由于端到端訓練(end-to-end training)可以將這個問題表示成單個優化問題,其中該模型的所有組件都具有一個相同的最終目標。我們的研究表明我們的模型在需要圖像和自然語言的聯合處理的任務中推進了當前最佳的表現,而且我們可以一種能促進對該網絡的預測的可解讀視覺檢查的方式來設計這一架構。
本文為機器之心編譯,轉載請聯系本公眾號獲得授權。