李飛飛高徒Andrej Karpathy加盟特斯拉,擔(dān)任人工智能與自動駕駛視覺總監(jiān)
剛剛得到的消息,科技汽車公司特斯拉宣布計(jì)算機(jī)視覺著名學(xué)者 Andrej Karpathy 加盟,他已成為該公司自動駕駛研究部門的一員。在此之前,Karpathy 是伊隆·馬斯克旗下的人工智能研究機(jī)構(gòu) OpenAI 的研究者。這位畢業(yè)于斯坦福大學(xué)的計(jì)算機(jī)視覺專家擁有人工智能領(lǐng)域的豐富履歷,他在博士期間曾師從于著名學(xué)者李飛飛,研究卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)與計(jì)算機(jī)視覺應(yīng)用。
在學(xué)習(xí)期間,Andrej Karpathy 還共同構(gòu)建了斯坦福大學(xué)最受尊敬的深度學(xué)習(xí)教程,他在斯坦福大學(xué)的研究著重于構(gòu)建一個神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過識別圖像中離散的特征點(diǎn)用自然語言對圖片進(jìn)行標(biāo)注。此外,他還構(gòu)建了一個反向系統(tǒng),通過用戶描述的自然語言(如「白色網(wǎng)球鞋」)來搜索圖片庫中的圖像。
從斯坦福畢業(yè)后,Karpathy 曾在谷歌研究院、DeepMind 等公司和機(jī)構(gòu)實(shí)習(xí),他的研究專注于深度學(xué)習(xí)。他在計(jì)算機(jī)視覺領(lǐng)域的專長顯然被特斯拉視為巨大的財富——這家著名公司一直試圖打造面向未來的自動駕駛技術(shù)。
Andrej Karpathy 在特斯拉的新職位是:人工智能和自動駕駛視覺總監(jiān)(Director of AI and Autopilot Vision),特斯拉表示,Karpathy 將直接向馬斯克負(fù)責(zé),但同時也會與特斯拉副總裁、負(fù)責(zé)自動駕駛硬件與軟件工程的 Jim Keller 共同工作。
特斯拉宣布 Andrej Karpathy 加盟的聲明如下:
Andrej Karpathy,世界一流的計(jì)算機(jī)視覺和深度學(xué)習(xí)專家之一,現(xiàn)在已經(jīng)以人工智能和無人駕駛視覺總監(jiān)的身份加入了特斯拉,可以向 Elon Musk 直接進(jìn)行匯報。Andrej 曾經(jīng)通過對 ImageNet 的研發(fā)給予計(jì)算機(jī)以視覺,通過對生成模型的開發(fā)給予計(jì)算機(jī)以想象力,并且通過強(qiáng)化學(xué)習(xí)給予其瀏覽互聯(lián)網(wǎng)的能力。
Andrej 在斯坦福大學(xué)拿到了他的計(jì)算機(jī)視覺博士學(xué)位,在那里他就可以應(yīng)用深度神經(jīng)網(wǎng)絡(luò)來推導(dǎo)出圖像的復(fù)合形式。比如,不僅僅能簡單地識別圖片里有一只貓,還能識別出這是一個「橙色斑點(diǎn)」貓,正騎在一個棕色木板和紅色輪子制成的滑板上。他也創(chuàng)辦并且教授了「用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò)」(「Convolutional Neural Networks for Visual Recognition」)這門課程,這是斯坦福大學(xué)的第一個深度學(xué)習(xí)課程,直到現(xiàn)在仍然處于業(yè)內(nèi)領(lǐng)先地位。(相關(guān)課程鏈接:http://cs231n.stanford.edu/2016/)(http://cs231n.stanford.edu/2016/%EF%BC%89)
Andrej 將會和 Jim Keller 緊密配合,后者現(xiàn)在已經(jīng)全權(quán)負(fù)責(zé)無人駕駛的硬件和軟件開發(fā)。
Karpathy 的個人簡歷時間線
個人簡介:Andrej Karpathy 是深度學(xué)習(xí)計(jì)算機(jī)視覺領(lǐng)域、生成式模型與強(qiáng)化學(xué)習(xí)領(lǐng)域的研究員。博士期間師從李飛飛研究卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),以及它們在計(jì)算機(jī)視覺、自然語言處理以及二者交叉領(lǐng)域的應(yīng)用。在讀博期間,兩次在谷歌實(shí)習(xí),研究在 Youtube 視頻上的大規(guī)模特征學(xué)習(xí),2015 年在 DeepMind 實(shí)習(xí),研究深度強(qiáng)化學(xué)習(xí)。與李飛飛一起工作時,設(shè)計(jì)、教授了新的斯坦福課程《卷積網(wǎng)絡(luò)進(jìn)行視覺識別(CS231n)》。博士畢業(yè)論文為《CONNECTING IMAGES AND NATURAL LANGUAGE》。
論文:連接圖像與自然語言(CONNECTING IMAGES AND NATURAL LANGUAGE)
論文鏈接:http://cs.stanford.edu/people/karpathy/main.pdf
審核導(dǎo)師
摘要:人工智能領(lǐng)域的一個長期目標(biāo)是開發(fā)能夠感知和理解我們周圍豐富的視覺世界,并能使用自然語言與我們進(jìn)行關(guān)于其的交流的代理。由于近些年來計(jì)算基礎(chǔ)設(shè)施、數(shù)據(jù)收集和算法的發(fā)展,人們在這一目標(biāo)的實(shí)現(xiàn)上已經(jīng)取得了顯著的進(jìn)步。這些進(jìn)步在視覺識別上尤為迅速——現(xiàn)在計(jì)算機(jī)已能以可與人類媲美的表現(xiàn)對圖像進(jìn)行分類,甚至在一些情況下超越人類,比如識別狗的品種。但是,盡管有許多激動人心的進(jìn)展,但大部分視覺識別方面的進(jìn)步仍然是在給一張圖像分配一個或多個離散的標(biāo)簽(如,人、船、鍵盤等等)方面。
在這篇學(xué)位論文中,我們開發(fā)了讓我們可以將視覺數(shù)據(jù)領(lǐng)域和自然語言話語領(lǐng)域連接起來的模型和技術(shù),從而讓我們可以實(shí)現(xiàn)兩個領(lǐng)域中元素的互譯。具體來說,首先我們引入了一個可以同時將圖像和句子嵌入到一個共有的多模態(tài)嵌入空間(multi-modal embedding space)中的模型。然后這個空間讓我們可以識別描繪了一個任意句子描述的圖像,而且反過來我們還可以找出描述任意圖像的句子。其次,我們還開發(fā)了一個圖像描述模型(image captioning model),該模型可以根據(jù)輸入其的圖像直接生成一個句子描述——該描述并不局限于人工編寫的有限選擇集合。最后,我們描述了一個可以定位和描述圖像中所有顯著部分的模型。我們的研究表明這個模型還可以反向使用:以任意描述(如:白色網(wǎng)球鞋)作為輸入,然后有效地在一個大型的圖像集合中定位其所描述的概念。我們認(rèn)為這些模型、它們內(nèi)部所使用的技術(shù)以及它們可以帶來的交互是實(shí)現(xiàn)人工智能之路上的一塊墊腳石,而且圖像和自然語言之間的連接也能帶來許多實(shí)用的益處和馬上就有價值的應(yīng)用。
從建模的角度來看,我們的貢獻(xiàn)不在于設(shè)計(jì)和展現(xiàn)了能以復(fù)雜的處理流程處理圖像和句子的明確算法,而在于卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的混合設(shè)計(jì),這種設(shè)計(jì)可以在一個單個網(wǎng)絡(luò)中將視覺數(shù)據(jù)和自然語言話語連接起來。因此,圖像、句子和關(guān)聯(lián)它們的多模態(tài)嵌入結(jié)構(gòu)的計(jì)算處理會在優(yōu)化損失函數(shù)的過程中自動涌現(xiàn),該優(yōu)化考慮網(wǎng)絡(luò)在圖像及其描述的訓(xùn)練數(shù)據(jù)集上的參數(shù)。這種方法享有許多神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),其中包括簡單的均質(zhì)計(jì)算的使用,這讓其易于在硬件上實(shí)現(xiàn)并行;以及強(qiáng)大的性能——由于端到端訓(xùn)練(end-to-end training)可以將這個問題表示成單個優(yōu)化問題,其中該模型的所有組件都具有一個相同的最終目標(biāo)。我們的研究表明我們的模型在需要圖像和自然語言的聯(lián)合處理的任務(wù)中推進(jìn)了當(dāng)前最佳的表現(xiàn),而且我們可以一種能促進(jìn)對該網(wǎng)絡(luò)的預(yù)測的可解讀視覺檢查的方式來設(shè)計(jì)這一架構(gòu)。
本文為機(jī)器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
相關(guān)推薦
依照美國證券交易委員會的備案,無人駕駛汽車創(chuàng)業(yè)公司 Aurora 已籌得超過 300 萬美元的風(fēng)投基金,投資方不詳,由于某位 Allen&Company 的董事同時擔(dān)任了 Aurora 的董事,外界猜測 Allen&Company 為領(lǐng)投方。