
在上周O'Reilly和英特爾聯合主辦的AI Conference 2018北京站大會上,Uber資深研究科學家、哥倫比亞大學計算機科學系兼職教授Erran Li發表了演講,分享了自動駕駛的新發展以及挑戰。
Erran Li稱,目前Uber的自動駕駛系統有360度的雷達系統,也有RGB的鏡頭,理論上來講車當中的硬件傳感器比人的眼睛和耳朵這要做得更好。但是在軟件上我們要解決3D的物體探測、物體運動以及決策的問題。
Erran Li認為,在自動駕駛當中,如果你把90%的問題都掃除了,那么剩下10%甚至要花100倍的精力來做。對于自動駕駛未來還有一些挑戰,需要一些本質性的突破。
以下為Erran Li演講實錄:
Erran Li:大家好,今天我想為大家分享一下未來在自動駕駛方面的一些新的發展以及挑戰。
事實上,人和其他的人類的代理可以說是無處不在的,Uber造了一個自動駕駛的車,它可以駕駛的比普通的人更加好。我們可能會騎車,可能會駕車,也可能只是在散步,所以自動駕駛需要識別各種交通的信號,比如說有信號燈,還有一些交通方面的指示牌,所以我們需要處理各種各樣的情況。大家可以看到這輛車,事實上它在遠離,我們需要搞清楚這輛車為什么后退,它的意圖是什么。所以我們怎么樣來構建這樣的一個系統?要比普通的人駕駛的更好,我們如何來處理這個復雜的情況?我想大家在北京開車都有經驗,可能北京的路況比這個要復雜得多。
這里有硬件的情況,也有軟件的情況,大家可以看到,比如說Uber的自動駕駛系統,我們有360度的雷達系統,我們也有RGB的鏡頭,理論上來講車當中的硬件傳感器比我們人的眼睛和耳朵這種傳感要做得更好。
軟件是怎樣的一種情況?我們是否用人工的來編寫軟件,來處理所有這些可能遇到的復雜的情況呢?我想所有會開車的人,或者說所有的來設計這些系統的人都不會用手工來編程。我們事實上可以運用海量的數據,來讓我們的計算機進行自我學習,處理這些復雜的情況。在機器學習的過程當中,我們想要解決什么問題和解決的結果是什么?
我們首先要解決的問題就是3D的物體探測。大家可以看到這個視角上面激光雷達的情況,可以看到我們可以對每一個物體都建立輸出和輸入,都是3D的。它可能是一個人,也可能是一個物體,我們如何解決這個問題?我們用深度學習的建模,這是一個活動中的模型。我們要探測出身邊所有的這些車輛,而且也把它用一個非常精致的盒子標志出來。在探測的過程當中,用這種標示的方面,試圖能夠給我們解決一些問題。問題在于除了我們需要探測到,而且我們也要在一秒鐘當中它們會發生什么樣的情況,如何來進行跟蹤。這是一個跟蹤的問題。一般來說,我們都是用篩選器來做。在深層的建模當中,同樣的數字就顯示出了同樣的一輛車在各種不同的框架當中的情形。大家可以看到,深層學習的模型跟蹤表現還是不錯的。
除此之外,除了探測、追蹤以外,我們也需要預測這些物體會向哪個方向行動。可以看到這些活動中的物體,不奇怪的是我們可以用預測的建模來做到這一點,大家可以看到各個不同的活動中的物體,他們可以有多種行進軌道,我們也可以預測這些多種的行進軌道,而且把它們排一個層次排序。在這個路口當中有多種軌道,綠色的軌道有三種情況。
我們取得一個很良好進展的就是決策的過程。在決策的模型當中,我們也取得了長足的進展。可以看到深層學習的模型當中,我們掌握了控制度,比如說我們有黑盒的深層學習的模型,這是一個很好的模型。這是一個在活動中的可以看到一個模擬的模型,深層學習盡管在天氣不太好的情況下,可以說也跟著道路跟得不錯。
我們是否已經解決了所有的問題?我們能不能立刻看到身邊到處都是自動駕駛汽車呢?事實上在自動駕駛當中,如果你把90%的問題都掃除了,那么剩下10%你可能要花10倍的精力來做。我們可以宣稱說,我們可能已經把90%的問題都解決了,但是我們仍然還有10%的障礙沒有掃除。有的人說不是這樣的,可能我們花的不是10倍的精力,也許可能要花100倍的精力,無論幾倍,我們都需要花更大的精力來攻克難關。現在我們解決了90%問題的這些技術,它很有可能不是我們來解決剩下一公里問題的技術。我們未來有一些挑戰,需要一些本質性的突破。
問題眾多,下面給大家只列舉出其中的一些。大家可以看到,在深層學習的模型當中有一些表達,這些表達并不具備“魯棒性”,它與我們人類學習的表達是不一樣的。我們可能用黑白的貼紙放在這個上面作為停止符,但是機器學習卻無法識別,它們可能沒有辦法識別這是一個停止符,他們可能只是認為這是一個限速符。所以我們的研究當中,這些問題我們也做了很多的努力,也取得了不少的成功。但是這種分類打分的方法還是很難的,所以大家可以看到,這些深層學習的模型在目前已經有很多可以運用了。
我們需要做的是什么?我們需要學習魯棒和抽象的表達。因為我們人類的視覺可以說對這些攻擊是非常魯棒的,我們怎么樣從人類視覺當中學到一些洞見和洞察?還有理解這個情景,要掌握情景,了解人類的行動和人類的意圖。我們在駕駛的過程當中很容易就能夠覺察出其他駕駛員的意圖,但是深度學習就有困難了,我們在情景理解方面進步還不夠。
最后的挑戰是決策過程,如果大家再考慮一下這個問題,我們的大腦是通用智能。我們如果專注于一個問題,就能做出比較好的決策。但是我們還沒有達到人工智能這種水平,我們可能還需要通用智能來解決駕駛的問題,但是面臨著一個很大的挑戰。怎么樣能夠做出序列性的決策?目前的規劃,設想其他人類的代理是被動的,盡管他們可能在運動,但是他們是有自己未來的軌道的,也就是我們假設他們是被動的,只能解決了90%的問題,但是最后一公里還解決不了。我們所需要的是一個框架,在一個多代理的環境當中進行多框架的決策。我們可以了解其他決策者的意圖,而且能夠構建這種駕駛的政策,讓我們能夠完成各種工作,而且駕馭各種紛繁復雜的情況.
下一篇:寫在自動駕駛最危難的時候上一篇:自動駕駛的時代來了!聽各方專家怎么說
責任編輯:向宜芳