3月23日, 中國國際廣播電視信息網絡展覽會(CCBN)在北京隆重舉行。在采訪間,七牛云AI實驗室負責人彭垚接受了CCBN與中國新聞出版傳媒集團聯合推出的視頻專訪。

七牛云AI實驗室負責人 彭垚(左一)
主持人:請您簡單介紹一下七牛AI實驗室的情況。
彭垚:這個實驗室是2016年年初的時候建立的,因為七牛云上有廣大富媒體互聯網用戶的UGC內容,所以我們以內容安全審核為需求建立了AI實驗室。后來已經接入了更多創新型的應用和擴展到傳統行業,包括公安、政府運營城市規劃管理和電視臺內容的媒資管理。我們的實驗室成長速度非常快,研究團隊已超過100人。
主持人:七牛云AI團隊在ACM國際多媒體會議的LSVC競賽中取得第二名的成績,這個成績對七牛云來說有什么樣的收獲?
彭垚:這個競賽是我們實驗室第一次參加學術性的會議,之所以參加是因為我們發布了一篇大規模短視頻分類的大規模學習平臺的論文,內容包括我們用自己的一套算法框架解決大規模的視頻分類的需求問題。這個競賽我們最后拿了第二名,和第一名差零點幾分,但第一名的方法耗費資源非常大,我們的方法相對更輕量一些,我認為這算是中國計算機識別在國際學術方面比較大的突破。今年我們還會在視頻分類基礎上再投入更多的研究。
主持人:您剛才提到您對大規模視頻分類有所研究,您還可以再具體談談嗎?
彭垚:關于大規模視頻分類,大家可以理解為一個圖像更多是空間信息,它可能有三通道的圖像在空間上表示的信息,但視頻內涵內容非常多。首先它有圖像空間上的內容,第二,還有時間上的積累和時間序列的內容。空間圖像加時間序列,本身就是一個能夠得出更多信息的方法。當然兩個圖片之間有一個變化,就是會計算光流,類似于光走向的方向,這也是非常重要的信息。我們常常用這種信息再通過時間上的變化抓整個光流的變化,以此知道整個行為。
此外,如果視頻里因為有背景音樂或者說話聲音,我想識別視頻到底是聚會還是婚禮,看畫面中的人是很難區別的,還需要更多的信息才能識別出來。在這個區別上聚會是非常嘈雜的音樂背景,婚禮則會聽到比較正規的結婚進行曲的音樂,通過這樣的信息就可以識別出來。當然視頻里還有很多信息,比如通過文本的一些識別,看到這個視頻里寫了“生日快樂”就是在過生日。
視頻識別是AI認知整體能力的體現,不是傳統的計算機視覺、而是把視覺,語音識別,文字文本的理解都放進去,從而融合起來的識別。
主持人:您如何看待視頻分類在實際業務中的應用呢?
彭垚:視頻分類在實際業務應用場景還是相對比較多的,比如在互聯網的短視頻平臺上,每天有上萬或者幾十萬的視頻,通過這些方法做分類,標注所有視頻內容的時候就會知道每個用戶喜歡什么,或者每天在拍什么。媒體發展到最后一定是個性化的過程,我看到的東西都是我相對比較喜歡看的,我的平臺推給他的內容也是我認為比較好的,所以對視頻的理解和分類是非常重要的環節。
推薦閱讀:【CCBN專訪】七牛云呂桂華:廣電行業增強互聯網思維是當務之急
責任編輯:王剛