7月5日,阿里巴巴第一款人工智能音箱:天貓精靈X1正式落地。
此前界面新聞報道過這款人工智能音箱的定價、基本硬件參數。阿里人工智能實驗室負責人陳麗娟告訴界面新聞記者,這款音箱除了市場上常見的內容播出、提醒設置、鬧鐘天氣等,它在購物場景上更會領先行業均值。比如,179.99美元的亞馬遜Echo在購物上還是停留在以加入購物車為主,而阿里的這款“天貓精靈X1”音箱已經能夠完成從回溯購買記錄、挑選下單到最后支付的整個過程。這主要得益于其搭載了內置第一代中文人機交流系統AliGenie。這是阿里第一次正式發布智能音箱產品和中文人機交流系統。這款音箱的誕生也代表阿里對語音交互的重視,體現了其試圖搶占物聯網入口的企圖。
淘寶上的商品成千上萬,一款語音交互產品如何能挑選出消費者想要的商品?陳麗娟表示,該款產品擁有“決策力”,它會學習消費者的購物習慣、了解用戶畫像,然后再進行興趣推薦。阿里在電商領域長期積累起來的技術優勢可以直接用在語音交互場景下。
中美的居家環境有很大差異,所以直接將亞馬遜的Echo、蘋果的HomePod搬到中國市場來可能并不是很接地氣。美國人使用智能音箱頻率最高的場景是在廚房,做菜時需要訂一個倒計時等。到了國內市場,智能硬件設備千差萬別、中國用戶更需要一個助手級的、對中文語音交互友好的“全能產品”。
語音交互拆解來看,可以分成語音識別、語音合成和自然語言處理等,每一個大塊又可以分成更細節的處理步驟。而國內做語音行業的公司,多半停留在語音輸入法(如科大訊飛),或語音搜索。真正能將語音交互商用的仍十分有限。除了產品層面,自然語音處理技術(NLP)仍是人工智能行業最有挑戰的部分。
阿里正是看中了這樣的市場機會和行業風口。
阿里人工智能實驗室負責人陳麗娟是淘寶最早的一批產品經理。按照阿里慣常的方法,這款人工智能音箱也是采用了“淘寶模式”,即對開發者足夠友好,開放API接口,接入各種智能設備和軟件App。這與蘋果的HomePod完全不同,蘋果公司為了安全考慮,要求所有接入Homekit平臺的設備都要裝入特殊的MFi芯片,這無意間抬高了硬件創業公司接入蘋果設備的成本。
據界面新聞記者了解,阿里大生態環境的支持將成為這款音箱最核心的優勢。在軟件層面,阿里音箱有阿里文娛體系下內容的支持,比如優酷的視頻內容轉錄;目前第三方App在陸續適配,例如健身軟件Keep和喜馬拉雅FM等。在硬件上,有阿里智能IoE的接入,目前正在談得包括古北科技、涂鴉科技等;品類總量在100家以上。阿里大生態環境的支持將成為這款音箱最核心的優勢。
阿里鼓勵用戶建立自己的“語音公眾號”,這部分更針對個人。在輔助的App里,用戶可以錄入自己的音頻文件,直接在后臺播放,未來還可能嘗試付費模式。鼓勵用戶充分建立自己的語音信息,運用到具體的場景里。
雖然這款產品的名字是掛在“天貓”下面的,但足夠可以看出阿里對于語音交互的重視。在這場幾乎所有互聯網公司都已經入場的技術大戰中,阿里不希望落后。
在阿里巴巴技術團隊中,流傳著這樣一句話:“阿里巴巴的商業掩蓋了技術光芒。”不論正確與否,至少這代表了阿里的技術自信。
阿里巴巴的語音識別技術早就存在,只是一直沒有對外公布。最早的應用在客服體系中,因為客服是接觸語音最多的部門,客戶每天會打電話進來,在客服的質檢抽查中,人工質檢效率低下,就需要語音技術識別、轉化成文字版本,這是語音技術的第一個應用場景。
在天貓淘寶App中,都已經嵌入了語音搜索功能,神馬搜索中也使用到了語音搜索技術。雖然識別的準確率有待提高,但這些都表明,阿里的語音交互產品是多年積累下來的技術,可以用在各個產品和場景中。
在接受采訪時,陳麗娟強調,阿里巴巴所采用的供應商思必馳只是用了它六個麥克風陣列的架構設計,語音交互是阿里的核心技術之一。在語料的搜集上,都是使用阿里生態各產品中的語料,淘寶有4.5億的月活,其中如果只有1%的使用語音搜索,其可訓練語料都非常可觀;也有一些語料采用了眾包購買的方式。
未來,除了這款音箱,語音交互可能更多用于阿里生態中的購物充值、汽車操作系統、TTS語音轉換(Text to Speech)等場景中。
在天貓精靈X1發布的同一天,百度也公布了基于自然語言處理的DuerOS語音系統,這與阿里巴巴的語音交互系統Ali Genie形成正面競爭。
在評價競爭對手時,陳麗娟說,“今天我們的天貓精靈大家手上就能拿得到,上手可用。但是DuerOS這個東西大家買過嗎?它的差距不光只是說技術層面的,我們要把這個路都跑通,成功了才會有更多這樣的合作伙伴跟我們一起玩。”
這話更直白一點,意思就是,盡管李彥宏已經坐著有人駕駛的“無人駕駛汽車”在五環上上路,DuerOS距離完全可商用產品的面市還有一段時間。
阿里智能音箱是阿里巴巴人工智能實驗室出手的第一臺商用產品,是語音交互能力的集中體現。
在最開始,阿里并沒有想做一款語音硬件產品,因為硬件產品供應鏈長。但后來團隊發現一款智能音箱涉及的關鍵環節太多,阿里放棄了完全代工的模式,轉而自主研發。整個研發周期前后跨度一年,最大的難點就在于每條鏈路都是單線的。
比如,麥克風陣列里面需要密封,第一版產品密封性不好,稍微漏氣就會影響到ASR(自動語音識別),ASR不準確會進一步影響到NLP(自然語言處理),進而影響到全局,是一個線性增長放大的蝴蝶效應。
從2017年開始,阿里巴巴正在不斷加強對人工智能的人力投入,挖來前南洋理工大學終身教授王剛,還找來亞馬遜資深主任科學家(Senior Principal Scientist)任小楓擔任人工智能團隊iDST的副院長和首席科學家等。
從組織架構上,阿里的人工智能實驗室組織劃分也更加明確。2013年前后成立的iDST是AI基礎技術研究機構,也是2016年成立的人工智能實驗室(AI Labs)的前身,其研究成果來源于iDST的技術積累,并應用于阿里巴巴的各個產品線。
在大框架上,實驗室內部分為終端實驗室、硬件實驗室、代碼實驗室,并不是完全按照產品線劃分。以人工智能領域很重要的計算能力來講,在不同實驗室里,計算能力又分為在云端計算和在終端上的計算能力。
AI實驗室看起來更應該從事底層技術研究,阿里巴巴也沒有太多硬件傳統,更多定位于一家大數據驅動的公司。在解釋阿里為什么會做硬件時,陳麗娟這樣表述:“我們不想把它停留在實驗室。AI應該是具體的服務,應該給用戶帶來新的體驗。哪怕淘寶第一版購物體驗很差,但相比于線下購物,仍然能給用戶帶來不一樣的感覺。今天AI應該是技術產品還是產品技術,這是一個問題。”