身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
2017-02-17 10:36:20 來源:太平洋電腦網(wǎng) 熱度:
春天來了,又到了人機(jī)交戰(zhàn)的季節(jié)。





七年前的二月,IBM人工智能計(jì)算機(jī)Watson在答題節(jié)目《Jeopardy!(危險邊緣)》中稱王,擊敗了這個節(jié)目歷史上最強(qiáng)大的兩位人類高手。這個二月,搜狗人工智能機(jī)器人汪仔在答題節(jié)目《一站到底》中登場,擊敗了站到最后的人類選手。
在《jeopardy!》里,最強(qiáng)的人類選手最后不得不寫下名句,俯首稱臣;而在《一站到底》的賽場上,汪仔也表現(xiàn)出碾壓般的優(yōu)勢。同樣是答題節(jié)目,同樣是人工智能,七年時間過去,現(xiàn)在的汪仔和當(dāng)年的Watson,到底有何不同?
而號稱歷時9個月,耗資4000萬打造的汪仔,背后到底是哪些核心技術(shù),研發(fā)過程又有哪些挑戰(zhàn)?未來人工智能技術(shù)又會怎樣發(fā)展?
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)

△ 圖左為許靜芳,圖右為劉明榮
搜狗搜索技術(shù)負(fù)責(zé)人許靜芳,以及搜狗搜索總監(jiān)劉明榮,把上述種種問題的答案抽絲剝繭告訴量子位。下面是他們的權(quán)威詳解:
汪仔和當(dāng)年的Watson有什么不同?
1、輸入方式不同
Watson是特殊接口文本輸入,輸入內(nèi)容準(zhǔn)確無誤。
而《一站到底》是主持人念題加題板展示題目(兩種來源都是逐字出題),汪仔通過搜狗的語音識別和圖像識別技術(shù),利用語音和圖像兩種方式獲取,再轉(zhuǎn)換成文字。語音識別、圖像識別都是AI的關(guān)鍵技術(shù),同時識別的錯誤會進(jìn)一步提升答題的難度。
2、題目設(shè)置不同
《jeopardy!》的題目有顯示類別和相應(yīng)的獎金數(shù),類別對于答題有幫助,能夠?qū)⒋鸢赶薅ㄔ谔囟ǚ秶鷥?nèi)。而《一站到底》中的題目沒有給出類別,需要汪仔通過算法識別問題的類別,增大了答題的難度。
當(dāng)然《jeopardy!》中題目的獎金不同,最后以獲得的獎金數(shù)定輸贏也帶來了新的問題,這點(diǎn)是一站到底所沒有的特性。
3、賽制不同
《jeopardy!》必須主持人把題目完整念出后選手才能搶答,而《一站到底》是在開始念題后任意時間都可以搶答,答對自己得分,答錯對方加分。
因此在高水平的選手有大量的題目都是在題目尚未完整時就作答,汪仔同樣有很強(qiáng)的搶答,即根據(jù)題干片段去預(yù)測問題并作答的能力,這是Watson所不具備的能力。
4、知識獲取方式不同
Watson是一個封閉系統(tǒng),不聯(lián)網(wǎng),利用其離線的知識庫答題。而汪仔通過聯(lián)網(wǎng),對全網(wǎng)信息及搜狗知識圖譜進(jìn)行在線答題,在利用更大范圍信息的同時也對答題速度提出挑戰(zhàn)。
5、其他
汪仔除了能回答知識問題,還有聊天功能,可以和主持人進(jìn)行自然語言交流。
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)

汪仔主要基于哪些技術(shù)?
汪仔背后核心技術(shù)主要包括:語音識別、OCR、自然語言理解、數(shù)據(jù)挖掘、信息檢索、知識圖譜和文本計(jì)算等,這些技術(shù)是當(dāng)今人工智能領(lǐng)域最新發(fā)展的集中體現(xiàn)。
其中語音識別、OCR技術(shù)代表了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的最高水平,自然語言理解是未來人工智能發(fā)展需要進(jìn)一步解決的重要核心問題,代表了未來發(fā)展的重要趨勢。
關(guān)于這套系統(tǒng)的架構(gòu),量子位還得到了一組圖形化的說明。就列在下面(點(diǎn)擊看大圖)
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)




有多少軟件工程師支持汪仔?
長期投入的核心開發(fā)人員在十人左右,此外還有支持項(xiàng)目的各類工程師約十人。
量子位補(bǔ)充一點(diǎn)相關(guān)信息:搜狗CEO王小川此前透露,汪仔由搜狗和清華天工研究院聯(lián)合開發(fā),耗時9個月,耗資4000萬。
研發(fā)過程中,最大的困難是什么?
《一站到底》有個非常特殊的規(guī)則:開始讀題后,任何時間都可以作答。
答對得分,答錯對方加分。所以答題速度非常關(guān)鍵,這里不僅僅是聽到完整題目后能夠在極短時間內(nèi)答題,更重要的問題是能夠根據(jù)部分題目就預(yù)測問題并作答,實(shí)際上頂尖的人類選手也很大比例在題目不完整情況下答題。
答題速度上我們做了兩大類事情:第一是從接收到語音、圖像開始,語音識別、圖像識別、搜索、答案抽取這整個系統(tǒng)都在速度上追求極致。在過去幾個月里后臺的處理速度較剛開始提升了10倍,無論是識別還是轉(zhuǎn)換成文字后的問答,在速度上都做到極致。
第二類問題是推理,即根據(jù)部分信息預(yù)測問題并作答。我們根據(jù)學(xué)習(xí)歷史上的題目,建立一套推理機(jī)制,使得機(jī)器人能夠根據(jù)部分信息推理,例如 當(dāng)前問題是“位于XXX的”,我們通過“位于”這個詞就可以推導(dǎo)出問題答案是一個“地理位置”。
又例如問題中提到了“千湖之國”,則很有可能答案是“芬蘭”(芬蘭的別稱是千湖之國),問題中提到了“穆斯林的葬禮”,則很有可能是問其作者“霍達(dá)”,這些信息是我們基于海量知識文本分析挖掘、學(xué)習(xí)得到的。
目前汪仔回答題目的80%都能在題目不完整時通過推理回答,較最初的版本有了質(zhì)的飛躍。
汪仔和其他人工智能產(chǎn)品有何不同?

汪仔是一款自然語言問答類產(chǎn)品,產(chǎn)品功能定位決定它必須具備感知語音信號輸入,并可進(jìn)行認(rèn)知推理的能力。
目前市面上的人工智能產(chǎn)品大多數(shù)僅具備感知能力,這些產(chǎn)品在特定領(lǐng)域能夠輔助我們高效完成任務(wù),比如語音識別類產(chǎn)品,可以幫助我們快速方便地輸入文字,人臉識別類產(chǎn)品可以提供便捷準(zhǔn)確的安防服務(wù)。具備認(rèn)知能力的人工智能產(chǎn)品目前還比較少。
在自然語言理解領(lǐng)域,汪仔代表的智能問答就屬于認(rèn)知類產(chǎn)品,它除了具備識別人類語言文字這樣的感知能力,還能夠理解文字背后的含義,也就是理解人的需求,在理解需求的基礎(chǔ)上,進(jìn)一步通過推理計(jì)算獲得滿足用戶需求的精準(zhǔn)答案。也就是說,汪仔擁有認(rèn)知推理能力。
從問答和對話領(lǐng)域的人工智能產(chǎn)品來看,和汪仔產(chǎn)品形態(tài)相對比較接近的包括聊天機(jī)器人和智能客服兩類當(dāng)前比較熱門的產(chǎn)品。其中聊天機(jī)器人主要向用戶提供生活服務(wù)、娛樂資訊等,通常以逗樂用戶、打發(fā)閑暇時間為主,并不能為用戶解決實(shí)際問題。
和汪仔類似,目前有些公司提供的智能客服類產(chǎn)品,也屬于智能問答產(chǎn)品,同時具備感知和認(rèn)知能力,但是這些產(chǎn)品能夠回答的問題領(lǐng)域非常有限,基本局限在與公司產(chǎn)品服務(wù)密切相關(guān)的問題,而汪仔是一款通用問答類產(chǎn)品,它可以回答各類知識問題,不受領(lǐng)域限制,因此它的受眾面更加廣泛,能力更強(qiáng)。
一句話來說,汪仔是具備感知和認(rèn)知推理能力的通用型知識問答類產(chǎn)品。
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
汪仔對搜狗AI未來發(fā)展有何影響?
人工智能未來的發(fā)展方向是認(rèn)知智能,包括推理和決策能力,而智能問答是認(rèn)知智能水平的重要體現(xiàn),本身具有重要的產(chǎn)業(yè)價值和社會意義。
汪仔的成功表明搜狗在這方面具有較強(qiáng)的研發(fā)能力,具有里程碑意義。未來搜狗將會在智能問答領(lǐng)域加大投入,逐步提升自動回答各類自然語言問題的能力,成為代表智能問答領(lǐng)先水平的國內(nèi)外知名人工智能公司。
身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
“搜索的未來將走向問答機(jī)器人。用戶的搜索行為會從輸入一個關(guān)鍵詞,變成表達(dá)一個完整的句子,讓機(jī)器找出其中的含義,同時,搜索引擎返回的內(nèi)容,也將從簡單的10條鏈接轉(zhuǎn)向直接給出答案或者是建議”,王小川曾多次在公開場合這樣表示。
搜狗汪仔無疑是“問答機(jī)器人”這一理念的具象形態(tài)。其背后的核心技術(shù)立知便是搜狗在智能問答領(lǐng)域的一項(xiàng)重要創(chuàng)舉。 王小川曾表示,搜索未來向問答這一演進(jìn)形式將對大眾的習(xí)慣形成新的挑戰(zhàn),甚至引發(fā)重大的變革。
未來,人們不用再為了適應(yīng)機(jī)器而刻意改變自己的溝通方式,人們可以用更自然流暢的問答、交談與機(jī)器進(jìn)行互動,技術(shù)與人文關(guān)懷可以通過搜狗人工智能技術(shù)實(shí)現(xiàn)完美的均衡。
回看當(dāng)年Watson

身價4000萬的汪仔火了后,我們來聊聊人工智能技術(shù)
△ Watson在《jeopardy!》里獲勝
Watson背后是一套深度問答(DeepQA)系統(tǒng)。問答系統(tǒng)一般包括三個主要組成部分:問題分析、信息檢索和答案抽取。
此前的媒體報(bào)道中,有過類似的示例:
面對問題:誰導(dǎo)演了《星球大戰(zhàn)》?人類選手會根據(jù)知識積累,給出“盧卡斯”這個答案,但對于Watson,這個過程要復(fù)雜得多。
它會通過攝像頭把這個問題“掃描”進(jìn)大腦里。先分析這個問的是人,然后再細(xì)化到是一位導(dǎo)演。接著分析《星球大戰(zhàn)》,會找到很多文章。它要定位某篇文章,其中把星球大戰(zhàn)的導(dǎo)演那一段找出來,然后對這一段做深度分析。
比如找到一句話,這句話里說到這是某人在哪一年執(zhí)導(dǎo)(direct)的,但沒有提導(dǎo)演(director)這個詞。實(shí)際上還可以找到很多類似的詞,它就需要過濾,它先會找人名,比如斯皮爾伯格、盧卡斯等,這些都是潛在答案。
針對這些答案它要找相關(guān)的證據(jù)去支持。它會再把“星球大戰(zhàn)”和“斯皮爾伯格”一起搜索,或者是和“盧卡斯”搜索,結(jié)果發(fā)現(xiàn)“星球大戰(zhàn)”和“斯皮爾伯格”共同出現(xiàn)在同一篇文章中比較少,而“盧卡斯”比較多。
這只是Watson工作過程中的一部分。據(jù)介紹這套系統(tǒng)綜合了100多種算法。在參與答題節(jié)目的過程中,當(dāng)時的Watson會在3秒內(nèi)完成計(jì)算并給出答案。
責(zé)任編輯:吳昊