亚洲网站免费_国产一区二区三区在线看麻豆 _国产精品毛片一区二区三区 _麻豆精品网站

戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?

谷歌、百度、微軟、Facebook、阿里……我們介紹過很多中美在人工智能領域技術和商業化方面的進展,包括印度、以色列等等地區也出現過不少創業團隊。
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
 
 
可這里面似乎沒有戰斗民族俄羅斯什么事。按理說,俄羅斯有在冷戰時代遺留下來的大量科技人才儲備,國家對數學、計算機等學科的基礎教育也足夠重視,強大的黑客團隊展示了俄羅斯人資技術上能達到的種種可能。而且天寒地凍的氣候,好像也挺適合在家宅著擼代碼的。
 
放眼俄羅斯、甚至整個東歐地區,在人工智能領域最活躍的可能就是Yandex了。
 
Yandex:把搜索引擎當做技術發展的根本
 
Yandex是誰?大多數人第一反應是俄羅斯的“百度”。
 
沒錯,在1990年,來自莫斯科大學的兩位校友阿卡季·弗洛日和阿卡季·勃可夫斯基共同創建了俄羅斯自己的搜索引擎Yandex。“Yandex”一詞俄語含義是“Языковой index”(語言索引),是英語單詞“Yet Another indexer”的縮寫。意味“另一種搜索引擎”。從名字就能感受到兩位創始人對英語世界的反抗。
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
 
建立了搜索引擎后,Yandex逐漸開始發展為一家全能型的互聯網公司:建立門戶網站、創立電商平臺、與聯邦儲蓄銀行Sberbank合作推廣線上支付、代理來自中國的4399小游戲、推出打車平臺……基本你能想到的風口,Yandex都沒錯過。
 
和谷歌、百度一樣,搜索引擎成了Yandex收集語料數據、著手機器學習技術發展的根本。
 
戰斗民族在人工智能上發展如何?
 
Yandex在機器學習方面都做了什么?
 
首先,是時下最火的無人駕駛。據稱Yandex正在著手研發無人駕駛需要的計算機視覺、語音識別等等相關的技術。目前Yandex選擇了豐田普銳斯作為原型車,加上英偉達的芯片、Velodyne的雷達傳感器,目標向L5級的無人駕駛沖擊。
 
幾個月以前,Yandex還曬出了旗下無人駕駛車的場地測試視頻,視頻中無人車的表現中規中矩,雖然實現了在無人控制的情況下緩慢駕駛,但也會有難以越過障礙、躲避行人不及時等情況。
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
 
Yandex為自己定下了目標,明年要讓豐田普銳斯上公共道路測試,同時還和卡車制造商Kamaz、Daimler達成合作,計劃推出無人駕駛的迷你公交車。坦白講,Yandex對于自身無人駕駛技術的披露相當少,俄羅斯本土是否有無人駕駛必備的高精地圖也不得而知,俄羅斯的無人駕駛究竟會發展成什么樣,目前很難下個定論。
 
除了無人駕駛,Yandex還“有樣學樣”的推出了語音助手Alice,以此展示自己的語音識別技術。和Siri、谷歌語音助手一樣,Alice可以幫助用戶連接出行、購物、支付、新聞、音樂等等服務。
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
 
Yandex還給Alice加上了基于神經網絡的聊天引擎,讓Alice可以在社交網絡上學習他人的言論,這一技術的確較為先進。在測試中,Alice甚至還學會了一些政治、暴力方面的不當言論,不過在問題曝光后,這些言論很快被技術和諧了。
 
除了這些以外,Yandex還開源了機器學習框架Catboost、推出了深度神經網絡搜索引擎等等。
 
分詞技術:本土搜索引擎的神器
 
我們想了解到的是,Yandex是如何戰勝谷歌搜索,還在自然語言方面取得了相對前沿的進展。答案或許是因為Yandex獨有的分詞技術。
 
所謂分詞技術,其實是中文搜索引擎中的技術。即搜索引擎針對用戶提交查詢的關鍵詞串進行的查詢處理后根據用戶的關鍵詞串用各種匹配方法進行分詞的一種技術。
 
比如在搜索引擎中搜“不知道你在說什么”,就可能分成“不,知道,你,在,說什么”和“不知道,你,在,說什么”等等很多種分法,再到數據庫中進行索引。
 
如何確定分詞的方式有很多種,比如正向最大匹配法,按照中文閱讀習慣,從左向右分詞;又比如最短路徑分詞法,把一段話切出的詞數最少等等。這些只是比較傳統的方法,現在還可以利用NLP技術,從語義理解上進行分詞;利用鄰近算法,看哪些相鄰字符出現的頻率最多,就按照這樣的方式進行分詞。
 
如何戰勝谷歌?語言壁壘是關鍵
 
同樣的概念,在Yandex的搜索引擎技術中也存在,只不過不叫分詞技術,叫“морфология”這個詞可以被理解為“詞形”。
 
這就要談到了俄語這門語言的特殊性,和中文、英語不同,俄語中詞與詞之間的關系通常用詞形變化表示,于是,同一個名詞可以有12個形式,形容詞甚至能達到20、30個形式……所以,俄語中會有動名詞、形名詞這些奇怪的東西。
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
 
于是,因為俄語的特性,在搜索中非常容易引起歧義,對搜索的精度要求也更高。比如машиностроительный這個詞,在俄語中意為“機械的”。在谷歌搜索中,可以找到與之完全匹配的網頁,卻很難找到有關機械形容詞剩下的二十多個詞形變化的網頁。
 
而Yandex搜索引擎技術擅長的,恰恰就是關鍵詞的多義分析和查找。也形成了一些Yandex獨有的搜索方式,比如加上“”即可只搜索指定單詞,不搜索變形詞,也利用指令只搜索形容詞形態、動詞形態等等。
 
俄語屬于斯拉夫語族內的東斯拉夫語支,也就是說白俄羅斯語、烏克蘭語甚至捷克、波蘭等等地方的語言都會都類似的語法形態。而Yandex的分詞技術在這些語言中的表現也很出色。
 
憑借著語言優勢上的獨有技術,Yandex戰勝了谷歌成為了俄羅斯本土最大的搜索引擎。而大量用戶使用累積的數據,更讓Yandex可以發展機器學習技術對算法進行進一步優化。放到整個NLP技術里也是一樣,難怪Yandex可以在語音識別上獲得不小的進展。
 
 
戰斗民族如何戰勝谷歌,在人工智能領域取得一席之地?-DVBCN
機器學習給了這個世界一個相對平等的機會,就算技術、資金相對落后,語言上的優勢仍然可以樹立起壁壘,更別提語料數據這一寶貴的數據。有Yandex的案例在先,是不是意味著那些基于泰語、印度語、阿拉伯語等等小語種的搜索引擎,也會在人工智能領域有著獨有的優勢?
 
看來除了中美之外,我們還可以把眼光放到更遠的地方。
相關文章
華數發布智慧廣電AI+升級方案
華數發布智慧廣電AI+升級方案
廣西廣電網絡與多家單位確定合作關系
廣西廣電網絡與多家單位確定合作關系
湖北廣電網絡荊門分公司開發的智能問答助手“小荊”上線
湖北廣電網絡荊門分公司開發的智能問答…
東莞智媒AI產業賦能基地揭牌成立
東莞智媒AI產業賦能基地揭牌成立
吉視傳媒與360合資成立新公司 涉及AI業務
吉視傳媒與360合資成立新公司 涉及AI業務
【一線觀察】山東廣播電視臺AI技術發展應用規劃
【一線觀察】山東廣播電視臺AI技術發展…
我還沒有學會寫個人說明!

24小時排行

  • 暫無文章

主站蜘蛛池模板: 吉林市| 深圳市| 保康县| 双鸭山市| 青川县| 凯里市| 牟定县| 古交市| 东丽区| 洛隆县| 福海县| 和平县| 留坝县| 商都县| 客服| 甘德县| 札达县| 西宁市| 儋州市| 顺平县| 南部县| 城市| 成都市| 稷山县| 夏津县| 长子县| 江都市| 托里县| 延边| 长治县| 荥阳市| 乌拉特后旗| 山丹县| 封开县| 汉沽区| 西宁市| 永康市| 靖安县| 丘北县| 南丰县| 潮安县|