亚洲网站免费_国产一区二区三区在线看麻豆 _国产精品毛片一区二区三区 _麻豆精品网站

博弈AI大時(shí)代崛起 AI是如何戰(zhàn)勝人類世界冠軍的?

2017-08-11 10:42:29 來源:中國經(jīng)濟(jì)網(wǎng) 熱度:
說起人工智能,大家可能比較熟悉的是AlphaGo,但在業(yè)界更加受人矚目的是德州撲克人工智能程序——冷撲(Libratus)。在今年年初,Libratus戰(zhàn)勝美國四位頂尖德州撲克大師。那么,Libratus是如何戰(zhàn)勝人類世界冠軍的?
 
 
卡耐基梅隆大學(xué)計(jì)算機(jī)系教授、德?lián)銩I之父 Tuomas Sandholm
 
Libratus之父Tuomas Sandholm教授日前在杉數(shù)科技和鈦媒體主辦的“AI大師圓桌系列”第三場“AI時(shí)代,博弈與行為分析”中詳細(xì)闡述了Libratus如何戰(zhàn)勝人類世界冠軍。 Libratus使用的這些技術(shù)如何服務(wù)公眾、社會(huì),如何去創(chuàng)造新的商業(yè)機(jī)會(huì)。
 
AI是如何戰(zhàn)勝人類世界冠軍的
 
德州撲克這個(gè)場景下,沒有海量的棋譜,沒有充分公開的完全信息,Tuomas Sandholm教授組織研發(fā)的Libratus系統(tǒng)結(jié)合優(yōu)化博弈論和機(jī)器學(xué)習(xí)等算法,是迄今能夠擊敗德?lián)渥铐敿?jí)高手的唯一一種人工智能系統(tǒng),在戰(zhàn)略推理和戰(zhàn)略思維方面達(dá)到了超越人類的水平。
 
在一對(duì)一無限注德州撲克中,游戲中兩個(gè)玩家相互對(duì)決,在一系列的牌局中測試對(duì)方的策略,改善自己的戰(zhàn)術(shù),并且瘋狂地唬牌。在今年一月份,Libratus完勝四個(gè)對(duì)手,贏取了1776250美元的模擬賭金,打敗了世界上最出色的撲克玩家。人類玩家Dong Kim曾對(duì)《連線》雜志說: “今天之前我都沒有認(rèn)識(shí)到它那么強(qiáng)。我覺得我好像在和一個(gè)作弊的人打牌,好像它能看到我的牌一樣。我不是在指控它作弊,它就是那么厲害。”
 
德州撲克,其實(shí)是一種非完全信息的博弈,它的難度顯著高于完全信息博弈。Tuomas Sandholm教授團(tuán)隊(duì)研發(fā)的Libratus在一個(gè)完全有利于人類棋手的場景設(shè)計(jì)下,依然以壓倒性的優(yōu)勢,戰(zhàn)勝了人類最頂尖的選手。Tuomas Sandholm教授將海量的博弈場景簡化、抽象,尋找一個(gè)近似的納什均衡最終來實(shí)現(xiàn)一個(gè)基于博弈論的決策。
 
Libratus包括了三個(gè)模塊,分別是賽前的游戲規(guī)則抽取和納什均衡近似,賽中用到的殘局解算(Endgame Solving)以及持續(xù)自我強(qiáng)化。
 
博弈論中的納什均衡主要指博弈雙方的理性參與者都不會(huì)有單獨(dú)改變策略的沖動(dòng),而該系統(tǒng)中采用納什均衡,使得不論對(duì)手用什么樣的策略,都不能取勝。
 
在前期尋求納什均衡的過程中,采用了CFR算法(Counterfactual Regret Minimization,反事實(shí)遺憾最小化)的強(qiáng)化學(xué)習(xí)。這是一個(gè)源自心理學(xué)的算法,即“如果當(dāng)初做了另外一種選擇就好了”的反向思考方式。這種強(qiáng)調(diào)試錯(cuò)的方法可以讓機(jī)器自己和自己玩大量的游戲。
 
通過CFR算法,Tuomas Sandholm向Libratus描述游戲規(guī)則后,耗時(shí)幾個(gè)月,隨機(jī)訓(xùn)練100萬億手牌,Libratus最終達(dá)到了足以挑戰(zhàn)最優(yōu)秀人類選手的水平,還開發(fā)出了一些人類沒有的玩法。
 
而在殘局解算中,Libratus的改進(jìn)算法包括考慮對(duì)方所犯下的錯(cuò)誤,盡早開始?xì)埦纸馑?對(duì)手每出一招即實(shí)時(shí)展開殘局解算(Nested Endgame Solving)等等。
 
而在持續(xù)自我強(qiáng)化模塊,Libratus在比賽的每晚不是分析對(duì)手的問題,而是總結(jié)自己當(dāng)天的主要敗筆。這就好像人類每天總結(jié)自己的弱點(diǎn),再進(jìn)行針對(duì)性的彌補(bǔ)。這樣自己的弱點(diǎn)越來越少,給對(duì)手的可乘之機(jī)也越來越少。這種主動(dòng)防守型的打法,最壞的結(jié)果就是雙方打成平手,所謂納什均衡追求的就是一種平衡。
 
打開非完美信息世界之門
 
 
上海財(cái)經(jīng)大學(xué)交叉科學(xué)研究院院長、杉數(shù)科技首席科學(xué)家葛冬冬(左),不列顛哥倫比亞大學(xué)(UBC)Sauder商學(xué)院助理教授丁弋川(右)
 
Libratus是博弈AI的最新成果,是該領(lǐng)域達(dá)到的最新高度。但這并不意味著Libratus就已經(jīng)完美。Libratus針對(duì)的是一對(duì)一比賽的場景,主要是納什均衡即針對(duì)一對(duì)一對(duì)場景,在多人博弈場景下納什均衡就不太適用。此外,Libratus針對(duì)的是每場重置籌碼的比賽,而人類不重置籌碼的比賽也未必適用。
 
盡管Libratus還有局限性,但Libratus至少打開非完美信息世界的大門。
 
目前Libratus已經(jīng)取得的成就,可以通過機(jī)器自動(dòng)化的方式,在很多商業(yè)場景中幫助人類做出戰(zhàn)略決策和最優(yōu)化策略選擇。這就是人工智能夢寐以求的決策自動(dòng)化。
 
Tuomas Sandholm表示,如果機(jī)器能夠替代人類做出戰(zhàn)略決策,那么結(jié)合深度學(xué)習(xí),就可以形成自動(dòng)化的學(xué)習(xí)-決策-再學(xué)習(xí)-再?zèng)Q策的閉環(huán),這才是完整的人工智能算法。
 
 
上海財(cái)經(jīng)大學(xué)教授、奧數(shù)金牌、杉數(shù)科技科學(xué)家何斯邁
 
“在現(xiàn)在的數(shù)據(jù)化時(shí)代,要對(duì)數(shù)據(jù)進(jìn)行量化管理。一個(gè)實(shí)際調(diào)度的管理問題,決策變量就有上百萬個(gè),而且解決的實(shí)時(shí)性非常高,必須在秒級(jí)別把這個(gè)問題解決了。我們?yōu)榱苏{(diào)度問題,專門設(shè)計(jì)一個(gè)算法,要求在一秒內(nèi)能解決,像定價(jià)、庫存等決策問題,同時(shí)還需要考慮顧客行為。顧客行為就得去學(xué),根據(jù)數(shù)據(jù),去仔細(xì)研究客戶到底是怎么去做決策,不一定按照書本上的行為模型去做,往往需要結(jié)合經(jīng)濟(jì)學(xué)、行為性的知識(shí)去預(yù)測行為。”上海財(cái)經(jīng)大學(xué)教授何斯邁說,“用Tuomas Sandholm教授這些框架,用均衡的想法,在商業(yè)活動(dòng)中去爭取到更大的利潤。”
 
何斯邁介紹了杉數(shù)科技在新零售行業(yè),特別是收益和庫存管理中應(yīng)用博弈論和人工智能的例子。
 
很多國內(nèi)企業(yè)開始進(jìn)入數(shù)字化和數(shù)據(jù)化時(shí)代,基于數(shù)據(jù)積累要開始量化管理,需要用到博弈AI算法。比如根據(jù)友商價(jià)格、顧客價(jià)格敏感度、顧客心理價(jià)位、季節(jié)性、產(chǎn)品替代及互補(bǔ)性、促銷及拉升效應(yīng)等多種量價(jià)關(guān)系要素來進(jìn)行動(dòng)態(tài)博弈,解決方案包括使用網(wǎng)絡(luò)爬蟲及機(jī)器學(xué)習(xí)來捕捉友商實(shí)際價(jià)格及分析友商價(jià)格策略,分析產(chǎn)品市場定位(主導(dǎo)者/跟隨者/競爭者),再尋找遠(yuǎn)期利益與近期利益的動(dòng)態(tài)平衡點(diǎn)。
 
何斯邁表示,現(xiàn)在商業(yè)企業(yè)的規(guī)模普遍很大,在一個(gè)調(diào)度管理問題的實(shí)例中,可能涉及的決策變量就有上百萬個(gè),而且對(duì)實(shí)時(shí)性要求非常高,必須在秒級(jí)別完成上百萬個(gè)決策變量的問題求解。何斯邁一直在杉數(shù)科技進(jìn)行這方面的工作。
 
葛冬冬也強(qiáng)調(diào),實(shí)際上,對(duì)整數(shù)規(guī)劃來說,哪怕只有幾百個(gè)變量,求解都非常困難,極端情況下最好的商業(yè)軟件也需要很長時(shí)間才能計(jì)算出來。然而在杉數(shù)科技等的推動(dòng)下,特定類型問題中百萬級(jí)變量的整數(shù)規(guī)劃問題求解,可以在1秒鐘完成
 
杉數(shù)這方面的進(jìn)展,是與斯坦福大學(xué)的葉蔭宇教授、喬治亞理工的藍(lán)光輝教授、上海財(cái)經(jīng)大學(xué)的“Leaves”優(yōu)化實(shí)驗(yàn)室長期艱苦合作,才能實(shí)現(xiàn)特定場景下秒級(jí)百萬規(guī)模變量的最優(yōu)化求解。
 
Libratus這樣成熟的博弈AI算法并沒有行業(yè)領(lǐng)域的應(yīng)用限制,再加上超大規(guī)模最優(yōu)化問題秒級(jí)求解的工程化能力,就能在戰(zhàn)略定價(jià)、產(chǎn)品組合優(yōu)化、金融、商業(yè)談判、業(yè)務(wù)戰(zhàn)略、下一代安全、拍賣、醫(yī)療健康等廣泛的非完美信息場景中,實(shí)現(xiàn)機(jī)器決策+機(jī)器學(xué)習(xí)的完整人工智能體系。這將對(duì)商業(yè)、經(jīng)濟(jì)和整個(gè)社會(huì)的發(fā)展帶來深遠(yuǎn)影響。
 
博弈AI大時(shí)代崛起
 
 
清華大學(xué)交叉信息研究院青年千人助理教授、博士生導(dǎo)師、計(jì)算經(jīng)濟(jì)學(xué)研究室主任唐平中
 
從囚徒困境到智豬博弈再到美女的硬幣,博弈論一再說明一個(gè)道理,就是人類的思維不同于機(jī)器。特別由于人類的社會(huì)化屬性,但凡有兩個(gè)人以上的地方就充滿著博弈的思想。因?yàn)橛腥说牡胤骄陀懈偁?有競爭就有博弈。
 
唐平中表示,博弈論在西方已經(jīng)有近90年的歷史,而在中國則是于近5年得到了廣泛的關(guān)注和應(yīng)用。從2009年開始的互聯(lián)網(wǎng)廣告拍賣設(shè)計(jì)算法,使博弈論在國內(nèi)經(jīng)濟(jì)界得到了重視,如今國內(nèi)工業(yè)界對(duì)博弈AI的算法也有大量的需求。究其原因,是人們在研究人工智能的時(shí)候,發(fā)現(xiàn)僅處理針對(duì)機(jī)器的算法遠(yuǎn)不能滿足實(shí)際商業(yè)的需求。現(xiàn)代商業(yè)中往往是“人+機(jī)器”的復(fù)雜場景,而博弈論恰好是針對(duì)人類的智能算法。
 
葛冬冬介紹說,在杉數(shù)科技從事項(xiàng)目算法開發(fā)與實(shí)施的過程,發(fā)現(xiàn)很多現(xiàn)實(shí)中的商業(yè)問題不僅僅需要考慮最優(yōu)化,很多時(shí)候還需要考慮到人類的行為,這些人類行為將給問題的解決帶來額外的難度。
 
比如在考慮電商定價(jià)的時(shí)候,不僅要根據(jù)以前的歷史價(jià)格來計(jì)算未來的最優(yōu)價(jià)格,還要考慮到顧客和競爭對(duì)手的反應(yīng)。當(dāng)價(jià)格低的時(shí)候,電商顧客會(huì)根據(jù)情況囤積自己的小庫存,便宜就多買、不便宜就少買或不買,同時(shí)競爭對(duì)手也會(huì)實(shí)時(shí)比價(jià)跟隨定價(jià)。因此,在新零售等場景中,不僅僅是數(shù)據(jù)驅(qū)動(dòng),還要考慮復(fù)雜情況下的顧客和競爭對(duì)手博弈等,這就應(yīng)用了很多AI技巧。
 
博弈AI的崛起,正是復(fù)雜商業(yè)需求驅(qū)動(dòng)的結(jié)果。

責(zé)任編輯:朱虹瑾

相關(guān)推薦

Telairity H.264 編碼技術(shù)為2010年世界杯全球高清/標(biāo)清轉(zhuǎn)播提供支持

DVBCN消息2010年7月7日電--Telairity卓越的H.264編碼技術(shù)是為全球近十億人觀看2010年世界杯足球賽提供支持的“秘密要素”。整個(gè)亞洲、南太平洋以及世界杯主辦國南非的觀眾都是依靠Telairity的H.264/AVC編碼器來收看高清(HD)和標(biāo)清(SD)比賽轉(zhuǎn)播的。有了Telairity的H.264現(xiàn)代技術(shù),世界各地的網(wǎng)絡(luò)運(yùn)營商和廣播、衛(wèi)星及有線電視公司可以更換掉舊的MPEG-2壓縮系統(tǒng),為客戶提供更出色的視頻質(zhì)量并顯著降低對(duì)帶寬的依賴,從而大幅減少傳輸成本。泰國國營電信公司CATTelecomPublicCompanyLimited安裝了Telairity高清和標(biāo)清編碼器

ST高清電視系統(tǒng)級(jí)芯片獲Adobe AIR for TV認(rèn)證

意法半導(dǎo)體(STMicroelectronics,簡稱ST)宣布,其先進(jìn)的高清電視系統(tǒng)級(jí)芯片(SoC)平臺(tái)取得了巨大進(jìn)步,此項(xiàng)成果將意法半導(dǎo)體推向能夠運(yùn)行基于Adobe®AIR®的游戲和其它應(yīng)用軟件的下一代互聯(lián)網(wǎng)電視技術(shù)的最前沿。意法半導(dǎo)體已成功移植AdobeAIR®2.5forTV軟件至第三代先進(jìn)互動(dòng)高清機(jī)頂盒系統(tǒng)芯片平臺(tái),并通過Adobe產(chǎn)品認(rèn)證。AdobeAIR軟件是AdobeFlash平臺(tái)的一個(gè)重要組件,原始設(shè)備制造商(OEM)、原始設(shè)計(jì)制造商(ODM)、服務(wù)開發(fā)人員以及應(yīng)用開發(fā)人員能夠在這個(gè)平臺(tái)開發(fā)豐富的網(wǎng)絡(luò)應(yīng)用軟件和游戲,專門為機(jī)頂盒和數(shù)字電視等嵌入式設(shè)備和

把面向數(shù)字家庭的Adobe Flash引進(jìn)到MIPS-Based平臺(tái)

TriplePlayIntegration銷售副總裁MikeNottage什么是三重播放集成?TPI公司是一家致力于提供數(shù)字家庭視頻平臺(tái)解決方案的專業(yè)軟件服務(wù)公司。TPI公司還是官方Adobe的“ScalingPartner”,為消費(fèi)電子平臺(tái)提供FlashPlayer10、AIR和舞臺(tái)美術(shù)技術(shù)提供優(yōu)化的端口。我們有25名具有專業(yè)的項(xiàng)目管理和質(zhì)量保障經(jīng)驗(yàn)的高級(jí)工程師團(tuán)隊(duì),平均具有24年的工作經(jīng)驗(yàn).你們能夠提供什么樣的

Alan Tsai:移動(dòng)終端GPU之趨勢與迷思

DVBCN數(shù)字電視中文網(wǎng)訊(敖瑞),2012年6月15日(周五),由ARM主辦的“跨界、變革、多贏——ARM移動(dòng)智能終端研討會(huì)暨應(yīng)用開發(fā)者大會(huì)”在上海舉行。本次約有20名廠商代表上臺(tái)演講;參會(huì)并參與展示會(huì)的廠商超過30家,均為ARM在各個(gè)領(lǐng)域的合作伙伴。ARM亞太市場開發(fā)經(jīng)理AlanTsai做出了“移動(dòng)終端GPU之趨勢與迷思”的精彩演講。Alan表示:在用戶體驗(yàn)上來說,分辨率已經(jīng)可以高達(dá)人眼都無法辨析的地步了。公允的說,業(yè)界對(duì)GPU的評(píng)判標(biāo)準(zhǔn)存在太多的分歧:從三角形的角度來看,涉及到生成率、裁切率等指標(biāo),不同類型的GPU產(chǎn)品根本沒法比;從填充率的角度上

主站蜘蛛池模板: 平泉县| 泰顺县| 威远县| 淮滨县| 黄石市| 如东县| 濮阳县| 谢通门县| 元朗区| 磐石市| 枞阳县| 公主岭市| 澜沧| 远安县| 澜沧| 杭州市| 怀远县| 灵川县| 杭锦旗| 建阳市| 南木林县| 沙田区| 乌拉特中旗| 大化| SHOW| 桦南县| 皋兰县| 名山县| 六枝特区| 大化| 荥阳市| 仙居县| 资阳市| 桦南县| 龙里县| 泰宁县| 洪泽县| 建阳市| 沂源县| 皮山县| 海晏县|