亚洲网站免费_国产一区二区三区在线看麻豆 _国产精品毛片一区二区三区 _麻豆精品网站

【分析】人工智能在廣電推薦系統中的應用

2017-03-30 14:47:37 來源:DVBCN 熱度:
從1956年至今,60年過去,人工智能將邁向新階段。人工智能也將改變整個廣電行業,提升其價值。近日,廣東省廣播電視網絡股份有限公司副總工程師徐江山詳細分析了人工智能在廣電推薦系統中的應用。

 
一、人工智能風起云涌,技術革命引領未來
 
1、CES 2017 , 人工智能引爆全球最火黑科技盛會
 
CES 2017 于1月5日-8日在美國拉斯維加斯舉行,埃森哲技術總監認為:人工智能統治本年度的CES,變得無處不在。
 
AI可謂已經走上了一條極速發展的軌道。通過改變工作的本質,機器和人類之間產生了一種新的關系,埃森哲研究發現,AI技術可以在2035年把經濟年增長率翻倍,并且把勞動效率提高40%。 根據美銀美林全球研究,美國AI和機器人市場預計到2020年達到1530億美元,其中機器人830億美元,AI 700億美元。
 
2、什么是人工智能? 人工智能為什么重要?
 
“人工智能(AI)”是達特茅斯大學助理教授John McCarthy在1956年發明的一個詞,這個一般性術語是指展現出看似具有智能行為的硬件或者軟件。用McCarthy教授的話來說,它是“制造智能機器、尤其是智能計算機程序的科學和工程。” 
 
AI之所以重要是因為他解決了極其復雜的問題,例如人類福祉的重要領域——從健康、教育、商業、交通,乃至于公用事業和娛樂等等。
 
3、人工智能為什么在今天得以興起?
 
AI研究始于1950年代,為什么會在現在出現拐點呢?最近幾年AI的效率出現轉變是因為有了新的算法、可用的數據量變得更大、用來訓練它們的硬件變得更好,以及催化開發者采用它們的云計算服務。
 
把近似于大腦神經元功能的,人工的、基于軟件的計算器連接到一起。它們組成了一個“神經網絡”。
 
4、國際技術巨頭全面布局人工智能
 
1)IBM
 
IBM在AI 領域無出其右,如80年代的專家系統、1997 年擊敗國際象棋冠軍卡斯帕羅夫的深藍計算機、2011 年在美國智力競賽節目 《危險邊緣》 中戰勝其人類對手的沃森系統均出自 IBM。IBM在2014 年后在AI領域布局圍繞沃森和類腦芯片展開,試圖打造AI 生態系統。目前IBM已撤銷全球業務咨詢GBS和技術服務GTS等部門,并轉型成認知解決方案和云平臺公司。IBM未來十年戰略核心是“智慧地球”計劃, IBM 每年在其投入研發投資約在 30 億美元以上,涵蓋節能減排、食品安全、環保、交通、醫療、現代服務業、軟件及服務、云計算、虛擬化等熱點方向。
 
2)Google
 
谷歌 AI 途徑為: 從互聯網、移動互聯網等傳統業務延伸到智能家居、自動駕駛、機器人等領域;積累底層人工智能技術,研發更高級的深度學習算法,增強圖形識別和語音識別能力。谷歌試圖將AI滲透到了旗下各產品,為用戶帶來更多使用場景、及更智能化功能。
 
谷歌無人駕駛汽車始于2009年,2011年為其收購510 Systems、 Anthony’sRobots等公司。 目前無人駕駛行駛里程達180萬英里, 且成功發布了全球第一款完全能夠自動駕駛的原型車“豆莢車”,并宣稱到 2020年谷歌自動車將正式上市。
 
谷歌2014年1月耗資2.63億美元收購DeepMind ,并于同年12月與牛津大學的兩支AI研究隊伍建立合作。 2015年2月,Deepmind 系統學會了 49 款雅達利經典游戲。2016年3月,由 Deepmind 研發AlphaGo 以 4:1 嘉績擊敗世界圍棋冠軍李世石,激發全世界對人 工智能的關注。
 
3)NVIDIA
 
與CPU相比,GPU 具有數以千計的計算核心,及強大、高效并行計算能力, 可實現 10-100倍應用吞吐量,特別適用于AI 海量訓練數據情形。目前深度學習解決方案幾乎完全依賴NVIDIA GPU。根據艾瑞咨詢,2020年全球AI 市場規模達1190 億元,市場潛力巨大。據機構預測,硬件市場占AI市場份額將達30%。此外,NVIDIA還專門設計了全球首款針對深度學習的GPU架構(Pascal 架構)。
 
4)Intel
 
近年來, 英特爾將業務從PC芯片、移動芯片拓展至云數據中心 、物聯網、人工智能等領域,提出“2016 重建計劃”,根據 CB Insights,英特爾在AI領域總投資額排在第二位。英特爾AI 終端布局聚焦于人機交互,通過提供英特爾 Curie 模塊、Edison 計算平臺、Cedar Trail 芯片平臺、RealSense 實感技術及凌動處理器等技術, 將設備數據上傳至后端數據中心。 AI 后端布局主要是研發適合機器學習 CPU 芯片(如 Xeon Phi) 、及 FPGA 芯片,以拓展 AI 計算性能。
 
5、人工智能對未來技術革命的影響
 
Google CEO Sundar Pichai:“過去10年我們一直在做一件事,那就是打造移動優先的世界。而在接下來的10年時間里,我們將轉到一個AI優先的世界。”
 
Amazon CEO 貝索斯:“AI在未來20年對社會產生的影響之大怎么評估都不為過。”
 
二、智能推薦系統總體架構及基礎算法
 
1、總體架構
 
數字電視節目推薦系統主要由以下四個功能模塊組成:用戶特性文件模塊、節目特性文件模塊、合作過濾模塊、推薦模塊。
 
2、節目特征建模
 
1)節目特征描述
 
基于內容的節目特性可以從節目分類、節目制作信息(主要演員、導演、制作商、制作年代等),節目內容信息(對節目內容的文字描述)、節目播出信息(播出頻道、播出時間、節目時間)等幾個方面來描述。
 
節目特征可來自各個途徑的文本表述,也可來自對節目的語音識別及圖像識別而形成的文本表述,這方面是目前需要研究和加強的領域。
 
2)節目特征定義
 
節目特征用于描述節目的娛樂新、知識性方面的特點。常用的節目特征定義方式包括:節目的名稱、類型、導演、演員、關鍵詞等元數據信息。      
 
基于節目特征實現個性化推薦的優勢在于,只需要分析單個用戶的歷史行為就可以推薦,即使只有少量用戶也可以產生推薦列表,并且推薦的效果往往能夠符合用戶的“心理預期”,從而提高用戶對推薦引擎的信任。
 
3)節目特征的發展
 
節目特征模型的準確性對推薦效果的影響顯著,目前較成功的商業推薦引擎會采用更專業的描述信息來構建節目特征,常用的描述信息包括:
 
節目標簽:用戶對節目評價的“關鍵詞”,一般不成體系;
 
微類型:由專業人員對節目類型進行細化,netflix目前有一支專業的影評團隊給節目標注微類型。
 
娛樂基因:從更多維度描述節目,如故事背景、特效、獎項、劇情結構、價值觀、亞文化等,一般成體系。采用用人工標注的方式成本高昂,業內前沿的技術是用語義分析技術,從影評信息中提取基因,如Jinni目前已支持該項技術。
 
4)節目特征的定量計算
 
由于節目特征是通過一系列文本數據構成,在推薦算法中為比較不同節目之間特征的相似性,需要進行定量計算。目前常用的計算方法包括: DICE系數、編輯距離等。
 
3、用戶特征建模
 
1)用戶特征描述
 
初始用戶特征的獲取。用戶特征文件的自動更新:顯性反饋、隱性反饋(聚類、貝葉斯、NN算法等)。顯性用戶特征:基于分類人群收視率社會調查及用戶主動方式的特征提取,能夠解決用戶初始特征的缺失問題,即系統冷啟動和突發興趣問題;隱性用戶特征:來自于用戶長期的行為特征數據的提取,反映的是用戶穩定的喜好特征。
 
2)用戶特征的定義
 
用戶特征(畫像)用于刻畫用戶收看節目的口味,其最常用的模型是:用戶對節目進行評分的列表構成的向量。
 
用戶的性別、年齡、收入等冷數據,在廣電業務中使用較少,因廣電運營商主要面向的是家庭用戶。
 
3)用戶特征的變種
 
對不同類型節目的評分,對不同節目標簽的評分。用戶特征的變種,往往能夠在某種推薦場景中更準確的描述用戶的“口味”,從而使得特定的推薦算法更準確。
 
4)直接評分   
 
通過節目評分功能直接采集,較知名的評分系統如IMDB,豆瓣電影等;顯性評分能夠直接了當的反映用戶對節目的偏愛程度。評分方法包括:正負值(踩/頂)、5分制、10分制等。
 
鑒于用戶惰性,在沒有激勵的情況下,用戶并不愿意主動進行評分,這會造成用戶特征矩陣非常稀疏,導致推薦算法的結果不準確。
 
5)廣電大數據節目推薦系統算法研究及應用-用戶特征提取
 
間接評分:為了解決直接評分過于稀疏的問題,采用計算間接評分的方式構建用戶特征。間接評分的修正:點播節目以主動收視為主,直接評分的可信度較高;直播節目以被動收視為主,如果采集到用戶收看每個頻道時間過長,則時間線上靠后的節目的隱性評分的可信度較低;基于用戶收視模式修正間接評分是目前推薦算法研究的前沿之一,netflix等公司正致力該方面的研究。
 
6)家庭用戶的特征提取
 
在家庭中,多個家庭成員共用機頂盒的情況很普遍,家庭用戶的特征建模也是目前業界研究的重點。
 
目前常用的模型包括:
 
基于用戶組(Group-based)的特征模型:將用戶的偏好融合為整個組的偏好,這種模型適用于推薦適于所有成員一起收看的節目;
 
家庭內部特征模型:將家庭用戶的特征按照不同的口味劃分為多個特征,每個特征代表了一類需求,這種特征模型有適用于有成員主導電視的情況,例如有孩子的家庭,每天的17點至19點可能由孩子主導電視收看動漫類節目。家庭內部口味的劃分方法可以通過人工分類、聚類、雙聚類的多種方法實現。  
 
案例:Jinni提供了針對多個口味特征分別推薦的算法,youtube、GroupLens等能夠提供針對家庭或多個好友共同收看節目的推薦算法。
 
7)基于MDS聚類算法的隱性用戶特征提取
 
試驗記錄20個用戶從2006年11月1日到2007年4月30日的全部收視節目,應用MDS變換聚類算法,通過計算可以看到19個用戶的收視樣本都具有較為明顯的聚類特征,將這些收視樣本在變換空間的對應點投影到兩維坐標系,我們可以清晰地看到聚類云團。
 
8)基于MDS聚類算法的用戶特征提取
 
按照變換空間像點距離聚類中心近遠的排序,本文計算得到了每個用戶對應于其每個類別中心的10條實義節目樣本。
 
經過聚類得到的對應于每個用戶每個類別中心的節目樣本,具有相同或相似的節目特征,基本屬于相同的節目類別,這些樣本節目的特征,就反映了用戶的收視特征。
 
由于收視記錄是基于機頂盒的,也即是基于家庭的,因此上述聚類結果存在多個類別中心的現象是合理的。
 
4、特征的自動提取
 
1)TF-IDF自動提取多類特征
 
TF-IDF是一種用于資訊檢索與資訊探勘的常用加權技術。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。
 
節目標簽提?。和ㄟ^對節目內容信息,評論信息等文本進行分詞,利用TF-IDF技術可以提取關鍵詞形成節目標簽。
 
用戶畫像:將用戶看成文檔,看過的節目名稱和節目標簽當作文檔的關鍵詞,則可以通過TF-IDF算法,提取用戶畫像。
 
5、特征相似度匹配
 
1)深度學習計算特征相似度
 
在實際業務場景計算相似度時,單靠特征標簽無法解決所有問題。
例如:用戶A,有一個標簽為瑯琊榜,其偏好程度為5;用戶B有一個標簽為偽裝者,其偏好程度為4。如果就這個兩個標簽計算相似度,A與B的相似度為零。但這兩部電視劇為同一套制作陣容,其相似度是非常高的。這時候可以應用詞向量模型。
 
三、廣電智能推薦系統的應用
 
 
1、廣東省廣電網絡-節目推薦系統功能
 

 
2、廣東省廣電網絡節目推薦總體架構
 
 
3、廣東省廣電網絡-數據采集系統
 
系統能力:使用標準HTTP協議采集用戶行為數據;支持覆蓋300萬互動電視用戶;支持持久化存儲2836億條用戶行為數據;支持采集開機記錄、機頂盒心跳、直播行為、點播行為、頁面瀏覽行為、增值業務訪問、業務報錯日志;支持實時和非實時向第三方系統分發數據。
 
4、廣東省廣電網絡-節目推薦系統
 
系統能力:支持熱度排行節目推薦;支持關聯節目推薦;支持用戶口味節目推薦;支持群體喜好節目推薦;輸入媒資數據、用戶行為數據、BOSS數據;輸出推薦列表,支持300萬用戶規模,180萬機頂盒同時在線。
 
5、廣東省廣電網絡—節目推薦系統分層架構
 
基于Hadoop集群構建分布式存儲和計算平臺,對海量用戶行為數據、直播、點播節目數據執行離線推薦算法;基于storm和NoSQL技術構建實時計算模塊,對用戶近期行為(分鐘級別)進行實時入庫、跟蹤處理,通過執行近線推薦算法生成針對用戶近期興趣點的推薦結果;基于用memCached、nginx等技術,實現近線存儲、在線分析和應用請求處理功能,根據推薦請求的時間、地域等上下文信息對推薦結果進行最終的拼裝、過濾等在線處理;基于機器學習算法,實現學習反饋模塊,不斷調整推薦算法參數。
 
四、“智能”運營,贏在未來
 
1、人工智能,助力廣電“智能”運營
 
 
2、運營智能化:適時收視率統計、收視分析
 

 
 
3、運營智能化:智能推薦,實現節目與廣告的精準推
 
 
4、運營智能化:融合推薦引擎,簡而精、優而新的新UE系統
 
 
5、運營智能化:建立用戶流失預警模型,多維度維系和挽留用戶
 
 
 
6、運營智能化:一體化智能營銷體系,多觸點自動化提升營銷執行
 
通過各業務系統運營所產生的數據,為精準營銷提供準確的支撐,提升營銷目標客戶、產品、時機、活動的有效組織和管理,直接為市場營銷服務。營銷管理平臺作為重要橋梁將各類分析和挖掘結果充分應用到營銷策劃中,并將營銷活動信息便捷快速的推送到各類觸點渠道,實現營銷活動在渠道的落地執行。
 
 
7、運營智能化:基于節目、用戶、商品的三維關系,建立精準廣告系統
 

責任編輯:李娜

主站蜘蛛池模板: 象州县| 金秀| 项城市| 白银市| 招远市| 张家港市| 阳西县| 比如县| 丰原市| 尼玛县| 蓝田县| 陇西县| 馆陶县| 东明县| 甘肃省| 密云县| 富蕴县| 定远县| 定兴县| 南郑县| 仁怀市| 棋牌| 武川县| 丽江市| 玉山县| 郧西县| 杭州市| 错那县| 盈江县| 宣威市| 乌拉特后旗| 崇仁县| 温泉县| 封丘县| 乌拉特前旗| 南雄市| 海淀区| 新沂市| 泰来县| 天全县| 那曲县|