3月21-25日,一年一度的
CCBN展會在北京隆重舉行,來自產業各個環節的企業紛紛在展會上為觀眾呈現了最新的產品技術和解決方案。在DVBCN&AsiaOTT-CCBN采訪間,廣州市誠毅科技軟件開發有限公司總經理
邵山先生接受了DVBCN&AsiaOTT記者的專訪。
邵總表示,
誠毅軟件與省網底層數據的聯系比較多,到目前為止誠毅軟件用戶數超過6000萬,每天實時更新的數據大概100T,大數據目前并不熱,誠毅軟件早在十幾年前做移動通信時就有涉及到大數據方面的應用,有通信的運營商在做精準營銷和KPI管理、流程預警等等其它主題,它給內部服務。
今年的變化在未來更多是一種行業和行業間數據的跨界連接。比如房間與地理信息都可以整合到互聯網上面,多維度地加載到一起,所以數據之間的跨界,行業內的應用在未來的趨勢更加有吸引力,同時也帶來新的挑戰。
一、數據清理的現狀
2016年作為跨界元年,2016年開始很多人都開始研究,要把自己的數據跟更多有數據的人融合。大數據自身服務還遠遠沒到位,雖然跨界提了很多,但數據縱深的發展,現在廣電整個行業還是有問題的,邵總認為是它數據的準確性,絕大部分數據要通過整理和清理才能叫數據,通過整理清理后的數據真正加工出來才能叫信息,所以很多數據是無效的,廣電到現在為止自身數據的清洗并沒有完成。
誠毅軟件在做這方面清洗與甲方的配合,因為單靠一方面做不到,誠毅軟件在幾個數據清洗好的地方都是因為甲方的配合很到位,它重視數據,有甲方的力量一起做這個事,技術手段才會得到形成。從技術角度來看,誠毅軟件數據清理的60%到70%,能夠靠技術、自動化、或人工化來得到實現,但到70%為極限,剩下30%一定要甲方一起統計,因為里面的內容,如數據的來源、財務等結構并不知道。
從現在來看,本身數據的規整清理是大數據到目前為止廣電最需要的,誠毅軟件提供技術手段,廣電提供管理手段,按照這個規則來執行,再進來的數據不就不再是“臟數據”。從這個角度來看,本身的清理和后期數據的灌入按照新的標準,這是需要的。
誠毅在廣電行業占有率很高,如果有相應規范,大家聯合統一,出來的數據執行新的標準,就可以準確定位用戶,現在很多盒子都帶Wi-Fi的,,如果把系統加以衍生的話理論上都可以定位到。邵山指出只要新的規范建立起來了,之后在執行過程中誠毅就可以發揮更大的作用,九成幾的數據都是比較準確的,只是后期需要再注意一些小細節,整個干凈程度就會大大提升。
二、內容推送的精準度應該基于了解
在內容推送方面,邵山便是,所有應用基于了解,要有了解才能推送得準確,廣電為什么在業界目前為止推送的準確率(不高),他認為內部真正的數據是不超過20%,現在普遍最好的也就是12%到15%,也就是推薦10個片子,可能也就中一點幾的片子,推薦準確率其實不是那么高。
邵山談到,現在最高的還是Netfilx做得好,它號稱自己的準確率是75%,推薦四個片子,三個片子都能中。原因就是基于對這個客戶(的了解),因為它的前身是做推送的,用戶住在哪里、是什么人,系統都是了解的。而廣電做的推送在家庭之后沒有掛到個人上,有可能是小孩看,有可能是老人看,需要基于了解才能分析,現在廣電整個推薦準確率不高就是基于了解程度還不夠深。
互聯網上,比如用戶是通過賬號登陸進去的,但很多基礎信息不一定是真的了解到的,比如用戶會考慮在購買智能電視機時要不要把信息登記得那么全,家里幾套房、在客廳看還是在臥室看,這些信息是不好獲取到的。推薦率不高,主要是因為對客戶的了解程度不夠,所以推片準確率不夠。現在有什么解決辦法呢?它要通過模型訓練,那就一定要積累什么時間點、什么帳號登陸(因為有子帳號),慢慢訓練模型,跑一段時間我們就能確定出來客戶的畫像,有了畫像、知道了喜好,推薦準確率就會提高。各地標準都不一樣,互聯互通時對比數據也會存在問題。而且現在條塊化帶來整個IT系統支撐的效率不是特別高。邵山認為現在推薦準確率的問題主要還是處于跑基礎數據的階段性問題。
三、人工智能與推送的結合
邵山表示因為現在推薦的東西跟人工智能有關,目前誠毅也專門設立了一個小組研究這一方面,通過深度學習、通過模型建立,來建立這方面(的技術),讓人的需求和內容更加匹配,一定要通過智能的學習才能建立起來這個東西。這之中是需要測算的,內容和需求匹配,其實這里面有很多深度學習的經驗。未來從推薦的角度來說它肯定會不停地升級,現在國內在15%到20%左右。
在談到與其他企業合作時,邵山表示也是想跟愛奇藝、騰訊、樂視探討模型建立的事宜,他認為雙方思路肯定會存在不同,但沒關系,大家可以一起跑,跑出來以后互相借鑒。你有你的、我有我的,策略是這樣,讓大家通過自己的算法、自己的模型來跑。