5月17-18日,2017亞太OTT/IPTV生態大會在北京隆重召開。在18日下午舉行的“IPTV新業務發展論壇”上,上海星紅桉數據科技有限公司營銷中心總經理、副總裁郭碩帶來了《星紅桉的大數據之路》的精彩演講。
圖為上海星紅桉數據科技有限公司營銷中心總經理、副總裁 郭碩
為數據分析而生 碩果累累
據郭碩介紹,星紅桉成立于上海,第一個數據平臺建設始于2013年新疆天山云大數據平臺;截止到15年8月,已經為10家以上的有線電視提供數據服務;2015年12月開啟IPTV業務之旅,為山東IPTV提供數據分析服務;2016年4月為廣西IPTV提供數據服務;2016年5月為大象融媒提供數據服務;2016年8月為為河北IPTV提供服務;2017年期待為更多的客戶提供數據服務。
一方面是巨大的數據,另一方面是在大數據系統架構進行的分析和商業應用。為什么這么說呢,因為一直以來,數據量和分析的元素一直都在。做大數據的目的就是讓業務表現的更佳,創造新的價值。
星紅桉大數據路徑——四部曲
星紅桉把數據定為4步,數據本身、從數據獲取信息、認知,然后是人工智能。
數據應用3大核心領域:創意與節目的匹配、廣告與內容的匹配、內容與人的匹配。
數據存儲3個層次
內存數據庫集群(Redis)
分布式文件存儲(HDFS)
數據庫存儲
實例
每個用戶每天產生的數據量值,數據量值每個用戶平均每天產生1150條數據,其中主動行為數據50條。按100萬用戶計算,每天產生數據11億5千萬條數據,文件大小約75G。一個月平均產生340億5千萬條數據。
根據實際測試,按照1分鐘心跳,根據57萬實時在線戶數高峰期實測,單臺采集每秒流量為2MB/s,考慮做1.2倍冗余,計算所需帶寬如下:100萬實時在線戶數高峰期帶寬需求:(100/57)*(2*1.2)*8*7=236M。
郭碩表示,他們每天為8個百萬用戶以上量級的系統提供服務。
數據的ETL
目標:通過對數據的清洗、分析、審核工作,建立一套可以被信賴的數據集。
實例:74G數據寫入分布式文件系統需30分鐘左右,處理到業務單元時間為8分鐘。
郭碩指出,ETL的過程代表對業務本質的認知。是最基礎的一步。此過程都圍繞這一件事情做“整合”。此外星紅桉還提供咨詢報告,我們服務的客戶,每周、每月都出服務的報告。
演講最后,郭碩補充到,沒有大數據能離開人工智能,分支亦然。星紅桉也在進行第一步探索,包括產品往運營商輸送,把整個的數據做成一款產品,打通直播、點播平臺,通過讓用戶更好的選擇想看的東西,把實時收視率結合上節目單,結合一些數據去做排行,用戶可以基于這個排行選擇節目。
星紅桉將讓電視更貼心!