《硅谷》里神乎其神的壓縮技術(shù) AI正在一點(diǎn)點(diǎn)做出來
2018-01-04 12:28:35 來源:雷鋒網(wǎng) 作者:腦極體 熱度:
好劇總是追的特別快,比如說我們熟悉的黃暴神劇《硅谷》,今年該迎來第五季了。
這部劇里讓人印象深刻的東西很多,而劇里幾個(gè)主角發(fā)明的創(chuàng)業(yè)神器、號稱能改變世界命運(yùn)的“魔笛手”絕對是其中之一。
給沒看過這部劇的朋友介紹一下,所謂的“魔笛手”是劇中主角發(fā)明的壓縮算法。本來這個(gè)東西是他們用來打造音樂網(wǎng)站的,結(jié)果后來這個(gè)技術(shù)被證明可以把文件無損壓縮到極小,并且速度極快,從而引出了令人無法直視的各種劇情。
據(jù)說在寫劇本之初,主創(chuàng)人員曾經(jīng)想過寫一種什么技術(shù),能讓觀眾馬上懂得其意義,又跟真正的技術(shù)世界比較貼合。最終他們發(fā)現(xiàn),壓縮是最好的選擇。因?yàn)椴畈欢嗝總€(gè)人都知道文件越小越好,如果主角搞出來一個(gè)能讓數(shù)據(jù)無限存儲(chǔ)的東西,那當(dāng)然就賺大了。
《硅谷》里神乎其神的壓縮技術(shù) AI正在一點(diǎn)點(diǎn)做出來
事實(shí)上,人類跟數(shù)據(jù)的無損壓縮這件事,已經(jīng)硬杠了幾十年。成熟的壓縮技術(shù),已經(jīng)通過互聯(lián)網(wǎng)變成了大多數(shù)人的日常用品。但盡管如此,壓縮這件事始終沒有走到終點(diǎn),《硅谷》里那種神一樣的壓縮技術(shù),依舊是我們渴望而不可及的。
但在今天,人工智能開始把壓縮這件事放在自己的任務(wù)欄里,并且一步步對《硅谷》里的“魔笛手”發(fā)起挑戰(zhàn)。
折騰了半個(gè)世紀(jì)的無損壓縮
我們?nèi)粘T趯嚎s的主要需求,被稱為無損壓縮。它可以將文件變小,然后再通過某種方式還原出來正常使用。雖然今天這聽起來很普通,但其實(shí)人類已經(jīng)為它折騰了50多年。
當(dāng)然,發(fā)現(xiàn)數(shù)據(jù)應(yīng)該壓縮后再進(jìn)行傳輸和存儲(chǔ),是更早之前的事情。從19世紀(jì)的摩斯電碼時(shí)代人類就已經(jīng)發(fā)現(xiàn)了,很多數(shù)據(jù)中的無效部分是可以被歸類和省略的,從而可以換取更快的傳輸速度和更少的存儲(chǔ)空間。
這可以說是一種符號世界里的常識,比如說一個(gè)人跟另一個(gè)人說“老地方見”,那么就意味著他們把這句話中的地址信息在彼此都了解的情況下進(jìn)行了壓縮,從而縮短了講話時(shí)間。
類似道理的壓縮技術(shù)很早就應(yīng)用在計(jì)算機(jī)世界,在大型機(jī)當(dāng)?shù)赖臅r(shí)候其價(jià)值已經(jīng)被證明。但真正壓縮開始流行,還是在互聯(lián)網(wǎng)飛黃騰達(dá)之后。
1977年,是無損壓縮這件事跨時(shí)代的一個(gè)年份。這一年,以色列海法理工學(xué)院的科學(xué)家Abraham Lempel 和 Jacob Ziv聯(lián)合發(fā)表了一種壓縮算法,以兩人名字共同命名為LZ算法。這一年發(fā)布的技術(shù)被稱為LZ77。第二年,兩人又發(fā)布了改進(jìn)版的LZ78。此后所有無損數(shù)據(jù)壓縮技術(shù),差不多都是從這兩種演化而來。
另一個(gè)無損壓縮的時(shí)代,開始在八十年代末。
這個(gè)時(shí)候,隨著互聯(lián)網(wǎng)開始騰飛,各種商業(yè)壓縮軟件已經(jīng)成熟,但還缺少能獨(dú)大的那一家。
當(dāng)時(shí)流行的壓縮軟件叫做Arc,后來一個(gè)名叫Phil Katz的年輕人突發(fā)奇想之下,希望能夠做個(gè)更好的版本。于是,這個(gè)之后被稱為互聯(lián)網(wǎng)天才和第一代極客的大牛做了名字充滿挑釁意味的PKArc。結(jié)果1988年,Phil Katz被告侵犯商標(biāo)和知識產(chǎn)權(quán)。于是第二年他又做了新的修改版,用了新的IMPLODE算法,也就是我們今天無比熟悉的ZIP。
《硅谷》里神乎其神的壓縮技術(shù) AI正在一點(diǎn)點(diǎn)做出來
遺憾的是,這位無損壓縮的時(shí)代人物沒有逃脫老天對天才的妒忌。伴隨著嚴(yán)重的妄想癥、抑郁癥和酗酒,他37歲就離開了人世。但是ZIP卻統(tǒng)治了壓縮世界的話語規(guī)范,直到今天。
人工智能正在改變壓縮
在相當(dāng)長的一段時(shí)間里,壓縮都被認(rèn)為是無需再進(jìn)行改善的東西。但隨著新終端、新的存儲(chǔ)方式到來,人類又一次對壓縮提出了新的要求。
就像《硅谷》里說的那樣,移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的加持下,人類正在以幾何增長的速度制造新數(shù)據(jù),這些數(shù)據(jù)可能很快就會(huì)沒有地方存儲(chǔ)。既然大家都不想刪除文件,那么只能寄希望于文件變小一點(diǎn)了。
《硅谷》里所謂的魔笛算法,一度引發(fā)了不少跟風(fēng)打造屬于自己的“魔笛”,但是效果普遍沒有劇里那么犀利。
最終這個(gè)任務(wù),很可能還是要落在人工智能的頭上。
2016年,谷歌相關(guān)團(tuán)隊(duì)推出了一款叫做RAISR(Rapid and Accurate Image Super-ResoluTIon)的圖像壓縮技術(shù)。這個(gè)解決方案就是以人工智能技術(shù)作為壓縮路徑,效果能達(dá)到將圖片壓縮到源文件的1/4, 卻基本不改變圖片的清晰度。
《硅谷》里神乎其神的壓縮技術(shù) AI正在一點(diǎn)點(diǎn)做出來
能達(dá)到這種效果的訣竅,在于給機(jī)器學(xué)習(xí)輸入大量的圖片壓縮數(shù)據(jù)。讓智能體去學(xué)習(xí)圖片壓縮的模式,從而創(chuàng)建符合每個(gè)圖片要求的濾波器。由此產(chǎn)生的壓縮后圖片只是被忽略了數(shù)據(jù)細(xì)節(jié),卻保留了能夠讓人眼識別的部分。
在極大程度壓縮文件的同時(shí),這種技術(shù)還能提升文件壓縮速度。主要用來提供移動(dòng)端的圖像傳輸和瀏覽效率,讓用戶獲得更好的圖片觀看體驗(yàn)。
谷歌發(fā)布的AI+壓縮技術(shù)應(yīng)用在圖片領(lǐng)域,而一些新的方案,正在把AI向通用壓縮領(lǐng)域擴(kuò)張。
在一篇斯坦福大學(xué)相關(guān)團(tuán)隊(duì)最近發(fā)布的論文中,闡釋了一種被稱為DeepZip的壓縮方式。顧名思義,這種技術(shù)將深度學(xué)習(xí)和壓縮融合在了一起,希望利用AI技術(shù)獲得更好的壓縮體驗(yàn)。
這篇論文里,研究者闡釋了利用RNN,即循環(huán)神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行文件壓縮的方式。所謂RNN,是一種深度學(xué)習(xí)中的經(jīng)典神經(jīng)網(wǎng)絡(luò)技術(shù)。形象一點(diǎn)解釋,這種神經(jīng)網(wǎng)絡(luò)框架就好比讓一個(gè)人擁有了一定的知識基礎(chǔ)再去學(xué)習(xí)下一個(gè)知識,往復(fù)循環(huán)形成對長期記憶的理解能力。
研究者發(fā)現(xiàn),使用RNN技術(shù)可以明顯改善內(nèi)部有依賴關(guān)系文件,比如圖像、視頻、文本文檔的壓縮效率。很可能是我們進(jìn)一步提升壓縮效率,化大為小的突破口。
總而言之,不同的AI技術(shù)正在嘗試從前所未有的角度撬開無損壓縮的大門,希望能像電視劇里那樣,搞出一個(gè)質(zhì)變來。
今天的世界,確實(shí)在期待更好的壓縮
那么到底為什么一定要有更好的壓縮方式呢?或者說即使有了這種技術(shù),是不是真正能像《硅谷》里描述的那樣改變世界呢?
這要從到底哪些方向需要壓縮的技術(shù)變革來看。
首先,對于劇中所描述的“數(shù)據(jù)末日”,產(chǎn)業(yè)界有各種各樣的看法。有人認(rèn)為人類的數(shù)據(jù)量確實(shí)在爆炸,很可能面臨存儲(chǔ)瓶頸,從而引發(fā)社會(huì)對數(shù)據(jù)空間的爭奪。但也有人認(rèn)為,更大的云空間也在不斷建設(shè)中,數(shù)據(jù)量很可能永遠(yuǎn)也追不上不斷擴(kuò)大的云空間。
孰是孰非不好定論,關(guān)于壓縮技術(shù)的進(jìn)步,更多人認(rèn)為是和移動(dòng)設(shè)備、可穿戴設(shè)備以及物聯(lián)網(wǎng)設(shè)備的普及化相關(guān)的。這些設(shè)備都對數(shù)據(jù)傳輸?shù)乃俾视幸螅俣仍娇祗w驗(yàn)越好。那么壓縮能力的進(jìn)化,顯然可以增強(qiáng)這些聯(lián)網(wǎng)設(shè)備的工作能力,尤其是對于物聯(lián)網(wǎng)設(shè)備來說。
但最有可能的需求,是來自于那些新技術(shù)風(fēng)口。
比如VR、無人駕駛的高精地圖、基因圖譜數(shù)據(jù),以及深度學(xué)習(xí)所使用的訓(xùn)練數(shù)據(jù)集,這些文件都比我們?nèi)粘=佑|的互聯(lián)網(wǎng)數(shù)據(jù)大上很多。隨著VR、無人駕駛、人工智能這些東西一步步產(chǎn)業(yè)化、日常化,對它們的傳輸、保存和使用需求也在不斷擴(kuò)大。而且這些都是高精度文件,對壓縮的效果和質(zhì)量也提出了新要求。
所以,高精度、高速率的壓縮解決方案正在被熱切渴望著。甚至可能成為未被重視的巨大市場。用AI壓縮來滿足AI的需求,可能是接下來我們會(huì)見到的常態(tài)。
責(zé)任編輯:佟美麗