四川中衛(wèi)北斗科技有限公司

在線咨詢
微信

微信掃一掃

長按二維碼關(guān)注微信加好友

中國工程院院士高文:數(shù)字視網(wǎng)膜消除智能交通痛點

發(fā)布時間:2019-12-04 16:39

11 月 19 日上午,2019 世界人工智能融合發(fā)展大會于山東濟南正式召開。大會由工業(yè)和信息化部、中國工程院、山東省人民政府指導,由山東省工業(yè)和信息化廳、省教育廳、省科技廳、省財政廳、濟南市人民政府和新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟共同主辦。

      在這場大會上,中國工程院院士、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟理事長高文;中國工程院院士、浪潮集團首席科學家王恩東;英國皇家工程院院士、鯤云科技首席科學家陸永青;富士康工業(yè)互聯(lián)網(wǎng)董事長李軍旗等嘉賓出席,并作了主題報告。

image.png

中國工程院院士高文

以下是演講實錄:

各位專家、各位同行,各位朋友,大家好!

智能交通之所以被稱為“智能”,是因為它可以通過一些技術(shù)手段來提高效率;比如,它可以知道哪條路上車多,哪條路上車少。雖然,以前的信號控制系統(tǒng)也做了很多類似工作,但那些系統(tǒng)大部分是通過地面的線圈,或是通過攝像頭采集到的信息來進行輸入。

今天我要和大家分享的,就是將最現(xiàn)代化的傳感器和計算系統(tǒng)合在一起,去把智能交通這件事做好。

首先,我們來了解一下什么叫數(shù)字視網(wǎng)膜。實際上,數(shù)字視網(wǎng)膜本現(xiàn)在已經(jīng)形成了大規(guī)模的系統(tǒng),這個系統(tǒng)要如何把視頻“看到”的東西很好地協(xié)調(diào)起來,需要解決三個問題,一個是為什么,一個是怎么做,一個是具體的概念是什么。

從整體來講,無論是數(shù)字視網(wǎng)膜,還是圖像處理或視頻處理,都經(jīng)過了漫長的演化路徑。舉個例子,視頻處理技術(shù)剛出現(xiàn)的時候,模擬的是照相機,那時大概是在 19 世紀中前期;后來,從倫敦開始,人們慢慢將這些圖像以及其傳達的內(nèi)容利用起來;一直到 19 世紀中葉計算機以后,人們開始把模擬圖像變成數(shù)字圖像,進行處理和傳輸;到了今天,圖像處理從衛(wèi)星圖像到醫(yī)學圖像等領(lǐng)域不斷發(fā)展,甚至覆蓋了我們生活的各個方面。

以前人們在這一方面的處理能力不強,但現(xiàn)在,攝像頭和傳感器的發(fā)展越來越好,云計算也出現(xiàn)了。以前的攝像頭現(xiàn)在成了攝像機網(wǎng)絡(luò),由幾千個幾萬個攝像頭聯(lián)系在一起;原先簡單的云存儲也變成了現(xiàn)在復(fù)雜的城市大腦,一個城市有一個總存儲中心和若干個分存儲中心。智能交通的決策分析都在總中心進行,而數(shù)據(jù)則從最末端的每個攝像頭傳輸?shù)椒执鎯χ行模賲R總到總中心。

那么,這些數(shù)據(jù)具體是怎么過來的?以前的模式就是,攝像頭把拍到的內(nèi)容用編碼器壓縮后傳送回來,到了總中心再解壓,通過基于手工的系統(tǒng)來提取有用信息,并分析識別。隨著人工智能技術(shù)越來越成熟,上述手工完成的工作都交給了深度神經(jīng)網(wǎng)絡(luò)來做,只要有足夠的算力就夠了。

但是,這樣一個系統(tǒng),真的能提高效率嗎?如果效率不行,又是因為什么原因呢?剛剛說過,攝像頭拍到畫面后要進行壓縮,然后傳到總中心解碼,再進行特征提取、分析、識別;實際上,這個過程需要一定的時間,很難達到實時的效果。為了解決這個問題,人們不停地升級系統(tǒng),還加了許多特殊的智能攝像頭來直接識別一些特征,不再經(jīng)過編碼的過程,由此來節(jié)約時間。

這種解決方案真的好嗎?其實不然。因為,這樣做確實可以解決一些小問題,但是它帶來了更多的大問題?,F(xiàn)在的攝像機網(wǎng)絡(luò)規(guī)模很大,所以它收集的數(shù)據(jù)也非常大,然而,數(shù)據(jù)大不等于大數(shù)據(jù)。這些攝像頭拍下來的東西,85%—90% 都是監(jiān)控視頻的數(shù)據(jù),很難對整個城市的管理和規(guī)劃改進有幫助;而且,它們存儲的時間最長也只有三個月,可能在兩個星期的時候就被覆蓋了或是廢棄了。

這樣的超大數(shù)據(jù)量僅有一個超低的價值密度,我們應(yīng)該想辦法去轉(zhuǎn)換,讓它變得更有價值。問題其實出在架構(gòu)上。按照原來的架構(gòu),幾乎 99% 的攝像頭只是用來拍攝,然后將內(nèi)容編碼,即便它們傳輸?shù)臄?shù)據(jù)之后發(fā)揮了作用,攝像頭的貢獻也是極小的。所以,我們要想辦法讓攝像頭干更多的活兒,但又不是將其升級為簡單的智能攝像頭來識別人臉或車牌(原因上文已解釋)。

真正有用的方法是,讓攝像頭將有用的數(shù)據(jù)抽取出來,傳送到云,然后作為一個富有價值的大數(shù)據(jù)在云里處理并長期保存。這是從生物界受到的啟發(fā)。

image.png

無論人還是動物,我們都有眼睛,并且效率非常高。眼睛獲取光學信號是通過視網(wǎng)膜來獲取,視網(wǎng)膜里有兩種比較關(guān)鍵的細胞,感光細胞和錐狀細胞,這兩種細胞加起來有 1.26 億,而我們平時看到的東西,都是通過這些細胞來傳到大腦的。不過,在信息往后傳的時候,經(jīng)過了若干層,每傳一層信息都會進行縮減,一直傳到腦神經(jīng)的連接地方。

舉兩個例子,一個正常的孩子在學習的過程,實際是把神經(jīng)的全連接網(wǎng)絡(luò)進行了增強和剪裁,有些連接變得越來越粗,有些連接慢慢就萎縮掉,最后他能有效率地辨別事物。相反,一個患有自閉癥的孩子末端神經(jīng)和腦端神經(jīng)一樣粗,而是沒有進行過裁剪的全連接,他的注意力很難集中。

這也就說明了信息縮減的重要性,但目前我們的攝像頭沒有信息縮減這個功能,相當于一個“自閉系統(tǒng)”。所以,我們的系統(tǒng)要像人的視覺系統(tǒng)一樣,把信息縮減了再往上送。

為了做這件事,去年我和一個北大的同志,還有一個阿里巴巴的同志,三個人一起在《中國科學》上發(fā)了一篇文章名為《數(shù)字視網(wǎng)膜智慧城市系統(tǒng)演進的關(guān)鍵環(huán)節(jié)》的文章。

如果用了所謂的數(shù)字視網(wǎng)膜,這件事就可以解決了,數(shù)字視網(wǎng)膜有八個最主要的特性,我匯總了三個最本質(zhì)的特征:

第一個特征叫做全局統(tǒng)一的時空 ID,每個攝像頭要有一個全局統(tǒng)一的時空的 ID,地理位置是全局統(tǒng)一;每個攝像頭只要是送信息回來,馬上就知道這是全局統(tǒng)一幾點幾分的時間發(fā)生的事,發(fā)生的物理地點是在哪里。

第二個特征就是視網(wǎng)膜本身要有高效視頻編碼的能力,高效特征編碼的能力和聯(lián)合優(yōu)化的能力。高效視頻編碼方面現(xiàn)在有很多標準,像 AVS 標準,MPEG4 等等;特征編碼現(xiàn)在的標準有 MPEG,CDVS 標準,CDVA 標準;如果在一個碼流里,同時要監(jiān)控視頻編碼和特征編碼的話,要想辦法讓它們可以聯(lián)合優(yōu)化。

第三個本質(zhì)特征就是模型可更新,注意可調(diào)節(jié),軟件可定義,這也是三個不同的要求。我們現(xiàn)在都是用神經(jīng)網(wǎng)絡(luò)模型,隨著時間推移可能會有新的算法出來,所以,數(shù)字視網(wǎng)膜要是模型可更新的;換句話說,每個攝像頭上的算法都是可以升級的。注意可調(diào)節(jié),主要是可以后臺控制它。同一個畫面里的東西,優(yōu)先級在每個地方都是不一樣的,我們可以賦予它一個感興趣區(qū)域的功能,讓它有注意一些特別重要的區(qū)域,并保留這個區(qū)域的信息。

軟件可定義,可以通過軟件升級來實現(xiàn)軟件可定義。這種新的數(shù)字視網(wǎng)膜實際有三個流,不像傳統(tǒng)的攝像頭就是一個流,即一個視頻壓縮流或一個識別結(jié)果流。數(shù)字視網(wǎng)膜的三個流包括視頻編碼流,特征編碼流,模型編碼流。當然這三個流是有分工的,有的是在前端可以實時控制調(diào)節(jié),有的是通過云端反饋出來進行調(diào)節(jié)和控制的。這就是數(shù)字視網(wǎng)膜。實際上,數(shù)字視網(wǎng)膜主要是通過腦眼合一的方式,將未來終端的信息,通過數(shù)字視網(wǎng)膜的處理,送到云端的。

現(xiàn)在,我們在深圳專門做數(shù)字交通,為了做這個事而進行大規(guī)模的訓練。其中,有一些開源的東西,包括建立開源生態(tài),還有一些勢能的技術(shù),里面視頻編碼標準是一塊重要的勢能技術(shù)?,F(xiàn)在,聯(lián)盟也在做一些基于剛才說的標準裝的大的應(yīng)用標準,這些都在按部就班往前推進。

第一款數(shù)字視網(wǎng)膜芯片已經(jīng)在路上,很快就會發(fā)布,這個芯片很小,就像一塊錢硬幣一樣,但卻把我剛才說的三個本質(zhì)特征,八個功能全都包含在里面。將來,這種芯片可能會直接進入各種智能交通的系統(tǒng)里,會支撐數(shù)字視網(wǎng)膜的應(yīng)用。

掃一掃在手機上閱讀本文章

版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號-3    技術(shù)支持: 竹子建站