DT財經專訪 | 賈西貝:“不安分”的數據“提煉師”

日期: 2019-03-01
瀏覽次數: 43

簡介:為什么數據科學才有科學后綴,而從未聽過物聯網科學或者是區塊鏈科學?華傲數據創始人賈西貝在這次專訪中提出了一個有意思的觀點。他認為數據當然是一門科學。從數據科研到數據創業,賈西貝一直研究數據科學,也在數據科學的分支——數據治理上努力著,“從天上飛到地上走,踏踏實實地杵在地上前行”,他說這就是他的人生。

?

數據科學是科學問題

?

“為什么叫數據科學?我覺得這是個挺有意思的問題?!比A傲數據創始人賈西貝在接受DT君專訪時說。

?

賈西貝從大學本科到碩士學均在計算機系?!耙杂嬎銠C專業為例,計算機系往往叫計算機科學與技術系,或計算機科學與工程系,反映了計算機的兩個本質:科學和技術(工程)”,賈西貝博士說到。

?

他認為計算機科學和技術的本質很難分清,區塊鏈、云計算、物聯網等領域技術屬性凸顯得多一些,而數據則科學屬性凸顯得多一些。

?

“數據科學當然是一門科學?!辟Z西貝強調到,“其涵蓋深層次的系統化理論知識?!?/span>

?

首先,數據科學具有很強的理論性,這是研究數據庫時期賈西貝的認知。他認為數據科學在數據管理和數據利用兩方面,都有嚴密的理論基礎和科學體系。

?

在數據管理上,數據庫和云計算、移動互聯網等相比更具備堅實的理論基礎。賈西貝舉例說道:“關系數據庫是基于1970年‘關系數據庫之父’E.F.Codd發明的關系代數而產生的,賦予了數據庫數理邏輯、計算理論以及其他科學理論基礎,解決了關系數據管理的理論問題?!倍壳按蠹抑赖囊苿踊ヂ摼W更偏應用、云計算更偏商業模式,賈西貝認為數據科學涵蓋了更多深層次的理論及科學問題。

?

賈西貝提到數據庫領域中的數據挖掘、KDD(Knowledge Discovery in Database,知識發現)、機器學習以及人工智能等都是在解決數據利用問題,這些方向都有很強的數學基礎和理論體系,比如在概率、統計、隨機等方面的數學基礎,“因此,數據科學當之無謂是科學領域?!?/span>

?

其次,賈西貝提到,數據科學是學術共同體的共識。國際上對數據科學早已有認知,這是一個公認的科學。目前國際、國內已有多所高校成立數據科學學院,并且頒發專業的學位證書,說明學術上數據科學也獲得了廣泛的認可。

?

但賈西貝也提到目前想要了解數據科學必須要研究明白四件事:數據的生產和產生、數據的管理和治理、數據的應用和利用以及數據的存儲和加工?!皬倪@四個方向上建立相對完備的理論體系,這恐怕是數據科學要解決的事情?!?/span>

?

數據的價值

?

賈西貝的學生時代,數據科學還沒有被普遍提及,但數據一直是學術界和商界的關注。

?

大學到碩士期間都是學習計算機應用的賈西貝和數據的交集主要在多媒體數據,特別是視頻和圖像數據,雖然不是經典的數據科學,但是也和數據結下了不小的緣分。

?

“我是1999年進的北大,當時還不講數據科學?!辟Z西貝說,那個時候數據的名稱很有意思,“一個時代一個名稱?!睌祿?0年代的超大數據集(VLDB)變成90年代的海量數據(Massive Data),又變成2000年后的大數據(Big Data)?!皵祿吭絹碓酱?,但是形容詞卻越來越小?!辈贿^那個年代,數據常被看做是一種技術,現在看來,數據不僅是一種技術,更是一種資源。

?

提到數據資源,賈西貝的話匣子也就開得更大了。

?

他從三個關鍵詞來詮釋數據領域:數據科學、數據治理以及數據資源。

?

賈西貝很篤定地說,“數據首先具有資源屬性?!彼J為,如果說區塊鏈解決了生產關系的問題,云計算和人工智能解決了生產力的問題,那么數據則是在解決生產資料的問題,是未來社會的生產要素,相當于農業社會的“土地資源”和工業社會的“石油資源”。

?

2011年麥肯錫發布《大數據:創新、競爭和生產力的下一個前沿》報告,指出數據已經滲透到每個行業和商業功能之中,是生產的重要因素,和資本、勞動力并列第三生產要素。

?

赫拉利在《人類簡史》中講述了人類的進化過程,人從采集社會進化到農業社會,是對土地的利用讓人類有了第一次飛躍,而人類史上第二次飛躍即進入工業社會的標志則是因為利用了石油等能源,土地資源、石油資源都是使人類社會產生“巨變”的生產資料?!艾F在,數據就是和土地、石油一樣重要的生產資料?!辟Z西貝說到。以現在的新興產業來說,比如人工智能就需要大量的訓練數據集,“如果汽車‘吃’的是石油,那么人工智能‘吃’的就是數據?!边@其中,數據是基礎,資源屬性顯而易見。

?

2015年,黨的十八屆五中全會公報提出要實施“國家大數據戰略”,這是大數據第一次寫入黨的全會決議,標志著大數據戰略正式上升為國家戰略,明確提到把數據“作為基礎性戰略資源”。賈西貝分析道:“這說明國家對數據的生產資料屬性有充分的認知?!焙戏?、杭州等城市還紛紛成立了數據資源局。

?

在賈西貝上大學和研究生時,人工智能和數據科學都不是明星學科,尤其是人工智能剛剛經歷過挫折期,而數據科學的發展也主要表現在數據庫上?!?0年代數據庫研究的兩大方向是推理數據庫(deductive database)以及面向對象數據庫(object-oriented database),其中前者是數據庫與人工智能的結合,后者是數據庫與面向對象編程思想的結合,2000年之后則是數據庫和互聯網的結合,也就是半結構化數據(XML數據庫)?!盭ML數據庫是賈西貝英國讀博時的第一個研究方向,這之后,賈西貝的研究興趣就轉到了研究界還要去進攻的未知領域——數據質量,也就是賈西貝的主要研究方向以及現在為之“奔波”的目標。

?

在全球龐大的數據量背景下,如何體現數據資源的真正價值成了學術界和商業界共同的思量。賈西貝認為從擁有數據資源到發揮價值之間有一道鴻溝,而連接這道鴻溝的橋梁正是數據質量,有時候也叫數據治理,是數據科學的一個分支。以往的報道中都稱賈西貝及其團隊是中國的“數據精煉師”,“為大數據打開水龍頭”等,賈西貝解釋道:“數據就像石油,我們需要有個石油提煉廠,而我們就是建數據煉油廠的人?!睌祿卫碜寯祿闪艘环N可用、有價值的資源。

?

當然,關于數據,有個不得不提起的問題是數據隱私。大眾近年來對于數據的認知越發成熟,也意識到數據隱私正在成為大部分人的困擾,尤其是精準營銷帶來的數據泄露讓大眾叫苦不迭。賈西貝對于數據隱私保護上態度非?!皬娪病??!爸袊鴶祿⒎滩蝗菥??!睂Υ?,賈西貝非常嚴肅。

?

歐盟前后花了六年時間才讓一般數據保護條例(GDPR)正式生效,賈西貝認為中國目前走得快的話也需要3-5年時間。但是數據隱私立法是件非常嚴肅的事情,目前來看,困難點主要在這是一件比較新的事情,賈西貝分析說,有一些數據的利用方式還沒有充分展現,這個時候如果立法過于嚴苛,容易抑制產業的發展,如果立法過于松,也給違法犯罪行為“留了空子可鉆”。

?

“從天上到地上”的創業之路

?

賈西貝2011年回國選擇走上創業之路,創辦華傲數據至今已有八年時間。這八年,有過痛苦的階段,但是對于賈西貝來說,這是他想要追尋的夢想,“想做就去做、化理想為行動”是他的人生信條,他稱自己的創業是“從天上到地上”的過程,聽上去他很享受這次經歷。


?

數據治理彼時在國內并不被人熟知,研究的人也很少,在英國從事數據治理研究的賈西貝看準了數據的價值,憑借著之前在國內短暫的研究,毅然決然選擇回國創業。你如果問賈西貝在干什么,沒有啰嗦和大篇幅的介紹,“我們在做數據治理?!辟Z西貝的回答必然是干脆利落的?!皩I專注,聚焦打透”八個字是賈西貝創業的堅守,也是公司200人的“信念”。

?

這注定是一次“不安分”的決定。不過“不安分”也似乎成了賈西貝的“代名詞”。從放棄保送吉林大學本碩博連讀的機會,而選擇報考大連理工大學計算機科學與工程專業,到放棄保研大連理工,努力申請到北大讀研,再到此后去英國的求學之路,都在彰顯著他的“不安分”。賈西貝說:“我是個把夢想付諸實踐的人?!?/span>

?

數據治理就是賈西貝現在的“夢想”。2000年以前,數據治理還沒有系統的理論,那時工業界更多的是靠工匠精神,通過一些已有的經驗去做,2000-2010年這十年間才真正形成了系統的具有嚴密理論基礎的數據治理。但是以前國內對于數據質量這門學科不甚重視,尤其是企業更多的看中數據的應用,比如目前較最成熟的精準營銷。

?

賈西貝分析說,數據治理當時在國內的問題主要是本身不創造價值,而且這屬于數據中臺,賈西貝稱之為“下水道”,是大數據看不見的“良心工程”?!拔覀冏龅氖鞘柰ㄏ滤赖氖虑?,將數據梳理清楚之后,把數據資源通過提煉后傳送到各個地方,進而發揮數據價值?!?/span>

?

賈西貝在創業的過程中發現對數據治理的需求最強烈、最緊迫的其實是政府。工信部2016年印發《大數據產業發展規劃(2016-2020年)》,強調“政府部門、互聯網企業、大型集團企業積累沉淀了大量的數據資源”;再次強調“數據是國家基礎性戰略資源,是21世紀的‘鉆石礦’”。

?

賈西貝說:“由此可見,第一數據金礦在政府,第二數據金礦是互聯網,第三數據金礦是大型企業集團,可惜,政府部門的數據價值遠遠沒有發揮出來?!?/span>

賈西貝稱數據治理對于政府來說是“雪中送炭”的事情。政府的數據體量過于龐大,地理和層級分布過于分散。以區縣為例,一個區縣里一般有40-60個部門,而中國差不多有3000個區縣,那么中國區縣一級的部門大概有12萬個,如果每個部門有10個業務系統,那總共約有120萬個業務系統,也就是120萬個數據庫。就全國來說,僅在區縣一級,要融合的數據庫規模就是百萬級的。

?

“由于政府是科層制的,其各級別的信息化建設無法像企業那樣,由一個全國統一的IT部門統籌建設和運營,只能是各級別、各部門和各業務分頭建設、自主演化、獨立運營?!边@使得跨系統數據治理成為一項最先需要開展的、必不可少的工作。

?

“政府的數據相當于海水,得淡化之后才能喝?!比绻麤]有數據治理這一步驟,數據冗雜且不開放,“證明我爸是我爸”、“證明自己的性別”等無奈的事情還會繼續困擾老百姓。

?

政府才應該是數據治理的首要服務對象,賈西貝在創業幾年之后才發現這個道理。于是,賈西貝及其團隊做了這些事:

?

建數據輸油管道,通過數據的共享交換平臺解決數據互聯互通問題,為大數據打開“水龍頭”,將碎片化的數據庫連接起來。

?

建數據煉油廠(快加工的數據工廠)。采用自動化+流水線的模式,快速融合每一個市民的數據,形成包含城市中每一個實有人口和歷史人口的城市級人口基礎數據資源庫,并提煉出跨部門、跨系統、跨業務等城市數據資源基礎庫和主題庫,以此解決“證明我爸是我爸”這類民生問題。同樣地,數據煉油廠還要融合提煉出跨部門、跨感知終端的法人庫、房屋庫、證照庫、誠信庫等城市數據資源基礎庫和主題庫。

?

建數據過濾廠(慢加工的數據工廠)。就像污水處理廠一樣,層層過濾數據中的沖突、錯誤和安全漏洞,從源頭抓起預防數據庫多源異構、分散自主建設引起的格式、模型、標準不統一導致的數據碎片化問題。

?

國家層面上習主席曾兩次強調指出“推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務”,指出“要加強國際數據治理政策儲備和治理規則研究,提出中國方案”。這“三融五跨”已經成為當前我國數字中國建設和國家數據治理的指導思想?!叭谖蹇纭彼枷牒褪?、地市、區縣的大規?!拔蹇纭睌祿Y源庫建設實踐之間,需要一個方法論做橋梁,也就是賈西貝團隊總結出來的GLDM(Government Logical Data Model)方法論。

?

回國的這八年里,賈西貝從一開始想做一款基礎性通用產品到找到自己的真正數據服務道路,他正在努力把數據治理做到極致。從最初的技術和產品為主,到之后的業務和服務為主,再到現在的以技術+業務、產品+服務為主,賈西貝逐漸探索出了一條融匯對技術、業務、數據的理解、精通和運用的公司發展“三融”模式。他在公司里經常講的是“一萬次原理”,即真正把一扇門敲開往往需要敲一萬次,不過他也謙虛道:“在數據治理這道門上,我們目前可能還沒敲到9000次?!?/span>

?

從一名研究者轉換為創業者,賈西貝說自己最大的感受就是“操心”,因為是第一次創業,總會有痛苦的時候,但是他這樣形容自己的創業:從天上到地上?!拔矣X得如果不創業的話,我會一直待在學術的象牙塔里,就像在天上飛的感覺,自由飛翔不帶走一片云彩,創業的過程讓我感覺從天上跳到地上來了,腳踩著實地,杵到地上干活,深一腳淺一腳,讓大地上留下我走過的腳印,讓我深入社會,更深刻地理解人性,這給了我更多的人生經歷和感悟?!辟Z西貝說這話時,神態自然而放松,對于大多人都認為痛苦不堪的創業,他此刻看上去卻顯得很幸福,因為這是他喜歡做的事情。

?

“評價下你的性格吧?!辈稍L的最后,DT君問道。

?

“我的性格就是這樣,不屈不撓,不斷把夢想付諸實踐。人生一百年里,這也是一種精彩吧?!?/span>

?

本文轉載于DT財經

?

數據科學50人成員

?

賈西貝,國家特聘專家,科技部“創新人才推進計劃”科技創新創業人才,工信部新興產業百人會成員,曾任英國愛丁堡皇家學會(即蘇格蘭科學院)Enterprise Fellow?,F任華傲數據技術有限公司董事長、沈陽市大數據運營有限公司首席科學家、國家公共大數據重點實驗室副主任、哈爾濱工程大學、深圳大學兼職教授、(電子學會)中國大數據專家委員會委員、深圳市大數據促進會副會長、深圳市高層次人才聯誼會副會長。已在大數據領域申報了173項中國發明專利,51項國際專利(PCT)。曾獲IEEE國際數據工程大會(ICDE)最佳論文獎,3次在國際頂級數據庫綜合大會VLDB上演示創新大數據系統,多項技術應用于知名跨國公司。

?

關于數據科學50人

?

“數據科學50人”項目是由第一財經旗下DT財經發起的中國頂尖數據科學從業者的系列專訪與社群組織,從數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審并發布。


關注我們
微信二維碼
Copyright ?2011 - 2018 深圳市華傲數據技術有限公司
犀牛云提供企業云服務
色视频网站2