雙面大數(shù)據(jù):價值,還是隱私?
2016到2020年,我國數(shù)字經(jīng)濟總體規(guī)模不斷擴大,從2016年的22.4萬億元躍升至2020年的41.4萬億元?!皵?shù)字化”浪潮奔騰而來,作為其基石與核心的數(shù)據(jù)逐漸成為一種重要生產(chǎn)要素,“數(shù)據(jù)是寶貴的資產(chǎn)”、“數(shù)據(jù)是未來的新石油”這樣的說法隨著數(shù)字化成為趨勢,在這幾年中被反復提及。
包括網(wǎng)頁搜索瀏覽記錄、購物記錄、地理位置信息等在內(nèi)的互聯(lián)網(wǎng)生活痕跡,以及各式各樣傳感器完成的數(shù)據(jù)采集,飛速增長的數(shù)據(jù)提升了信息的精確性,為帶來更精準的洞察、更高效的消費體驗與更大的商業(yè)利益提供了可能性。
但虛擬數(shù)據(jù)世界的擴張也同時為現(xiàn)實生活中的個人隱私帶來風險。個人信息泄露可能引發(fā)的騷擾電話、垃圾短信以及財產(chǎn)損失,使得近年來消費者對個人信息保護的意識明顯提升。就監(jiān)管層面,從《網(wǎng)絡安全法》《個人信息安全規(guī)范》,再到App專項治理行動、《民法典》,政府對于數(shù)據(jù)隱私的監(jiān)管日漸趨嚴。對于企業(yè)而言,同樣面臨著數(shù)據(jù)合規(guī)要求下數(shù)據(jù)來源合法性、數(shù)據(jù)安全、隱私保護等系列風險和隱患。
如何在保障個人數(shù)據(jù)隱私的前提下推進數(shù)據(jù)協(xié)作,破解“數(shù)據(jù)孤島”、被頭部互聯(lián)網(wǎng)玩家控制的“圍墻花園”的問題,創(chuàng)略科技創(chuàng)始人及CEO胡世杰認為,聯(lián)邦學習這項新興技術將有助于更好地發(fā)揮數(shù)據(jù)的潛力。
創(chuàng)略科技創(chuàng)始人及CEO胡世杰
AI聯(lián)邦學習,魚與熊掌何以兼得
對于聯(lián)邦學習的理解,胡世杰以一句話將其簡要概括為,兼顧數(shù)據(jù)合作與隱私保護的去中心化協(xié)作機器學習技術。
將聯(lián)邦學習與傳統(tǒng)AI作對比可以幫助我們更好地理解這項新技術。傳統(tǒng)的中心化AI往往是把所有的數(shù)據(jù)匯聚到一個云或者數(shù)據(jù)中心,基于處理后的數(shù)據(jù)進行大量的計算,產(chǎn)出預測,從而運用到具體的應用場景中。聯(lián)邦學習從某種意義上而言正好相反,AI本身在參與方自己的設備、數(shù)據(jù)中心,或邊緣上去產(chǎn)出計算結果,利用本地數(shù)據(jù)訓練模型,將需要更新的參數(shù)同步回到一個中心節(jié)點,在平均其模型結果后,再將新的訓練模型分發(fā)到各個不同的參與者。在聯(lián)邦學習的機制下,參與者不需要犧牲底層數(shù)據(jù)隱私,就可以同時實現(xiàn)比較大規(guī)模的AI、機器學習的應用場景。
“運用聯(lián)邦學習技術的參與者可以是企業(yè),也可以是個人,個人和企業(yè)意味著不同的參與者數(shù)量。比如說醫(yī)院需要建立一個聯(lián)盟,數(shù)量上可能是20家,或者全國范圍內(nèi)的總數(shù),它們作為參與者加入后才能做一個聯(lián)盟化的機器學習,但不必犧牲自己的隱私數(shù)據(jù)。如果是個人作為參與者的情況,一部分的AI可以實現(xiàn)在自己的手機上去操作完成,再將學習后需要更新的參數(shù)在整個網(wǎng)絡上同步,同樣能達到保護個人隱私信息的目的。”胡世杰在訪談中介紹道。
區(qū)塊鏈+聯(lián)邦學習
在聯(lián)邦學習的場景中,每個參與者基于去中心化的分布系統(tǒng),通過共享一部分數(shù)據(jù)來進行有效的機器學習,而這仍然需要以數(shù)據(jù)安全得到保障、參與方之間互相信任、機制透明為前提。
談及區(qū)塊鏈機制如何與聯(lián)邦學習融合產(chǎn)生價值,胡世杰表示,中心化AI一般由某一方主導完成,例如投放微信廣告,企業(yè)的投放數(shù)據(jù)、消費者的數(shù)據(jù),都是匯總到騰訊方,然后騰訊基于其數(shù)據(jù)體量與模型去實現(xiàn)個性化推送廣告、信息流等。但在聯(lián)邦學習的場景下,可能沒有一個中心方去管理這個過程,它可能就是各個參與方,幾家企業(yè),或三方之間的事情。在這種參與方自行管理的情況下,將區(qū)塊鏈技術融合在聯(lián)邦學習的場景內(nèi),可以加強聯(lián)邦學習的透明度,實現(xiàn)多方信任與數(shù)據(jù)認證,真正做到聯(lián)邦學習的去中心化管理。
“比如一個金融場景下的聯(lián)邦學習聯(lián)盟,可能有跨銀行的10個參與者或者15個參與者,其目的都是為了加強各方關于客戶的洞察。如果有一方出于損害競爭對手的目的,特意上傳一些偽造、有疑問,又或是不干凈的數(shù)據(jù)到這個共享模式里,就會對整體的洞察造成破壞,影響原本正確的模型判斷。在這種情況下,如果用區(qū)塊鏈技術來做一個類似聯(lián)盟是否同意每一方數(shù)據(jù)質(zhì)量的投票機制,就能更好地減少作假,提升機器學習準確度?!?nbsp;
以深度洞察驅(qū)動全局營銷
為了打破企業(yè)間的數(shù)據(jù)孤島,提升企業(yè)AI效能,胡世杰介紹,創(chuàng)略科技在2019年就開始研究去中心化AI技術,一方面是聯(lián)邦學習,一方面是隱私計算,并挖掘其在全局營銷大場景下的價值。
很多行業(yè)的B to C企業(yè),可以基于自身第一方的私域數(shù)據(jù)體量,通過數(shù)據(jù)分析與沉淀來獲得有關客戶的標簽洞察。但在有限的私域數(shù)據(jù)之外的洞察,要么是缺乏渠道,要么是需要購買第三方數(shù)據(jù),再經(jīng)過ID匹配后獲取更多數(shù)據(jù)洞察。通過這樣的方式獲得的市場用戶洞察存在顯而易見的缺陷,一方面是私域數(shù)據(jù)的體量不足以支撐得出深度分析結果,淺嘗輒止;另一方面是第三方的數(shù)據(jù)來源及準確性難以保證。
基于聯(lián)邦學習不需要分享數(shù)據(jù)本身,也能完成機器學習目標的優(yōu)勢,創(chuàng)略科技將聯(lián)邦學習應用在營銷場景,幫助企業(yè)實現(xiàn)私域數(shù)據(jù)以外的全面洞察。
“如餐飲、旅游、金融等B to C領域,如果企業(yè)的體量足夠大,彼此間的客戶群體勢必會出現(xiàn)部分重疊,而基于重疊的群體,企業(yè)可以不犧牲自身數(shù)據(jù),而選擇加入一個企業(yè)聯(lián)盟,用聯(lián)邦學習獲取其他企業(yè)的客戶的洞察。舉例來說,一家航空公司的客戶在咖啡館消費的部分行為是能獲取的,假如通過聯(lián)邦學習獲得對消費者更全面的洞察,參與的這些企業(yè)將都能互相增值。如果想要進一步合作,則可以通過區(qū)塊鏈的學習,針對重疊用戶群體獲取一定的交叉銷售機會。”
對于企業(yè)而言,聯(lián)邦學習可以幫助獲得對消費者更全面的洞察,更大程度的發(fā)揮數(shù)據(jù)價值,助力企業(yè)經(jīng)營;同時其具備的隱私安全性將進一步保護消費者個人隱私信息,也使得對數(shù)據(jù)的運用更合規(guī),符合政府監(jiān)管的要求。
從“數(shù)據(jù)孤島”走向聯(lián)通共榮
為什么要發(fā)展聯(lián)邦學習這項技術?在胡世杰看來,除了能在全局營銷上發(fā)揮顯著作用,聯(lián)邦學習對于當前商業(yè)格局的發(fā)展同樣將產(chǎn)生深遠影響。
橫向來看,當前的互聯(lián)網(wǎng)模式呈現(xiàn)出中心化的發(fā)展體系,當一個中心化的體系達到固定規(guī)模后,從數(shù)據(jù)體量角度而言,就如同馬太效應,占據(jù)主導地位的主體優(yōu)勢會越來越大,導致第三方參與其中的難度增加。聯(lián)邦學習技術的發(fā)展對現(xiàn)有局面具備一定的顛覆性,當技術發(fā)展得更為成熟,落地到更多具體的應用場景,將促成多方自主協(xié)作而不必對單一主體產(chǎn)生依賴。
縱向而言,聯(lián)邦學習減少了數(shù)據(jù)暴露風險的規(guī)模與程度,這適應于智能設備與物聯(lián)網(wǎng)普及的大趨勢,當設備的計算更多集中在本身和邊緣計算,數(shù)據(jù)沒必要再匯總到一個主機房,對于降低成本、提升設備性能將產(chǎn)生積極影響。
避免隱私成為數(shù)據(jù),讓數(shù)據(jù)發(fā)揮更大的價值,聯(lián)邦學習作為一項重要的新技術方向,在打破數(shù)據(jù)孤島、走向聯(lián)通共榮上有著巨大的潛力,隨著智能設備與物聯(lián)網(wǎng)的普及,聯(lián)邦學習將獲得發(fā)揮更大價值的發(fā)展空間。