百融金服總裁張韶峰
2015第十三屆中國(guó)互聯(lián)網(wǎng)經(jīng)濟(jì)論壇暨”金i獎(jiǎng)“頒獎(jiǎng)典禮于12月18-19日在北京萬豪酒店隆重召開。百融金服總裁張韶峰在2015智慧金融高峰論壇上介紹了如何用大數(shù)據(jù)給普惠金融建模,并提出金融機(jī)構(gòu)使用大數(shù)據(jù)時(shí)的建議以及展望。
以下是張韶峰演講實(shí)錄:
今天給大家作的報(bào)告是“大數(shù)據(jù)如何助力普惠金融落實(shí)”。我不是做金融出身的,我一直是做數(shù)據(jù)出身的,畢業(yè)開始就一直做各種各樣的數(shù)據(jù)挖掘,做過傳統(tǒng)行業(yè),互聯(lián)網(wǎng)公司像天涯也做過,百分點(diǎn)科技是服務(wù)消費(fèi)領(lǐng)域、互聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)公司,百融金服是專門服務(wù)于金融機(jī)構(gòu)的大數(shù)據(jù)平臺(tái)。
我們主要是給金融機(jī)構(gòu)提供基于大數(shù)據(jù)的風(fēng)險(xiǎn),精準(zhǔn)營(yíng)銷,還有產(chǎn)品設(shè)計(jì)的這么一個(gè)平臺(tái)。我們的背景包括中國(guó)華融資產(chǎn)管理公司,浙報(bào)傳媒、還有中國(guó)移動(dòng)、中國(guó)銀聯(lián)等等,還有企業(yè)征信的牌照。
大數(shù)據(jù)到底怎么樣助力普惠金融?第一是說大數(shù)據(jù)到底對(duì)金融行業(yè)有什么價(jià)值?這里羅列了幾點(diǎn),金融行業(yè)的核心其實(shí)是解決了信息不對(duì)稱,但金融機(jī)構(gòu)自己一樣存在信息不對(duì)稱的問題,解決得好就能賺錢,解決不好就虧錢。金融機(jī)構(gòu)大數(shù)據(jù)可以做什么事情呢?包括風(fēng)險(xiǎn)防范,像信用風(fēng)險(xiǎn)防范、精準(zhǔn)營(yíng)銷、管理、催收、以及風(fēng)險(xiǎn)定價(jià)、產(chǎn)品的設(shè)計(jì)。
關(guān)于大數(shù)據(jù),目前市場(chǎng)有很多說法,也有很多誤區(qū)。第一就是數(shù)據(jù)量大,其實(shí)數(shù)據(jù)大并不代表是大數(shù)據(jù),大數(shù)據(jù)更多強(qiáng)調(diào)的是你的價(jià)值要大,而不是數(shù)據(jù)要大,一個(gè)攝像機(jī)放在煎餅果子攤,7×24小時(shí)都錄,數(shù)據(jù)量也很大,但是價(jià)值卻很小。所以,更多強(qiáng)調(diào)的是要有用,有價(jià)值。
大數(shù)據(jù)的核心內(nèi)涵一個(gè)是數(shù)據(jù)的交叉融合,不同行業(yè)領(lǐng)域的數(shù)據(jù)融合,它比單一一個(gè)領(lǐng)域的數(shù)據(jù)簡(jiǎn)單疊加價(jià)值要大。不同領(lǐng)域的數(shù)據(jù)融合是乘法效應(yīng),相同領(lǐng)域的數(shù)據(jù)疊加是加法效應(yīng)。
對(duì)金融機(jī)構(gòu)來講,這個(gè)問題尤其嚴(yán)重,為什么這么講呢?很多金融機(jī)構(gòu)跟我們說,我有很多數(shù)據(jù),尤其銀行特別愛說有很多數(shù)據(jù)。實(shí)際大家仔細(xì)想一想,金融是整個(gè)經(jīng)濟(jì)活動(dòng)里面處于下游,我們?yōu)槭裁匆桢X呢?你要買房子。為什么要買保險(xiǎn)呢?你要坐飛機(jī),或者可能覺得自己未來會(huì)生病。由于有了生活過程當(dāng)中的原因,才有金融活動(dòng)的結(jié)果,所以,金融機(jī)構(gòu)實(shí)際上是不掌握數(shù)據(jù)的上游,金融機(jī)構(gòu)處于數(shù)據(jù)的下游,為什么今天BAT,百度、騰訊、阿里他們跟銀行直接競(jìng)爭(zhēng)呢?因?yàn)樗莆樟松嫌危运梢宰瞿愕氖虑?,他是從山頂往下沖,你是往上爬。所以對(duì)金融機(jī)構(gòu)來講,如果你做大數(shù)據(jù),你是應(yīng)該掌握原因,而不是結(jié)果,結(jié)果已經(jīng)是很小一部分,往往已經(jīng)來不及了,事情已經(jīng)發(fā)生了。
下面我們介紹一下第二部分,如何利用大數(shù)據(jù)進(jìn)行金融建模,包括三方面,一個(gè)是傳統(tǒng)的風(fēng)險(xiǎn)建模思路,第二是線上線下融合,第三是思路實(shí)踐效果,第四是大數(shù)據(jù)在不良資產(chǎn)中的管理與應(yīng)用。
第一是傳統(tǒng)金融機(jī)構(gòu)建模思路,不管有沒有用,基本上有一個(gè)思路,主要是這么幾個(gè)變量,第一個(gè)是你過去什么時(shí)候借過錢,信用記錄的時(shí)間。有沒有逾期、壞賬、額度這些數(shù)據(jù),其中最最重要的變量就是你過去借錢有沒有還,形成壞賬。我們利用這個(gè)數(shù)據(jù)來預(yù)測(cè)下一次借款會(huì)不會(huì)逾期,會(huì)不會(huì)直接形成壞賬。
如果說這個(gè)用戶之前有過借款行為,你用這個(gè)數(shù)據(jù)預(yù)測(cè)下一次借款是不是還,我覺得還是OK的,效果不錯(cuò)。但是如果一個(gè)用戶之前根本就沒有過借款行為,實(shí)際上你怎么評(píng)估呢?這是一個(gè)悖論,很難評(píng)估它。我們?cè)僬f得數(shù)學(xué)一點(diǎn),技術(shù)一點(diǎn),傳統(tǒng)的方法是用10—15個(gè)強(qiáng)變量,來算一個(gè)違約概率,你的X也好、Y也好都來自于金融機(jī)構(gòu)本身,這種方法已經(jīng)被金融機(jī)構(gòu)覆蓋的情況下是有效的,應(yīng)該說是相當(dāng)好的。但是對(duì)中國(guó)來講,這個(gè)情況變得完全不一樣,在美國(guó)可能80%都是有金融信用記錄的,在中國(guó)可能80%是沒有信用記錄的,人民銀行征信中心大概有3億人的信用記錄,占中國(guó)總?cè)丝诘?5%,仍有75%的人沒有有效的信用記錄,這將導(dǎo)致大多數(shù)人的融資需求很難得到滿足。我們說我們要做普惠金融,可是無法捕捉到他的信用記錄,不能借給他,所以還是不能做普惠金融,就形成了一個(gè)怪圈。
有沒有什么方法可以緩解這個(gè)問題?金融機(jī)構(gòu)的數(shù)據(jù)剛才已經(jīng)講過了,比較少,因?yàn)榻鹑跈C(jī)構(gòu)的金融行為屬于低頻行為,它處于下游。但是日常的生活消費(fèi)行為社交行為處于金融的商業(yè),我們捕捉不到那么多用戶的金融行為,但是大部分用戶的衣食住行,社交娛樂,都是天天在發(fā)生。這種數(shù)據(jù)非常的大,我們剛剛講說傳統(tǒng)的借款方法是10—15個(gè)變量,很少有銀行用到20幾個(gè)變量,但是如果說這種變量的話,可能就是50萬個(gè)變量,不像我們公司原始的數(shù)據(jù)庫(kù)底層的,每個(gè)人50萬的數(shù)據(jù)。不管你借沒借款都有這樣的數(shù)據(jù)。
第二個(gè)是維度非常多,好處和壞處都有。壞處是邏輯規(guī)則方法不管用,比如說很多公司做廣告預(yù)測(cè),他要做每個(gè)人看見廣告會(huì)不會(huì)點(diǎn)擊的預(yù)測(cè)非常難做,他大概會(huì)用幾億的變量做預(yù)測(cè),每個(gè)相互關(guān)聯(lián)性都很弱,屬于典型的弱變量。這個(gè)方法很難,但是它的好處,比如我們說以前的方法用15個(gè)變量,如果你缺失了三個(gè)變量,你的預(yù)測(cè)效果就明顯打折。但是對(duì)這種方法來講,50多個(gè)變量,別說缺三個(gè),你缺3000個(gè),對(duì)模型的效果影響都不大,因?yàn)檎急忍倭恕K赃@個(gè)建模雖然難,但是建模之后的穩(wěn)定性、有效性更強(qiáng)。最關(guān)鍵是他覆蓋的人群比較廣,而覆蓋的人群恰恰是今天的普惠金融想要服務(wù)的人群。
我們通過這個(gè)方法覆蓋了6.1億實(shí)名用戶,還有10.8億匿名用戶,大概三四億人我們知道他的手機(jī)PC設(shè)備編號(hào),大部分的用戶歲數(shù)都是介于15—50歲之間,就是普惠金融服務(wù)的主流人群,每天大概捕捉用戶個(gè)數(shù)是一個(gè)億左右,真實(shí)性比較強(qiáng),我們捕捉的時(shí)候,他都是在進(jìn)行閱讀、消費(fèi)、信貸等等。
還有一個(gè)就是身份的打通,IP的打通。一個(gè)有問題的借款人,可能會(huì)隱藏自己的身份,他可能有三個(gè)手機(jī)號(hào),其中一個(gè)手機(jī)號(hào)做的事情比較白,還有一個(gè)手機(jī)號(hào)做的事情比較黑,他有五個(gè)QQ號(hào),有一個(gè)QQ號(hào)所在的群是很爛的群,他會(huì)隱藏掉,你能不能知道這些ID都是他的,這是很重要的一點(diǎn),你要把他好的不好的合起來綜合評(píng)估,否則的話就會(huì)被欺騙。來源比較廣,這個(gè)機(jī)構(gòu)大概有兩千多家,有零售的、金融的、社交、航空運(yùn)營(yíng)商各種都有,以及反應(yīng)是實(shí)時(shí)的,大家如果了解百融金服歷史的話,毫秒鐘就發(fā)生了,你剛剛買了一個(gè)商品,我們就會(huì)預(yù)測(cè)下一次你的行為意圖是什么。有線上數(shù)據(jù)也有線下數(shù)據(jù),有傳統(tǒng)的,有新興的。
形成一個(gè)用戶畫像,分了幾個(gè)方面,性別、年齡、職業(yè)、婚姻狀況、住址,以及通信標(biāo)簽,用50個(gè)字說清楚你是什么樣的人。價(jià)值標(biāo)簽,有沒有房,有沒有吃,是不是炒股。長(zhǎng)期閱讀喜好,長(zhǎng)期購(gòu)物喜好、短期購(gòu)物場(chǎng)景,喜歡什么樣的金融服務(wù),混什么社交圈子。目前來講,通過這種方法我們合作的金融機(jī)構(gòu)大概200多家,像主流的商業(yè)銀行,建行、招行、光大、華夏、浦發(fā),以及農(nóng)商行,像今天在座的還有我們的客戶,還有一些小貸公司,甚至信用保險(xiǎn)公司。
取得什么樣的效果呢?從我們自己做的真實(shí)客戶的例子,比如說在某一家銀行,他們給了我們130萬客戶資料,當(dāng)時(shí)不知道客戶誰有逾期,誰沒逾期。通過建模方法,我們挑出70%的人是不錯(cuò)的,通過剛開始屬于閉卷測(cè)試,剩下是開卷測(cè)試,剩下的逾期率是開始測(cè)試逾期率的2倍左右。經(jīng)過兩輪共50萬真實(shí)用戶的測(cè)試,線上逾期不良率6%,線下是4%。有一些藍(lán)領(lǐng)工人15號(hào)發(fā)工資,到10號(hào)可能沒錢了,就要借錢周轉(zhuǎn),當(dāng)時(shí)不良率30%,非常高,純粹在線上手機(jī)上借款我們大概又加了10%左右。
風(fēng)險(xiǎn)的識(shí)別無外乎兩個(gè),一個(gè)是欺詐風(fēng)險(xiǎn),一個(gè)是信用風(fēng)險(xiǎn),信用風(fēng)險(xiǎn)核心識(shí)別是身份識(shí)別?,F(xiàn)在也出現(xiàn)了一些案例,叫實(shí)名欺詐,我就用我本名,信用卡、手機(jī)號(hào)、郵箱等等,我就騙你一次,騙了我就跑,我也不準(zhǔn)備在銀行借錢了,這叫實(shí)名欺詐。這種例子一般來講,他借的錢不多,還是少,大部分不會(huì)留自己的真實(shí)身份,要么手機(jī)號(hào)是假的,要么身份證號(hào)是假的,地址是假的。第二是信用風(fēng)險(xiǎn)防范,他愿不愿意還錢,他有沒有能力有沒有錢還給你。這是我們的例子,關(guān)聯(lián)出不同的身份證號(hào)、手機(jī)號(hào)。地址核查本身很重要,地址超過5公里是3倍的欺詐概率。
信用風(fēng)險(xiǎn)防范這個(gè)事就復(fù)雜很多,比如說有的人并不是不還錢,可能看到另外一個(gè)哥們借了錢沒錢就沒事,然后他也不還錢。我們發(fā)現(xiàn)經(jīng)常坐飛機(jī)坐商務(wù)艙的人還款能力好一些,但是這里欺詐的不算,他就是不想還錢給你。還有一些比較有意思的例子,比如說打游戲、看動(dòng)漫,三四線城市生活的人還款能力差一些。喜歡看經(jīng)管圖書,管理科技類的會(huì)好一些,你把錢借給他,他就干什么事。尤其是給小微企業(yè)貸款的時(shí)候,那個(gè)老板平時(shí)在干什么事,有一定的預(yù)示效果。這是模型的預(yù)測(cè)值,一般的銀行做模型,希望KS值是0.3以上,如果說沒有人行報(bào)告,他們只能做0.28,如果有人行報(bào)告就做到0.38,也不是每次都能做到這樣,其實(shí)KS值0.4是非常難做的。這是我們?cè)u(píng)分的參數(shù),關(guān)鍵信息匹配,穩(wěn)定性、申請(qǐng)信息核查綜合起來。
另外一個(gè)大的領(lǐng)域就是不良資產(chǎn)的處理,大數(shù)據(jù)的應(yīng)用從今天開始蔓延到不良資產(chǎn)的處理。不良資產(chǎn)的形成70%的原因是失聯(lián)造成的,一打電話找不到人,70個(gè)人會(huì)還你的錢,大部分是由于失聯(lián)造成的,你只要找到他,基本上還給你,但是找到他這個(gè)事很難。這是我們做的一個(gè)客戶的測(cè)試效果,通過手機(jī)號(hào)找到多少人,通過郵箱找到多少人,通過固話、地址,但是找到不一定還給你。一般來說,有些P2P公司,100個(gè)有3%的不良,要回來3%的人都很少。但也不是每一次都不好,不良資產(chǎn)這個(gè)事是非常非常難辦的事情,是整個(gè)信貸行業(yè)這么多年來沒有解決的一個(gè)問題,現(xiàn)在我們也不能說通過大數(shù)據(jù)能解決,能解決一部分,但非常困難,一個(gè)人要隱藏自己,你要找他非常困難,當(dāng)然也能找,要?jiǎng)佑煤芏噘Y源,通過派出所、街道去找,一共就欠你一萬,你動(dòng)用這么多人找回來以后層層分,可能就分到500塊錢,又覺得不合算,所以這是一個(gè)極其困難的事情。
最后是展望,關(guān)于金融機(jī)構(gòu)使用大數(shù)據(jù)的時(shí)候要注意什么。一定要集成很多不同維度的數(shù)據(jù),維度太少容易出問題,比如說最知名的芝麻分,我一個(gè)客戶大概三個(gè)月之前告訴我,怎么樣破解芝麻分。他跟我講過四招可以快速提高芝麻分,第一個(gè)是在淘寶上買家居被單,證明你有家庭,還款信用就好一些。第二個(gè)就是商家的好評(píng),第三是支付寶里不要一點(diǎn)錢沒有,第四個(gè)是在支付寶里用親戚朋友給你轉(zhuǎn)錢。這四點(diǎn)每一點(diǎn)都很有道理,但是為什么會(huì)被破解呢?因?yàn)橹ヂ榉值乃袛?shù)據(jù)都來自阿里體系,一個(gè)信用中介舍得花500塊錢提升芝麻分,從而獲得50萬元的信貸,所以一定會(huì)被破解。所以,芝麻分高分人群比低分欺詐客戶還要多,因?yàn)楦叻质强梢宰龀鰜淼?。所以,你的維度如果足夠廣,他也不知道怎么去破解你,比如說我們合作的商戶,各種金融機(jī)構(gòu)也好,商家也好,2500多家,你也不知道去哪里破,你破解成本非常高,所以這一點(diǎn)很重要。
第二個(gè),就是合作數(shù)據(jù)平臺(tái)本身的公平公正公允性,是不是與你本身有競(jìng)爭(zhēng)關(guān)系,是不是他也去發(fā)金融產(chǎn)品,也做信貸。這個(gè)很重要。為什么呢?你們合作之間一定是交換數(shù)據(jù)的,每一個(gè)借款人你要送給他審查,如果你告訴他誰好誰壞,他分分鐘可以觸達(dá)客戶,沒有一家金融機(jī)構(gòu)可以跟BAT比,用戶觸達(dá)能力他們太強(qiáng)了。傳統(tǒng)的技術(shù)和金融機(jī)構(gòu)的技術(shù)不一樣,這個(gè)太重要了,光變量個(gè)數(shù)就多很多,我們可以用一些方法來模擬,總體效果會(huì)下降。還有一些就是服務(wù),對(duì)大數(shù)據(jù)的理解要深入到業(yè)務(wù)成績(jī)里面去,而不是純粹把它當(dāng)做一個(gè)技術(shù)部門。
另外一個(gè)是關(guān)于安全,你做任何數(shù)據(jù)服務(wù)要講安全,不管是金融機(jī)構(gòu)也好,還是合作方,數(shù)據(jù)要掌握好一點(diǎn),主動(dòng)尋求監(jiān)管機(jī)構(gòu)的監(jiān)管,做不好的話等于自己給自己上一些枷鎖。
我的分享就到此。