Tableau大中華區(qū)首席技術顧問劉琳珂
謝謝各位。我的主要的演講題目是關于大數(shù)據(jù)和可視化結合。
所謂可視化,其實利用人的眼睛來去做某種事物的識別方法。那么對人的眼睛來講,我們知道一個正常人的眼睛你可以很敏感去識別事物的位置,我和這個屏幕兩個不同的位置,兩個不同東西的顏色大小等等,都是人很容易識別兩個因素,兩個人站在這里誰高誰矮,這些東西都是可以被用來,結合了你的數(shù)據(jù)來幫助你判斷什么好什么壞,你的客戶哪個好,你的客戶哪個壞,你的銷售區(qū)域哪個好哪個壞,你的運維成本哪個部門高哪些部門低,你可以用可視化來做。我們Tableau用大數(shù)據(jù)做可視化的公司,他們在什么場景里頭利用我們的工具來做大數(shù)據(jù)可視化分析。
我是來自Tableau的劉琳珂。右邊派德教授,《玩具總動員》、《魔界》、《阿凡達》,這三部電影特效是派德教授,他本身是我們公司三位創(chuàng)始人之一,三個系列的電影也都拿過奧斯卡金像獎,他少有做計算機互聯(lián)網(wǎng)這個圈子里的人上臺拿過奧斯卡獎的人。
我們所做的事情利用工具把可視化和你的數(shù)據(jù)結合起來,進而讓我們企業(yè)里頭的領導、用戶們能夠有效的來去理解你的數(shù)據(jù)。
大數(shù)據(jù)可視化,大數(shù)據(jù)的客戶目前在大型金融、互聯(lián)網(wǎng)、電信行業(yè)比較多,目前為止,如果從互聯(lián)網(wǎng)行業(yè)來講,谷歌、亞馬遜、臉書、ebay本身用Tableau結合他們大數(shù)據(jù)來做幾十幾百TB級的可視化分析。
全世界最大的公司,沃爾瑪,擁有全世界最大的關系型數(shù)據(jù)倉庫,它本身也是用Tableau來做大數(shù)據(jù)可視化分析。
后邊我就舉一些不同例子來看一下你怎么可以在不同的場景下利用可視化來看到你的分析價值。
第一個例子,這是一個網(wǎng)絡分析的例子。現(xiàn)在我這上邊放的網(wǎng)絡分析圖是什么?最核心點是我們公司,這是我們公司在推特上跟我們聯(lián)系緊密度的一些人或者企業(yè)通過這個網(wǎng)絡圖你可以把它看出來,中間明顯有一些點比最中央我們公司的點稍微小一些,但是它是一個密集的被人查看轉(zhuǎn)載等等的一個網(wǎng)絡重要節(jié)點。
這些網(wǎng)絡節(jié)點中的70%的部分,其實做這個的人主要想闡明這個問題,70%的部分并不是一些相關公司,而是在推特上這些熱點人物是什么呢?他們是一些Tableau的重要的粉絲客戶,一些用戶中的一切一些大師他們在經(jīng)常轉(zhuǎn)載一些可視化數(shù)據(jù)分析有關文章并且被更多用戶轉(zhuǎn)載查看。
下面一個例子做人口分析的例子。這個例子我把它放進來開生開生小孩,兩個小孩政策。你可以看到這張散點圖,橫坐標是生育率,一個家庭生幾個孩子,縱坐標,這個地方人口壽命,你可以想象這張圖上越往上的點代表的這個地方人壽命越高,越往右說明這個地方生小孩越多,現(xiàn)在是1950年的狀態(tài),我們看看最近60年中發(fā)生了什么呢?時間不斷推移,所有國家都在逐漸向著最左上邊的坐標軸移動,全世界所有國家人民壽命越來越長,但是伴隨著生孩子方面大家越生越少,你要看現(xiàn)在的統(tǒng)計資料是可以看到,我們平均生育率是1.6,但是這個點代表是中國,在中國左邊還有很多點,還有很多國家沒有實行計劃生育政策,但是生的孩子比中國還少,這是為什么呢?這樣互動式的分析,你在一張表格數(shù)據(jù)上你是很難得到你要分析的答案,關于人口問題分析是一個相當綜合話題分析的結果。
bnb,它做的生意模式,你家里有一間房子,收拾好了做客房,你在網(wǎng)上注冊,如果有人在你這個地方 選一個住宅,可能選中你,你已經(jīng)是這個網(wǎng)站注冊有房子可以承租的人,你就向租客提供相應的服務,所以bnb在全世界相當多的國家已經(jīng)開展服務的網(wǎng)絡民宿共享服務平臺。目前這個例子是它最熱的十個全世界的旅游城市里頭來做的價格床位等級等等地理位置。
我拿到的數(shù)據(jù)是紐約周邊包括新澤西一部分這樣的位置分析,這個顏色放的是什么?現(xiàn)在我選的指標是價格,越往橙紅色說明這個地方房屋均價越高,住一天大概花多少錢,越藍色相對低一些,但并不是越遠離紐約核心區(qū)越便宜一些,不是這樣,按照不同地方有不同的顏色變化,但是顏色變化最深,最偏紅色是在曼哈頓島的附近,這是比較符合大家認知。按照床位的數(shù)量按照其它互動因素會怎么樣,這也沒有關系。
這個分析本身,其實要在十年前,現(xiàn)在在我筆記本上的bnb的分析是一個大數(shù)據(jù)的項目,目前在我的筆記本電腦上這個分析里頭就包含超過2千萬行的數(shù)字。
下一個還是位置分析,這個來講是做的商圈,供應范圍的分析,你有一個配送中心,在一定時間內(nèi)往周圍配送范圍是有限的,你可以比較細化評估你的供應中心配誦范圍或者你商場輻射范圍,這是可以更詳細通過位置分析來量化。比如說你現(xiàn)在可以看到這個上面不同顏色,一層一層所覆蓋最中央的位置,比較簡單了,就是你的商場或者配送中心所處的位置,不同顏色代表車輛配送在多長時間到達的區(qū)域,你看到最外圍是25分鐘圈,25分鐘半小時以內(nèi)你的配送車輛或者你的客戶看你是什么場景能夠到達區(qū)域,越往中間偏深色時間越短,整體分布有點像一顆云彩的樣子。
下一個例子,十幾年前在傳統(tǒng)商業(yè)當中就有,我們知道在很多做數(shù)據(jù)分析教科書當中或者說新聞當中都有,十幾年前沃爾沃得到啤酒和尿布的故事,經(jīng)過分析,一個訂單有人買了啤酒同時買了尿布,這個 原因是為什么?這是購物籃分析典型場景,到現(xiàn)在我們當然已經(jīng)很容易來去做綜合購物籃分析,上面是購物籃分析可視化場景。你的A類和B類產(chǎn)品哪些是最容易被一起賣出去的,那么現(xiàn)在這上面可視化綜合的使用顏色和大小這兩個可視化元素,這上邊的點個頭越大說明它橫縱兩個軸一起被賣出去的概率更高,但是這兩個東西絕對一起賣出去,對你不是好事,它還有利潤和配送成本的問題,所以我用顏色放了另外一個指標,就是利潤。有可能這個產(chǎn)品頻繁被打包賣出去,但是它的利潤可能是很低的,這上面這個圖,越偏紅色這個產(chǎn)品組合這個購物籃利潤越差,反之它的利潤越好,你可以看到這張圖,應該綜合被打包出去這個產(chǎn)品和這個產(chǎn)品,都是利潤相當好的。同時這個產(chǎn)品采購額又相對比較多一些,所以整個這個產(chǎn)品線都是經(jīng)常容易被人打包,同時利潤好,但是這個產(chǎn)品線也經(jīng)常被打包出去和別的產(chǎn)品進行一起買,但是它的利潤都不太好,所以你可以用可視化元素來得到購物籃分析的綜合的分析結果。
后邊這個例子是一個挺好沒有賺錢因素在里頭的場景。這個客戶是我們的一個科學家的客戶,他是一個海洋生物學家,他只買了我們很小的產(chǎn)品金額,但他做的事情是很有意義。他研究是什么?翻成專業(yè)詞語,浮糞,我們?nèi)ミ^海洋館,類似兩個大翅膀的魚在最大的池子里游,是鯊魚近親,他做這個,他做這個事情代表產(chǎn)品特色,以往他是在離開美國很遠的地方去研究,然后研究手段主要是收集這些海洋生物游的位置,這GPS體系。他自己純海洋生物學家,他是不懂得把這些東西怎么放到一個地圖上做可視化,他不懂,所以他以前他是專門在美國本土雇了一個專家,他把數(shù)據(jù)定期從動物身上收集回來發(fā)給他,美國那做好報表發(fā)給他。但是有一天他開始用我們工具,他發(fā)現(xiàn)還是挺容易自己掌握,省了一道手,自己拿到數(shù)據(jù)自己把這個圖做出來,就不用再去雇專家了。他研究的海洋生物是呆板無力,但是在地圖上就很有意義,綠色和藍色代表兩個族群,它們各自活動范圍,在海洋中活動的深度有各自明顯差異,所以他可以用可視化方式把這些海洋生物劃分成了兩個獨立的小的種群。
下一個例子,我們知道在最近 兩到三年專車話題是很火爆,專車最早運營公司優(yōu)步,商業(yè)模式不多說。作為公司運營角度他是很希望得到這樣一個結果,我的客戶從一個城市,從哪兒叫車要去哪兒量很大,他是希望知道,這樣有空車司機鼓勵他去那附近,性外一個角度,從很多種原因上這些公司都希望知道有多少比例客戶,比如說就從華貿(mào)中心打車,現(xiàn)在要去國貿(mào),這個地方很短,但是可能流量很大,這個其實有很多原因做這個事情,但是你要從可視化圖表上來講,是不太容易做的。你用地圖分析,地圖很好做出來,但是你要在城市范圍內(nèi)看到短途長途量情況不太容易做到,他引用這樣可視化圖表,這可視化圖表做的是對象之間的關系圖,你可以看到,首先如果你想知道從哪個地方出去要叫車的人最多,這很容易,現(xiàn)在這個區(qū)域,它的出去線的寬度是最寬的,在這個地方有最多需要叫車的人群。你想知道有大量的短途用戶在哪里?現(xiàn)在這張圖上,它放的是舊金山的數(shù)據(jù),相鄰兩個地方其實是挨得越近,說明這兩個地方相對越近,你只需要在可視化圖表上找什么呢?找這種類型狀態(tài)就可以。越是這樣的狀態(tài)說明這個地方從這兒上車從這兒就下了車,你可以很容易找到短途類的用戶到底分布在什么樣的地方,旁邊柱狀圖是常見類型,柱子越高叫車越多,柱子越短,叫車人越少等等類似。
我舉的最后一個場景例子里頭,這個是分析,跟我們現(xiàn)在做的事情有點像,這是一場在一個建筑內(nèi)做的一場會議,這個會議本身分了很多個不同的房間,外邊有不同的展位,那么實際上來講,今天我相信應該組織方?jīng)]有做這樣的事情,我們在美國有一些客戶包括我們自己,我們做這樣的事情,你拿到參展的標識牌,有抽樣的FRD的標簽,我們知道你在會場移動技術是怎么樣,這套技術是賣場和超市在用。然后結合你登記信息里頭也知道你是什么行業(yè)的人,比如你是一位記者,你是一位制造業(yè)企業(yè)的員工,這是知道。所以來講,我們可以去分析一下什么呢?你現(xiàn)在選中的某一個類型客戶,比如說分析員,那么數(shù)據(jù)分析員在整個這場參展活動里頭,上面的點是什么呢?這個用戶到了這個位置上跟人家換了名片或者要了一份資料,那么你現(xiàn)在就知道這類的用戶大概喜歡去哪些展位是比較多的。底下的這個線是什么?很好理解,他走過的路徑是什么,他大概喜歡什么方式走。如果你的參展內(nèi)容有效是什么?比如說我是一家參展商對我也是有用處,我希望把參展位擺在最關心的客戶,我做數(shù)據(jù)分析工具的公司,我當然希望把我放在數(shù)據(jù)分析員、企業(yè)分析用戶這些邊上我最合適,我在他們走的路徑上也是可以的。
所以這是結合你的位置,其實是一個室內(nèi)位置分析的一個很典型的需求。在相當多的超市和百貨公司里頭,至少在美國有很多做這類的事情。
這是我引用最后一個例子,今天時間比較短,一般情況下我會拿一份數(shù)據(jù)給大家看一看,對這個數(shù)據(jù)直接做操作怎么做可視化分析,今天時間不夠,所以有興趣我們合作伙伴云頂科技在門口有一個展位,有興趣到他們那拿一些資料,看看我們更多做可視化分析的例子,謝謝各位!