大數據文摘出品記者:CoolBoy、魏子敏在這個大數據盛行的時代,許多人對“機器學習、商業智能”這些名詞只聞其聲,不知其形,如何將大數據建模普及可能會是未來的一個焦點。本次我們邀請到美國中佛羅里達大學統計系教授王中慶老師,來與大家分享智能化建模的奧秘以及他對未來大數據技術的展望。
人物介紹:王中慶教授
王教授于1991年獲得美國愛荷華大學統計博士學位,現任美國中佛羅里達大學教授兼數據挖掘中心主任。主要研究方向為數據挖掘,網絡挖掘,數據挖掘在商業智能,教育智能及健康智能的應用。
指導過的學生團隊在2011、2012和2016年國際SAS數據挖掘競賽獲勝。曾擔任美國富國銀行( WELLS FARGO)、美國藍十字藍盾保險公司( BlueCross and BlueShield)、美 國 Whole Foods Market、美國恒久銀行( Ever Bank) 數據分析顧問。
文摘:目前市面上已有不少AI自動化工具(如谷歌的AutoML、國內第四范式的先知平臺)相比,智能化建模與這些產品是一致的嗎?王:這里提到的平臺,基本進行的是自動化建模工作。而智能化建模是包含自動化的一種新的方式。在建模之前,系統會對數據進行預處理,提取出更多的信息量。比方說,數據中的缺失值就包含了很多信息,因為測不到數據也反映了某些事件的特征。那么利用MVP(缺失值補全技術)處理數據,可能就會使保險公司的事件預測準確度增長。
同時,提到的這些自動化建模工具做了許多人臉識別、聲音識別的工作。這些數據的信息量大,使用深度學習的模型會有優勢 。而智能化建模更適用于噪音相對高、信息量低的金融信貸和保險的數據,使用數據清洗和傳統的數據挖掘方式進行智能建模。 在銀行里對于不同的客戶快速建立不同的模型,把更多的時間放在決策上的話,價值就很快體現出來了。
很重要的一點是,相對于優化測試準確率的傳統建模觀點, 智能化建模會略微犧牲準確率,專注于縮小訓練準確率和測試準確率的差,也就是提升模型的穩定度。
另外,為了提升建模的速度,全局搜尋的方法應該被避免,最好是在每一步追求局部的最佳解。局部解的累積雖然可能不是最佳解,但是相對上會是一個理想的結果,并且會大大提升建模的速度。

文摘:如何平衡模型的速度、準確率和穩定度呢?王:首先,在數據清洗階段,使用Java這個較快的語言會提高效率。 其次,建模階段,我們使用了Python 的擴展庫,并且采用平行處理的技術進行提速。這個平行處理平臺是由我的合作伙伴蔣總親自帶隊開發的,會比市面上流行的平臺,如Sparks,更有效率。這個過程中還會有統計方法的介入,比如建立樹模型的時候,如果先預計出一個最佳的層數,建模會省去很多不必要的時間。
在建模方面,我們對于每個變量首先進行缺失值處理,之后會對每個變量依次進行非線性變換與篩選。具體的說就是先計入單個變量的全部變換,再根據不重要性進行剔除。之后要分別建立不同模型,如樹模型、線性模型等,再依照一定的規則進行模型混合。 為了控制模型的穩定度,一些正規化手段需要被采用。
之前有提到,智能化建模目前針對的行業,數據噪音都比較高。這就意味著,現實的情況和訓練的數據會有一定的差距。因為我們要保證業務部門使用模型的時候,得到的反饋和試驗的時候差不多,所以我們需要保證模型的穩定度,這樣合作的公司使用智能建模的時候我們才會放心。
同時,未來的數據和現在的數據相比也會有一定的差異。由于現在社會發展很快,我們的生活習慣也改變得很快,比如在長途旅行上,大家以前更多選擇飛機,現在則會考慮高鐵。時間差會帶來生活方式的改變,自然也就會帶來數據的差異。從這個角度看,專注于測試準確率便不是一個理想的選擇。那么實際情況也是如此--從敲定合同到產品部署,從獲取數據到訓練模型,都存在時間差。相比強調準確率,強調穩定度可以使模型適應這一時間差。
文摘:那么您對于自動化與智能化建模的前景與看法是怎樣的?
王:這應該是未來的趨勢。目前像傳統行業,比如金融、保險,或是非傳統行業,比如電商,基本沒有不用數據的行業。
有些公司可能有專業的建模人員,但是人工建模需要先預處理數據,選擇模型,選擇變量,之后還要調試參數,需要花費很多時間。如果有1000個項目,在有限的時間內,可能人工只能建立起其中的100個,但是利用智能建模技術就可以完成這1000個建模任務。并且如果“建立模型”和“使用模型”都由同一個人來完成,更多的精力就可以放到制定決策上。
經管類的同學,有時需要數據建模來解決項目上的問題。利用智能建模技術,這些同學就可以在沒有數據科學的背景下就完成建模,然后把更多的精力投入到問題的本身,從而提高效率。
想想手機的例子:十幾年前,大家的手機只用來打電話發短信。而現在智能手機除了這些基本功能,還取代了錢包,甚至公交卡。我認為大數據會像智能手機一樣,一定會改變我們的生活。那么將數據智能建模普及各個行業就會是一個大趨勢。
我注意到最近也有開源的自動建模工具Auto-Keras發布。這些開源的工具肯定有它的優點,但主要還是面向數據從業人員的建模工作。而我們希望將智能化建模的工作交給無相關經驗的人員,讓他們可以簡單完成數據建模。
另外,市面上現在有一些公司,如SAS,已經開發出了一些半自動的建模工具。在這些工具上,建模人員可以通過輸入一些參數,自己調試來完成建模任務。而智能化建模技術則是在這個基礎上邁出了更簡化的一步。
之所以這些公司不愿意邁出這一步,是因為目前的軟件會帶來很多的,很穩定的年收入。如果進行了技術革新,他們需要重新發展整個市場,這就帶來了不確定性,所以這些公司對革新一事還是保持慎重的心態。雖然現在智能化建模有著靈活性稍差,準確率稍低等缺點,但是,我認為全自動化的智能建模技術終究會取代這些產品。
目前金融和保險還是智能化建模針對的主要方向,之后我們希望這項技術能應用到電網公司、風電公司、甚至整個工業大數據的方向來。