大數據時代及數據挖掘的(de)應用
發布日期:2013-03-07 浏覽量:14380

大數據時代及數據挖掘的(de)應用

 

國(guó)網信息通信有(yǒu)限公司北(běi)京信息災備中心主任    劉軍   

國(guó)網信息通信有(yǒu)限公司北(běi)京信息災備中心常務副主任   呂俊峰

 

        随着社會的(de)進步和(hé)信息通信技術的(de)發展,信息系統在各行(xíng)業、各領域快速拓展。這些系統采集、處理(lǐ)、積累的(de)數據越來越多,數據量增速越來越快,以至用“海量、爆炸性增長(cháng)”等詞彙已無法形容數據的(de)增長(cháng)速度。

       2011 年(nián)5 月,全球知名咨詢公司麥肯錫全球研究院發布了一(yī)份題為(wèi)《大數據:創新、競争和(hé)生産力的(de)下一(yī)個新領域》的(de)報告。報告中指出,數據已經滲透到每一(yī)個行(xíng)業和(hé)業務職能領域,逐漸成為(wèi)重要的(de)生産因素;而人們對于大數據的(de)運用預示着新一(yī)波生産率增長(cháng)和(hé)消費者盈餘浪潮的(de)到來。2012年(nián) 3 29 日,美國(guó)政府在白宮網站上發布了《大數據研究和(hé)發展倡議》,表示将投資2 億美元啓動“大數據研究和(hé)發展計劃”,增強從大數據中分析萃取信息的(de)能力。

        什麽是大數據?

       “大數據”到底有(yǒu)多大?根據研究機(jī)構統計,僅在 2011 年(nián),全球數據增量就達到了 1.8ZB (即1.8 萬億 GB,相當于全世界每個人産生 200GB以上的(de)數據。這種增長(cháng)趨勢仍在加速,據保守預計,接下來幾年(nián)中,數據将始終保持每年(nián) 50%的(de)增長(cháng)速度。

        縱觀人類曆史,每一(yī)次劃時代的(de)變革都是以新工具的(de)出現和(hé)應用為(wèi)标志的(de)。蒸汽機(jī)把人們從農業時代帶入了工業時代,計算機(jī)和(hé)互聯網把人們從工業時代帶入了信息時代,而如(rú)今大數據時代已經到來,它源自(zì)信息時代,又是信息時代全方位的(de)深化應用與延伸。大數據時代的(de)生産原材料是數據,生産工具則是大數據技術,是對信息時代所産生的(de)海量數據的(de)挖掘和(hé)分析,從而快速地(dì)獲取有(yǒu)價值信息的(de)技術和(hé)應用。

        概括來講,大數據有(yǒu)三個特征,可(kě)總結歸納為(wèi)3V即量Vo l umeVa r i e tyVelocity量,數據容量大,現在數據單位已經躍升至 ZB 級别。類,數據種類多,主要來自(zì)業務系統,例如(rú)社交網絡、電子(zǐ)商(shāng)務和(hé)物聯網應用。時,處理(lǐ)速度快,時效性要求高(gāo),從傳統的(de)事務性數據到實時或準實時數據。

        什麽是數據挖掘?

        數據挖掘,又稱為(wèi)知識發現(KnowledgeDiscovery,是通過分析每個數據,從大量數據中尋找其規律的(de)技術。知識發現過程通常由數據準備、規律尋找和(hé)規律表示 3 個階段組成。數據準備是從數據中心存儲的(de)數據中選取所需數據并整合成用于數據挖掘的(de)數據集;規律尋找是用某種方法将數據集所含規律找出來;規律表示則是盡可(kě)能以用戶可(kě)理(lǐ)解的(de)方式(如(rú)可(kě)視(shì)化)将找出的(de)規律表示出來。

        “數據海量、信息缺乏”是相當多企業在數據大集中之後面臨的(de)尴尬問題。目前,大多數事物型數據庫僅實現了數據錄入、查詢和(hé)統計等較低(dī)層次的(de)功能,無法發現數據中存在的(de)有(yǒu)用信息,更無法進一(yī)步通過數據分析發現更高(gāo)的(de)價值。如(rú)果能夠對這些數據進行(xíng)分析,探尋其數據模式及特征,進而發現某個客戶、群體或組織的(de)興趣和(hé)行(xíng)為(wèi)規律,專業人員就可(kě)以預測到未來可(kě)能發生的(de)變化趨勢。這樣的(de)數據挖掘過程,将極大拓展企業核心競争力。例如(rú),在網上購物時遇到的(de)提示“浏覽了該商(shāng)品的(de)人還浏覽了如(rú)下商(shāng)品”,就是在對大量的(de)購買者“行(xíng)為(wèi)軌迹”數據進行(xíng)記錄和(hé)挖掘分析的(de)基礎上,捕捉總結購買者共性習慣行(xíng)為(wèi),并針對性地(dì)利用每一(yī)次購買機(jī)會而推出的(de)銷售策略。

     數據挖掘在供電企業的(de)應用前景

在電力行(xíng)業,堅強智能電網的(de)迅速發展使信息通信技術正以前所未有(yǒu)的(de)廣度、深度與電網生産、企業管理(lǐ)快速融合,信息通信系統已經成為(wèi)智能電網的(de)“中樞神經”,支撐新一(yī)代電網生産和(hé)管理(lǐ)發展。目前,國(guó)家電網公司已初步建成了國(guó)內(nèi)領先、國(guó)際一(yī)流的(de)信息集成平台。随着三地(dì)集中式數據中心的(de)陸續投運,一(yī)級部署業務應用範圍的(de)拓展,結構化和(hé)非結構化數據中心的(de)上線運行(xíng),電網業務數據從總量和(hé)種類上都已初具規模。随着後續智能電表的(de)逐步普及,電網業務數據将從時效性層面進一(yī)步豐富和(hé)拓展。大數據的(de)“量類時”特性,已在海量、實時的(de)電網業務數據中進一(yī)步凸顯,電力大數據分析迫在眉睫。

        當前,電網業務數據大緻分為(wèi)三類:一(yī)是電力企業生産數據,如(rú)發電量、電壓穩定性等方面的(de)數據;二是電力企業運營數據,如(rú)交易電價、售電量、用電客戶等方面的(de)數據;三是電力企業管理(lǐ)數據,如(rú) ERP、一(yī)體化平台、協同辦公等方面的(de)數據。如(rú)能充分利用這些基于電網實際的(de)數據,對其進行(xíng)深入分析,便可(kě)以提供大量的(de)高(gāo)附加值服務。這些增值服務将有(yǒu)利于電網安全檢測與控制(包括大災難預警與處理(lǐ)、供電與電力調度決策支持和(hé)更準确的(de)用電量預測),客戶用電行(xíng)為(wèi)分析與客戶細分,電力企業精細化運營管理(lǐ)等等,實現更科(kē)學(xué)的(de)需求側管理(lǐ)。

        例如(rú),在電力營銷環節,針對“大營銷”體系建設,以客戶和(hé)市(shì)場為(wèi)導向,省級集中的(de) 95598客戶服務、計量檢定配送業務屬地(dì)化管理(lǐ)的(de)營銷管理(lǐ)體系和(hé) 24 小時面向客戶的(de)營銷服務系統,可(kě)通過數據分析改善服務模式,提高(gāo)營銷能力和(hé)服務質量;以分析型數據為(wèi)基礎,優化現有(yǒu)營銷組織模式,科(kē)學(xué)配置計量、收費和(hé)服務資源,構建營銷稽查數據監控分析模型;建立各種針對營銷的(de)系統性算法模型庫,發現數據中存在的(de)隐藏關系為(wèi)各級決策者提供多維的(de)、直觀的(de)、全面的(de)、深入的(de)分析預測性數據進而主動把握市(shì)場動态,采取适當的(de)營銷策略,獲得更大的(de)企業效益,更好地(dì)服務于社會和(hé)經濟發展。此外,還可(kě)以考慮在電力生産環節,利用數據挖掘技術,在線計算輸送功率極限,并考慮電壓等因素對功率極限的(de)影響,從而合理(lǐ)設置系統輸出功率,有(yǒu)效平衡系統的(de)安全性和(hé)經濟性。

        公司具備非常好的(de)從數據運維角度實現更大程度信息、知識發現的(de)條件和(hé)基礎,完全可(kě)以立足數據運維服務,創造數據增值價值,提供并衍生多種服務。以數據中心為(wèi)紐帶,新型數據運維的(de)成果将有(yǒu)可(kě)能作為(wèi)一(yī)種新的(de)消費形态與交付方式,給客戶帶來全新的(de)使用體驗,打破傳統業務系統間各自(zì)為(wèi)陣的(de)局面,進一(yī)步推動電網生産和(hé)企業管理(lǐ),從數據運維角度對企業生産經營、管理(lǐ)以及堅強智能電網建設提供更有(yǒu)力、更長(cháng)遠、更深入的(de)支撐。