1. 客服熱線:400-615-8698
        多特蒙德中文

        銀行歷史數據集中系統的大數據技術實踐

        2014年04月24日 TAG: 本站

        銀行歷史數據集中系統的大數據技術實踐

         

        來源:《金融電子化》雜誌

         

        目前Hadoop/HBase廣泛應用於各類具有大數據需求的企業,尤其是互聯網企業,實踐已證明其對大數據處理的適用性。銀行歷史數據系統具有的大數據特徵,作者探索了採用Hadoop/HBase實現歷史數據集中系統。

         

        目前銀行歷史數據系統主要採用關係型數據庫進行數據存儲,如Oracle RAC方式,但此方式具有諸多限定,例如數據量積壓到一定值後,將極大影響聯機查詢效率;只適合存儲結構化數據,難以滿足對半結構化和非結構化歷史數據的處理;成本較高,一套系統性能完善的歷史系統僅硬件成本將超過千萬。基於銀行歷史數據系統具有的大數據特徵,我們探索採用當前廣泛應用的大數據技術解決方案,基於Hadoop/HBase的技術架構,給出技術結果、分析關鍵技術及技術特性。

        一、Hadoop/HBase簡介

        Hadoop是Apache軟件基金會的一個開源項目,目的是爲用戶提供一個能夠對大量數據進行分佈式處理的軟件框架,具有可靠、高效、可伸縮等特點。HBase則是APacheHadoop的子項目,在Hadoop之上提供高可靠性、高性能、可伸縮的分佈式數據庫系統。不同於一般的關係數據庫,利用HBase技術可在廉價PC服務器上搭建起大規模結構化數據庫集羣系統。

        HDFS是Hadoop分佈式文件系統,爲HBase提供了高可靠性的底層存儲支持。MaPReduceHadoop任務調度管理模塊,爲HBase提供了高性能的計算能力。ZookeeperHadoop的分佈式協調服務,爲HBase提供了穩定服務和容錯機制。

        此外,開源社區提供基於Hadoop的支持工具,如:Pig是一個基於Hadoop的大規模數據分析平臺,Hive是基於Hadoop的一個數據倉庫工具,使得在HBase上進行數據統計處理變得非常簡單。Sqoop則爲HBase提供了方便的RDBMS數據導入功能,使得傳統數據庫數據向HBase中遷移變得非常方便。

        Ambari是一種基於Web的、支持Apache Hadoop集羣的供應、管理和監控的工具。Ambari目前已支持大多數Hadoop組件,包括HDFSMapReduceHivePigHbaseZookeeperSqoop等集中管理。

        目前Hadoop/HBase廣泛應用於各類具有大數據需求的企業,尤其是互聯網企業,如FacebookTwitterebay、雅虎、阿裏、百度、華爲、國內部分電信運營商等公司,國外摩根、花旗等銀行都已開展具體應用。其中,阿裏、國內部分電信運營商都已經採用Hadoop/HBase實現對歷史數據(如話費單、購買交易記錄)的查詢等功能。阿裏Hadoop/HBase集羣節點數目將近5000個,實踐已證明其對大數據處理的適用性。

        二、系統架構

        基於Hadoop/HBase歷史數據集中系統邏輯結構如圖1所示。



        1.歷史數據獲取。歷史數據通過數據抽取系統,從相關生產數據庫中抽取所需數據,爲不影響關鍵業務系統性能,可以通過災備線路將數據導入歷史數據庫中。相對於基於Oracle RAC的技術方案,新技術方案由於技術架構的橫向可擴展性,在不影響系統性能的條件下,可以同時對接多個生產數據庫,實現歷史數據的集中處理。

        2.歷史數據查詢。歷史數據查詢模塊實現聯機交易查詢,根據查詢時間段,將查詢結果反饋給前臺用戶。相對於基於Oracle RAC的技術方案,新技術方案由於具備大數據量的處理能力,不但能夠提高查詢效率,而且歷史聯機查詢的時間範圍能隨着處理數據量擴展,例如從以前5年曆史查詢擴展到查詢30年的歷史數據。

        3.歷史數據挖掘分析。相對於Oracle RAC的技術方案,新技術架構由於具有天然大數據技術特性,可以做到綜合多種生產數據來源,從海量歷史數據中進一步挖掘分析出所需信息,例如用戶行爲分析等,以優化相關金融服務產品,提高用戶體驗、防範風險。

        從圖2物理結構上看,相對於基於Oracle RAC的技術方案,新技術方案在展示層、應用服務層改動較小,在數據資源層改變較大,去除了磁盤陣列要求,數據全部存儲在HBase域服務器本地硬盤上。新技術方案中,數據存儲層,各服務器作用如下。


        Zookeeper服務器集羣:爲HBase提供了穩定服務和容錯機制,爲應用提供數據庫配置信息、命名、分佈式協調服務。

        HBase主服務器:實現HBase集羣初始化,負責數據表格、域分配管理;負責管理域服務器的負載均衡,調整域分佈。數據資源層只有一臺在線使用的HBase主服務器,但沒有單點問題,HBase中可以啓動多個HBase主服務,通過Zookeeper保證總有一個HBase主服務運行。

        HBase域服務器集羣:負責響應應用的數據I/O請求,向HDFS文件系統中讀寫數據,是HBase中最核心的模塊。所存儲的數據以文件形式保存在本地盤中。

        HBase管理、監控服務器:基於Ambari工具,爲運維人員提供HBase集羣的管理和監控功能。

        三、技術特性

        採用Hadoop/HBase實現歷史數據集中系統,能夠滿足海量歷史數據高效的聯機查詢需求,並通過Hive/Pig等工具實現數據挖掘分析功能,具備如下技術特性。

        高可靠性:Hadoop/HBase維護多個數據副本,確保能夠針對失敗的節點重新分佈處理,其備份恢復機制以及計算任務監控機制保證了分佈式處理的可靠性。高擴展性:Hadoop/HBase具備存儲和計算可擴展性,爲處理海量數據,可以很方便地將集羣擴展到數以幹計節點規模,處理規模能夠達到PB級。高效性:Hadoop/HBase以並行的方式工作,處理速度高效。經濟性:基於Hadoop/HBase的大數據處理都運行在廉價的PC服務器上,無需購置昂貴的小/大型機以及磁盤陣列設備。

        值得注意的是,新技術除具備以上技術優點外,其具體應用中也存在一定技術風險。首先,HBase不是傳統關係型數據庫管理系統,需要應用開發人員拋棄原有數據庫系統設計方法,重新掌握NoSQL等新技術知識。其次,Hadoop/HBase是全新的技術,目前國內精通此技術的人員較少,尚無專業技術服務支持公司,需要銀行自我培養人才隊伍。最後,Hadoop/HBase採用開源方式發行,相關自動化運維輔助工具較少,要維護管理好一個大規模Hadoop/HBase集羣,需要投入一定數量的技術人員。

        本文鏈接:http://www.sicklycat.com/product/html/26.html轉載請註明!
        掃描加入
        Copyright © 2015 - 2024 上海多特蒙德中文實業股份有限公司    滬ICP備11027956號