1. 大數據平臺解決方案

      海量數據存儲能力,強大分佈式計算能力,多種類型數據存儲能力,實時流式計算支持,大數據分析應用支持

      背景分析

       

      隨着物聯網、社交網絡、雲計算等技術不斷融入當今社會生活再加上現有的計算能力、存儲空間、網絡帶寬的高速發展,人類積累的數據在互聯網、通信、金融、商業、醫療等諸多領域不斷地增長和累積。數據規模級別不斷升級、數據應用的不斷深入和大數據不可忽視的價值推動我們不斷探索如何才能從這些數據中受益。

       

      大數據(big data),是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合當未來企業嘗試分析現有海量信息以推動業務價值增值時,必定會採用大數據技術。相對於傳統數據,大數據具有四個典型特徵:數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)。

       

      在上述背景下,Hadoop應運而生了,Hadoop雛形開始於2002年的Apache的Nutch,Nutch是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。Hadoop的核心就是HDFS和MapReduce,而兩者都只是理論基礎,不是具體可使用的高級應用,Hadoop旗下有很多經典子項目,比如HBase、Hive等,都是基於HDFS和MapReduce發展而來的。

       

       

      BOBTY综合軟件解決方案

       
      BOBTY综合軟件大數據平臺解決方案由大數據平臺、大數據分析平臺兩部分內容構成,其中大數據平臺致力於大數據內容存儲、流式計算、數據倉庫存儲以及相對應的數據採集與處理技術;大數據分析平臺主要應用於商業智能與預測分析,涉及績效、風險、決策支持、內容分析等應用領域。相對於傳統數據倉庫解決方案,基於大數據平臺的數據倉庫解決方案體系架構核心在於大數據平臺的存儲、計算能力、分析能力支撐。
       

      產品選型

      Hadoop可供選擇的版本包括Hadoop社區開源版本和Hadoop發行版本,Hadoop社區開源版本主要包括Apache Hadoop、Cloudera Hadoop社區版、Hortonworks Hadoop社區版、MapR Hadoop社區版等版本,其中Cloudera Hadoop社區版在國內金融行業應用較爲廣泛;Hadoop發行版本主要包括Cloudera Hadoop發行版、Hortonworks Hadoop發行版、MapR Hadoop發行版、星環Transwarp Data Hub(TDH)、華爲Hadoop 版本等。

       

      ✔ Cloudera Hadoop
      Cloudera是Hadoop開源項目的創建者和最大貢獻者,可提供Cloudera Hadoop社區免費版和發行版兩行版本。Apache Hadoop安裝、部署、管理的難度非常大, Cloudera提供了非常簡單的Hadoop的發佈版本,能夠十分方便地對Hadoop進行安裝、部署和管理,目前大約有75%的Hadoop新用戶使用Cloudera。

       

      ✔ 星環Transwarp Data Hub(TDH)
      Transwarp的大數據綜合平臺(Transwarp Data Hub,簡稱TDH)包含五個組成部分:Transwarp Hadoop基礎平臺,Transwarp Inceptor分佈式內存分析引擎,Transwarp Discover分佈式機器學習引擎,Transwarp Hyperbase分佈式實時在線數據處理引擎和Transwarp Stream流處理引擎。

       

      方案價值

       

      海量數據存儲能力

      依託Hadoop提供的HDFS分佈式存儲架構,大數據平臺解決方案可以實現超大規模數據存儲的支持,並可以通過橫向節點擴展提升平臺數據存儲能力。硬件成本更低、數據冗餘存儲、容錯性高、分佈式讀取性能高,可適合應用於大數據存儲和大數據分析的應用,適合於服務器幾千臺到幾萬臺的集羣運行,支持PB級的存儲容量。

       

      強大分佈式計算能力

      通過Map/Reduce、Hive、Spark、Impala等分佈式計算技術,可滿足大數據批量計算、內存分佈式計算、快速靈活查詢等強大分佈式計算需要。

       

      多種類型數據存儲能力

      大數據平臺支持結構化和各類非結構化數據的存儲,支持結構化文本、圖片、文檔、視頻、音頻、日誌、郵件、傳感器、GPS等多種類型的數據存儲。

       

      實時流式計算支持

      大數據平臺提供實時流式計算能力,包括關係型數據庫實時處理、日誌流實時處理等多種流式計算,支持大批量小型數據的處理,實時性好,可支持近似秒級實時數據處理。

       

      大數據分析應用支持

      大數據平臺通過Spark+R、Spark+Python等多種技術可以提供網絡爬蟲、全文檢索、語義分析、機器學習、金融計算、挖掘算法等多種分析應用支持。

       

       

      應用案例


       
      南方基金大數據中心
      廣發證券託管數據中心
      交銀施羅德大數據中心

      

      微信掃一掃


      微信公衆號