close
資料來源:http://whatua.com/category/bigdata/
- github: https://github.com/whomm/bigdata-tech-index
- 國內外相關
- 國內資料分析計算平臺產品
- 神策
- growingio
- 海致:
- 阿李雲 quick bi
- finebi
- http://www.finebi.com/
- finereport
- http://www.finereport.com/
- http://www.finebi.com/
- 國外資料分析平臺
- tableau 資料分析:
- http://www.pentaho.com/
- ETL
- KETTLE
- Pentaho Data Integration ( ETL ) a.k.a Kettle
- https://github.com/pentaho/pentaho-kettle
- https://wiki.pentaho.com/display/COM/Community+Wiki+Home
- KETTLE
- ETL
- http://www.spagobi.org/
- https://www.bmc.com/
- CONTROL-M
- Control-M 是一套 數位業務自動化解決方案,能夠簡化並自動化各種批次處理應用工作負載。在基礎架構、資料和應用程式中優化 SLA 並加速應用程式部署。
- http://www.bmcsoftware.cn/it-solutions/control-m.html
- http://www.doc88.com/p-1863463402569.html
- CONTROL-M
- https://www.teradata.com.cn
- 國內資料分析計算平臺產品
- 數據視覺化
- superset:
- 報表工具 https://git.oschina.net/max256/morpho
- 關聯技術
- 前端技術
- cboard 開源BI儀錶板平臺,支援互動式多維報表設計和資料分析
- datav 阿裡雲的資料視覺化產品
- 資料同步
- 資料傳輸
- kafka: a distibuted streaming platform
- ActiveMQ
- RabbitMQ
- 資料收集
- flume
- Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.
- http://flume.apache.org/
- logstash
- flume
- 分散式資料庫同步系統
- https://github.com/alibaba/otter
- canal mysql資料同步 https://github.com/alibaba/canal
- sqoop
- Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.
- http://sqoop.apache.org/
- https://github.com/alibaba/otter
- 自動化資料同步流
- 資料同步工具
- mysql replication protocal go 實現: https://github.com/siddontang/go-mysql
- mysql replication protocal python 實現 https://github.com/noplay/python-mysql-replication
- DataX
- DataX 是阿裡巴巴集團內被廣泛使用的離線資料同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構資料來源之間高效的資料同步功能。
- https://github.com/alibaba/DataX
- 資料傳輸
- ETL
- 離線任務調度
- hadoop任務調度
- 原阿裡宙斯 zeue
- 個人開源任務調度
- control-m
- 資料平臺作業調度和實踐
- autosys
- etl-automation
- tws (ibm)
- TASKCTL
- JobCtrl
- 海量任務作業調度監控平臺 – Primeton JobCtrl
- http://www.primeton.com/
- EDB
- USE
- SMC
- JMC
- Moia
- 計算引擎&框架
- spark
- taz
- hadoop-mapreduce
- bigflow
- storm
- flink
- Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data streaming applications.
- http://flink.apache.org/
- hive
- The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
- http://hive.apache.org/
- impala
- 大資料存儲
- OLTP(on-line transaction processing)
- OLAP(On-Line Analytical Processing)
- PALO
- 百度資料倉庫Palo是百度雲上提供的PB級別的MPP資料倉庫服務,以較低的成本提供在大資料集上的高性能分析和報表查詢功能。
- 百度資料倉庫Palo不是面向OLTP的資料庫產品,而是一款面向OLAP的資料庫產品,和百度資料倉庫Palo功能定位比較相似的產品包括Greenplum、Vertica、Exadata等商業資料倉庫系統和Amazon RedShift、Google BigQuery等雲服務,大家可以參考以上產品來理解百度資料倉庫Palo。
- https://cloud.baidu.com/doc/PALO/System.html#.E7.B3.BB.E7.BB.9F.E6.9E.B6.E6.9E.84
- Cloud-native MySQL database for unlimited scalability and performance
- http://radondb.io/
- tidb 國產開源分散式newsql關係型數據庫 (完美相容mysql)
- kudu 開源分散式 nosql olap資料庫
- a new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop’s storage layer to enable fast analytics on fast data.
- http://kudu.apache.org/
- 產考文檔:
- 小米kudu即時分析系統&kudu、hbase、parquet對比 https://baijia.baidu.com/s?old_id=581124
- kylin
- Apache Kylin™是一個開源的分散式分析引擎,提供Hadoop/Spark之上的SQL查詢介面及多維分析(OLAP)能力以支援超大規模資料,最初由eBay Inc. 開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。
- http://kylin.apache.org/
- greenplum
- Greenplum DB 號稱是世界上第一個開源的大規模並行資料倉庫,最初是基於 PostgreSQL,現在已經添加了大量資料庫方面的創新。Greenplum 提供 PD 級別資料量的強大和快速分析能力,特別是面向大資料方面的分析能力,支援大資料的超高性能分析查詢。
- https://greenplum.org/
- http://www.greenplum.net.cn/
- 產考資料
- 《Greenplum資源隔離指南》 https://yq.aliyun.com/articles/57763
- 《三張圖讀懂Greenplum在企業的正確使用姿勢》 https://yq.aliyun.com/articles/57736
- Vertica
- Exadata
- Amazon RedShift
- Google BigQuery
- PALO
- parquet hadoop生態下的列式存儲、資料處理框架
- https://parquet.apache.org/
- 適用場景:
- 適用案例:
- Elasticsearch 是一個分散式的 RESTful 風格的搜索和資料分析引擎,能夠解決不斷湧現出的各種用例
- https://www.elastic.co/
- 生態關聯
- logstash
- beats
- kibana
- 生態關聯
- https://www.elastic.co/
- hbase 分散式列式存儲
- Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.
- https://hbase.apache.org/
- 中文產考資料: http://abloz.com/hbase/book.html
- 技術延伸
- openTSDB 基於hbase的時間序列資料庫
- The Scalable Time Series Database. Store and serve massive amounts of time series data without losing granularity.
- http://opentsdb.net/
- kylin
- openTSDB 基於hbase的時間序列資料庫
- prestodb 開源的分散式SQL互動式解析查詢引擎
- Distributed SQL Query Engine for Big Data
- https://prestodb.io/
- http://prestodb-china.com/
- https://github.com/CHINA-JD/presto/
- 分散式檔存儲
文章標籤
全站熱搜
留言列表