`
cocoIT
  • 浏览: 48872 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论

Apache Hadoop生态系统

 
阅读更多

Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。

Apache Hadoop

Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见:http://hadoop.apache.org/

Apache Ambari

Ambari是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等组件。详细参见:http://ambari.apache.org/

Apache Cassandra

Cassandra是一个分布式的NoSQL数据库。它基于multi-master模式,无单点失败,具有可扩展性。最早由Facebook开发用于存储收件箱等简单格式数据,后开源,被用于Twitter等知名网站。详细参见:http://cassandra.apache.org/

Apache Hive

Hive是 一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL一样的查询语言HiveQL来管理这些数据。详细参见:http://hive.apache.org/

Apache Pig

Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序。详细参见:http://pig.apache.org/

Apache Avro

Avro是一个数据序列化系统。它提供了丰富的数据结构类型,快读可压缩的二进制数据格式,存储持久数据的文件容器,远程过程调用等。详细参见:http://avro.apache.org/

Apache Chukwa

Chukwa是一个用于监控大型分布式系统的的数据采集系统。它构建于Hadoop的HDFS和Map/Reduce框架之上,包含了一系列用于数据监控,分析和展示的灵活的强大工具集。它为日志系统提供了一整套解决方案。详细参见:http://chukwa.apache.org/

Apache Drill

Drill是一个对大规模数据集进行交互式分析的分布式系统。它是Google的Gremel的开源实现。详细参见:http://incubator.apache.org/drill/

Apache Flume

Flume是一个高可靠的分布式海量日志采集,聚合和传输系统。它来源于Cloudera开发的日志收集系统。详细参见:http://flume.apache.org/

Apache HBase

HBase是一个分布式的,面向列的数据库。它基于Hadoop之上提供了类似BigTable的功能。详细参见:http://hbase.apache.org/

ApacheHCatalog

HCatalog是基于Hadoop的数据表和存储管理服务,提供了更好的数据存储抽象和元数据服务。详细参见:https://hive.apache.org/hcatalog/

ApacheMahout

Mahout是一个机器学习领域的经典算法库,提供包括聚类,分类,推荐过滤,频繁子项挖掘等。详细参见:http://mahout.apache.org/

ApacheOozie

Oozie是一个工作流调度系统,用于管理Hadoop里的job。它可以把多个Map/Reduce作业组合到一个逻辑工作单元来完成指定目标。详细参见:http://oozie.apache.org/

Apache Sqoop

Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。详细参见:http://sqoop.apache.org/

ApacheZooKeeper

ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供包括配置维护,名字服务,分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper。详细参见:http://zookeeper.apache.org/

ApacheGiraph

Giraph是一个高可伸缩的迭代式图处理系统。它现在用于分析Facebook中的用户的社交关系。Giraph相当于Google图处理架构Pregel的开源版本。详细参见:http://giraph.apache.org/

ApacheAccumulo

Accumulo是一个可靠的,可伸缩的,高性能排序分布式的Key-Value存储解决方案。它基于Google的BigTable设计思路。详细参见:http://accumulo.apache.org/

Apache S4

S4是一个可扩展的,分布式的流数据实时处理框架,最早由Yahoo开发并开源。与Twitter的Storm类似。详细参见:http://incubator.apache.org/s4/

Apache Thrift

Thrift是一个跨语言的服务开发框架。用它可让你的服务支持多种语言的开发,并可用代码生成器对它所定义的IDL定义文件自动生成服务代码框架。它最早由Facebook开发并开源出来。 详细参见:http://thrift.apache.org/

最后,得提一下Apache Nutch开源网络爬虫系统。Hadoop最早是为Nutch服务而诞生的,即为大规模的网络爬虫系统提供分布式存储和计算服务。

分享到:
评论
2 楼 joyhen 2016-05-06  
感谢,要学的东西好多啊
1 楼 java大风车 2016-04-07  
fffffffffffffffffffffffffffff

相关推荐

    Apache Hadoop和Hadoop生态系统.pdf

    Apache Hadoop和Hadoop生态系统.pdf 学习资料 复习资料 教学资源

    project-rhino:增强了针对Apache Hadoop生态系统的数据保护

    是我们的开源工作,旨在增强Hadoop生态系统的现有数据保护功能,以应对这些挑战,并将代码贡献给Apache。 众所周知,Apache Hadoop生态系统的核心是: Hadoop Common:一组共享库 HDFS:Hadoop文件系统 MapReduce...

    基于Hadoop生态系统的大数据解决方案综述.docx

    本文综述了基于Hadoop生态系统的大数据解决方案,介绍了Hadoop生态系统的概念、优势和关键技术,并总结了其在各行业中的实际应用情况。 Hadoop生态系统是一个开源的大数据处理框架,包括HDFS和MapReduce等组件,...

    01_选择Apache Hadoop.docx

    选择Apache Hadoop 为什么需要Hadoop Hadoop 解决了什么问题 什么是Hadoop 和Hadoop 生态系统

    ranger-2.0.0-usersync.tar.gz

    Ranger的愿景是在Apache Hadoop生态系统中提供全面的安全性。随着Apache YARN的出现,Hadoop平台现在可以支持真正的数据湖架构。企业可以在多租户环境中运行多个工作负载。Hadoop中的数据安全性需要发展以支持多种...

    卢亿雷-Hadoop生态系统分析

    该文档来自阿帕奇2015中国路演。卢亿雷发表了题为“Hadoop生态系统分析”的主题演讲,欢迎下载!

    awesome-hadoop:精选的超赞Hadoop和Hadoop生态系统资源列表

    精选的超赞Hadoop和Hadoop生态系统资源列表。 受到 , 和启发 Hadoop -Apache Hadoop - 的对象存储 -Hadoop中基于YARN的数据处理应用程序的框架 -SpatialHadoop是Apache HadoopMapReduce扩展,专门用于处理空间...

    Apache Hadoop---Atlas.docx

    Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的...

    Apache Hadoop---Storm.docx

    Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。...

    Apache Hadoop---Spark.docx

    尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室...

    Hadoop从入门到上手企业开发

    009 Hadoop 生态系统介绍讲解 010 Hadoop 生态系统介绍讲解 011 Hadoop 服务讲解 012 HDFS 架构的讲解 013 MapReduce 架构讲解和MapReduce思想原理讲解 014 Apache Hadoop 三种安装部署模式讲解 015 Apache Hadoop ...

    kudu简介ppt

    Apache Kudu是Apache Hadoop生态系统的一个免费开源的面向列的数据存储。它与Hadoop环境中的大多数数据处理框架兼容。它提供了完整的Hadoop存储层,可以快速分析快速数据。 构建Apache Kudu的开源项目始于Cloudera的...

    Hadoop+Spark生态系统操作与实战指南.epub

    本书用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。  全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的...

    hbase学习课件

    hbase是基于Google BigTable模型开发的,典型的key/value系统。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写...它是Apache Hadoop生态系统中的重要一员,主要用于海量结构化和半结构化数据存储。

    A毕业设计:基于 Hadoop 的游戏数据分析系统

    4. 实时分析和监控:结合Hadoop生态系统中的实时计算引擎如Apache Storm、Apache Flink等,系统可以实现实时数据分析和监控,及时发现并处理异常情况。 5. 可视化报表:系统支持数据可视化,...

    flink:可扩展的批处理和流数据处理

    Apache Flink Apache Flink是具有强大的流和批处理功能的开源流处理框架。 通过了解有关Flink的更多信息 特征 流优先的运行时,支持批处理和数据流程序 ...与YARN,HDFS,HBase和Apache Hadoop生态系统的

    闪光镜

    Apache Flink Apache Flink是具有强大的流和批处理功能的开源流处理框架。 通过了解有关Flink的更多信息 产品特点 流优先的运行时,支持批处理和数据流程序 ...与YARN,HDFS,HBase和Apache Hadoop生态系统

    java8stream源码-old-flink:老flink

    java8流源码Apache Flink Apache Flink 是一个开源的流处理框架,具有强大的流处理和批处理能力。 了解更多关于 ...生态系统的其他组件集成 流媒体示例 case class WordWithCount ( word : String , count :

    java8stream源码-flink_sort:相当排序

    java8流源码Apache Flink Apache Flink 是一个开源的流处理框架,具有强大的流处理和批处理能力。 了解更多关于 ...生态系统的其他组件集成 流媒体示例 case class WordWithCount ( word : String , count :

Global site tag (gtag.js) - Google Analytics