您当前的位置：首页 > 科技

开源大数据调度系统（开源大数据架构）

时间：2024-08-09 12:16:34

本篇目录：

1、大数据调度平台分类(Oozie/Azkaban/AirFlow/DolphinScheduler)_百...2、spark和hadoop的区别3、hadoop发展阶段,及各阶段相对应的组件的作用4、比Spark快10倍的Hadoop3.0有哪些实用新特性5、Hadoop到底是干什么用的?

1、Airflow 是 Airbnb 开源的一个用 Python 编写的调度工具。于 2014 年启动，2015 年春季开源，2016 年加入 Apache 软件基金会的孵化计划。

2、综上所述，Ooize相比Azkaban是一个重量级的任务调度系统，功能全面，但配置使用也复杂(xml)。如果可以在意某些功能的缺失，轻级调度Azkaban是很不错的候选对象。

3、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

4、Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那？它和Pig差不多掌握一个就可以了。

5、Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

spark和hadoop的区别就是原理以及数据的存储和处理等。Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束。

Spark 有很多行组件，功能更强大，速度更快。解决问题的层面不一样首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。

Hadoop分为两大部分：HDFS、Mapreduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。由于编写MapReduce程序繁琐复杂，而sql语言比较简单，程序员就开发出了支持sql的hive。

Hadoop的作用大数据存储：Hadoop可以将大数据以分布式的方式存储在多个节点上，保证数据的安全性和可靠性。Hadoop使用Hadoop Distributed File System（HDFS）来存储数据，HDFS将数据划分为多个块并分散存储在多个节点上。

目前开源 hadoop 只包括 hdfs，和纱线，纱线是 hadoop 2的新组件。Hdfs 是一个分散式档案系统，它使用多种备份方法来存储文件，并且可以用来连接像 hive 和 hbase 这样的产品和存储相应的数据。

hadoop是用于处理（运算分析）海量数据的技术平台，并且是采用分布式集群的方式。

x版本系列：架构产生重大变化，引入了yarn平台等许多新特性，是现在使用的主流版本。x版本系列：对HDFS、MapReduce、YARN都有较大升级，还新增了Ozone key-value存储。

综上，Spark数据处理速度秒杀MapReduce因为其处理数据的方式不一样，会比MapReduce快上很多。

因此，对于机器学习之类的“迭代式”应用，Spark 可谓拿手好戏，要比 Hadoop MapReduce 快数十倍。另外，Spark Streaming因为内存存储中间数据的特性，处理速度非常快，也可以应用于需要实时处理大数据的场合。

由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如Web服务的存储或者是增量的Web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

1、hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

2、Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

3、用途：将单机的工作任务进行分拆，变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。

4、接收client用户的操作请求，这种用户主要指的是开发工程师的Java代码或者是命令客户端操作。维护文件系统的目录结构，主要就是大量数据的关系以及位置信息等。

5、Hadoop是用来开发分布式程序的架构，是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。MapReduce是用来做大规模并行数据处理的数据模型。

到此，以上就是小编对于开源大数据架构的问题就介绍到这了，希望介绍的几点解答对大家有用，有任何问题和不懂的，欢迎各位老师在评论区讨论，给我留言。

|| 相关文章