大数据任务调度工具哪个用的多(大数据任务调度)

大数据调度平台分类(Oozie/Azkaban/AirFlow/DolphinScheduler)_百...

1、Airflow 是 Airbnb 开源的一个用 Python 编写的调度工具。于 2014 年启动，2015 年春季开源，2016 年加入 Apache 软件基金会的孵化***。

2、综上所述，Ooize相比Azkaban是一个重量级的任务调度系统，功能全面，但配置使用也复杂(xml)。如果可以在意某些功能的缺失，轻级调度Azkaban是很不错的候选对象。

3、数据***集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与D***(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

4、Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那？它和Pig差不多掌握一个就可以了。

5、Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化D***工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

1、大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、J***a、Shell、Python等。

2、Elastic-Job，是当当网开源的分布式调度解决方案，支持任务分片功能，可以充分利用***。Elastic-Job有两个独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成。具体实现可以参考官方教程。其整体架构图如下。

3、数据***集与预处理：FlumeNG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据；Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。

4、支持传统的shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

5、Azkaban的定时执任务是基于时间的。Oozie的定时执行任务是基于时间和输入数据***管理。

1、综上所述，Ooize相比Azkaban是一个重量级的任务调度系统，功能全面，但配置使用也复杂(xml)。如果可以在意某些功能的缺失，轻级调度Azkaban是很不错的候选对象。

2、大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。

3、总体来说，ooize相比azkaban是一个重量级的任务调度系统，功能全面，但配置使用也更复杂。如果可以不在意某些功能的缺失，轻量级调度器azkaban是很不错的候选对象。

4、ApacheOozie是一个重量级的任务调度系统，功能全面，但是部署及配置会比较麻烦，从crontab到Oozie上手会有一定难度。

5、大数据技术的体系庞大且复杂，基础的技术包含数据的***集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。

6、随着业务数据量的增多，需要进行训练和清洗的数据会变得越来越复杂，这个时候就需要任务调度系统，比如oozie或者azkaban，对关键任务进行调度和监控。

大数据中间层：运行在大数据平台基础上的一个层级主要是client访问层，服务提供层，基础运算层，client层主要有cli工具，dt工具，外部系统，上层应用。

其生态系统从0版的三层架构演变为现在的四层架构：底层——存储层现在互联网数据量达到PB级，传统的存储方式已无法满足高效的IO性能和成本要求，Hadoop的分布式数据存储和管理技术解决了这一难题。

教育大数据六层架构是：数据源层：包括传统的数据库，数据仓库，分布式数据库，NOSQL数据库，半结构化数据，无结构化数据，爬虫，日志系统等，是大数据平台的数据产生机构。

Lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。

大数据的技术数据***集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

管理软件中，为什么三层架构处理大数据量时比两层架构层次越多，扩展性越好，但是性能越低。