spark大数据商业实战三部曲第2版(大数据企业级spark实战)

本文目录一览：

1、稳定性方面，由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在内存中，Java垃圾回收缓慢的现象严重，导致Spark的性能不稳定，在复杂场景SQL的性能甚至不如现有的Map/Reduce。

2、和其他独享型规格族提供了不同的配置，可以为每个 Hadoop/Spark 组件节点「量体裁衣」来选择实例，最大限度避免资源浪费。

3、实时计算我们选择的Spark Streaming。我们目前只有统计需求，没迭代计算的需求，所以Spark Streaming使用比较保守，从Kakfa读数据统计完落入mongo中，中间状态数据很少。

一个企业要大力发展大数据应用首先需要解决两个问题：一是低成本、快速地对海量、多类别的数据进行抽取和存储；二是使用新的技术对数据进行分析和挖掘，为企业创造价值。

稳定性方面，由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在内存中，Java垃圾回收缓慢的现象严重，导致Spark的性能不稳定，在复杂场景SQL的性能甚至不如现有的Map/Reduce。

Spark Streaming对存储计算结果的数据库tps要求较高。

上一代的CPU和内存等硬件的选择，可根据符合成本模型的需求，采用匹配数据传输速率要求的千兆以太网接口来构建低成本的解决方案。采用万兆以太网来部署Hadoop也是相当不错的选择。

一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤：Linux系统安装。分布式计算平台或组件安装。数据导入。数据分析。一般包括两个阶段：数据预处理和数据建模分析。

1、使用者主要有两种：数据科学家和数据工程师。

2、更系统全面的学习资料，点击查看大数据培训课程通常包含以下内容：大数据架构和技术栈：包括Hadoop、Spark、Hive、Hbase、Storm等。大数据分析：包括数据可视化、统计分析、机器学习等。

3、Java语言基础课程 JAVA作为编程语言，使用是很广泛的，大数据开发主要是基于JAVA，作为大数据应用的开发语言很合适。Java语言基础包括Java开发介绍、Java语言基础、Eclipse开发工具等课程。

4、分布式计算框架和Spark&Strom生态体系有一定的基础之后，需要学习Spark大数据处理技术、Mlib机器学习、GraphX图计算以及Strom技术架构基础和原理等知识。

因此，Spark并不会直接取代Hadoop，而是与Hadoop一起使用，以提高大数据处理的效率和性能。Spark和Hadoop可以根据数据的大小、种类、处理方式等因素进行选择和组合，以实现更好的处理效果。

诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

处理速度和性能 Spark扩展了广泛使用的MapReduce计算模型，支持循环数据流和内存计算。Hadoop进行计算时，需要从磁盘读或者写数据，同时整个计算模型需要网络传输，导致MapReduce具有高延迟的弱点。

因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。

Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发，其核心部分的代码只有63个Scala文件，非常轻量级。