数据处理面试题及答案(大数据处理面试题)

大数据技术Hadoop面试题

---hdfs：分布式文件存储系统 ---yarn：分布式资源管理调度平台 ---mr：分布式计算引擎介绍下hdfs？全称为Hadoop Distributed File System。

您对大数据一词有什么了解？大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。

大数据和Hadoop几乎是同义词。随着大数据的兴起，专门从事大数据操作的Hadoop框架也开始流行起来。专业人员可以使用该框架来分析大数据并帮助企业做出决策。注意：这个问题通常在大数据访谈中提出。

Hadoop面试和学习小结随着大数据的盛行，Hadoop也流行起来。

1、首先，这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法，KNN 是分类算法。其次，这两个算法分别是两种不同的学习方式。

2、我给你一组数据，如果要你做数据清洗，你会怎么做？实际上，这一道题中，面试官考核的是基本的数据清洗的准则，数据清洗是数据分析必不可少的重要环节。

3、基本情况请用最简洁的语言描述您从前的工作经历和工作成果。

4、今天小编就来和大家说说大数据分析师面试题：Redis的耐久化战略，希望对各位考生有所帮助。RDB介绍 RDB 是 Redis 默许的耐久化计划。在指定的时间距离内，实行指定次数的写操作，则会将内存中的数据写入到磁盘中。

5、我把面试过程可以会问几类问题，不同的面试官可以侧重点不一样。我想和所有面试数据分析师的朋友说的：面试过程中大家是平等的。不要太弱势也不要太强势。把你之前的工作有条理的表达出来。

6、个人情况、对岗位的认知、项目经历陈述在内的一些常规问题。小公司cto还会考察你的分析工具水平、学习能力等，比如询问你在平时工作中是否什么学习或提升，以及你对面试数据分析师的认知等。

1、Redis有两种持久化的方式，一种是RDB，另外种是AOF。RDB是将Redis内存中数据的快照存储在磁盘内，是Redis的默认持久化方案。

2、RDB 可以最大化 Redis 的性能：父进程在保存 RDB 文件时唯一要做的就是 fork 出一个子进程，然后这个子进程就会处理接下来的所有保存工作，父进程无须执行任何磁盘 I/O 操作。

3、存储结构：内容是redis通讯协议(RESP )格式的命令文本存储。比较： aof文件比rdb更新频率高，优先使用aof还原数据。

1、大数据和Hadoop几乎是同义词。随着大数据的兴起，专门从事大数据操作的Hadoop框架也开始流行起来。专业人员可以使用该框架来分析大数据并帮助企业做出决策。注意：这个问题通常在大数据访谈中提出。

2、动手题我给你一组数据，如果要你做数据清洗，你会怎么做？实际上，这一道题中，面试官考核的是基本的数据清洗的准则，数据清洗是数据分析必不可少的重要环节。

3、今天小编就来和大家说说大数据分析师面试题：Redis的耐久化战略，希望对各位考生有所帮助。RDB介绍 RDB 是 Redis 默许的耐久化计划。在指定的时间距离内，实行指定次数的写操作，则会将内存中的数据写入到磁盘中。

因为edits和fsimage文件是经过序列化的，所以不能直接查看。hadoop0以上提供了查看两种文件的工具。---命令：hdfs oiv 可以将fsimage文件转换成其他格式，如xml和文本文件。-i 表示输入fsimage文件。

c)Yumd)Rpm 判断题 1Ganglia不仅可以进行监控，也可以进行告警。()1BlockSize是不可以修改的。()1Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。

Hadoop系列之HDFS架构HadoopDistributedFileSystem(HDFS)是高容错、高吞吐量、用于处理海量数据的分布式文件系统。HDFS一般由成百上千的机器组成，每个机器存储整个数据集的一部分数据，机器故障的快速发现与恢复是HDFS的核心目标。

① 一般来讲，DataNode与应用交互的大部分情况都是通过网络进行的，而网络数据传输带来的一大问题就是数据是否原样到达。为了保证数据的一致性，HDFS采用了数据校验和(checkSum)机制。

1、通过 Spark Web UI 通过Spark Web UI 来查看当前运行的 stage 各个 task 分配的数据量(Shuffle Read Size/Records)，从而进一步确定是不是 task 分配的数据不均匀导致了数据倾斜。

2、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”，直到你的自我介绍完毕，面试官也没有记住你的名字，如果后续的自我介绍中没有突出的表现，那么这样的自我介绍注定是失败的。

3、您对大数据一词有什么了解？大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。

4、(6)大数据数据倾斜的问题，包括Spark JVM内存调优问题等等。