大数据面试常见问题(大数据处理面试题)

面试题-关于大数据量的分布式处理

1、面试题-关于大数据量的分布式处理题目：生产系统每天会产生一个日志文件F，数据量在5000W行的级别。文件F保存了两列数据，一列是来源渠道，一列是来源渠道上的用户标识。

（图片来源网络，侵删）

2、分布式计算是一种计算方法，和集中式计算是相对的。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。分布式计算可以分为以下几类：传统的C/S模型。

3、当 ht[0] 查找完了之后，再进行了次 rehash 判断，如果未在 rehashing，则直接结束，否则对 ht[1]重复 345 步骤。

（图片来源网络，侵删）

「每日一道大数据面试题系列」spark如何调优

通过 Spark Web UI 通过Spark Web UI 来查看当前运行的 stage 各个 task 分配的数据量(Shuffle Read Size/Records)，从而进一步确定是不是 task 分配的数据不均匀导致了数据倾斜。

自定义规则CheckPartitionTable类，实现Rule，通过以下方式创建SparkSession。自定义规则CheckPartitionTable类，实现Rule，将规则类追加至Optimizer.batches： Seq[Batch]中，如下。

让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”，直到你的自我介绍完毕，面试官也没有记住你的名字，如果后续的自我介绍中没有突出的表现，那么这样的自我介绍注定是失败的。

如何调优，正如问题 1 所说，这里细化一下：基于模板+时间+rollover api 滚动创建索引，举例：设计阶段定义：blog 索引的模板格式为： blog_index_时间戳的形式，每天递增数据。

您对大数据一词有什么了解？大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。

面试问你们大数据项目的数据结构是怎样的

因此，数据结构是进入大厂的重要门槛。总之，如果你想提高工作效率，进入更大的公司，数据结构和算法是你必须跨越的一道坎。

从逻辑结构来看：数组必须事先定义固定的长度(元素个数)，不能适应数据动态地增减的情况，即数组的大小一旦定义就不能改变。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践，实践是大数据的最终价值体现。

尚硅谷大数据面试的一些基本问题总结如下：讲讲你做的过的项目。项目里有哪些难点重点注意点呢？讲讲多线程吧，要是你，你怎么实现一个线程池呢？讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。

Kafka相关面试题

Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。

谈谈你对Kafka幂等性的理解？ Producer的幂等性指的是当发送同一条消息时，数据在 Server 端只会被持久化一次，数据不丢不重，但是这里的幂等性是有条件的：Kafka是在0.11 版本开始引入了事务支持。

Kafka面试题谈谈你对Kafka幂等性的理解？Producer的幂等性指的是当发送同一条消息时，数据在Server端只会被持久化一次，数据不丢不重，但是这里的幂等性是有条件的：Kafka是在0.11版本开始引入了事务支持。

给大家分享一些Linux面试题的笔记，从负载均衡、nginx、MySQL、redis、kafka、zabbix、k8s等方面拆解 Linux 知识点。用来对个人技术点进行查漏补缺。

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理大量的数据并且具备高并发能力。其核心思想是通过分布式的方式将消息发送给多个服务节点，从而实现高效的数据传输。

以下是一些docker的基础面试题，下一篇docker进阶面试题。本系列《最少必要面试题》Docker 是一种流行的开源软件平台，可简化创建、管理、运行和分发应用程序的过程。它使用容器来打包应用程序及其依赖项。

大数据分析师面试题:Redis的耐久化战略

Redis有两种持久化的方式，一种是RDB，另外种是AOF。RDB是将Redis内存中数据的快照存储在磁盘内，是Redis的默认持久化方案。

RDB 可以最大化 Redis 的性能：父进程在保存 RDB 文件时唯一要做的就是 fork 出一个子进程，然后这个子进程就会处理接下来的所有保存工作，父进程无须执行任何磁盘 I/O 操作。

前言Redis是一种高级key-value数据库。它跟memcached类似，不过数据可以持久化，而且支持的数据类型很丰富。有字符串，链表，集合和有序***。支持在服务器端计算***的并，交和补集(difference)等，还支持多种排序功能。

存储结构：内容是redis通讯协议(RESP )格式的命令文本存储。比较： aof文件比rdb更新频率高，优先使用aof还原数据。

·首先介绍RDB、AOF的配置和运行流程，以及控制持久化的相关命令，如bgsave和bgrewriteaof。 ·其次对常见持久化问题进行分析定位和优化。 ·最后结合Redis常见的单机多实例部署场景进行优化。

RDB持久化和AOF持久化的区别：存储数据RDB持久化保存键空间的所有键值对(包括过期字典中的数据)，并以二进制形式保存，符合rdb文件规范，根据不同数据类型会有不同处理。

面试数据分析师的常见问题

1、K-Means 是聚类算法，KNN 是分类算法。其次，这两个算法分别是两种不同的学习方式。K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要我们给出训练数据的分类标识。

2、我给你一组数据，如果要你做数据清洗，你会怎么做？实际上，这一道题中，面试官考核的是基本的数据清洗的准则，数据清洗是数据分析必不可少的重要环节。

3、公司福利公司的很多诚意不仅体现在工资上，还有实打实的经济福利。包括商业保险，餐补，公积金比例，这些都是实打实的钱。明确的加班情况对于这一点不要直接问，但一定要问。

4、我把面试过程可以会问几类问题，不同的面试官可以侧重点不一样。我想和所有面试数据分析师的朋友说的：面试过程中大家是平等的。不要太弱势也不要太强势。把你之前的工作有条理的表达出来。

5、无思路：数据杂乱，不知到从何入手成因：分析的业务目标不明晰，致使数据采集过剩；分析方法与分析的场景不懂得怎样结合，导致无从下手。

6、如何做好数据分析？分析师成长是通过“干”、”思”、“熬”出来的。干：多做。哪些是临时需求。你要做各种各样的分析；思：你在边干的过程中，要边思考，边总结，只有这种你才能沉淀。

正文