为什么男生都是在上午8-11点工作，下午2-4点玩游戏？

点击联系发帖人 时间：2022-06-24 11:38

女生在党办工作好吗

三十四北京国信博飞面试题
（2）项目中你主要负责哪些部分？
（4）不同数据源的标准化问题，具体怎么执行的？
（5）对数据建模的理解？
（6）为什么用Sqoop导入业务数据？
（7）元数据怎么管理的?
（8）采集数据的时候针对不同的表分别是怎么处理的？
（9）除了做宽表和降维，还有哪些方法来提高查询的效率
三十五知因智慧面试题
6.JVM的引用类型？
四种：Strong，Soft，Weak，Phantom，各自在垃圾回收时有不同的机制；
二叉树后序遍历，如何优化给定一个数组，找出里面个数最多的元素（写了个for循环，说上亿条数据怎么办？这样效率很低，不知道，给提醒，用map结构，还不会）
我说换个题吧，面试官说说这是最简单的算法了，这都不会就没必要聊下去了，直接走人~
一、单选题（102 20分）
1、下面哪个程序负责HDFS数据存储？
2.下列哪项通常是集群的最主要瓶颈？
C它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间
4、HBase依靠（）存储底层数据。
9、下列说往正确的是？
A一个文件里可以同时存在两个，public修饰的类
B构造函数可以被重马（override）
D final修怖的类可以被维承
10、关于JAVA堆，下面说法错误的是？
A所有类的实例和数组都是在堆上分配内存的
B对象所占的堆内存是由自动内存管理系统回收
C堆内存由存活和死亡的对象，空闲碎片区组成
11、Rowkey设计的原则，下列哪些选项的描述是正确的？
12、下列哪些选项是安装HBase 前所必须安装的？
A两者不可或缺，MapReduce 是HBase可以正常运行的保证
B两者不是强美联关系，没有MapReduce，HBase 可以正常运
D它们之间没有任何关系
14、下列哪项可以作为集群的管理工具？
三、判断题（53-15分）
19、集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。

四、主观题（10*5=50分）
23、请列出hadoop的进程名称。
24、怎么解决kafka的数据丢失。
26、kafka 控制台向topic生产数据的命令及控制台消费topic数据的命令。
28、Hbase的rowkey怎么创建比较好？列族怎么创建比较好？
29、描述hbase的scan和get功能以及实现的异同。
（2）说下你们公司的数据流向（从kafka出来的是结构化还是非结构化信息，有没有试过导入结构化数据）
（3）HBase的rowKey设计，为什么这样设计？
（4）Mysql千万级，亿级数据怎么导出ElasticSearch在你们公司怎么用的？
（5）Redis在实时处理中如何使用？
项目一条一条细抠，技术基本全问，spark优化和数据核对验证方面比较在意。没有笔试题
如禹投资窗口函数，udf函数，数仓搭建。大概就这些吧。公司刚搭数仓，数据都没全导入进入呢。
（2）当数据表中A、B字段做了组合索引，那么单独使用A或单独使用B会有索引效果吗？
（4）一条sql执行过长的时间，你如何优化，从哪些方面？
（5）序列化的原理和作用？
（1）如果canal传入kafka的数据无序应该怎么办？
（3）你们的数据存在hdfs上还是hbase，格式是什么
（4）你们公司的数据量有多少
（5）你在公司项目中起到什么作用
（2）flink的怎么和rocksDB交互的。画一个流程图。（这个我也不会）
（5）rocksDB为什么可以存储那么大的数据量。
（6）使用eventtime+watermark的时候，如果数据到6点结束了。怎么保证最后一条数据能计算。
（7）你理解的什么样的数仓是一个好的数仓。
（8）你们有做过数据的结果的校验吗？怎么校验的(很重要，金融的业务不允许有误差，深圳的是金融业务部门。可以容忍慢，但是不能错。)
（9）要是能自己去看看flinksql就更好了。最新的flink已经支持sql的写法了。业务用的就是flinksql。
（10）公司是做数据中台。主要用的技术就是flink。多准备一下flink的技术。
***面试通过者，薪资可以参考20
（2）使用状态后端的时候与hdfs/rocksdb的交互（没懂，不是checkpoint检查点机制）
（3）窗口的触发机制、压力监控及处理、设置时间语意、连续处理
（5）用原生api创建线程池和调用
（6）map和list的各实现类的用法与区别
（8）物流宽表和订单宽表为什么不做到一块儿
（9）怎么把hdfs上的数据导到hive，内外表
（10）星型模型和雪花模型，事实表维度表
（13）kafka的数据重复在数仓怎么处理的
（14）存储格式及对比
（15）项目中遇到的问题
116 飞贷金融面试题
（2）Java常用的设计模式，适用场景
（3）Java多线程，多线程的阻塞，唤醒，中断，适用场景，如何控制
（4）Impala运行机制，架构，优化机制（自己写的）
（5）CDH怎么增加，删除一一个节点
（6）堆序？？？我给他说了堆排序不知道是不是
（7）Sqoop的应用场景，会有什么限制，4M的性质，跟1M有什么区别，什么场景用4M，那种场景不可用4M，架构如何，优化
总结：这个人比较喜欢问Java，对Java要求比较高，姓谭，比较喜欢简说各种名词，你没听清回问他，他会不耐烦
117 喜茶面试面试题
一共面了5轮，人事，技术，人事，产品，人事。
目前数据部门有4个人，负责人说是数仓已经搭建完了，刚上spark，用spark sql去跑指标，想招会实时的。他看着简历的技能点来问，问了flume，kafka，都是基本的问题比如kafka的副本机制，flume是如何搭建的，又遇到什么问题，随便编一下就好了。然后主要问实时算子，map和mappartition源码有没有看过，我说没看过，但是说了一下具体的区别和使用场景，开发问了一下实时指标，但是他没问我实时指标的具体实现过程。然后转回来问数仓数仓的架构，然后我就每一层做什么都说了一遍，问题有哪些维度表，怎么确定主题，拉链表怎么做的，问了做过哪些离线指标，也没有问具体实现。然后问数仓的CUID(我不知道这是啥)是怎么实现的，我说我了解过，然后问我HQL能力怎么样，问我有几种子查询类型问我用过几种，会不会写select的子查询，这时候我有点懵，但是他很快又转了话题，问spark streaming 怎么实现精确一次，又问了kafka挂了怎么办，然后就说他们需要用java写spark代码(方便维护和扩展)，问我可以转过来吗？我说我得适应一段时间，他说给1个月时间可以吗，我说我试试吧(心虚)，之后就没谈到技术相关的。
重点是，人事，人事，人事，这人事先后和我聊过3次从不同的角度问同一个问题，一直让我说上一家公司，领导印象，怎么入职的，最难的工作经历，为什么来深圳等等，有的问题问了3遍，我去！她一直面带c微笑，笑里藏刀，反复核实我过往经历的真伪，真不好搞，最后说了薪资结构，1周内给回复。
再补一句，人事重复问经历，java做实时计算，产品指标理解，这三个重点想一下。
118 五矿证券面试题
（1）mapreduce的理解，答了五个步骤
（2）hive半天跑不出任务。也没有报错，你咋办？实际工作中就是会出现。你怎么分析
（4）spark任务的过程，spark 工作的优化
（5）hive工作的优化
（6）你怎么保证数据的准确性。他们做金融的，要求很高。
（7）任务调度。azkaban 感觉很重要。他们可能想招运维。问我如果做自己不喜欢的工作咋办。
（8）如果一个男生水平跟你相当，怎么劝服我选你，不选他。（这是什么鬼问题）
（9）你怎么确定数据的准确性。
（10）如何保证数据干净。
（11）讲了一堆，我都不理解的问题。电商跟金融相差太远了。对数据的侧重点也不–样。
（1）首先让我画出数仓的结构
（2）问我mysql中改变的业务数据如何做监控，例如用户修改资料如何捕捉到
（3）之后问了我如何做清洗，UDF怎么写
（4）然后问了我整个离线的架构，然后我就画了图
（5）之后他问我那些表做全量哪些表做增量，状态改变的数据该用哪些表（我说拉链表然后他问我拉链表的实现
（6）之后问了我公司集群资源的问题，我们公司共有多少计算资源内存资源和存储资源
（7）然后问我们离线任务和在线任务的资源是如何分配的，给各类任务会分配多少，会不会有分配不够的情况，分配不够的情况怎么办。
（8）然后问了任务调度问题（阿兹卡班，问了任务失败了如何重试，如何设计依赖或流程自动解决这种问题
（9）然后问了我我们的在线业务的架构，并询问在线业务资源分配情况，以及kafka如何和spark结合，在线和离线如何分配计算资源，解决计算资源上的不足
120 太平金科面试题
1.下面哪个程序负责 HDFS 数据存储？
3.下列哪个程序通常与NameNode 在个节点启动？
6.下列哪项通常是集群的最主要瓶颈
8.下列哪项可以作为集群的管理？
9.配置机架感知的下面哪项正确
A、如果一个机架出问题，不会影响数据读写
B、写入数据的时候会写到不同机架的DataNode中C、MapReduce会根据机架获取离自己比较近的网络数据
A、单机版B、伪分布式C、分布式
12.下面对 HBase的描述哪些是正确的？
B、是面向列的C、是分布式的
D、是一种NoSQL数据库
13.HBase依靠（）存储底层数据，依靠（）提供消息通信机制，依赖（）
A、两者不可或缺，MapReduce 是HBase可以正常运行的保证B、两者不是强关联关系，没有MapReduce，HBase 可以正常运行C、MapReduce可以直接访问HBase D它们之间没有任何关系
15、HBase中的批量加载底层使用（）实现，HBASE 分布式模式最好需要（）个节点。
1、简述hdfs的体系结构。
2、请列出你所知道的hadoop调度器，并简要说明其工作方法？
4、简述HDFS读写数据的过程
5、SPARK集群运算的模式
（1）关系型数据库和非关系型数据库的区别和应用场景？
（2）MySQL事务和隔离级别
（3）HDFS读写流程
（6）数仓分层，每层都做了什么；都有什么事实表
（7）分析的指标有什么？
（8）数据倾斜的处理？
122 明天医网（杭州）
（2）集群架构的分配，为什么这样做
（3）如何保证集群数据的安全性
（4）数据如何监控 zabbix插件来监控
（6）集群数据保存多长时间半年到一年，公司一般会进行数据存档一次
（9）APP的用户数 100w，每天交易的用户数 10w，每天的数据量 100g
（11）如何实现每天的数据进入数仓中，自己手动写SQL吗，还是其他的方式？数据通过flume+kafka采集到hdfs上，然后写sql导入依次导入ods，dwd，dwd。ads（azkaban调度）
（12）未来的发展规划
薪资不高，能开到22左右。
大概要招聘3到4个那样子。刚起步
（1）主要做会员的用户画像，用户行为分析。
（2）目前在北京有大数据团队，他们用的是clickhouse做的数仓，神测数据做的数据分析。
（3）后期想将大数据部门clickhouse中的会员数据在
（4）深圳在搭建一套clickhouse集群，并将数据抽取过来，
（5）对flink cep 的事件处理有要求，最少能答出来。flink的原理，窗口函数，背压，等会问。
（1）问项目中遇到的有难度的事可以答权限的这个
（2）写了兴趣，比如看书，他会问你最近看了什么样的书。
（3）华为的管理啥的，google的工作技巧啥的。偏重领导层
（4）面技术就答看的技术书了什么kafka实战啥的。
（1）先自我介绍，基于自个的业务可以介绍用到的数仓建设
（2）实时指标统计等。
（3）然后会问flink的原理，flink的cep，一系列的。
（4）能答出clickhouse的各种表引擎更好。
（1）对数据中台建设的简单扼要概括
（2）线性矩阵，维度建模，分层，血缘，数据管理，数据地图等
（1）一个业务场景不同事件实时统计指标
（3）他问你有啥好问的，问他数据战略方向
（4）让他多说，稍稍做个符合就好。
比客的面试:你写了什么就问什么，不写他不问，还是看你简历
（1）Java的熟不熟，常见的Java集合说一下
（2）spark streaming消费kafka，怎么样保证数据消费唯一性，举一个例子说明一下
（3）说一个你熟悉的spark实时指标（我说了黑名单的实时指标，我说最后把数据放到redis中，然后问我为什么设置这样的格式存储，你手写一下具体的实现过程，写完后，他说，你公司的广告有几千个吧，日活有100万，每天每个用户点击的每个广告都统计，至少是亿级别的吧，你们存放到redis中不会挂）
然后我就说了一句不会，我们用redis cluster，然后就没问了
（4）hdfs读写原理，spark shuffle过程，zk的写原理（我简历写了），spark常用的算子
（5）kafka的leader挂了怎么样吧，kafka消费数据堆积怎么样处理
（7）随便写了几个字段，叫你分析一下，每个部门的员工薪资top3
（8）你了解hbase，说一下写流程，读写流程谁快
（1）用canal同步mysql发送到kafka，发送订单状态表，状态一直在变化，怎么知道状态的时间顺序？比如加购订单支付这三个状态来的时间不一样，怎么判断谁先谁后？怎么不消费状态错误的数据？
（2）怎么证明你从kafka消费的数据没有丢失？导入的每张表的数据都是正确的？如果有100张表，不可能每张表都去写模拟数据测。(不是埋点测数据量这个答案，是要每张表都能保证数据正确)
（3）dws层主要做什么？为什么要有dws层？你们宽表怎么建模的？你有没有建过模？所以你就是负责写hql？。。。
（4）flink的指标spark streaming做不到吗？说低延迟的话，会问这个指标的实时性好像也没有要求这么高吧？
（6）用oozie调度任务，假设说我有一张ads层的表不想导了，要自动把前三层跟这张表相关的那些表也停止不导了，怎么做？
（7）最近看什么书？为什么离职？前公司情况？对公司的期望？
3）三轮总监面，非科班会质疑你怎么学习大数据的，还有给一些场景问要怎么解决
4）四轮老板面要等老板有空再安排
（2）大量数据集合在一个dn如何平均分配
（3）hdfs上数据满了如何处理
（4）最近的工作，你的主要任务是什么？
126 滴普科技面试题
滴普科技(深圳电话面试，人事面)
电话面试基本对着你的简历来，上来直接就是:
（4）spark提交流程(结合topN来说，我直接分开说的)；
（7）说几个行动算子；reguceByKey是什么算子
（9）kafka的框架(会问每个分区数据怎么分配)；kafka如何保证数据准确(应该说的是精确消费)
（10）redis框架，内存会出什么问题(应该是穿透和血崩，我没答上来)，redis的数据类型，set与zset的区别
（12）oozie和azkaban的区别，框架，流程，模型(我想挂掉电话了)
（13）MySQL的两种引擎，区别，索引
（14）JVM内存分区？各区主要干啥的？
（15）Java的类加载知道吗，说一下
（17）hashmap的底层源码，容量是多大，再问了一个并发安全的什么map(我没听懂)
（19）hive架构，那四个器件的作用
（20）整个离线框架，
（21）Linux查CPU和内存和磁盘的命令
（22）awk用过吗(我直接说没用过)
原谅我还有几个小问题实在想不起来了，他们做服务中台的，要派到甲方公司去干活，不是外包那种。小公司A轮，36楼办公室不大，她说后面会搬，深圳的团队还在搭建。
（1）没问技术点直接问项目
（3）Hive分区分桶
（5）Spark转换算子有哪些
128 加满分科技面试题
（3）假设现有一张Hive表，表名为jmf
数据格式如下：a，b，c，d，a，a，e，e

大数据开发工程师面试题（笔试题）
（1）请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？
（3）ZooKeeper集群中角色分别有哪些，简述其作用。
（4）spark有哪些组件？
（6）Scala中两种变量类型val和var的区别？
（7）Maven编译、测试、打包、安装、清理与发布命令操作？

130 云帆加速面试题
公司主要使用spark做数仓，需要好好准备spark，如果可以，可以一直说，停下来后，基本对着简历一个个问题问
（1）hadoop读写流程，yarn得job提交流程，如果客户端在dn上，会怎么样，以及写数据时候有序节点的顺序会有哪几种情况，机架感知相关内容
（3）项目中服务器混用？服务器数量，主要问了kafka,flume是否混，如何隔离
（4）azkaban做任务调度时候，那些场景使用到任务依赖
（1）主要是离职原因的询问
（2）项目中用到的架构及技术，最擅长的技术是什么？
（3）不会的问题怎么解决（查阅资料，还是问人）
（4）学习新技术的渠道
（5）大数据项目团队多少个人
132 行云全球汇面试题
（1）公司没有大数据部门
（2）面试我的人是个大汉，感觉不会大数据，他是湖北宜昌的
（3）他要构建离线数仓项目，没有实时需求
（4）业务数据存在金蝶中，需要帮他设计方案
（5）业务每天变化的数据量大概一天1g
人事问的很麻烦，什么都问，你对组长的看法，能从组长那里学到什么啊？为什么选择它们
133 新房网络科技面试题
面试我的是大数据架构师偏java方向
（2）尽量将项目讲的细致，es和hbase最好不用，数据量太小，用这两个，他会问很多，如果你有自己的讲解和说服他的地方，可以作为一个亮点
（3）介绍你最熟悉的项目（参与度最高的）我讲的实时项目，他们实时和离线都有用到
（4）你的项目中有遇见什么问题，怎么解决的
（5）面试官是会问java的内容，你每年多少代码量，主要是写什么东西
人事也会问一些组织架构，多少人之类的，
开的薪水范围20k 13薪
现在两个大数据，还要找2个
134 中科闻歌面试题
（1）线程和进程区期2多线程有几种实现方式？
（2）如何理解Jlava接口？
（3）Java 有序集合有哪些？
（4）数据库索引类型有哪些？常用数据库函数有哪些？mysql如何性能优化？
（5）常见排序算法有哪些？编写快速排序程序
（6）Redis 集合类型有哪些？简要说明
（7）列出比较常用的爬虫框架？
（8）数据采集遇到的常见问题有哪些？
（9）Kafka 的容错机制？
（10）如何优化hive查询速度？（大数据职位）
（11）简要描述大数据生态环境（大数据职位）
（12）Spark 应用转换流程？（大数据职位）
135 科蓝金信面试题
（3）sqoop导入增量和变化
136 中国联合航空有限公司
（2）kafka中队列和主题的区别
（4）hbase存储那些东西
137 前海云途物流面试题
（3）他们是准备把老的集群换成hadoop和spark的架构
（4）他们公司12台机器，一台512g的内存。半年的活跃数据在1t左右。每天业务数据50g左右。
（5）准备搭的架构是spark对接hbase，数仓四层数据全部放到hbase中，用sparkcore和Sparksql处理，主要做实时。离线不太需要。然后hive和hbase做一个映射，hive中只存ods和ads层，做一些报表。
（6）还问了canal监控的一些问题，canal是什么？监控的什么？
138 广州高奈特面试题
这家公司是为公安局开发大数据的，提早预测某些犯罪的发生，或寻找犯罪人员之类，做维稳的。偶尔要出差广西柳州，大概一个月出差2周。没有笔试，但有十几个大数据开发人员，所以面试会问一些技术问题，大部分尚硅谷教的可以回答，尤其要复习一下spark。还有，问过，10000个线程的for循环每条睡5秒，要多久运行完成。还有行为数仓跟业务数仓都导出到hive的话，怎么保证数据一致性？
（3）flume几个主要组件
（4）hive怎么实现多目录
140 梦享网络面试题
（4）数据直接导到hive不行吗
（5）datanode副本是同步还是异步
（6）spark的优化，数据倾斜怎么办
（7）业务指标，离线和实时都要说
（8）用户新增怎么实现
（11）整体流程还是不连贯，
（12）数仓分层，每层干什么
（13）实时安全用什么协议
（14）java面向对象吗和面相函数你的理解
（15）hbase会的话可以多聊很多
（16）雪花模型和星星模型的不同
（19）精准一次性消费的可靠性语义
（20）scala中方法和函数的转换
（21）scala用什么实现1到100的累加，用左折叠
（22）讲项目，实时离线都要说
（23）会问一些上家公司的基本情况，日活，数据量，多少台服务器，以及服务器配置
141 国网信通亿力科技
（1）为什么用Hbase 存得多，还算可靠，可以自己设计rowkey，根据自己的业务需求提升查询效率
142 六度人和面试题
（1）以项目为主，自己说。
（2）做实时过程中，如果手机app 端，数据正好准备上传，但是网断了。然后一个小时之后，这个数据才发过来。那你们怎么进行处理。
（3）es 你做了几页。你的doc 有多少数据量。
（4）实时部分， canal 监控主机，然后主机挂了，从机上位，这个过程中的数据变化咋办
143 中汽知识产权投资运营中心（北京）有限公司
（2）数仓分层及能否应用到公司投资业务上，需求实现
（4）HR、经理、技术、组织者一块视频面试
144 数梦工场面试题–杭州
（1）说一下你最熟悉的框架的底层原理
（2）hadoop的map端的一个分区数据如果有大量的重复，怎么去重？
（3）es的连接池是怎么做的？
（5）自定义了哪些udf udtf函数
（8）flink底层是怎么实现精准一次性消费的
（9）kafka的峰值速度
（10）广播变量在代码的哪里开启？
（1）spark streaming 过程中oom了怎么办？去哪里查看，怎么调试？
（2）常用的查看内存的工具有哪些？
（3）java的线程池有几种？
（4）spark 做了那些优化？
（6）数据中台和数据仓库
（1）加班可以到什么程度？
（2）可以接受出差吗？
（4）为何说Yarn是一个双层调度架构
（6）HBase 怎样进行条件过滤，与MySQL相比，有何限制
（7）Cassandra 的宽行么理解，举例说明
146 讯方面试题 -深圳
（1）介绍一下Hive的业务场景及使用经历？
（2）介绍一下Spark的业务场景及使用经历？
（3）简答题：现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。脱敏后的数据存放hdfs:hoteldata/hoteldata.csv.初始数据集来自多个网站及平台系统，且为多次采集汇总，因此数据集中不可避免地存在一些胜数据，即源数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑。请分析数据集hoteldata，根据题目规定要求实现数据清洗。基础字段信息包括但不限于：city:tring，hotel:Sring，price:Double，grade:Double，consumer:String，address:tring.roomsNum:String1
（1）城市游客接纳能力是城市规划建设中的重要指标，其中城市的酒店数量和房间数量是城市游客接纳能力的关键要素。请编写程序或脚本根据酒店管理网站中的数据统计各城市的酒店数量和房间数量，以城市房间数量降序排列并输出前10条统计结果，并写入指定的数据库或数据文件。
（2）酒店的间夜量也叫间夜数，是酒店在某个时间段内，房间出租率的计算单位。1个房间被使用1个晚上被记作1个间夜数，如一个酒店一周内有30个房间被入住1晚，7个房间被入住两晚，则间夜数为130+27，44个间夜。
根据现有数据及给定参数完成酒店间夜量数据统计，并写入指定的数据库或数据文件。
（2）描述一下数据源和流向
（4）hive支持的文件格式
（2）对hadoop生态圈哪些更熟
（3）实时熟还是离线熟能聊下实时架构吗
（4）描述hbase写数据的流程 region元数据放在哪里
（6）spark数据倾斜了解吗数据倾斜会导致什么现象如何判定那个key造成数据倾斜
（7）hbase大合并和小合并预分区
（11）hbase主键设计原则
（12）shell脚本呢是定时任务还是人工
（13）linux命令磁盘内存剩余内存free 定时任务
（15）问问题集群交付和技术支持你的职业规划你冶金工程如何做到软件开发这个行业的编程语言上家离职原因期望薪资
147 及刻科技面试题
（2）简单描述下自已理解的Raft或Paxos协议。
（3）Kafka 的架构是怎么样的？Kafka如何保证可靠性？
（5）Hadoop的架构是怎么样的？怎么保证高可用？HDFS的读写流程是怎么样的？
（6）Yam的架构是怎么样的？执行MapReduce任务的过程是怎么样的？
（8）请简述hive工作原理，元数据存储方式、基本数据类型及复杂数据类型。
（9）hive的开窗函数使用场景，简述你使用开窗函数的例子。
（11）布隆过滤器的原理是怎么样的？如何在Hadoop.上使用布隆过滤器？
（12）假设有10个指标需要统计，用MapReduce怎么去统计？如果有10000个指标又怎么去统计？
（14）请写出以下执行命令
c）加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令？
148 雁联科技面试题
Flume 采集数据时如果进程挂了，如何实现数据的唯一不出现重复，在哪里实现去重操作，，然后问语言 java单例模式，jvm，spring依赖注入如何实现，scala有没有看过源码对哪些算子熟悉，spark与数据库进行连接的时候如何进行减少连接使用foreachpartition替代foreach,cdh版本的集群如何搭建，然后目录很深的jar包如何查找
149 中软国际面试题
（2）mapjoin是小表提前缓存内存中具体那个节点
（3）数据倾斜一般发生在哪端
（4）reduce数据倾斜怎么优化
（5）ads数据分析展示
（1）你做过的项目说一下？
（2）你们大数据组有多少人？你负责什么？
（3）你对最近两年和后面几年大数据发展方向有什么看法？
（4）你们公司用的都是Apache，是有专门的运维人员吗？会用CDH吗？为什么你上家公司这么小不用CDH？
（5）你们上家公司的指标都有什么，你负责的讲一下
（6）你做一个指标需要多久？
（7）如果要你将一个kafka堆积的数据取出来怎么办？（已经堵死了）
（9）你们上家公司主要用的是java还是Scala？都用过什么API？
（10）讲一下你多JVM的看法？
1.s市A，B共有两个区，人口比例为4 ：7，聚利时统计A的犯罪率为0.013%，B的犯罪率为0.017%，现有一起盗窃案发生在S市，，那么该案件发生在A区的概率有多大？请写出具体计算过程
2.一个盒子装有六只乒乓球，，其中四个是新球（即未使用过的球），第一次比赛时随机从盒子中取出两只乒乓球，使用完后又放回盒子，第二次比赛又随机取出两只。求：第二次取出全是新球的概率。请写出计算过程。
3. 一个栈的的入栈序列为 ABCDE，则栈的不可能的输出序列为
4.已知一棵二树，如果先序遍历的节点顺序是: ADCEFGHB CDFEGHAB，则后序遍历结果为
5、SQL语言允许使用通配符进行字符串匹配的操作，其中％可以表示
6.以下表的设计，最合理的是
C 分数（学生id，学生name，学生age，学科id，学科名称，分数）
D 学科（id,name）, 分数（学生id，学生姓名，学生age，学科id, 分数）
7.如有有一张表 player，有id，name两个列，我想知道这张表有多少行数据，id最大的前10位的name是什么，请问这两个SQL语句如何写？
8. 1）使用SQL实现以下数据表行转列及总分、平均分（数据表：table）
姓名语文数学外语总分平均分
姓名语文数学外语
9．查询数据表（play），基本字段如下：
求每个市的歌歌手排名前三的歌手和播放次数
1）用sql查询近30天，每天平均登录用户数
2）写sql查询出近30天，连续访问7天以上的用户数量
11、设张三的mp3里有1000首歌，现在希望设一种随机算法来随机播放，与普通随机模式不同的是，张三希望每首歌随机到的概率比是与一首歌的豆瓣评分（0～10分）成正比的，如朴树的《平凡之路》评分为8.9分，逃跑计划的《夜空亮的星》评分为9.5分，则希望听《平凡之路》的概率与《夜空中最亮的星》的概率比为89:95现在我们已知这1000的豆瓣评分，请设计一种随机算法来满足张三的需求
12. 有7克、2克砝码各一个，天平一只，如何用这些物品三次将140克的盐分成50克、90克两份？
151 迅策科技面试题
（2）实时数据怎么获取？做过哪些比较难的实时指标？怎么做的？
（3）Spark内核：提交流程、shuffle工作原理、DAG、任务切分（每个问的很细）
（4）窗口函数怎么用的？有没有优化的办法？
（5）Spark做过哪些优化？Kryo序列化原理是什么？（因为简历写了这个）
（6）Spark实时每天处理的数据量多少？
（8）zookeeper选举机制（机制名称，具体原理）
（9）Kafka节点挂了怎么办？数据积压怎么办？
（10）离线数据哪里来的？业务数据有哪些？业务数据的字段有哪些？数据量有多少？分析指标需要多久？
（11）数仓负责哪一块？怎么做的？表结构知道吗？有没有做过比较难的指标？怎么实现的？
（12）dws层有哪些？字段有哪些？
（13）为什么要用Redis？讲一讲Redis的原理？用Redis集群了吗？宕机怎么办？
（14）推荐系统用了哪些算法？原理你懂吗？能手推吗？怎么实现的？要跑多久？
（15）Java基础怎么样、数据结构与算法（队列、链表、排序算法等）有没有学过？有没有实现过？
（16）还有很多各框架的基础问题，好好复习资料足以应付。
本次面试，来的直接是负责人，不让自己介绍项目，直接不间断提问一个小时，基本上都是围绕你简历上出现过的技术点和框架去问（简历翻了快10遍…………），问的范围超过简历的，实在不会就说不了解即可。
（1）刚进入公司什么情况？
（2）你们公司是做什么的？
（4）部门人员组成，你负责的内容？
（6）之前税前薪资多少？多少薪？
152 美辰科技面试题
（4）hbase的filter原理，说说你项目中用到的场景
（5）sqoop中把hdfs的数据写入mysql，怎么保证数据不重复，sqoop怎么操作
153 平安面试题–外包金证科技

3.请简要描述数仓的分层结构，以及每一层的作用和搭建原则。
4.简述Hive静态分区和动态分区的区别。
154 平安面试题–平安（58楼）
1、简单阐述内部表和外部表的区别
4、简单阐述 TXT、RC、ORC文件类型的区别
5、之前工作经验中的调优实战
6、如何识别数据倾斜，数据倾斜的原理与解决措施

155 平安面试题–网新新思（平安外包）
先是自我介绍，完了介绍项目、项目架构，他们貌似没有用到两级的Flume，问为什么不能直接用一级Flume怼到HDFS，我回答的是kafka消息队列是为了sparkStreaming流式处理用的，离线是可以直接只用一级Flume（也不知道对不对）；还有怎么监控到数据采集丢了数据，我回答用Ganglia,如果尝试次数大于成功次数那就是丢数据，然后他又问丢数据了怎么办，我说日志数据丢点无所谓，他说假如就不能让你丢怎么办；我说那channel就用FileChannel、ack改为-1；他说这样效率很慢；我说那既要安全又要效率那就有点困难，他说客户就要这样，最后给他扯了说把实时和离线两条线拆开来，离线就只用Flume-HDFS，实时就是Flume-kafka-SparkStreaming，（这样其实我感觉也没什么大的卵用）还有数据采集有没有遇到过什么问题：我就说了两个：TaildirSource重复消费数据问题和kafka数据积压问题
他们目前主要面临有两个问题：
1、就是前面说的数据采集的质量，怎么可以高效率又安全的传输；
2、他们业务扩张要数据库迁移，从Oracle到Hive，会问若像订单数据昨天同一个客户将已经下好的订单退货了，而你昨天晚上已经将数据到入到hive中了，今天又将Oracle的订单进行的物理删除，问Oracle和hive的数据不一致了怎么办；
我回答做拉链表跟踪订单状态，但是他觉得这个不是最好的办法，想要知道还有没有其他的更好的解决办法；我就不懂了。。。
有大神知道怎么解决的话可以去试一试，可以多要点薪水。。
156 平安面试题–平安本部54楼寿险
（1）hdfs读写流程
（4）sqoop如何实现增量导出
（5）一些sql题，我不懂就只有行列转置
157 平安面试题–平安寿险外包（核心开发部门）
（1）下面两个sql语句查询的结果相同吗？如果不同，不同在哪里，在什么情况下，查询的结果是相同的，请查询出两个语句查询结果不同的数据
（2）a,b两个表都有id、name两个字段,b是a的子集，请写出sql查询出a中数据不在b中的数据
（3）hive数据倾斜的处理
（4）给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

}

一个男生对你性暗示表示什么

　　一个男生对你性暗示表示什么，如果刚认识一个男生他就对你做出性暗示，那么女孩子眼睛一定要擦亮，赶紧离得远远的。以下分享一个男生对你性暗示表示什么，女孩子们一定要来看！

　　1、男人性暗示是喜欢吗

　　因为怕被决绝所以有的男生只会暗示而不会表白!对於没有谈过恋爱的女孩子,我觉得直接点表白会更好,因为暗示她可能不太明白,即使她明白她也不知道应该怎

}

绿色游网