欢迎大家来到IT世界,在知识的湖畔探索吧!
整体
请比较 MR、HBase、Hive、Presto、Storm、Spark 主从架构的异同。
请比较 Flume、MR、Pig、Storm、Spark 在数据处理时做了对数据做了哪些处理?
数据采集
数据分析指标为什么要和维度相结合?
数据采集方式有哪几种?每种采集方式的原理是什么?
在做大数据分析时,有时候需要伪造一些数据,其原理是什么?用什么工具来实现?
音视频数据属于非结构化数据,如何进行大数据分析?
在 flume 中一个 agent 如何连接到另外一个 agent?请加以说明
画图说明 kafka 如何与 flume 结合?
请解释说明数据预处理流程 5 个关键节点。
打标签是什么样的数据行为?有什么意义?
kafka 的数据存在内存还是磁盘?为什么?
数据存储
HDFS 对小文件处理有哪些实现方法?
请说明 HDFS 文件压缩机制,什么叫分片?
数据仓库设计时为什么要建立贴源层?
请举例说明什么叫维度表,什么叫事实表?
请说明数据库 ACID 、CAP 、BASE 含义。
HRegion 是如何划分的?有几种方式访问 HRegion?
请说明 MemStore 与 storefile 的区别?
举例画表说明 Hbase 物理视图、概念视图。
请说明 Hbase 和 Hive 异同点。
数据处理
请描述 hadoop 的 shuffle 过程。
请描述在 Windows 下利用 eclipse 如何进行 MR 开发并上传到 Linux hadoop 下的过程?
请描述在 Linux hadoop 下利用进行 MR 开发的过程?
请用 pig 写出如何进行单词统计的程序。
请说明 pig Latin 关键词 LOAD、STORE、DUMP、FILTER、DISTINCT、FOREACH 、 GENERATE 、STREAM、JOIN、COGROUP、GROUP、CROSS、ORDER、LIMIT、UNION、SPLIT、DESCRIBE、 EXPLAIN、ILLUSTRATE、REGISTER、DEFINE 的含义。
举例说明 pig 特有的数据类型 Tuple、Bag、Map 的含义。
MR 核心组件有哪些?这些组件分别起到什么作用?
Java 中的数据类型 boolean、byte、int、float、long、double、String 在 MR 中分别对应 的数据类型是什么?
数据挖掘与分析
请画出数据仓库数据整合流程并加以解释。
举例说明信息熵、信息增益率、最大熵的含义。
如何结合数据分析业务场景理解信息增益率?
请举例说明 inner join、left join、right join、 full join、隐式 join 的含义。
请说明 Hive 文件格式有哪些。
请从数据结构角度说明行存储和列存储的区别。
请举例说明 Hive 复杂数据类型 Array、Map、Struct、Union。
请列出 Hive 创建表,分区,外部表,桶的 HQL 语句。
结合例子说明如何在 Hive 中创建自定义函数?
请举例说明 HQL 中两种分布式 join 算法的含义。
举例说明 Hive 自定义函数的开发,并如何注册函数?
列出 storm 安装过程并描述安装过程关键点。
请画出 Storm 集群拓扑图并对拓扑图每个构件加以描述。
列出 ooize 安装过程并描述安装过程关键点。
列出 presto 安装过程并描述安装过程关键点。
举一个 presto 简单业务场景查询例子。
列出 presto 安装过程并描述安装过程关键点。
举一个 tez 简单业务场景查询例子。
列出 tez 安装过程并描述安装过程关键点。
请画图示例说明 spark 中如何进行 cogroup。
请举例说明 RDD 依赖(宽依赖、窄依赖)。
请对下表加以解释:
请对下表加以解释:
列出 Spark 安装过程并描述安装过程关键点。
请画图并举例说明 Spark 运行和调度。
请说明 spark 中物理/逻辑执行计划。
机器学习
在机器学习中为什么用到 logistic sigmoid 函数?
在 SVM 中核函数具体作用是?
one-hot 编码的作用是?
什么时候会用到张量?
请描述卷积核的作用。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/18344.html