【tomcatconnector源码分析】【皮拖鞋源码】【hz商城源码】hbase split 源码-皮皮网

【tomcatconnector源码分析】【皮拖鞋源码】【hz商城源码】hbase split 源码

2024-12-22 18:05:43 来源：2022年红包扫雷源码分类：百科

1.大数据笔试真题集锦---第五章:Hive面试题

hbase split 源码

大数据笔试真题集锦---第五章:Hive面试题

我会不间断地更新维护，源码希望对正在寻找大数据工作的源码朋友们有所帮助。

第五章目录

第五章 Hive

5.1 Hive 运行原理（源码级）

1.1 reduce端join

在reduce端，源码对两个表的源码数据分别标记tag，发送数据。源码根据分区分组规则获取相同key的源码tomcatconnector源码分析数据，再根据tag进行join操作，源码完成实际连接。源码

1.2 map端join

将小表复制到每个map task的源码内存中，仅扫描大表，源码对大表中key在小表中存在时进行join操作。源码使用DistributedCache.addCacheFile设置小表，源码通过标准IO获取数据。源码

1.3 semi join

先将参与join的源码表1的key复制到表3中，复制多份到各map task，源码过滤不在新表3的表2数据，最后进行reduce。

5.2 Hive 建表

5.3.1 传统方式建表

定义数据类型，如：TINYINT, STRING, TIMESTAMP, DECIMAL。

使用ARRAY, MAP, STRUCT结构。

5.3.2 CTAS查询建表

创建表时指定表名、皮拖鞋源码存储格式、数据来源查询语句。

缺点：默认数据类型范围限制。

5.3.3 Like建表

通过复制已有表的结构来创建新表。

5.4 存储格式和压缩格式

选择ORC+bzip/gzip作为源存储，ORC+Snappy作为中间存储。

分区表单文件不大采用gzip压缩，桶表使用bzip或lzo支持分片压缩。

设置压缩参数，如"orc.compress"="gzip"。hz商城源码

5.5 内部表和外部表

外部表使用external关键字和指定HDFS目录创建。

内部表在创建时生成对应目录的文件夹，外部表以指定文件夹为数据源。

内部表删除时删除整个文件夹，外部表仅删除元数据。

5.6 分区表和分桶表

分区表按分区字段拆分存储，避免全表查询，提高效率。

动态分区通过设置参数开启，根据字段值决定分区。thingsboard源码编译

分桶表依据分桶字段hash值分组拆分数据。

5.7 行转列和列转行

行转列使用split、explode、laterview，列转行使用concat_ws、collect_list/set。

5.8 Hive时间函数

from_unixtime、unix_timestamp、to_date、month、共享网址源码weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。

时间戳支持转换和截断，标准格式为'yyyy-MM-dd HH:mm:ss'。

month函数基于标准格式截断，识别时截取前7位。

5.9 Hive 排名函数

row_number、dense_rank、rank。

5. Hive 分析函数：Ntile

效果：排序并分桶。

ntile(3) over(partition by A order by B)效果，可用于取前%数据统计。

5. Hive 拉链表更新

实现方式和优化策略。

5. Hive 排序

order by、order by limit、sort by、sort by limit的原理和应用场景。

5. Hive 调优

减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。

5. Hive和Hbase区别

Hive和Hbase的区别，Hive面向分析、高延迟、结构化，Hbase面向编程、低延迟、非结构化。

5. 其他

用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。

更多内容请点击【百科】专栏

【tomcatconnector源码分析】【皮拖鞋源码】【hz商城源码】hbase split 源码

精彩资讯

推荐内容