1.大数据笔试真题集锦---第五章:Hive面试题
2.mimikatz源码分析-lsadump模块(注册表)
3.LevelDB 源码剖析1 -- 原理
4.大数据工程师岗位职责(必备18篇)
大数据笔试真题集锦---第五章:Hive面试题
我会不间断地更新维护,码阅希望对正在寻找大数据工作的码阅朋友们有所帮助。 第五章目录 第五章 Hive 5.1 Hive 运行原理(源码级) 1.1 reduce端join 在reduce端,码阅对两个表的码阅数据分别标记tag,发送数据。码阅根据分区分组规则获取相同key的码阅59源码网数据,再根据tag进行join操作,码阅完成实际连接。码阅 1.2 map端join 将小表复制到每个map task的码阅内存中,仅扫描大表,码阅对大表中key在小表中存在时进行join操作。码阅使用DistributedCache.addCacheFile设置小表,码阅通过标准IO获取数据。码阅 1.3 semi join 先将参与join的码阅表1的key复制到表3中,复制多份到各map task,码阅过滤不在新表3的表2数据,最后进行reduce。 5.2 Hive 建表5.3.1 传统方式建表
定义数据类型,如:TINYINT, STRING, TIMESTAMP, DECIMAL。 使用ARRAY, MAP, STRUCT结构。5.3.2 CTAS查询建表
创建表时指定表名、存储格式、数据来源查询语句。 缺点:默认数据类型范围限制。5.3.3 Like建表
通过复制已有表的结构来创建新表。5.4 存储格式和压缩格式
选择ORC+bzip/gzip作为源存储,ORC+Snappy作为中间存储。 分区表单文件不大采用gzip压缩,桶表使用bzip或lzo支持分片压缩。 设置压缩参数,如"orc.compress"="gzip"。5.5 内部表和外部表
外部表使用external关键字和指定HDFS目录创建。 内部表在创建时生成对应目录的文件夹,外部表以指定文件夹为数据源。 内部表删除时删除整个文件夹,外部表仅删除元数据。5.6 分区表和分桶表
分区表按分区字段拆分存储,避免全表查询,提高效率。 动态分区通过设置参数开启,根据字段值决定分区。 分桶表依据分桶字段hash值分组拆分数据。5.7 行转列和列转行
行转列使用split、explode、laterview,列转行使用concat_ws、collect_list/set。5.8 Hive时间函数
from_unixtime、unix_timestamp、to_date、month、weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。 时间戳支持转换和截断,标准格式为'yyyy-MM-dd HH:mm:ss'。 month函数基于标准格式截断,mmcv 源码安装识别时截取前7位。5.9 Hive 排名函数
row_number、dense_rank、rank。5. Hive 分析函数:Ntile
效果:排序并分桶。 ntile(3) over(partition by A order by B)效果,可用于取前%数据统计。5. Hive 拉链表更新
实现方式和优化策略。5. Hive 排序
order by、order by limit、sort by、sort by limit的原理和应用场景。5. Hive 调优
减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。5. Hive和Hbase区别
Hive和Hbase的区别,Hive面向分析、高延迟、结构化,Hbase面向编程、低延迟、非结构化。5. 其他
用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。mimikatz源码分析-lsadump模块(注册表)
mimikatz是一款内网渗透中的强大工具,本文将深入分析其lsadump模块中的sam部分,探索如何从注册表获取用户哈希。
首先,简要了解一下Windows注册表hive文件的结构。hive文件结构类似于PE文件,包括文件头和多个节区,每个节区又有节区头和巢室。其中,巢箱由HBASE_BLOCK表示,巢室由BIN和CELL表示,整体结构被称为“储巢”。通过分析hive文件的结构图,可以更直观地理解其内部组织。
在解析过程中,需要关注的关键部分包括块的签名(regf)和节区的签名(hbin)。这些签名对于定位和解析注册表中的数据至关重要。
接下来,深入解析mimikatz的解析流程。在具备sam文件和system文件的情况下,主要分为以下步骤:获取注册表system的句柄、读取计算机名和解密密钥、获取注册表sam的句柄以及读取用户名和用户哈希。若无sam文件和system文件,mimikatz将直接通过官方API读取本地机器的注册表。
在mimikatz中,会定义几个关键结构体,包括用于标识操作的注册表对象和内容的结构体(PKULL_M_REGISTRY_HANDLE)以及注册表文件句柄结构体(HKULL_M_REGISTRY_HANDLE)。这些结构体包含了文件映射句柄、映射到调用进程地址空间的新果汁源码位置、巢箱的起始位置以及用于查找子键和子键值的键巢室。
在获取注册表“句柄”后,接下来的任务是获取计算机名和解密密钥。密钥位于HKLM\SYSTEM\ControlSet\Current\Control\LSA,通过查找键值,将其转换为四个字节的密钥数据。利用这个密钥数据,mimikatz能够解析出最终的密钥。
对于sam文件和system文件的操作,主要涉及文件映射到内存的过程,通过Windows API(CreateFileMapping和MapViewOfFile)实现。这些API使得mimikatz能够在不占用大量系统资源的情况下,方便地处理大文件。
在获取了注册表系统和sam的句柄后,mimikatz会进一步解析注册表以获取计算机名和密钥。对于密钥的获取,mimikatz通过遍历注册表项,定位到特定的键值,并通过转换宽字符为字节序列,最终组装出密钥数据。
接着,解析过程继续进行,获取用户名和用户哈希。在解析sam键时,mimikatz首先会获取SID,然后遍历HKLM\SAM\Domains\Account\Users,解析获取用户名及其对应的哈希。解析流程涉及多个步骤,包括定位samKey、获取用户名和用户哈希,以及使用samKey解密哈希数据。
对于samKey的获取,mimikatz需要解密加密的数据,使用syskey作为解密密钥。解密过程根据加密算法(rc4或aes)有所不同,但在最终阶段,mimikatz会调用系统函数对数据进行解密,从而获取用户哈希。
在完成用户哈希的解析后,mimikatz还提供了一个额外的功能:获取SupplementalCreds。这个功能可以解析并解密获取对应用户的SupplementalCredentials属性,包括明文密码及哈希值,为用户提供更全面的哈希信息。
综上所述,mimikatz通过解析注册表,实现了从系统中获取用户哈希的高效功能,为内网渗透提供了强大的工具支持。通过深入理解其解析流程和关键结构体的定义,可以更好地掌握如何利用mimikatz进行深入的安全分析和取证工作。
LevelDB 源码剖析1 -- 原理
LSM-Tree,全称Log-Structured Merge Tree,被广泛应用于数据库系统中,如HBase、Cassandra、LevelDB和SQLite,甚至MongoDB 3.0也引入了可选的LSM-Tree引擎。这种数据结构旨在提供优于传统B+树或ISAM(Indexed Sequential Access Method)方法的写入吞吐量,通过避免随机的本地更新操作实现。
LSM-Tree的核心思想基于磁盘性能的特性:随机访问速度远低于顺序访问,三个数量级的黄色商城源码差距。因此,简单地将数据附加至文件尾部(日志或堆文件策略)可以提供接近理论极限的写入吞吐量。尽管这种方法足够简单且性能良好,但它有一个明显的缺点:从日志中随机读取数据需要花费更多时间,因为需要按时间顺序从近及远扫描日志直至找到所需键。因此,日志策略仅适用于简单的数据访问场景。
为了应对更复杂的读取需求,如基于键的搜索、范围搜索等,LSM-Tree引入了一种改进策略,通过创建一系列排序文件来存储数据,每次写入都会生成一个新的文件,同时保留了日志系统优秀的写性能。在读取数据时,系统会检查所有文件,并定期合并文件以减少文件数量,从而提高读取性能。
在LSM-Tree的基本算法中,写入数据按照顺序保存到一组较小的排序文件中。每个文件代表了一段时间内的数据变更,且在写入前进行排序。内存表作为写入数据的缓冲区,用于保持键值的顺序。当内存表填满后,已排序的数据刷新到磁盘上的新文件。系统会周期性地执行合并操作,选择一些文件进行合并,以减少文件数量和删除冗余数据,同时维持读取性能。
读取数据时,系统首先检查内存缓冲区,若未找到目标键,则以反向时间顺序检查各个文件,直到找到目标键。合并操作通过定期将文件合并在一起,控制文件数量和读取性能,即使文件数量增加,读取性能仍可保持在可接受范围内。通过使用内存中保存的页索引,可以优化读取操作,尤其是在文件末尾保留索引块,这通常比直接二进制搜索更高效。
为了减少读取操作时访问的文件数量,新实现采用了分级合并(Leveled Compaction),即基于级别的文件合并策略。这不仅减少了最坏情况下需要访问的文件数量,还减少了单次压缩的副作用,同时提供更好的读取性能。分级合并与基本合并的主要区别在于文件合并的策略,这使得工作负载扩展合并的影响更高效,同时减少总空间需求。
大数据工程师岗位职责(必备篇)
大数据工程师岗位职责(1)
职责包括团队建设、技术攻关、性能优化、数据标准编制、数据模型设计、项目方案设计与管理、数据采集与加工、分析挖掘模型算法实施等。绝命深坑源码
任职资格要求:1年以上数据开发经验,SQL、Hadoop、Mpp、Oracle技术基础,编程语言基础,二本以上学历,计算机专业优先,个人素质包括长远眼光、团队协作、学习能力、抗压性等。
大数据工程师岗位职责(2)
职责侧重于hadoop/spark生态系统的产品研发,海量数据全文检索、业务关联分析、数据抽取、清洗、转化等。
任职要求包括Hadoop、HBase、Spark等技术开发经验,搜索引擎开发经验,Python、R语言,企业级应用平台开发经验,本科及以上学历,计算机、软件工程、统计学、数学专业背景,3年以上互联网、金融等行业经验,良好的代码习惯、团队协作能力,熟悉项目管理工具。
大数据工程师岗位职责(3)
职责涵盖数据分析、工具开发、分布式平台应用开发、平台维护与优化。
任职要求为本科及以上学历,计算机专业,5年及以上的大数据ETL或数据开发经验,精通Java或Python,熟悉Hadoop、HDFS、Hive、HBase、Spark等技术,具备数据仓库开发经验或BI系统开发经验。
大数据工程师岗位职责(4)
职责涉及数据分析与建模、核心算法编写、项目需求分析、系统设计、编码,新技术研究与验证。
任职要求为精通数据建模与数据体系建设,丰富hadoop体系开发经验,精通kafka、flume、hive、impala、hbase、spark等技术,具有+节点hadoop集群开发、运维经验,硬件规划能力。
大数据工程师岗位职责(5)
职责包括大数据产品设计与开发、业务分析、数据抽象、模型化、平台维护与优化等。
任职要求为本科学历,2年以上大数据应用开发经验,Java、Python、Scala编程经验,熟悉Hadoop、Spark、Hbase、hive等技术,具备ETL开发与运维能力。
大数据工程师岗位职责(6)
职责为公司大数据集群构建与优化、监控预警、平台完善,确保稳定性与安全性,集群容量规划、扩容、性能优化。
任职要求为Linux系统操作、Shell或Python脚本编写、Hadoop、Strom、Spark、HDFS、Kafka、Zookeeper、Hbase、Redis、ElasticSearch、fastdfs等组件框架知识,软硬件设备与网络原理知识,丰富的大数据平台部署、运维与性能优化经验。
大数据工程师岗位职责(7)
职责包括大数据业务集群运维、容量规划、架构设计、业务监控、应急响应、应用监控与容量管理。
任职要求为计算机或相关专业本科及以上学历,至少2年以上运维或开发经验,Hadoop、HBase、Hive、Flink、Spark、Kafka、Elasticsearch、Flume等开源项目经验优先,熟悉Java、shell语言,掌握puppet、kerberos应用。
大数据工程师岗位职责(8)
职责涉及大数据集群运维、日常部署、升级、扩容、迁移,集群架构设计与改进,运维技术研究与优化,应用系统运维。
任职要求为掌握java、shell语言,了解Docker,有Spring Cloud微服务架构开发经验优先,熟悉Hadoop、Hbase、Hive、Storm、Spark、Kafka等开源项目,精通Linux操作系统管理与优化。
大数据工程师岗位职责(9)
职责包括大数据平台运维、架构审核、业务监控、持续交付、应急响应、容量规划,保证服务高效稳定运行。
任职要求为计算机相关专业本科及以上学历,3年以上相关工作经验,精通Hadoop、Impala、Hive、Spark等组件原理,有实际部署维护经验,故障排查能力,服务意识,团队协作能力,主动思考与自我驱动力。
大数据工程师岗位职责()
职责为大数据集群构建、性能优化、架构设计与改进,运维自动化技术研究,大数据平台运维与管理。
任职要求为中等规模集群环境下的Hadoop/Impala/Hive/Spark集群运维经验,对HDFS、YARN、Kafka、Spark、HBase、Kerberos、Hive、Kudu、Zookeeper等参数调优,实际处理集群在线版本升级、数据迁移、集群扩容等任务,熟悉Kerberos安全认证系统。
大数据工程师岗位职责()
职责包括大数据平台运维、架构审核、业务监控、持续交付、应急响应、容量规划,保证线上服务高效稳定运行。
任职要求为计算机专业本科学历,3年以上相关工作经验,精通Hadoop、HDFS、YARN、Kafka、Spark、HBase、Kerberos、Hive、Kudu、Zookeeper等组件原理,具备故障排查能力,技术敏感度,服务意识,团队协作能力,主动思考与自我驱动力。
大数据工程师岗位职责()
职责涵盖大数据集群构建、任务调度、监控预警、性能优化,集群容量规划、扩容与日常巡检,大数据业务自动化运维技术研究与优化。
任职要求为熟悉Linux系统、Shell或Python脚本编写、大数据生态圈组件框架知识,软硬件设备与网络原理,丰富的大数据平台部署、运维与性能优化经验,系统自动化运维能力,JVM虚拟机调优,jenkins持续集成,文档编写能力,适应短期出差。
大数据工程师岗位职责()
职责为大数据平台运维保障、架构审核、业务监控、持续交付、应急响应、容量规划,支撑业务与数据量快速扩张。
任职要求为计算机相关专业本科及以上学历,3年以上相关工作经验,精通Hadoop、HDFS、YARN、Kafka、Spark、HBase、Kerberos、Hive、Kudu、Zookeeper等组件原理,故障排查能力,技术敏感度,服务意识,团队协作能力,主动思考与自我驱动力,动态编排容器技术与虚拟化技术经验,阅读源码能力。
大数据工程师岗位职责()
职责包括规划、设计、选型大数据平台,自动化运维工具开发与使用,性能优化与问题解决,Hadoop、Hive、Hbase、Storm、Spark等技术框架与java、scala、sqllite等相关技术的掌握,参与大数据产品未来技术架构方向规划,数据库搭建、备份、维护与性能调优,系统运维、监控与故障分析处理,团队协作能力,文档编写与维护,大型开源系统维护经验。
大数据工程师岗位职责()
职责为团队建设和日常管理,核心技术问题攻关、性能优化,城市级大数据平台业务支撑,数据标准编制与模型设计,项目中数据相关方案设计与管理,数据采集、加工、分析挖掘实施。
任职资格包括1年以上数据开发经验,SQL、Hadoop、Mpp、Oracle技术,编程语言基础,二本以上学历,计算机专业,个人素质要求包括长远眼光、态度诚恳、岗位稳定性、自学能力、抗压性、数据工作兴趣与职业规划。
大数据工程师岗位职责()
职责涉及数据分析、建模、需求分析、系统设计与编码,新技术研究与验证,架构设计与改造,技术实施方案制定,子系统设计与开发。
任职要求为精通数据建模与数据体系建设,丰富的基于hadoop体系的数据平台、数据仓库建设经验,精通基于hadoop源码开发与优化改造,hadoop生态体系各项技术,如kafka、flume、hive、impala、hbase、spark等,+节点hadoop集群开发与运维经验,硬件规划能力。
大数据工程师岗位职责()
职责包括基于hadoop/spark全文检索与搜索引擎产品开发,海量数据分析、关联关系研究与业务应用结合,数据抽取、清洗、转化等数据处理程序开发。
任职要求为熟悉Hadoop、HBase、Spark等技术及其生态圈,具备相关项目开发经验,有数据实时计算项目经验优先,搜索引擎开发经验,Python、R语言,企业级应用平台开发经验,本科及以上学历,计算机、软件工程、统计学、数学专业背景,互联网、金融等行业3年以上工作经验,良好的代码习惯与团队协作经验。
大数据工程师岗位职责()
职责涵盖数据分析与清理,大数据工具开发,分布式平台应用开发,平台维护与优化。
任职要求为本科及以上学历,计算机专业,5年及以上的大数据ETL或数据开发经验,熟悉Hadoop、HDFS、Hive、HBase、Spark、Kafka等技术,具备数据仓库开发经验或BI系统开发经验,熟悉Java或Python编程语言,熟悉大数据架构体系。