1.mimikatz源码分析-lsadump模块(注册表)
2.TiKV 源码解析系列文章(十四)Coprocessor 概览
3.大数据笔试真题集锦---第五章:Hive面试题
4.hbase特性有哪些
5.学大数据要掌握什么基础?大数据技术基础知识有哪些?
mimikatz源码分析-lsadump模块(注册表)
mimikatz是源码一款内网渗透中的强大工具,本文将深入分析其lsadump模块中的源码sam部分,探索如何从注册表获取用户哈希。源码
首先,源码简要了解一下Windows注册表hive文件的源码结构。hive文件结构类似于PE文件,源码10011101的源码包括文件头和多个节区,源码每个节区又有节区头和巢室。源码其中,源码巢箱由HBASE_BLOCK表示,源码巢室由BIN和CELL表示,源码整体结构被称为“储巢”。源码通过分析hive文件的源码结构图,可以更直观地理解其内部组织。源码
在解析过程中,源码需要关注的关键部分包括块的签名(regf)和节区的签名(hbin)。这些签名对于定位和解析注册表中的数据至关重要。
接下来,深入解析mimikatz的解析流程。在具备sam文件和system文件的情况下,主要分为以下步骤:获取注册表system的句柄、读取计算机名和解密密钥、获取注册表sam的句柄以及读取用户名和用户哈希。若无sam文件和system文件,mimikatz将直接通过官方API读取本地机器的注册表。
在mimikatz中,会定义几个关键结构体,包括用于标识操作的注册表对象和内容的结构体(PKULL_M_REGISTRY_HANDLE)以及注册表文件句柄结构体(HKULL_M_REGISTRY_HANDLE)。这些结构体包含了文件映射句柄、映射到调用进程地址空间的位置、巢箱的起始位置以及用于查找子键和子键值的键巢室。
在获取注册表“句柄”后,接下来的集体智慧源码任务是获取计算机名和解密密钥。密钥位于HKLM\SYSTEM\ControlSet\Current\Control\LSA,通过查找键值,将其转换为四个字节的密钥数据。利用这个密钥数据,mimikatz能够解析出最终的密钥。
对于sam文件和system文件的操作,主要涉及文件映射到内存的过程,通过Windows API(CreateFileMapping和MapViewOfFile)实现。这些API使得mimikatz能够在不占用大量系统资源的情况下,方便地处理大文件。
在获取了注册表系统和sam的句柄后,mimikatz会进一步解析注册表以获取计算机名和密钥。对于密钥的获取,mimikatz通过遍历注册表项,定位到特定的键值,并通过转换宽字符为字节序列,最终组装出密钥数据。
接着,解析过程继续进行,获取用户名和用户哈希。在解析sam键时,mimikatz首先会获取SID,然后遍历HKLM\SAM\Domains\Account\Users,解析获取用户名及其对应的哈希。解析流程涉及多个步骤,包括定位samKey、获取用户名和用户哈希,以及使用samKey解密哈希数据。
对于samKey的获取,mimikatz需要解密加密的数据,使用syskey作为解密密钥。解密过程根据加密算法(rc4或aes)有所不同,haproxy 源码解析但在最终阶段,mimikatz会调用系统函数对数据进行解密,从而获取用户哈希。
在完成用户哈希的解析后,mimikatz还提供了一个额外的功能:获取SupplementalCreds。这个功能可以解析并解密获取对应用户的SupplementalCredentials属性,包括明文密码及哈希值,为用户提供更全面的哈希信息。
综上所述,mimikatz通过解析注册表,实现了从系统中获取用户哈希的高效功能,为内网渗透提供了强大的工具支持。通过深入理解其解析流程和关键结构体的定义,可以更好地掌握如何利用mimikatz进行深入的安全分析和取证工作。
TiKV 源码解析系列文章(十四)Coprocessor 概览
本文将简要介绍 TiKV Coprocessor 的基本原理。TiKV Coprocessor 是 TiDB 的一部分,用于在 TiKV 层处理读请求。通过引入 Coprocessor,TiKV 可以在获取数据后进行计算,从而提高性能。
传统处理方式中,TiDB 向 TiKV 获取数据,然后在 TiDB 内部进行计算。而 Coprocessor 则允许 TiKV 进行计算,将计算结果直接返回给 TiDB,减少数据在系统内部的传输。
Coprocessor 的概念借鉴自 HBase,其主要功能是对读请求进行分类,处理包括 TableScan、IndexScan、Selection、Limit、蔬菜网站 源码TopN、Aggregation 等不同类型请求。其中,DAG 类请求是最复杂且常用的类型,本文将重点介绍。
DAG 请求是由一系列算子组成的有向无环图,这些算子在代码中称为 Executors。DAG 请求目前支持两种计算模型:火山模型和向量化模型。在当前的 TiKV master 上,这两种模型并存,但火山模型已被弃用,因此本文将重点介绍向量化计算模型。
向量化计算模型中,所有算子实现了 BatchExecutor 接口,其核心功能是 get_batch。算子类型包括 TableScan、IndexScan、Selection、Limit、TopN 和 Aggregation 等,它们之间可以任意组合。
以查询语句“select count(1) from t where age>”为例,展示了如何使用不同算子进行处理。本文仅提供 Coprocessor 的概要介绍,后续将深入分析该模块的源码细节,并欢迎读者提出改进意见。
大数据笔试真题集锦---第五章:Hive面试题
我会不间断地更新维护,希望对正在寻找大数据工作的朋友们有所帮助。 第五章目录 第五章 Hive 5.1 Hive 运行原理(源码级) 1.1 reduce端join 在reduce端,对两个表的数据分别标记tag,发送数据。根据分区分组规则获取相同key的阶梯指标源码数据,再根据tag进行join操作,完成实际连接。 1.2 map端join 将小表复制到每个map task的内存中,仅扫描大表,对大表中key在小表中存在时进行join操作。使用DistributedCache.addCacheFile设置小表,通过标准IO获取数据。 1.3 semi join 先将参与join的表1的key复制到表3中,复制多份到各map task,过滤不在新表3的表2数据,最后进行reduce。 5.2 Hive 建表5.3.1 传统方式建表
定义数据类型,如:TINYINT, STRING, TIMESTAMP, DECIMAL。 使用ARRAY, MAP, STRUCT结构。5.3.2 CTAS查询建表
创建表时指定表名、存储格式、数据来源查询语句。 缺点:默认数据类型范围限制。5.3.3 Like建表
通过复制已有表的结构来创建新表。5.4 存储格式和压缩格式
选择ORC+bzip/gzip作为源存储,ORC+Snappy作为中间存储。 分区表单文件不大采用gzip压缩,桶表使用bzip或lzo支持分片压缩。 设置压缩参数,如"orc.compress"="gzip"。5.5 内部表和外部表
外部表使用external关键字和指定HDFS目录创建。 内部表在创建时生成对应目录的文件夹,外部表以指定文件夹为数据源。 内部表删除时删除整个文件夹,外部表仅删除元数据。5.6 分区表和分桶表
分区表按分区字段拆分存储,避免全表查询,提高效率。 动态分区通过设置参数开启,根据字段值决定分区。 分桶表依据分桶字段hash值分组拆分数据。5.7 行转列和列转行
行转列使用split、explode、laterview,列转行使用concat_ws、collect_list/set。5.8 Hive时间函数
from_unixtime、unix_timestamp、to_date、month、weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。 时间戳支持转换和截断,标准格式为'yyyy-MM-dd HH:mm:ss'。 month函数基于标准格式截断,识别时截取前7位。5.9 Hive 排名函数
row_number、dense_rank、rank。5. Hive 分析函数:Ntile
效果:排序并分桶。 ntile(3) over(partition by A order by B)效果,可用于取前%数据统计。5. Hive 拉链表更新
实现方式和优化策略。5. Hive 排序
order by、order by limit、sort by、sort by limit的原理和应用场景。5. Hive 调优
减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。5. Hive和Hbase区别
Hive和Hbase的区别,Hive面向分析、高延迟、结构化,Hbase面向编程、低延迟、非结构化。5. 其他
用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。hbase特性有哪些
HBase的特性包括以下几个方面:高性能的数据写入
HBase具有非常强的数据写入性能。其基于LSM树结构,数据被随机地分布在整个集群的多个节点上,这使得数据写入时能够并行处理,大大提高了写入性能。同时,HBase支持大量的并发写入操作,使得它在大数据环境下表现优异。
灵活的表结构设计
HBase是一个非关系型的数据库,它的表结构非常灵活。每个表可以拥有多个列族,每个列族下的数据可以有不同的存储特性。这种灵活性使得HBase能够适应各种类型的数据存储需求,同时也方便了对数据的扩展和管理。
强大的可扩展性
HBase是基于Hadoop的分布式文件系统HDFS构建的,具有天然的分布式特性。通过增加节点的方式,HBase可以很容易地扩展其存储能力和处理能力。这使得HBase能够在处理海量数据的同时保持高性能。
快速的数据检索
虽然HBase是一个面向列的数据库,但它的查询性能同样出色。HBase支持高效的范围查询和基于列属性的查询,可以快速定位到特定的数据行。同时,由于数据的分布式存储和处理,即使在大量数据中查询,也能保持较高的效率。
高可用性
HBase支持集群部署,数据可以在多个节点上进行备份和复制。即使部分节点出现故障,也能保证数据的可用性和系统的稳定运行。这种高可用性使得HBase在大数据处理中非常可靠。而且由于其开放源代码的特性,任何开发者都可以对HBase进行开发和优化,使其更加适应各种应用场景的需求。
学大数据要掌握什么基础?大数据技术基础知识有哪些?
想要投身大数据领域的小伙伴们,对于大数据技术需要掌握哪些基础知识感到困惑,需要明确学习方向。下面,我将为大家梳理一下大数据需要学习的内容。首先,学习大数据需要掌握的基础知识包括javaSE,EE(SSM)。%的大数据框架都是使用Java编写的。例如,MongoDB是最受欢迎的,跨平台的,面向文档的数据库;Hadoop是用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理;Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架;Hbase是开放源代码,非关系型,分布式数据库,采用Google的BigTable建模,用Java编写,并在HDFS上运行;MySQL是必须掌握的,SQLon Hadoop又分为batch SQL(Hive),interactive SQL,operation SQL。Linux操作系统也是程序员必须掌握的,大数据的框架安装在Linux操作系统上。
大数据的系统学习资料已经为大家准备好了,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入。接下来,需要学习的内容包括大数据离线分析。处理T+1数据时,需要重点关注Hadoop(common、HDFS、MapReduce、YARN)。Hadoop的框架最核心的设计是HDFS和MapReduce。Hadoop主要是环境搭建和数据处理思想。Hadoop用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。Hive(MPP架构)是大数据数据仓库,通过写SQL对数据进行操作,类似于mysql数据库中的sql。HBase是基于HDFS的NOSQL数据库,面向列的存储。列存储的思想是将元组垂直划分为列族集合,每一个列族独立存储,列族可以退化为只包含一个列的平凡列族。当查询少量列时,列存储模型可以极大的减少磁盘IO操作,提高查询性能。扩展前沿框架包括sqoop、RDBMS、flume、调度框架anzkaban、crontab、Kylin、Impala、ElasticSearch等。