1.TiDB 源码阅读系列文章(五)TiDB SQL Parser 的源码阅读实现
2.IDEA 源码阅读利器,你居然还不会?
3.开源免费的源码阅读源码阅读神器 Sourcetrail
4.如何阅读源码 —— 以 Vetur 为例
5.SQLMap 源码阅读
6.如何轻松阅读github上的项目源码?
TiDB 源码阅读系列文章(五)TiDB SQL Parser 的实现
本文是 TiDB 源码阅读系列文章的第五篇,主要内容围绕 SQL Parser 功能实现进行讲解。源码阅读内容源自社区伙伴马震(GitHub ID:mz)的源码阅读投稿。系列文章的源码阅读目的是与数据库研究者及爱好者深入交流,收到了社区的源码阅读尚志网站源码积极反馈。后续,源码阅读期待更多伙伴加入 TiDB 的源码阅读探讨与分享。
TiDB 的源码阅读源码阅读系列文章,帮助读者系统性地学习 TiDB 内部实现。源码阅读最近的源码阅读《SQL 的一生》一文,全面阐述了 SQL 语句处理流程,源码阅读从接收网络数据、源码阅读MySQL 协议解析、源码阅读SQL 语法解析、源码阅读查询计划制定与优化、执行直至返回结果。
其中,SQL Parser 的功能是将 SQL 语句按照 SQL 语法规则进行解析,将文本转换为抽象语法树(AST)。此功能需要一定背景知识,下文将尝试介绍相关知识,以帮助理解这部分代码。
TiDB 使用 goyacc 根据预定义的 SQL 语法规则文件 parser.y 生成 SQL 语法解析器。这一过程可在 TiDB 的 Makefile 文件中看到,通过构建 goyacc 工具,使用 goyacc 依据 parser.y 生成解析器 parser.go。
goyacc 是 yacc 的 Golang 版本,因此理解语法规则定义文件 parser.y 及解析器工作原理之前,需要对 Lex & Yacc 有所了解。Lex & Yacc 是用于生成词法分析器和语法分析器的工具,它们简化了编译器的编写。
下文将详细介绍 Lex & Yacc 的工作流程,以及生成解析器的过程。我们将从 Lex 根据用户定义的 patterns 生成词法分析器,词法分析器读取源代码并转换为 tokens 输出,以及 Yacc 根据用户定义的语法规则生成语法分析器等角度进行阐述。
生成词法分析器和语法分析器的过程,用户需为 Lex 提供 patterns 的定义,为 Yacc 提供语法规则文件。这两种配置都是文本文件,结构相同,分为三个部分。我们将关注中间规则定义部分,并通过一个简单的例子来解释。
Lex 的压力公式源码输入文件中,规则定义部分使用正则表达式定义了变量、整数和操作符等 token 类型。例如整数 token 的定义,当输入字符串匹配正则表达式时,大括号内的动作会被执行,将整数值存储在变量yylval 中,并返回 token 类型 INTEGER 给 Yacc。
而 Yacc 的语法规则定义文件中,第一部分定义了 token 类型和运算符的结合性。四种运算符都是左结合,同一行的运算符优先级相同,不同行的运算符,后定义的行具有更高的优先级。语法规则使用 BNF 表达,大部分现代编程语言都可以使用 BNF 表示。
表达式解析是生成表达式的逆向操作,需要将语法树归约到一个非终结符。Yacc 生成的语法分析器使用自底向上的归约方式进行语法解析,同时使用堆栈保存中间状态。通过一个表达式 x + y * z 的解析过程,我们可以理解这一过程。
在这一过程中,读取的 token 压入堆栈,当发现堆栈中的内容匹配了某个产生式的右侧,则将匹配的项从堆栈中弹出,将该产生式左侧的非终结符压入堆栈。这个过程持续进行,直到读取完所有的 tokens,并且只有启始非终结符保留在堆栈中。
产生式右侧的大括号中定义了该规则关联的动作,例如将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。这里可以使用 $position 的形式访问堆栈中的项,$1 引用第一项,$2 引用第二项,以此类推。$$ 代表归约操作执行后的堆栈顶。本例的动作是将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。
在上述例子中,动作不仅完成了语法解析,还完成了表达式求值。一般希望语法解析的源码信息咨询结果是一颗抽象语法树(AST),可以定义语法规则关联的动作。这样,解析完成时,我们就能得到由 nodeType 构成的抽象语法树,对这个语法树进行遍历访问,可以生成机器代码或解释执行。
至此,我们对 Lex & Yacc 的原理有了大致了解,虽然还有许多细节,如如何消除语法的歧义,但这些概念对于理解 TiDB 的代码已经足够。
下一部分,我们介绍 TiDB SQL Parser 的实现。有了前面的背景知识,对 TiDB 的 SQL Parser 模块的理解会更易上手。TiDB 使用手写的词法解析器(出于性能考虑),语法解析采用 goyacc。我们先来看 SQL 语法规则文件 parser.y,这是生成 SQL 语法解析器的基础。
parser.y 文件包含 多行代码,初看可能令人感到复杂,但该文件仍然遵循我们之前介绍的结构。我们只需要关注第一部分 definitions 和第二部分 rules。
第一部分定义了 token 类型、优先级、结合性等。注意 union 结构体,它定义了在语法解析过程中被压入堆栈的项的属性和类型。压入堆栈的项可能是终结符,也就是 token,它的类型可以是 item 或 ident;也可能是非终结符,即产生式的左侧,它的类型可以是 expr、statement、item 或 ident。
goyacc 根据这个 union 在解析器中生成对应的 struct。在语法解析过程中,非终结符会被构造成抽象语法树(AST)的节点 ast.ExprNode 或 ast.StmtNode。抽象语法树相关的数据结构定义在 ast 包中,它们大都实现了 ast.Node 接口。
ast.Node 接口有一个 Accept 方法,接受 Visitor 参数,后续对 AST 的处理主要依赖这个 Accept 方法,以 Visitor 模式遍历所有的节点以及对 AST 做结构转换。例如 plan.preprocess 是once源码解析对 AST 做预处理,包括合法性检查以及名字绑定。
union 后面是对 token 和非终结符按照类型分别定义。第一部分的最后是对优先级和结合性的定义。文件的第二部分是 SQL 语法的产生式和每个规则对应的 aciton。SQL 语法非常复杂,大部分内容都是产生式的定义。例如 SELECT 语法的定义,我们可以在 parser.y 中找到 SELECT 语句的产生式。
完成语法规则文件 parser.y 的定义后,使用 goyacc 生成语法解析器。TiDB 对 lexer 和 parser.go 进行封装,对外提供 parser.yy_parser 进行 SQL 语句的解析。
最后,我们通过一个简单的例子,使用 TiDB 的 SQL Parser 进行 SQL 语法解析,构建出抽象语法树,并通过 visitor 遍历 AST。我实现的 visitor 只输出节点的类型,运行结果依次输出遍历过程中遇到的节点类型。
了解 TiDB SQL Parser 的实现后,我们有可能实现当前不支持的语法,如添加内置函数。这为我们学习查询计划以及优化打下了基础。希望这篇文章对读者有所帮助。
作者介绍:马震,金蝶天燕架构师,负责中间件、大数据平台的研发,今年转向 NewSQL 领域,关注 OLTP/AP 融合,目前在推动金蝶下一代 ERP 引入 TiDB 作为数据库存储服务。
IDEA 源码阅读利器,你居然还不会?
在进行源码阅读时,IDEA 提供了强大的图示化工具,使得理解和追踪类的继承关系和接口实现变得直观且简单。
通过在类标签页点击右键,选择 Diagrams,你可以轻松生成继承关系的图形。也可以在项目目录树中对特定类右击,同样能获取到所需图形。
在获得的图形中,你可能发现一些不相关的类占据了一定空间。只需选中这些类并使用键盘的 delete 键,即可移除它们,使图形更加清晰。游戏爬虫源码
为了查看类的详细信息,如属性、方法和构造函数,选择页面右键并选择 show categories。同样,使用工具栏也能实现这一功能。
如果想要筛选特定权限范围内的方法,使用右键选择 Change Visibility Level 即可。而 Alt 键的使用,提供了图形缩放功能,使你能够更加清晰地查看。
在需要查看其他类与当前类的继承关系时,选择 Add Class to Diagram,输入类名即可。若这些类之间没有明显的继承关系,图形会直观地反映出这一点。
如果想要查看类中特定方法的源码,只需双击类名进入方法列表,选中目标方法后右键选择 Jump to Source 即可跳转至源码位置。利用 IDEA 的 structure 功能,你还可以快速浏览类中的所有方法。
综上所述,通过利用 IDEA 的图示化工具,学习和查看类关系、理解复杂框架的源码变得轻松且高效。这使得在进行源码阅读时,获得更直观且易于理解的体验。
开源免费的源码阅读神器 Sourcetrail
开源免费的源码阅读神器 Sourcetrail,一款视觉化的跨平台源码探索项目,适合阅读C、C++、Python和Java源码。
直观的源码结构,左侧以图形展示调用上下游、类成员等细节,简化阅读理解。
支持主流编程语言,提供SDK拓展支持其他语言。
官网提供下载链接,支持Windows、macOS、Linux系统。
使用Sourcetrail阅读源码的流程包括创建项目、导入源码文件夹、设置索引文件、开始索引操作,完成后即可浏览源码,支持符号跳转和模糊搜索。
与Atom、Clion、Eclipse、Emacs、IntelliJ IDEA等编辑器连接,提供丰富功能。
查阅官方文档获取更多功能信息,体验利器效果。
如何阅读源码 —— 以 Vetur 为例
深入探索前端框架源码,Vetur是我们的实践平台。提升技能之路并非易事,但掌握技巧和原则将事半功倍。以下是阅读Vetur源码的实用指南:明确目标与SMART原则
开始阅读前,明确你的动机,如理解功能或修复bug。SMART原则要求目标具体、可衡量,比如研究Vetur的模板错误提示功能。 评估与管理 判断阅读的必要性和价值,切勿盲目追求完整,局部学习也能带来进步。适时调整目标,如只关注插件的特定部分。 项目背景与准备工作 在阅读前,了解项目背景,包括框架结构、IO交互和生态,以及调试方法。例如,理解Vetur与VS Code的互动,以及如何通过生态补充核心功能。 VSCore插件基础 熟悉Vetur在VS Code中的开发基础,包括package.json、contributes和主入口,这些都是构建插件的关键要素。 分析与理解步骤 遵循六步循环:理解项目结构、找寻关键点、查阅文档、分析代码、总结与深入研究。从入口开始,如Vetur的languages和grammars配置,一步步揭示实现细节。 关键配置文件解析 探究contributes.languages中的Vue配置,以及contributes.grammars如何定义语言规则,如注释符号、折叠和TextMate语法。 深入洞察VS Code的主入口 通过package.json,理解Vetur如何通过LSP协议提供高级功能,如vueMain.js的activate方法。 简化学习路径 将复杂项目分解为小目标,如聚焦代码补全的核心技术,通过yarn watch和F5调试来验证理解。 学习策略与实践 选择有针对性的学习点,如代码补全,通过搜索引擎获取资料,运用静态猜想和动态验证方法。总结成流程图,记录笔记,灵活调整学习策略,找到适合自己的方法。 总结与提炼 将源码分析归纳为步或更少,形成清晰的流程图。记住,学习是个个性化过程,关键在于明确目标、分层次学习和持续总结。最后的忠告
阅读Vetur源码的过程并不轻松,但每一次的深入探索都为技能提升添砖加瓦。保持耐心,设定明确目标,你会发现一个全新的技术世界在等待你的探索。SQLMap 源码阅读
本文主要解析了SQLMap的源码阅读流程。首先,我们确认了SQLMap运行的流程图,这有助于我们深入理解源码。在开始SQLMap运行前,程序进行一系列初始化操作,包括环境设置、依赖加载、变量配置等。
接下来,我们处理URL。通过cmdLineParser()从命令行获取参数,进而通过initOptions(cmdLineOptions)解析这些命令行参数。初始化函数中,通过loadBoundaries()、loadPayloads()、_loadQueries()加载payload,这些函数负责从XML文件中加载边界、payload和查询。在loadBoundaries()中,程序读取data/xml/boundaries.xml文件并解析其中的XML,将结果添加到conf对象的tests属性中。conf对象存储了目标的相关信息以及配置信息。
在URL处理阶段,程序通过getCurrentThreadData()获取当前线程数据,并调用f(*args, **kwargs)进行处理。这里的逻辑位于/lib/controller/controller.py文件下,主要工作包括打印日志、赋值和添加HTTP Header等,最终到达parseTargetUrl()函数。在该函数中,程序进行URL的剖析与拆解,并将这些内容保存到conf对象的对应属性中,以便后续使用。
接着,SQLMap会生成注入检测的payload,核心代码位于controller.py文件的行。在setupTargetEnv()函数中,程序调用hashDBRetrieve()函数,根据参数KB_INJECTIONS检索payload。payload生成逻辑在第行,执行SQL语句并使用basePickle进行加密。最终,程序生成payload并进行探测,如果目标返回Connection refused,则返回False。
在WAF检测部分,当URL处理完毕后,程序进行探测,判断目标是否存在WAF。如果存在WAF,则生成用于fuzz的payload,这个payload基于http-waf-detect.nse文件。在经过一系列的数据处理和判断后,程序检测WAF类型,包括正则匹配和页面相似度分析。
对于注入检测,SQLMap提供了启发式注入和正式注入两种方式。在启发式注入阶段,程序通过随机字符构造Payload来识别数据库版本、获取绝对路径和进行XSS测试。在正式注入阶段,程序根据数据库信息构建索引,选择最有效的payload进行攻击。在处理payload时,程序会进行清洗、组合和请求,直到注入成功。
爆数据库等操作在正式注入成功后进行。程序首先根据后台数据库信息输出日志,然后执行getDbs()函数获取数据库名。在getDbs()中,程序通过查询语句计算数据库个数并依次获取数据库名。之后,程序在errorUse()函数中解析payload并提取schema_name,进而执行探测数据库个数的SQL语句。最后,程序多线程方式注入并提取结果,完成数据库的爆破。
整个SQLMap的流程分析中,理解初始化、URL处理、注入检测和爆数据库等关键步骤是至关重要的。同时,审计前查看utils文件夹下的Python文件,可以帮助我们更好地理解流程,尽管在正则表达式处理时可能会遇到挑战。
如何轻松阅读github上的项目源码?
在探索GitHub上的项目源码时,利用插件可大幅提升浏览体验。首先,推荐SourceGraph插件,它能够提供文件树浏览与定义跳转功能,还支持引用跳转。在Chrome浏览器上安装SourceGraph插件后,打开任意GitHub项目,点击页面上的SourceGraph图标,即可浏览项目文件,并进行快速搜索,其界面功能与IDE相似,操作便捷,无需本地克隆代码,方便快捷。
此外,针对下载特定仓库中部分代码的需求,可以使用GitZip插件。此插件可帮助用户快速下载项目中的单个子文件夹代码,无需克隆整个仓库。只需在目标子文件夹上右键点击,选择"Download"选项,即可轻松下载所需代码。两个插件配合使用,轻松应对GitHub项目源码浏览与代码下载问题。
Github 源码阅读神器推荐
一款高效阅读和学习源码的开源项目,source-code-hunter(doocs.github.io/source-code-hunter),为源码阅读爱好者提供便利。
借助source-code-hunter,用户能够系统化阅读各种框架的源码,包括spring全家桶、Mybatis系列、Netty、dubbo等,以及中间件、JDK源码解析。
该项目为初学者和源码学习者提供了学习心得,帮助他们建立学习模式,避免无用阅读,加速学习进程。
对于没有源码阅读经验的用户,建议先阅读学习心得,了解学习方法和思考。在日常学习中,先通过视频了解源码的大致设计和功能点,再结合source-code-hunter阅读源码,同时使用本地调试跟踪实现,提升学习效率。
source-code-hunter涵盖了常见框架的源码解析,为用户提供了丰富的学习资源,帮助用户深入理解源码逻辑,提高编程技能。