1.bert源码解析
2.vscode server源码解析(三) - code server
3.åç ï¼åç ï¼è¡¥ç ï¼ç§»ç
4.[UVM源代码研究] 如何定制一款个性化的单文打印格式
5.TiDB 源码阅读系列文章(五)TiDB SQL Parser 的实现
6.文字背景颜色
bert源码解析
训练数据生成涉及将原始文章语料转化为训练样本,这些样本按照目标(如Mask Language Model和Next Sentence Prediction)被构建并保存至tf_examples.tfrecord文件。章源章单此过程的码文码核心在于函数create_training_instances,它接受原始文章作为输入,页源输出为训练instance列表。单文在这一过程中,章源章单溧水秦淮源码头文章首先被分词,码文码随后通过create_instances_from_document函数构建具体训练实例。页源构建实例流程如下:
确定最大序列长度后,单文Next Sentence Prediction任务被构建。章源章单选取文章的码文码开始位置至结尾,确保生成的页源句子集长度至少等于最大序列长度。在此集合中随机挑选一个位置(a_end),单文将句子集分为两部分:前部分作为序列A,章源章单而后部分有%的码文码概率成为序列B,剩余%则随机选择另一篇文章的句子集(总长度不小于「max_seq_length-序列A」),形成Next Sentence Prediction任务。
Mask language model任务构建通过将序列A和序列B组合成一个训练序列tokens,并对其进行掩码操作实现。掩码操作以token为单位,利用WordPiece进行分词,确保全词掩码模式下的整体性,无论是全掩码还是全不掩码。每个序列以masked_lm_prob(0.)概率进行掩码,对于被掩码的token,%情况下替换为[MASK],%保持不变,%则替换为词表中随机选择的单词。返回结果包括掩码操作后的序列、掩码token索引及真实值。
训练样本结构由上述处理后形成,每条样本包含经过掩码操作的序列、掩码token的索引及真实值。
分词器包括全词分词器(FullTokenizer),它首先使用BasicTokenizer进行基础分词,包括小写化、按空格和标点符号分词,以及中文的字符分词,随后使用WordpieceTokenizer基于词表文件对分词后的单词进行WordPiece分词。
模型结构从输入开始,经过BERT配置参数,谷峰线源码包括WordEmbedding、初始化embedding_table、embedding_postprocessor等步骤,最终输出sequence和pooled out结果。WordEmbedding负责将输入token(input_ids)转换为其对应的embedding,包括token embedding、segment embedding和position embedding。embedding_postprocessor在得到的token embedding上加上position embedding和segment embedding,然后进行layer_norm和dropout处理。
Transformer Model中的attention mask根据input_mask构建,用于计算attention score。self attention过程包括query、key、value层的生成,query与key相乘得到attention score,经过归一化处理,并结合attention_mask和dropout,形成输出向量context_layer。随后是feed forward过程,包括两个网络层:中间层(intermediate_size,激活函数gelu)和输出层(hidden_size,无激活函数)。
sequence和pooled out分别代表最后一层的序列向量和[CLS]向量的全连接层输出,维度为hidden_size,激活函数为tanh。
训练过程基于BERT产生的序列向量和[CLS]向量,分别训练Mask Language Model和Next Sentence Prediction。Mask Language Model训练通过get_masked_lm_output函数,主要输入为序列向量、embedding table和mask token的位置及真实标签,输出为mask token的损失。Next Sentence Predication训练通过get_next_sentence_output函数,本质为一个二分类任务,通过全连接网络将[CLS]向量映射,计算交叉熵作为损失。
vscode server源码解析(三) - code server
初次接触code server,可参考介绍文章。整体架构不清晰时,建议阅读架构分析。
在深入分析code server代码之前,秒imtoken源码先理解code server在远程开发中的作用。code server作为服务器的核心功能,提供远程IDE访问,基于express框架和nodejs平台构建,实现了轻量级服务器的基础。此外,它提供用户登录功能,确保安全访问,并在登录后加载vscode server内核代码。
code server还具备升级、代理和心跳检测等功能,但这些细节在此不作深入探讨。
本文将重点解析code server的启动机制、提供服务的实现方式、中间件和路由设计,以及如何启动vscode内核。
code server的启动通过src/node/entry.ts文件实现,启动命令为`code-server`。实际上,这只是一个shell脚本,通过`node`命令启动程序。在package.json中定义了启动逻辑。
程序启动时,会检查当前进程是否为子进程,进而决定执行的启动方式。父进程负责管理整个软件,启动子进程并控制其生命周期,以及与子进程通信,比如接收日志输出。子进程则作为真正的express框架服务器,加载vscode server内核代码。
运行代码通过`runCodeServer`方法启动,首先通过`createApp`创建服务器,监听指定的主机和端口。`handleUpgrade`方法处理websocket连接,这是vscode server前后端通信的关键。详细说明将单独撰写。
路由和中间件是code server的核心部分。路由定义了服务器提供的接口,如GET和POST,铁血源码供前端调用。中间件则负责处理请求前后的预处理和后处理工作,如鉴权,注册到express框架中。
code server中的`register`方法处理路由和中间件逻辑,将请求分发到不同的路由,如`/login`和`/health`,每个路由包含各自的中间件处理请求。
关于vscode server内核的启动,主要通过`src/node/routes/vscode.ts`文件实现。在经过鉴权等路由处理后,请求到达特定路由。`ensureCodeServerLoaded`中间件负责加载vscode代码。`loadAMDModule`执行原生vscode启动过程,引入模块。加载完成后,可以获得`createVSServer`方法,用于真正启动vscode内核。
至此,code server的基本功能实现完毕。接下来将深入探讨vscode server内核和websocket协议。
åç ï¼åç ï¼è¡¥ç ï¼ç§»ç
åå¨åé¢ï¼è¯¥æç« ä¸ºæ¬äººå¦ä¹ ä¸åçä¸äºç¬è®°åå¿å¾ï¼å表åºæ¥ä¸»è¦æ¯ä¸ºäºè®°å½èªå·±çå¦ä¹ è¿ç¨ãæ¬äººæçå¦æµ ï¼ç¬è®°é¾å åå¨ä¸è¶³çè³çº°æ¼ï¼ä½ä¼ä¸å®ææ´æ°ãåºæ¬ç¥è¯ï¼å设æä¸ä¸ªnä½çäºè¿å¶æ°
åè¿ä¸ªäºè¿å¶æ°å ±æ ç§ç¶æï¼è¿ä¸ªæ°æ大为
åè¿æ¥ ï¼åæäºè¿å¶ä¸º ï¼ä¸å ±æ8ä½ï¼1åé¢7个å°æ°
以ä¸ä¸¾ä¾å为nä½æ°ï¼å®ä¾ä¸º8ä½æ°
åç
ç®åç´æ¥çäºè¿å¶ï¼ä»¥ä¸ä»¥å®ç¹æ°ä¸ºä¾ã
å®ç¹çº¯å°æ°ï¼ 0 é¦ä½ä¸ºç¬¦å·ä½ï¼0为æ£1为è´ï¼è¿é表示0.1ï¼ï¼
å®ç¹çº¯æ´æ°ï¼ 0 è¿é表示1ï¼ï¼
å 为æ符å·ä½ï¼æ以ææ£è´é¶ä¹å 0 å 1
æ°æ®èå´ï¼-~ï¼åé¢7ä½å ¨ä¸º1ï¼//å ¬å¼è¡¨è¾¾ä¸º
ç¹ç¹ï¼åç ä¸éåå åï¼ä½éåä¹é¤
åç
æ£æ°çåç ä¸å ¶åç ç¸åï¼è´æ°çåç æ¯å¯¹å ¶ç¬¦å·ä½åçåç éä½ååï¼ç¬¦å·ä½ä¸åï¼ä¸º1ï¼
åç è½è¡¨è¾¾çæ°æ®èå´ï¼ä¸æºç ä¸æ ·
è¡¥ç
ç®çï¼æ¹ä¾¿è®¡ç®æºè¿è¡å å
ç¹ç¹ï¼å¨æºå¨ä¸éåå åçæ°å表示æ¹å¼
è¡¥ç è½å®ç°è®¡ç®æº"å ä¸è´æ°"çæ¬è´¨åçæ¯æ¨¡è¿ç®ï¼ä¹å°±æ¯Aåå»BçäºAå ä¸Bç¸å¯¹äºAçè¡¥æ°åæ±æ¨¡ã就好åæ¶é顺æ¶éæ¨å¨3håéæ¶éæ¨å¨9hå¾å°çç»æä¸æ ·ã
äºè¿å¶æ±è¡¥ç ï¼
è¡¥æ°=ï¼åæ°+模ï¼ï¼mod 模ï¼ï¼å¾ææ¾ï¼è¥åç æ¯æ£ï¼åè¡¥ç æ¯å®æ¬èº«ï¼å¯¹äºæ£æ°å®å ¨ä¸ç¨èèæ±è¡¥ç ã
对äºè®¡ç®æºï¼å 为两个ç¸å çæ°çä½æ°ç¸åï¼nï¼ï¼ä¸åä¸è½è¶ è¿n+1ä½ï¼å æ¤åºè¯¥åç模æ¯...ï¼n个0ï¼ã
å æ¤å¯¹äºnä½çº¯å°æ°ï¼å®ç模ï¼åè¿å¶ï¼ä¸º2 ï¼å¯¹äºnä½çº¯æ´æ°ï¼å®ç模为2 n
模 ï¼ ï¼1 0 ï¼
åç ï¼ ï¼ 0 ï¼
注æå°ï¼å°½ç®¡ç¬¦å·ä½æ²¡æä»»ä½æ°å¼ä¿¡æ¯ï¼è¿éå模ä¾ç¶æ符å·ä½èèè¿å»äºï¼åå æ¯æ们å¯ä»¥éè¿å®ä¹è¡¥ç ï¼æ¥ä½¿ç¬¬ä¸ä¸ªç¬¦å·ä½åä¸è®¡ç®æºè®¡ç®ï¼ä»èå¾å°æ³è¦çç»æã
ï¼åæ¶ï¼æ符å·ä½ç®è¿å»å¯ä»¥è®©æ们å¨ç¨æ°å¦å ¬å¼æ³æ±äºè¿å¶è¡¥æ°æ¶ï¼ç´æ¥ä»ç»æå¾å°è¡¥ç
ä¾: x= -0.
[x]è¡¥=+x=.-0.=1.
åæ¥æ¯è¦å模å¾è¡¥æ°ä¸º0.ï¼2ï¼ï¼ä½æ£å¥½é¦ä½ç1å¯ä»¥è¡¨ç¤ºåæ°çè´å·ï¼å æ¤å¯ç´æ¥è¯»åºè¡¥ç 为1
ï¼
å æ¤å¯¹äºè¡¥ç ï¼ç¬¦å·ä½æ¢èµ·æ示æ£è´å·çä½ç¨ï¼ååä¸è¿ç®ã
å¦å¤ï¼åºå«äºåç æ两个0ï¼æ£è´0ï¼ï¼å¨è¡¥ç çè§å®ä¸ï¼åªæä¸ä¸ª0ï¼...çæ£0ï¼å 为åç ä¹å ¨æ¯0ï¼ï¼è1 ...å¯ä»¥è¡¨ç¤º-1ï¼è¡¥ç 纯å°æ°ï¼æ-2 n-1 (è¡¥ç 纯æ´æ°)
//å¯ä»¥è¿ä¹è®°ï¼ä»¥çº¯æ´æ°ä¸ºä¾ï¼ï¼å 为åé¢n-1个0ååå为n-1个1ï¼å 1å为2 n-1 ()ï¼åé¢ä¸ä¸ª1表示è´æ°ï¼å æ¤è¡¥ç è½è¡¨ç¤º-2 n-1
è¡¥ç æä¹æ¥ï¼åç 为æ£ï¼è¡¥ç ä¸åç ç¸åï¼åç 为è´ï¼åé¢çä½æ°ä¸ºåç ååå 1
移ç
ç®çï¼ä¸ºäºæ¹ä¾¿è®¡ç®æºæ¯å¤§å°ï¼æ¶é¤ç¬¦å·ä½å¯¹è®¡ç®æºçå¹²æ°
åçæ¯æè´æ°é¨åå ¨é¨ç§»å°éè´æ°æ¹åï¼ä¹å°±æ¯è¯´è¦æ第ä¸ä½ç¬¦å·ä½çæä¹ç»æ¶é¤æãæ¶é¤æ¹æ³ä¸ºï¼å¯¹äºè¡¥ç çæ£æ°ï¼ç¬¦å·ä½ç±0å为1ï¼å¢å¤§ï¼å¯¹äºè¡¥ç çè´æ°ï¼ç¬¦å·ä½æ¦å¿µæ¶é¤ï¼å¨è®¡ç®æºä¸è¢«å®ä¹ä¸ºæ£æ°ï¼å为äºç¡®ä¿åè´æ°å°äºåæ£æ°ï¼ç¬¦å·ä½ç±1å为0ã
为äºä¿è¯æ¯ä¸ªæ°ä¹é´å¤§å°å ³ç³»ä¸åï¼è¦ç¨è¡¥ç æ¥è½¬æ¢æ移ç ï¼ç¨åç æ¥è½¬æ¢çè¯ï¼è´æ°ä¹é´ç大å°å ³ç³»ä¼å转ã
æ°å¦å ¬å¼ï¼
å®è§ä¸æ¥çæ¯æå± ä¸çæ´ä¸ªæ°è½´å¹³ç§»å°äºéè´åè½´ä¸ï¼æ¯ä¸ªæ°ä¹é´ç大å°å ³ç³»ä¸åã
纯å°æ°[X] 移 =1+X
纯æ´æ° [X] 移 = (ä¸è¬æ å)
移ç æä¹æ¥ï¼ç§»ç åè¡¥ç å°¾æ°ç¸åï¼ç¬¦å·ä½ç¸å(ä¹å°±æ¯è¡¥ç é¦ä½ç1->0 ;0->1ï¼
å 为移ç ä»è¡¥ç é£éæ¥ï¼æ以ä¹è½é¢å¤å¤è¡¨ç¤ºä¸ä¸ªæ°
[UVM源代码研究] 如何定制一款个性化的打印格式
文章总结:定制UVM的打印格式并非直接使用默认设置,而是涉及到UVM类库的深入理解。首先,`uvm_info`等宏的执行过程实际上是通过`uvm_report_enabled`函数,这个函数实际调用的是uvm_root的单例模式下的uvm_report_object的uvm_report_enabled方法,因为uvm_root支持这种模式。宏中的verbosity值会与预设阈值进行比较,同时还会检查action设置,以决定是否执行打印。打印格式的定制关键在于`compose_message`函数,它由uvm_report_server类定义,可以通过继承并重写此函数来自定义输出格式,比如使用`__FILE__`和`__LINE__`这些编译时指令。
实现个性化打印的步骤包括:创建一个自定义的report_server子类,重写`compose_message`函数,然后在测试环境中设置这个自定义的server。这样,无论执行`uvm_info`等宏,都会按照我们定制的解读spring源码格式显示,适用于所有四种severity(uvm_info/uvm_error/uvm_warning/uvm_fatal)。
通过上述方法,你就能为UVM的打印格式定制出符合自己需求的样式,让输出信息更加直观和易于理解。
TiDB 源码阅读系列文章(五)TiDB SQL Parser 的实现
本文是 TiDB 源码阅读系列文章的第五篇,主要内容围绕 SQL Parser 功能实现进行讲解。内容源自社区伙伴马震(GitHub ID:mz)的投稿。系列文章的目的是与数据库研究者及爱好者深入交流,收到了社区的积极反馈。后续,期待更多伙伴加入 TiDB 的探讨与分享。
TiDB 的源码阅读系列文章,帮助读者系统性地学习 TiDB 内部实现。最近的《SQL 的一生》一文,全面阐述了 SQL 语句处理流程,从接收网络数据、MySQL 协议解析、SQL 语法解析、查询计划制定与优化、执行直至返回结果。
其中,SQL Parser 的功能是将 SQL 语句按照 SQL 语法规则进行解析,将文本转换为抽象语法树(AST)。此功能需要一定背景知识,下文将尝试介绍相关知识,以帮助理解这部分代码。
TiDB 使用 goyacc 根据预定义的 SQL 语法规则文件 parser.y 生成 SQL 语法解析器。这一过程可在 TiDB 的 Makefile 文件中看到,通过构建 goyacc 工具,使用 goyacc 依据 parser.y 生成解析器 parser.go。
goyacc 是 yacc 的 Golang 版本,因此理解语法规则定义文件 parser.y 及解析器工作原理之前,需要对 Lex & Yacc 有所了解。Lex & Yacc 是用于生成词法分析器和语法分析器的工具,它们简化了编译器的编写。
下文将详细介绍 Lex & Yacc 的工作流程,以及生成解析器的过程。我们将从 Lex 根据用户定义的 patterns 生成词法分析器,词法分析器读取源代码并转换为 tokens 输出,以及 Yacc 根据用户定义的语法规则生成语法分析器等角度进行阐述。
生成词法分析器和语法分析器的过程,用户需为 Lex 提供 patterns 的定义,为 Yacc 提供语法规则文件。这两种配置都是文本文件,结构相同,分为三个部分。我们将关注中间规则定义部分,并通过一个简单的例子来解释。
Lex 的输入文件中,规则定义部分使用正则表达式定义了变量、整数和操作符等 token 类型。例如整数 token 的定义,当输入字符串匹配正则表达式时,大括号内的动作会被执行,将整数值存储在变量yylval 中,并返回 token 类型 INTEGER 给 Yacc。
而 Yacc 的语法规则定义文件中,第一部分定义了 token 类型和运算符的结合性。四种运算符都是左结合,同一行的运算符优先级相同,不同行的运算符,后定义的行具有更高的优先级。语法规则使用 BNF 表达,大部分现代编程语言都可以使用 BNF 表示。
表达式解析是生成表达式的逆向操作,需要将语法树归约到一个非终结符。Yacc 生成的语法分析器使用自底向上的归约方式进行语法解析,同时使用堆栈保存中间状态。通过一个表达式 x + y * z 的解析过程,我们可以理解这一过程。
在这一过程中,读取的 token 压入堆栈,当发现堆栈中的内容匹配了某个产生式的右侧,则将匹配的项从堆栈中弹出,将该产生式左侧的非终结符压入堆栈。这个过程持续进行,直到读取完所有的 tokens,并且只有启始非终结符保留在堆栈中。
产生式右侧的大括号中定义了该规则关联的动作,例如将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。这里可以使用 $position 的形式访问堆栈中的项,$1 引用第一项,$2 引用第二项,以此类推。$$ 代表归约操作执行后的堆栈顶。本例的动作是将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。
在上述例子中,动作不仅完成了语法解析,还完成了表达式求值。一般希望语法解析的结果是一颗抽象语法树(AST),可以定义语法规则关联的动作。这样,解析完成时,我们就能得到由 nodeType 构成的抽象语法树,对这个语法树进行遍历访问,可以生成机器代码或解释执行。
至此,我们对 Lex & Yacc 的原理有了大致了解,虽然还有许多细节,如如何消除语法的歧义,但这些概念对于理解 TiDB 的代码已经足够。
下一部分,我们介绍 TiDB SQL Parser 的实现。有了前面的背景知识,对 TiDB 的 SQL Parser 模块的理解会更易上手。TiDB 使用手写的词法解析器(出于性能考虑),语法解析采用 goyacc。我们先来看 SQL 语法规则文件 parser.y,这是生成 SQL 语法解析器的基础。
parser.y 文件包含 多行代码,初看可能令人感到复杂,但该文件仍然遵循我们之前介绍的结构。我们只需要关注第一部分 definitions 和第二部分 rules。
第一部分定义了 token 类型、优先级、结合性等。注意 union 结构体,它定义了在语法解析过程中被压入堆栈的项的属性和类型。压入堆栈的项可能是终结符,也就是 token,它的类型可以是 item 或 ident;也可能是非终结符,即产生式的左侧,它的类型可以是 expr、statement、item 或 ident。
goyacc 根据这个 union 在解析器中生成对应的 struct。在语法解析过程中,非终结符会被构造成抽象语法树(AST)的节点 ast.ExprNode 或 ast.StmtNode。抽象语法树相关的数据结构定义在 ast 包中,它们大都实现了 ast.Node 接口。
ast.Node 接口有一个 Accept 方法,接受 Visitor 参数,后续对 AST 的处理主要依赖这个 Accept 方法,以 Visitor 模式遍历所有的节点以及对 AST 做结构转换。例如 plan.preprocess 是对 AST 做预处理,包括合法性检查以及名字绑定。
union 后面是对 token 和非终结符按照类型分别定义。第一部分的最后是对优先级和结合性的定义。文件的第二部分是 SQL 语法的产生式和每个规则对应的 aciton。SQL 语法非常复杂,大部分内容都是产生式的定义。例如 SELECT 语法的定义,我们可以在 parser.y 中找到 SELECT 语句的产生式。
完成语法规则文件 parser.y 的定义后,使用 goyacc 生成语法解析器。TiDB 对 lexer 和 parser.go 进行封装,对外提供 parser.yy_parser 进行 SQL 语句的解析。
最后,我们通过一个简单的例子,使用 TiDB 的 SQL Parser 进行 SQL 语法解析,构建出抽象语法树,并通过 visitor 遍历 AST。我实现的 visitor 只输出节点的类型,运行结果依次输出遍历过程中遇到的节点类型。
了解 TiDB SQL Parser 的实现后,我们有可能实现当前不支持的语法,如添加内置函数。这为我们学习查询计划以及优化打下了基础。希望这篇文章对读者有所帮助。
作者介绍:马震,金蝶天燕架构师,负责中间件、大数据平台的研发,今年转向 NewSQL 领域,关注 OLTP/AP 融合,目前在推动金蝶下一代 ERP 引入 TiDB 作为数据库存储服务。
文字背景颜色
你好!
若要为文章背景设置特定颜色或,可选择以下代码之一。在完成设置后,点击“发表文章”即可应用。代码一为:body { background-image: url(网址);},此代码能够为文章或博客首页设置背景图。若仅应用于单篇文章,则选择代码二:代码二只适合插入到文章源代码的最前面,同时,请记得不要在代码后附加“如果想将您的博客页面装饰得更美观,这里提供装饰代码、详细使用说明及数千张背景供选择,希望能为您提供帮助。”这段描述,以避免影响代码功能。
装饰您的博客页面时,请谨慎选择代码和背景,确保美观与功能兼备。感谢您的提问,祝您一切顺利!期待在博客中再次与您相遇。
如何查看一篇文章的原始链接地址呢?
1. 在浏览器地址栏中获取:最常见的方法是直接在浏览器的地址栏中输入网址,然后按下回车键,浏览器会自动加载对应的网页。这时,浏览器地址栏中显示的就是URL地址。
2. 点击链接获取:当我们在网页上看到一个链接,想要访问链接所对应的网页时,只需鼠标左键单击该链接即可。在点击链接后,浏览器会自动加载该链接对应的URL地址,并将其显示在地址栏中。
3. 从搜索引擎获取:当我们想要查找某个网页或资源的时候,可以通过搜索引擎来帮助我们找到相关的网址。在搜索引擎中输入关键词后,搜索引擎会列出一系列相关的网页结果,我们只需点击其中的任意一个搜索结果,浏览器就会加载该网页并显示其URL地址。
4. 从网页源代码获取:有时候我们想要获取一个网页的URL地址,但是该网页没有在浏览器地址栏中显示,这时我们可以查看网页的源代码来获取URL地址。在浏览器中,我们可以通过右键单击网页,然后选择“查看页面源代码”或类似选项,浏览器会打开一个新的窗口显示网页的源代码,我们只需在源代码中寻找包含“http://”或“https://”的字符串,即可找到URL地址。
5. 使用开发者工具获取:现代浏览器一般都提供了开发者工具,可以帮助开发者调试和分析网页。通过使用开发者工具,我们可以获取网页的各种信息,包括URL地址。具体的方法是在浏览器中打开网页后,按下F键或使用浏览器菜单中的“开发者工具”选项,然后选择“网络”或“网络监视器”标签,浏览器会显示网页加载的所有网络请求,我们只需在请求列表中选择相应的请求,即可获取URL地址。
2024-12-22 11:46
2024-12-22 10:28
2024-12-22 10:28
2024-12-22 10:19
2024-12-22 10:11
2024-12-22 09:50