1.Flink深入浅出:JDBC Connector源码分析
2.数据库中间件-cetus源码介绍
3.Cobar源码分析之AST
4.源码详解系列(四) ------ DBCP2的数据使用和分析(包括JNDI和JTA支持)已停更
5.源码详解系列(五) ------ C3P0的使用和分析(包括JNDI)已停更
6.MySQL全文索引源码剖析之Insert语句执行过程
Flink深入浅出:JDBC Connector源码分析
大数据开发中,数据分析与报表制作是库源日常工作中最常遇到的任务。通常,码分我们通过读取Hive数据来进行计算,析数并将结果保存到数据库中,据库然后通过前端读取数据库来进行报表展示。源码防返回 源码然而,分析方法使用FlinkSQL可以简化这一过程,数据通过一个SQL语句即可完成整个ETL流程。库源
在Flink中,码分读取Hive数据并将数据写入数据库是析数常见的需求。本文将重点讲解数据如何写入数据库的据库过程,包括刷写数据库的源码机制和原理。
以下是分析方法本文将讲解的几个部分,以解答在使用过程中可能产生的数据疑问:
1. 表的定义
2. 定义的表如何找到具体的实现类(如何自定义第三方sink)
3. 写入数据的机制原理
(本篇基于1..0源码整理而成)
1. 表的定义
Flink官网提供了SQL中定义表的示例,以下以oracle为例:
定义好这样的表后,就可以使用insert into student执行插入操作了。接下来,我们将探讨其中的技术细节。
2. 如何找到实现类
实际上,这一过程涉及到之前分享过的SPI(服务提供者接口),即DriverManager去寻找Driver的过程。在Flink SQL执行时,会通过translate方法将SQL语句转换为对应的Operation,例如insert into xxx中的xxx会转换为CatalogSinkModifyOperation。这个操作会获取表的信息,从而得到Table对象。如果这个Table对象是CatalogTable,则会进入TableFactoryService.find()方法找到对应的实现类。
寻找实现类的过程就是SPI的过程。即通过查找路径下所有TableFactory.class的实现类,加载到内存中。这个SPI的定义位于resources下面的META-INFO下,定义接口以及实现类。
加载到内存后,首先判断是否是TableFactory的实现类,然后检查必要的参数是否满足(如果不满足会抛出异常,很多人在第一次使用Flink SQL注册表时,都会遇到NoMatchingTableFactoryException异常,其实都是因为配置的属性不全或者Jar报不满足找不到对应的TableFactory实现类造成的)。
找到对应的实现类后,调用对应的createTableSink方法就能创建具体的实现类了。
3. 工厂模式+创建者模式,创建TableSink
JDBCTableSourceSinkFactory是JDBC表的具体实现工厂,它实现了stream的sinkfactory。在1..0版本中,它不能在batch模式下使用,但在1.版本中据说会支持。麒麟子框架源码这个类使用了经典的工厂模式,其中createStreamTableSink负责创建真正的Table,基于创建者模式构建JDBCUpsertTableSink。
创建出TableSink之后,就可以使用Flink API,基于DataStream创建一个Sink,并配置对应的并行度。
4. 消费数据写入数据库
在消费数据的过程中,底层基于PreparedStatement进行批量提交。需要注意的是提交的时机和机制。
控制刷写触发的最大数量 'connector.write.flush.max-rows' = ''
控制定时刷写的时间 'connector.write.flush.interval' = '2s'
这两个条件先到先触发,这两个参数都是可以通过with()属性配置的。
JDBCUpsertFunction很简单,主要的工作是包装对应的Format,执行它的open和invoke方法。其中open负责开启连接,invoke方法负责消费每条数据提交。
接下来,我们来看看关键的format.open()方法:
接下来就是消费数据,执行提交了
AppendWriter很简单,只是对PreparedStatement的封装而已
5. 总结
通过研究代码,我们应该了解了以下关键问题:
1. JDBC Sink执行的机制,比如依赖哪些包?(flink-jdbc.jar,这个包提供了JDBCTableSinkFactory的实现)
2. 如何找到对应的实现?基于SPI服务发现,扫描接口实现类,通过属性过滤,最终确定对应的实现类。
3. 底层如何提交记录?目前只支持append模式,底层基于PreparedStatement的addbatch+executeBatch批量提交
4. 数据写入数据库的时机和机制?一方面定时任务定时刷新,另一方面数量超过限制也会触发刷新。
更多Flink内容参考:
数据库中间件-cetus源码介绍
数据库中间件Cetus的源码介绍将重点放在其内部流程的解析上。从启动开始,Cetus的执行流程主要从src/mysql-proxy-cli.c文件的main函数出发,调用main_cmdline函数。在正常情况下,启动service后,流程会进入main_cmdline函数中的chassis_mainloop。
chassis_mainloop函数将调用cetus_master_process_cycle,该过程一直传递chassis结构,其包含关键元素。在cetus_master_process_cycle中,程序开启worker_process,主要在cetus_spawn_process函数中进行,之后进入cetus_worker_process_cycle进行初始化。
worker_process通过死循环调用主进程chassis_event_loop,并监听客户端消息。在执行流程中,精仿网源码会经过event_base_loop和ev_run等函数,进一步处理事件。
具体任务处理流程从event_base_loop开始,调用ev_run、ev_invoke_pending、ev_x_cb_io、ev_x_cb,最终到达network_mysqld_con_handle处理传入的SQL语句,并将它们赋值给con->orig_sql。接下来调用normal_read_query_result函数,此函数调用network_mysqld_read_rw_resp处理与后端数据库的消息,并基于返回结果进行后续操作。
总结,Cetus源码中,从启动至执行流程,再到任务处理,构成了一个完整的数据库中间件执行逻辑。其核心在于通过一系列函数调用,实现消息的传递、处理和最终反馈,确保数据的高效、准确处理。流程清晰,结构严谨,体现了Cetus在数据库中间件领域的专业性和高效性。
Cobar源码分析之AST
Cobar是一款阿里开源的数据库中间件,专注于分库分表的路由功能。SQL,作为一种领域语言,广泛用于关系型数据库的管理和操作,其执行流程一般包括词法分析、语法分析、语义分析生成AST(抽象语法树),然后由优化器生成执行计划,最后由执行引擎执行。
在Cobar中,SQL Parser负责将SQL语句解析为AST。开发SQL Parser通常有两种方式。Cobar的SQL Parser经历了三个版本迭代,主要目的是提升性能。本文将深入解析Cobar中的SQL Parser和AST,包括其结构、操作和应用。
AST(抽象语法树)直观表示SQL语句的结构。以SQL语句“select id,type from goods as g where type in (select type from type_config where status = 0)”为例,Cobar SQL Parser将其解析为AST对象,其根节点为select语句,营运资金指标源码其他属性为叶子节点。
AST的Node定义包括accept方法,用于遍历树结构。实现AST主要涉及几个类,如ComparisionEqualsExpression,其中1为比较的左右表达式,2为判断符,3为计算表达式。evaluationInternal方法实现比较逻辑,将表达式结构化并穷举后,实现简单的数值比较。
AST操作中,遍历是最基本的,利用ASTNode的accept方法和SQLASTVisitor接口实现。SQLParserDelegate.parse(sql)解析结果为DMLSelectStatement对象,其visit方法负责构建SQL输出格式。MySQLOutputASTVisitor实现遍历并输出SQL语句,如“SELECT id, type FROM goods AS G WHERE type IN (SELECT type FROM type_config WHERE status = 0)”。Cobar利用AST进行分库分表,获取表名、列名、比较的值。
AST还可以生成SQL特征,如将原始SQL归一化为“select id, name, age from user as u where age >= ?”,在进行SQL慢查询统计、限流等操作时非常有用。Cobar利用AST对线上SQL进行安全检查,拦截无条件的update或delete语句。
本文从SQL AST的来源、结构、遍历原理、应用等方面进行介绍,通过Cobar项目中的单元测试,读者可以实际感受AST的功能和应用。了解SQL AST有助于后端技术、架构设计、性能优化、源码阅读、问题排查等领域。
欢迎搜索关注微信公众号"捉虫大师",获取更多后端技术分享,包括架构设计、性能优化、源码阅读、问题排查和踩坑实践等内容。
源码详解系列(四) ------ DBCP2的使用和分析(包括JNDI和JTA支持)已停更
DBCP是一个用于创建和管理数据库连接的工具,通过连接池复用连接以减少资源消耗。ma 均线源码它具备连接数控制、连接有效性检测、连接泄露控制和缓存语句等功能。Tomcat内置连接池、Spring团队推荐使用DBCP,阿里巴巴的druid也是基于DBCP开发的。 DBCP支持通过JNDI获取数据源,并且可以获取JTA或XA事务中的连接对象,用于两阶段提交(2PC)的事务处理。本篇文章将通过例子来解释如何使用DBCP。 以下是文章的详细内容:使用例子需求
本例将展示如何使用DBCP连接池获取连接对象,并进行基本的增删改查操作。工程环境
JDK:1.8.0_
maven:3.6.1
IDE:eclipse 4.
mysql-connector-java:8.0.
mysql:5.7.
DBCP:2.6.0
主要步骤
创建Maven项目,打包方式为war(war也可以是jar,这里选择war是为了测试JNDI功能)。
引入DBCP相关依赖。
在resources目录下创建dbcp.properties文件,配置数据库连接参数及连接池基本参数。
编写JDBCUtils类,实现初始化连接池、获取连接、管理事务和资源释放等功能。
创建测试类,实现基本的增删改查操作。
配置文件详解
dbcp.properties文件包含数据库连接参数和连接池基本参数,如数据库URL、用户名、密码、连接池大小等。其中,数据库URL后面添加了参数以避免乱码和时区问题。建议根据项目需求调整参数设置。基本连接属性
数据库URL
用户名
密码
连接池大小
缓存语句(在MySQL下建议关闭)
连接检查参数(建议开启testWhileIdle,避免性能影响)
事务相关参数(通常使用默认设置)
连接泄漏回收参数
其他参数(较少使用)
源码分析
DBCP主要涉及以下几个类:BasicDataSource:提供基本的数据库操作数据源。
BasicManagedDataSource:BasicDataSource的子类,用于创建支持XA事务或JTA事务的连接。
PoolingDataSource:BasicDataSource中实际调用的数据源,用于管理连接。
ManagedDataSource:PoolingDataSource的子类,用于支持XA事务或JTA事务的连接。
使用DBCP连接池创建连接时,首先创建BasicDataSource对象,初始化配置参数。然后从连接池中获取连接。连接获取过程涉及到数据源和连接池的创建,连接对象的包装和回收。通过JNDI获取数据源对象需求
使用JNDI获取DBCP数据源对象,以PerUserPoolDataSource和SharedPoolDataSource为例。为了在tomcat容器中测试,需要配置JNDI上下文。引入依赖
引入JNDI相关的依赖。
编写context.xml文件,配置JNDI上下文。
在web.xml中配置资源引用,将JNDI对象与web应用绑定。
测试结果
打包项目并部署到tomcat上运行,通过访问指定的jsp页面,验证JNDI获取数据源对象的正确性。使用DBCP测试两阶段提交
介绍如何使用DBCP实现JTA事务的两阶段提交(2PC)。使用DBCP的BasicManagedDataSource类支持事务处理。通过测试代码验证了2PC的正确性。 以上内容涵盖了DBCP的使用、配置、源码分析、JNDI集成以及两阶段提交的实现,为开发者提供了全面的参考。源码详解系列(五) ------ C3P0的使用和分析(包括JNDI)已停更
c3p0是一个用于创建和管理数据库连接的Java库,通过使用"池"的方式复用连接,减少资源开销。它与数据库源一起提供连接数控制、连接可靠性测试、连接泄露控制、缓存语句等功能。目前,Hibernate自带的连接池正是基于c3p0实现。
在深入学习c3p0的使用和分析之前,我们先来看一下使用示例。假设你想要通过c3p0连接池获取连接对象,然后对用户数据进行简单的增删改查操作。这通常涉及到使用如JDK 1.8.0_、maven 3.6.1、eclipse 4.、mysql-connector-java 8.0.以及mysql 5.7.等环境。
为了创建项目,可以选择Maven Project类型,并打包为war文件,尽管jar包也可以使用,但使用war是为了测试JNDI功能。
接下来,引入日志包,这一步是为了帮助追踪连接池的创建过程,尽管不引入这个包也不会对程序运行造成影响。
为了配置c3p0,通常会使用c3p0.properties文件,这种文件格式相对于.xml文件来说更加直观。在resources目录下,配置文件包含了数据库连接参数和连接池的基本参数。文件名必须是c3p0.properties,这样才能自动加载。
获取连接池和连接时,可以利用JDBCUtil类来初始化连接池、获取连接、管理事务和释放资源等操作。
对于更深入的学习,我们可以从c3p0的基本使用扩展到通过JNDI获取数据源。这意味着在项目中引入了tomcat 9.0.作为容器,并可能增加了相关依赖。通过在webapp文件夹下创建META-INF目录并放置context.xml文件来配置JNDI,从而实现数据源的动态获取。
在web.xml文件中配置资源引用,而在jsp文件中编写测试代码,以验证JNDI获取的数据源是否有效。
总结来看,c3p0通过提供组合式连接池和数据源对象,以及通过JNDI实现动态数据源的获取,大大简化了数据库连接管理和配置过程。同时,它内置的参数配置和连接管理功能,如连接数控制、连接可靠性测试等,为开发者提供了更为稳定和高效的数据库访问体验。
在深入研究c3p0源码时,需要关注类与类之间的关系以及重要功能的实现。c3p0的源码确实较为复杂,尤其是监听器和多线程的使用,这些机制虽然强大,但也增加了阅读和理解的难度。理解这些机制有助于更好地利用c3p0提供的功能,优化数据库连接管理。
在实现数据源创建和连接获取过程中,从初始化数据源到创建连接池,再到连接的获取和管理,c3p0提供了一系列的类和方法来支持这些操作。理解这些步骤和背后的原理,对于高效地使用c3p0和优化数据库性能至关重要。
最后,c3p0的源码分析不仅仅停留在功能层面,还涉及到类的设计、架构和性能优化。这些分析有助于开发者深入理解c3p0的内部工作原理,进而根据实际需求进行定制化配置和优化。
MySQL全文索引源码剖析之Insert语句执行过程
本文来源于华为云社区,作者为GaussDB数据库,探讨了MySQL全文索引源码中Insert语句的执行过程。
全文索引是一种常用于信息检索的技术,它通过倒排索引实现,即单词和文档的映射关系,如(单词,(文档,偏移))。以创建一个表并在opening_line列上建立全文索引为例,插入'Call me Ishmael.'时,文档会被分为'call', 'me', 'ishmael'等单词,并记录在全文索引中。
全文索引Cache的作用类似于Change Buffer,用于缓存分词结果,避免频繁刷盘。Innodb使用fts_cache_t结构来管理cache,每个全文索引的表都会在内存中创建一个fts_cache_t对象。
Insert语句的执行分为三个阶段:写入行记录阶段、事务提交阶段和刷脏阶段。写入行记录阶段生成doc_id并写入Innodb的行记录,并将doc_id缓存。事务提交阶段对文档进行分词,获取{ 单词,(文档,偏移)}关联对,并插入到cache。刷脏阶段后台线程将cache刷新到磁盘。
全文索引的并发插入可能导致OOM问题,可通过修复patch #解决。当MySQL进程崩溃时,fts_init_index函数会恢复crash前的cache数据。
PostgreSQL 技术内幕(十七):FDW 实现原理与源码解析
FDW,全称为Foreign Data Wrapper,是PostgreSQL提供的一种访问外部数据源的机制。它允许用户通过SQL语句访问和操作位于不同数据库系统或非数据库类数据源的外部数据,就像操作本地表一样。以下是从直播内容整理的关于FDW的使用详解、实现原理以及源码解析。 ### FDW使用详解 FDW在一定规模的系统中尤为重要,数据仓库往往需要访问外部数据来完成分析和计算。通过FDW,用户可以实现以下场景: 跨数据库查询:在PostgreSQL数据库中,用户可以直接请求和查询其他PostgreSQL实例,或访问MySQL、Oracle、DB2、SQL Server等主流数据库。 数据整合:从不同数据源整合数据,如REST API、文件系统、NoSQL数据库、流式系统等。 数据迁移:高效地将数据从旧系统迁移到新的PostgreSQL数据库中。 实时数据访问:访问外部实时更新的数据源。 PostgreSQL支持多种常见的FDW,能够直接访问包括远程PostgreSQL服务器、主流SQL数据库以及NoSQL数据库等多种外部数据源。### FDW实现原理
FDW的核心组件包括:1. **Foreign Data Wrapper (FDW)**:特定于各数据源的库,定义了如何建立与外部数据源的连接、执行查询及处理其他操作。例如,`postgres_fdw`用于连接其他PostgreSQL服务器,`mysql_fdw`专门连接MySQL数据库。
2. **Foreign Server**:本地PostgreSQL中定义的外部服务器对象,对应实际的远程或非本地数据存储实例。
3. **User Mapping**:为每个外部服务器设置的用户映射,明确哪些本地用户有权访问,并提供相应的认证信息。
4. **Foreign Table**:在本地数据库创建的表结构,作为外部数据源中表的映射。对这些外部表发起的SQL查询将被转换并传递给相应的FDW,在外部数据源上执行。
FDW的实现涉及PostgreSQL内核中的`FdwRoutine`结构体,它定义了外部数据操作的接口。接口函数包括扫描、修改、分析外部表等操作。### FDW源码解析
FDW支持多种数据类型,并以`Postgres_fdw`为例解析其源码。主要包括定义`FdwRoutine`、访问外部数据源、执行查询、插入、更新和删除操作的逻辑。 访问外部数据源:通过`postgresBeginForeignScan`阶段初始化并获取连接到远端数据源。 执行查询:进入`postgresIterateForeignScan`阶段,创建游标迭代器并从其中持续获取数据。 插入操作:通过`postgresBeginForeignInsert`、`postgresExecForeignInsert`和`postgresEndForeignInsert`阶段来执行插入操作。 更新/删除操作:遵循与插入操作相似的流程,包括`postgresBeginDirectModify`、`postgresIterateDirectModify`和相应的结束阶段。 对于更深入的技术细节,建议访问B站观看视频回放,以获取完整的FDW理解和应用指导。从源码角度分析 Mybatis 工作原理
本文以入门级示例说明 MyBatis 工作原理,涵盖数据库准备、添加 MyBatis、配置、Mapper、测试程序、生命周期、映射器、架构、SqlSession 机制等内容。通过源码解析详细展现 MyBatis 如何将 Java 代码与数据库操作紧密结合。
数据库准备:针对用户表进行 CRUD 操作,设计数据模型。
添加 MyBatis:Maven 依赖配置,引入 MyBatis 依赖。
MyBatis 配置:XML 配置文件设置数据源、事务管理器。
Mapper:包含 Mapper.xml 和 Mapper.java 文件,实现 SQL 模板与 Java 对象绑定。
测试程序:MyBatisDemo.java 文件,展示如何使用 SqlSession 执行操作。
MyBatis 生命周期:SqlSessionFactoryBuilder、SqlSessionFactory、SqlSession 的创建、使用与释放。
映射器:接口定义与动态代理生成,完成 SQL 与 Java 方法的映射。
架构:配置层、接口层、数据处理层、框架支撑层,展现 MyBatis 体系结构。
SqlSession 内部工作机制:解析 SQL、管理缓存、执行事务、处理结果集。
总结:MyBatis 通过封装、映射、执行等机制,简化了 Java 与数据库的交互过程,实现数据操作的便捷与高效。