Spark-Submit 源码剖析
直奔主题吧:
常规Spark提交任务脚本如下:
其中几个关键的常规参数:
再看下cluster.conf配置参数,如下:
spark-submit提交一个job到spark集群中,源码源码大致的常规经历三个过程:
代码总Main入口如下:
Main支持两种模式CLI:SparkSubmit;SparkClass
首先是checkArgument做参数校验
而sparksubmit则是通过buildCommand来创建
buildCommand核心是AbstractCommandBuilder类
继续往下剥洋葱AbstractCommandBuilder如下:
定义Spark命令创建的方法一个抽象类,SparkSubmitCommandBuilder刚好是实现类如下
SparkSubmit种类可以分为以上6种。SparkSubmitCommandBuilder有两个构造方法有参数和无参数:
有参数中根据参数传入拆分三种方式,源码源码然后通过OptionParser解析Args,常规构造参数创建对象后核心方法是源码源码徐敏 java源码通过buildCommand,而buildCommand又是常规通过buildSparkSubmitCommand来生成具体提交。
buildSparkSubmitCommand会返回List的源码源码命令集合,分为两个部分去创建此List,常规
第一个如下加入Driver_memory参数
第二个是通过buildSparkSubmitArgs方法构建的具体参数是MASTER,DEPLOY_MODE,源码源码FILES,常规CLASS等等,源码源码这些就和我们上面截图中是常规对应上的。是源码源码通过OptionParser方式获取到。
那么到这里的常规源码防外泄话buildCommand就生成了一个完成sparksubmit参数的命令List
而生成命令之后执行的任务开启点在org.apache.spark.deploy.SparkSubmit.scala
继续往下剥洋葱SparkSubmit.scala代码入口如下:
SparkSubmit,kill,request都支持,后两个方法知识支持standalone和Mesos集群方式下。dosubmit作为函数入口,其中第一步是初始化LOG,然后初始化解析参数涉及到类
SparkSubmitArguments作为参数初始化类,继承SparkSubmitArgumentsParser类
其中env是测试用的,参数解析如下,parse方法继承了SparkSubmitArgumentsParser解析函数查找 args 中设置的--选项和值并解析为 name 和 value ,如 --master yarn-client 会被解析为值为 --master 的 name 和值为 yarn-client 的 value 。
这之后调用SparkSubmitArguments#handle(MASTER, "yarn-client")进行处理。
这个函数也很简单,根据参数 opt 及 value,设置各个成员的值。接上例,手写源码代码parse 中调用 handle("--master", "yarn-client")后,在 handle 函数中,master 成员将被赋值为 yarn-client。
回到SparkSubmit.scala通过SparkSubmitArguments生成了args,然后调用action来匹配动作是submit,kill,request_status,print_version。
直接看submit的action,doRunMain执行入口
其中prepareSubmitEnvironment初始化环境变量该方法返回一个四元 Tuple ,分别表示子进程参数、子进程 classpath 列表、系统属性 map 、子进程 main 方法。完成了提交环境的准备工作之后,接下来就将启动子进程。
runMain则是html源码密码执行入口,入参则是执行参数SparkSubmitArguments
Main执行非常的简单:几个核心步骤
先是打印一串日志(可忽略),然后是创建了loader是把依赖包jar全部导入到项目中
然后是MainClass的生成,异常处理是ClassNotFoundException和NoClassDeffoundError
再者是生成Application,根据MainClass生成APP,最后调用start执行
具体执行是SparkApplication.scala,那么继续往下剥~
仔细阅读下SparkApplication还是挺深的,所以打算另外写篇继续深入研读~
使用Visual Studio调试 .NET源代码
在日常开发中,通过利用Visual Studio调试.NET源代码,可以提升我们的开发效率。以下是一些关键步骤,帮助您实现更高效的调试过程。
首先,您需要在“工具”->“选项”->“调试”->“常规”中取消选中“启用仅我的代码”。这将允许您使用调试器功能,不仅限于您自己编写的兼职赚钱源码代码。
接着,在“工具”->“选项”->“调试”->“符号”中,启用“Microsoft符号服务器”和“NuGet.org 符号服务器”,以获取更多库的符号支持。
考虑到在调试托管代码时,您可能希望在模块加载时取消JIT优化,以方便定位和解决问题。您可以在“工具”->“选项”->“调试”->“常规”中启用这个功能。
完成上述设置后,您就可以使用Visual Studio调试.NET源代码了。初次设置可能需要一些时间加载,请耐心等待。
以调试.NET中的JSON字符串反序列化为例,您可以使用System.Text.Json库的JsonSerializer.Deserialize方法进行源代码调试,直接查看该方法的内部实现。
在进行调试时,使用F逐语句执行模式,逐步了解代码执行流程,定位和解决问题。
如果您在.NET开发领域寻求交流与学习,欢迎加入DotNetGuide技术社区微信交流群,与众多开发者共享知识,提升技能。
代码有哪些
代码是指计算机程序中用于实现特定功能或操作的一系列指令。 一、代码的种类 1. 源代码:这是程序员编写的文本文件,包含了计算机程序的所有逻辑和指令。常见的源代码文件类型包括Python、Java、C++等。 2. 编译代码:经过编译器处理后的代码,如机器代码或字节码。这种代码可以直接被计算机执行。 3. 脚本代码:这是一种解释型代码,通常用于自动化任务或系统配置。例如,Shell脚本、Python脚本等。 二、代码的基本构成 代码主要由一系列指令组成,这些指令按照一定的语法规则进行排列组合,用来控制计算机硬件和软件的运作。一般来说,代码包含了以下几部分:变量定义、逻辑控制语句、函数调用、数据操作等。其中变量定义用来存储和操作数据,逻辑控制语句如条件语句和循环语句用来控制程序的流程,函数调用用来调用预先定义好的功能,数据操作则是对数据进行各种运算和处理。 三、代码的作用 代码是实现计算机程序的基础。通过编写代码,程序员可以创建各种软件应用、网站、游戏等,实现各种复杂的功能和操作。同时,代码也是软件开发和调试的重要依据,通过对代码的修改和优化,可以提高软件的性能和稳定性。此外,代码还可以用于系统管理和维护,通过编写脚本或工具来自动化一些常规任务,提高工作效率。 四、代码的编写要求 编写代码需要遵循一定的规范和标准,以确保代码的可读性、可维护性和安全性。常见的编程规范包括命名规范、缩进规则、注释规则等。此外,还需要注意代码的简洁性和效率,避免冗余和不必要的操作。同时,对于复杂的代码结构,还需要进行充分的测试和调试,以确保程序的正确性和稳定性。2024-12-23 06:52
2024-12-23 05:58
2024-12-23 05:26
2024-12-23 04:21
2024-12-23 04:19