一文了解函数式查询优化器Spark SQL Catalyst

记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解，目录如下：

Spark SQL的核心是Catalyst优化器，是以一种新颖的方式利用Scala的的模式匹配和quasiquotes机制来构建的可扩展查询优化器。

sparkSql pipeline

sparkSql的catalyst优化器是整个sparkSql pipeline的中间核心部分，其执行策略主要两方向，

基于规则优化/Rule Based Optimizer/RBO
- nestedLoopsJoin，P，Q双表两个大循环, O(M*N)
- sortMergeJoin是P，Q双表排序后互相游标
- broadcastHashJoin，PQ双表中小表放入内存hash表，大表遍历O(1)方式取小表内容
- 一种经验式、启发式优化思路
- 对于核心优化算子join有点力不从心，如两张表执行join，到底使用broadcaseHashJoin还是sortMergeJoin，目前sparkSql是通过手工设定参数来确定的，如果一个表的数据量小于某个阈值（默认10M？）就使用broadcastHashJoin
基于代价优化/Cost Based Optimizer/CBO
- 针对每个join评估当前两张表使用每种join策略的代价，根据代价估算确定一种代价最小的方案
- 不同physical plans输入到代价模型（目前是统计），调整join顺序，减少中间shuffle数据集大小，达到最优输出

Parser，利用ANTLR将sparkSql字符串解析为抽象语法树AST，称为unresolved logical plan/ULP
Analyzer，借助于数据元数据catalog将ULP解析为logical plan/LP
Optimizer，根据各种RBO，CBO优化策略得到optimized logical plan/OLP，主要是对Logical Plan进行剪枝，合并等操作，进而删除掉一些无用计算，或对一些计算的多个步骤进行合并

Optimizer是catalyst工作最后阶段了，后面生成physical plan以及执行，主要是由sparkSql来完成。

SparkPlanner
- 优化后的逻辑执行计划OLP依然是逻辑的，并不能被spark系统理解，此时需要将OLP转换成physical plan
- 从逻辑计划/OLP生成一个或多个物理执行计划，基于成本模型cost model从中选择一个
Code generation
- 生成Java bytecode然后在每一台机器上执行，形成RDD graph/DAG

将sparkSql字符串切分成一个一个token，再根据一定语义规则解析为一个抽象语法树/AST。Parser模块目前基本都使用第三方类库ANTLR来实现，比如Hive，presto，sparkSql等。

parser切词

Spark 1.x版本使用的是Scala原生的Parser Combinator构建词法和语法分析器，而Spark 2.x版本使用的是第三方语法解析器工具ANTLR4。

Spark2.x SQL语句的解析采用的是ANTLR4，ANTLR4根据语法文件SqlBase.g4自动解析生成两个Java类：词法解析器SqlBaseLexer和语法解析器SqlBaseParser。

SqlBaseLexer和SqlBaseParser都是使用ANTLR4自动生成的Java类。使用这两个解析器将SQL字符串语句解析成了ANTLR4的ParseTree语法树结构。然后在parsePlan过程中，使用AstBuilder.scala将ParseTree转换成catalyst表达式逻辑计划LogicalPlan。

通过解析后ULP有了基本骨架，但是系统对表的字段信息是不知道的。如sum，select，join，where还有score，people都表示什么含义，此时需要基本的来表达这些token。最重要的元数据信息就是，