spark sql读数据阶段并行度调整
不同的开窗函数是在不同的stage阶段执行的,是串行的逻辑,如果他们具有同样的窗口,我们可以使用写小技巧,在同一个开窗函数中将所有的信息一起求出来
spark sql in筛选多于一定数量时,in中的值首先会构建localtable,然后广播出去,作为广播表进行broadcast join 过滤主表数据,但是如果主表数据元数据信息统计不准,会导致广播错误,造成driver端oom
123
课后练习答案
难度较高较综合的题目
spark sql语句中如果case中when有几十个,会导致StackOverflowError错误
课后练习
解题思路
开窗函数