Data Skewness를 해결하는 Spark Salting Key 기법에 대해서 알아봅니다.
non-determinitic UDF 구현하기
WITH절/VIEW 사용은 효율적인 쿼리플랜과 관련이 없다
Spark enableHiveSupport(Hive metaStore)
parquet 포맷과 predicate pushdown에 대해서
repartition 파헤치기
Partition, Spill in Spark
hadoop distcp 명령어
Spark를 이용하여 특정 파티션만 overwrite하기
pyspark로 melt function 구현하기
HDFS에서 작은 용량의 파일들을 합쳐보자
Hive와 Spark에서 Bucket 차이점에 대하여
HiveQL - CREATE Statement구조에 대하여
Stay up to date! Get all the latest & greatest posts delivered straight to your inbox