在 macOS 上搭建 Iceberg

眼过千遍,不如手过一遍。本文将描述如何在 macOS 上搭建 Iceberg。 涉及到: Hadoop, Hive, Iceberg, Spark, Flink。

Maven & Gradle 依赖作用域

Maven 和 Gradle 是目前 Java(JVM) 项目中比较主流的构建工具,今天我们来聊一下他们各自如何管理依赖的作用域。

正确地理解依赖作用域对于我们开发出简洁、轻量的程序很有帮助。

在 Flink 任务中使用动态编译

Java 动态编译是一项比较成熟的技术,用于在程序运行期间生成 Class ,为实现业务带来了极大的灵活性。 本文讨论如何在 Flink 任务里使用动态编译,以及遇到的坑。

使用 rync 同步本地和远程的目录

如果你有一个 超大 的文件夹需要频繁在本地和远程同步,简单的 scp 由于每次是全量复制,会导致产生很多无用功。

增量同步工具 rsync 登场~ 🔫

Spring 容器初始化过程

bean 容器作为 spring 的核心功能,IoC/DI 都建立在其之上。这篇文章主要讨论 spring 如何初始化容器。

Spark 分区数量

Spark 作为分布式数据处理框架,可以将大数据处理分散到众多廉价 pc 机上,并行执行。

RDD 【Resilient Distributed Datasets】作为 spark 核心基础接口,spark-sql 和 spark-streaming 底层都依赖 rdd。

1 个 rdd 可以分布多台机器上。而在 rdd 背后,是一个个 partition(分区)。