背景关于StreamFileSink的使用,直接见官网吧,更全 https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/connectors/datastream/streamfile_sink/ public sta ...
流计算中的Exactly Once特性
背景流处理可以简单地描述为是对无界数据或事件的连续处理。流或事件处理应用程序可以或多或少地被描述为有向图,并且通常被描述为有向无环图(DAG)。sources读取外部数据/事件到应用程序中,而 sinks 通常会收集应用程序生成的结果。下图是流式应用程序的示例。 流处理引擎通常允许用户指定可靠性模 ...
Flink Kafka Sink 埋坑历程
背景由于历史原因,flink版本停留在1.7版本,kafka sink使用的是FlinkKafkaProducer011. 该版本在flink 1.10后就不在维护,使用的是通用的kafka connection包 先上结论 kafka produce 在低版本,会指定partition为fix 修 ...
flink sql count踩坑
Reference转自https://mp.weixin.qq.com/s/5XDkmuEIfHB_WsMHPeinkw 1.序篇通过本文你可了解到 踩坑场景篇-这个坑是啥样的 问题排查篇-坑的排查过程 问题原理解析篇-导致问题的机制是什么 避坑篇-如何避免这种问题 展望篇-有什么机制可以根本避免 ...
Kafka压缩的思考和性能对比
背景kafka的压缩可以提升性能,可是kafka的链路有producer、server、consumer这三个环节,那么是哪里做的呢?压缩格式有GZIP、Snappy、LZ4、ZStandard性能上又有什么差别呢? 总结kafka的压缩一般是发生在客户端,可以发生在服务端,因为两个都可以压缩,会出 ...
flink 消费 kafka 消费组 offset 提交源码解析
flink 消费 kafka 数据,提交消费组 offset 有三种类型 开启 checkpoint :在 checkpoint 完成后提交 开启 checkpoint,禁用 checkpoint 提交: 不提交消费组 offset 不开启 checkpoint:依赖kafka client 的自 ...
Flink kafka source 正则和分区发现源码解析
前置使用方法 https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/connectors/datastream/kafka/ 总结先上总结,kafka的分区发现基本还是基于另起线程,在另外的线程内,通过kafka的c ...
FlinkKafkaSink、两阶段提交协议和Semantic三种类型源码解析
源码基于1.12.4 初始化通常添加一个 kafka sink 的代码如下: input.addSink( new FlinkKafkaProducer<>( "testTopic", new KafkaSerializationSchemaImpl(), ...
FlinkKafkaConsumer同groupId消费问题深入分析
问题这有两个相同代码的程序: val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment Env.setRestartStrategy(RestartStrategies.noRestart()) val consumerProps ...
flink 消费 kafka 消费组 offset 提交
flink 消费 kafka 数据,提交消费组 offset 有三种类型 开启 checkpoint :在 checkpoint 完成后提交 开启 checkpoint,禁用 checkpoint 提交: 不提交消费组 offset 不开启 checkpoint:依赖kafka client 的自 ...