背景现有集群版本是Flink 1.10.1,想要升级到社区最新的版本Flink 1.11.1. 踩坑过程No hostname could be resolved for ip address详细的社区邮件讨论过程如下: http://apache-flink.147419.n8.nabble.co ...
如何使用jemalloc分析flink使用的native memory
前言最近笔者因为flink集群运行在kubernetes上,由于不可抗力导致pod重生,job需要restart,在没有开启checkpoint的情况下,作业只要重启就会频繁被os kill,这明显是堆外内存超用的现象。 heap memory和direct memory被jvm控制了,显然不会被o ...
Flink中如何使用策略模式
前言转自https://mp.weixin.qq.com/s?__biz=MzUzMDYwOTAzOA==&mid=2247484204&idx=1&sn=fe7c79fd59ae3ca30f4b28fe7a1fba8d&chksm=fa4e65cdcd39ecdbb ...
Flink on kubernetes 宕机恢复
前言笔者的kubernetes版本是1.17,有一次凌晨机器宕机了,运行在kubernetes上的flink集群因为pod没有重建,服务影响了将近20分钟后人工介入,发现落在宕机机器上的pod没有重生 。而且JobManager也刚好落在这台机器上,后续进行了一次宕机测试 。 node宕机后的pod ...
一次kubernetes网络问题排查
前言笔者所用个的kubernetes版本为1.17,对应的cni使用的是weave。其实想用calico或者flannel gw,性能会更好,奈何需要自己组建内网环境,这明显就是超纲了。 正文大约是在早上10点的时候,整个集群网络互相不能通信,容器内解析域名全部失败 UnknownHostExcep ...
Flink源码解析-广播流原理
使用详情见https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/state/broadcast_state.html // a map descriptor to store the name of the r ...
Flink 对象的不正确释放和内存泄露(反面教材
前言今天在群里看到有人问了这么一个问题,在open里面开了一个定时任务,每隔一段时间更新下数据,手动cancel掉作业后,发现这个定时任务还在执行。 同一个时间,在perfma上看到一个挺有趣的内存泄露的排查记录,连接如下: https://club.perfma.com/article/15559 ...
Flink源码解析-TTL
前言从Flink 1.6版本开始,社区为状态引入了TTL(time-to-live,生存时间)机制,支持Keyed State的自动过期,有效解决了状态数据在无干预情况下无限增长导致OOM的问题。 StateTtlConfig ttlConfig = StateTtlConfig .newBu ...
Flink链路延迟监控的LatencyMarker机制实现
背景对于实时的流式处理系统来说,我们需要关注数据输入、计算和输出的及时性,所以处理延迟是一个比较重要的监控指标,特别是在数据量大或者软硬件条件不佳的环境下。Flink早在FLINK-3660(https://issues.apache.org/jira/browse/FLINK-3660 ) 就为用 ...