Flink1.11升级填坑

发表于 2020-07-23 | 更新于 2020-07-25 | 分类于 Flink

背景现有集群版本是Flink 1.10.1，想要升级到社区最新的版本Flink 1.11.1. 踩坑过程No hostname could be resolved for ip address详细的社区邮件讨论过程如下： http://apache-flink.147419.n8.nabble.co ...

阅读全文 »

如何使用jemalloc分析flink使用的native memory

发表于 2020-07-07

前言最近笔者因为flink集群运行在kubernetes上，由于不可抗力导致pod重生，job需要restart，在没有开启checkpoint的情况下，作业只要重启就会频繁被os kill，这明显是堆外内存超用的现象。 heap memory和direct memory被jvm控制了，显然不会被o ...

阅读全文 »

Flink中如何使用策略模式

发表于 2020-07-05 | 分类于 Flink

前言转自https://mp.weixin.qq.com/s?__biz=MzUzMDYwOTAzOA==&mid=2247484204&idx=1&sn=fe7c79fd59ae3ca30f4b28fe7a1fba8d&chksm=fa4e65cdcd39ecdbb ...

阅读全文 »

Flink on kubernetes 宕机恢复

发表于 2020-07-04 | 更新于 2020-09-06 | 分类于 Flink

前言笔者的kubernetes版本是1.17，有一次凌晨机器宕机了，运行在kubernetes上的flink集群因为pod没有重建，服务影响了将近20分钟后人工介入，发现落在宕机机器上的pod没有重生。而且JobManager也刚好落在这台机器上，后续进行了一次宕机测试。 node宕机后的pod ...

阅读全文 »

一次kubernetes网络问题排查

发表于 2020-06-28 | 分类于 Kubernetes

前言笔者所用个的kubernetes版本为1.17，对应的cni使用的是weave。其实想用calico或者flannel gw，性能会更好，奈何需要自己组建内网环境，这明显就是超纲了。正文大约是在早上10点的时候，整个集群网络互相不能通信，容器内解析域名全部失败 UnknownHostExcep ...

阅读全文 »

Flink源码解析-广播流原理

发表于 2020-06-18 | 分类于 Flink

使用详情见https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/state/broadcast_state.html // a map descriptor to store the name of the r ...

阅读全文 »

Flink 对象的不正确释放和内存泄露（反面教材

发表于 2020-06-17 | 分类于 Flink

前言今天在群里看到有人问了这么一个问题，在open里面开了一个定时任务，每隔一段时间更新下数据，手动cancel掉作业后，发现这个定时任务还在执行。同一个时间，在perfma上看到一个挺有趣的内存泄露的排查记录，连接如下： https://club.perfma.com/article/15559 ...

阅读全文 »

Flink源码解析-TTL

发表于 2020-06-17 | 分类于 Flink

前言从Flink 1.6版本开始，社区为状态引入了TTL（time-to-live，生存时间）机制，支持Keyed State的自动过期，有效解决了状态数据在无干预情况下无限增长导致OOM的问题。 StateTtlConfig ttlConfig = StateTtlConfig .newBu ...

阅读全文 »

Flink 去重

发表于 2020-06-15 | 分类于 Flink

背景数据去重（data deduplication）是我们大数据攻城狮司空见惯的问题了。除了统计UV等传统用法之外，去重的意义更在于消除不可靠数据源产生的脏数据——即重复上报数据或重复投递数据的影响，使流式计算产生的结果更加准确。以一个实际场景为例：计算每个广告每小时的点击用户数，广告点击日志包含 ...

阅读全文 »

Flink链路延迟监控的LatencyMarker机制实现

发表于 2020-06-10 | 分类于 Flink

背景对于实时的流式处理系统来说，我们需要关注数据输入、计算和输出的及时性，所以处理延迟是一个比较重要的监控指标，特别是在数据量大或者软硬件条件不佳的环境下。Flink早在FLINK-3660（https://issues.apache.org/jira/browse/FLINK-3660 ）就为用 ...

阅读全文 »