介绍一个字典是一个映射 (key -> attributes) ,能够作为函数被用于查询。你可以认为它可以作为更便捷和高效的 JOIN 类型,作为维度表。 数据字典有两种,一个是内置字典,另一个是外置字典。 外部字典当启动服务器时,字典能够被创建,或者初次使用。通过dictionaries_l ...
clickhouse global用法
global介绍global 有两种用法,GLOBAL in /GLOBAL join。 分布式查询先介绍一下分布式查询SELECT uniq(UserID) FROM distributed_table 将会被发送到所有远程服务器SELECT uniq(UserID) FROM local_tab ...
java8 Map merge、compute、computeIfAbsent、computeIfPresent
单词计数var words = List.of("Foo", "Bar", "Foo", "Buzz", "Foo", "Buzz", "Fizz", "Fizz"); 普通写法var map = new HashMap<String, Integer>();words.forEach( ...
SimpleDateFormat线程不安全以及解决方法
前言SimpleDateFormat主要是用它进行时间的格式化输出和解析,挺方便快捷的,但是SimpleDateFormat并不是一个线程安全的类。 先看看《阿里巴巴开发手册》对于SimpleDateFormat是怎么看待的:【强制】SimpleDateFormat 是线程不安全的类,一般不要定义为 ...
Flink allowedLateness
out-of-order element与late element 通过watermark机制来处理out-of-order的问题,属于第一层防护,属于全局性的防护,通常说的乱序问题的解决办法,就是指这类; 通过窗口上的allowedLateness机制来处理out-of-order的问题,属于第二 ...
Flink trigger
1. 窗口触发器触发器(Trigger)决定了窗口(请参阅窗口概述)博文)什么时候准备好被窗口函数处理。每个窗口分配器都带有一个默认的 Trigger。如果默认触发器不能满足你的要求,可以使用 trigger(…) 指定自定义的触发器。 触发器接口有五个方法来对不同的事件做出响应:public ab ...
kafka partition 数量选择
越多的分区可以提供更高的吞吐量首先我们需要明白以下事实:在kafka中,单个patition是kafka并行操作的最小单元。在producer和broker端,向每一个分区写入数据是可以完全并行化的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩。在consumer段,ka ...
Flink 批处理 map 与 mapPartition
map采用一个数据元并生成一个数据元。data.map(new MapFunction<String, Integer>() { public Integer map(String value) { return Integer.parseInt(value); & ...
Flink 分布式缓存Distributed Cache
不管是流式还是批处理都可以使用Flink提供了一个分布式缓存,类似于Apache Hadoop,可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件,如字典或机器学习的回归模型。 缓存的工作原理如下。程序在其作为缓存文件的特定名称下注册本地或远程文件系统(如HDFS或S3)的文件 ...
kafka Coordinator
Rebalancerebalance本质上是一种协议,规定了一个consumer group下的所有consumer如何达成一致来分配订阅topic的每个分区。比如某个group下有20个consumer,它订阅了一个具有100个分区的topic。正常情况下,Kafka平均会为每个consumer分 ...