clickhouse 字典

发表于 2019-04-02 | 分类于 clickhouse

介绍一个字典是一个映射 (key -> attributes) ，能够作为函数被用于查询。你可以认为它可以作为更便捷和高效的 JOIN 类型，作为维度表。数据字典有两种，一个是内置字典，另一个是外置字典。外部字典当启动服务器时，字典能够被创建，或者初次使用。通过dictionaries_l ...

阅读全文 »

clickhouse global用法

发表于 2019-03-31 | 分类于 clickhouse

global介绍global 有两种用法，GLOBAL in /GLOBAL join。分布式查询先介绍一下分布式查询SELECT uniq(UserID) FROM distributed_table 将会被发送到所有远程服务器SELECT uniq(UserID) FROM local_tab ...

阅读全文 »

java8 Map merge、compute、computeIfAbsent、computeIfPresent

发表于 2019-03-30 | 更新于 2019-04-18 | 分类于 Java

单词计数var words = List.of("Foo", "Bar", "Foo", "Buzz", "Foo", "Buzz", "Fizz", "Fizz"); 普通写法var map = new HashMap<String, Integer>();words.forEach( ...

阅读全文 »

SimpleDateFormat线程不安全以及解决方法

发表于 2019-03-25 | 更新于 2019-04-18 | 分类于 Java

前言SimpleDateFormat主要是用它进行时间的格式化输出和解析，挺方便快捷的，但是SimpleDateFormat并不是一个线程安全的类。先看看《阿里巴巴开发手册》对于SimpleDateFormat是怎么看待的：【强制】SimpleDateFormat 是线程不安全的类，一般不要定义为 ...

阅读全文 »

Flink allowedLateness

发表于 2019-03-24 | 更新于 2019-06-12 | 分类于 Flink

out-of-order element与late element 通过watermark机制来处理out-of-order的问题，属于第一层防护，属于全局性的防护，通常说的乱序问题的解决办法，就是指这类；通过窗口上的allowedLateness机制来处理out-of-order的问题，属于第二 ...

阅读全文 »

Flink trigger

发表于 2019-03-24 | 更新于 2019-06-12 | 分类于 Flink

1. 窗口触发器触发器(Trigger)决定了窗口(请参阅窗口概述)博文)什么时候准备好被窗口函数处理。每个窗口分配器都带有一个默认的 Trigger。如果默认触发器不能满足你的要求，可以使用 trigger(…) 指定自定义的触发器。触发器接口有五个方法来对不同的事件做出响应：public ab ...

阅读全文 »

kafka partition 数量选择

发表于 2019-03-23 | 更新于 2019-04-18 | 分类于 Kafka

越多的分区可以提供更高的吞吐量首先我们需要明白以下事实：在kafka中，单个patition是kafka并行操作的最小单元。在producer和broker端，向每一个分区写入数据是可以完全并行化的，此时，可以通过加大硬件资源的利用率来提升系统的吞吐量，例如对数据进行压缩。在consumer段，ka ...

阅读全文 »

Flink 批处理 map 与 mapPartition

发表于 2019-03-21 | 更新于 2019-06-12 | 分类于 Flink

map采用一个数据元并生成一个数据元。data.map(new MapFunction<String, Integer>() { public Integer map(String value) { return Integer.parseInt(value); & ...

阅读全文 »

Flink 分布式缓存Distributed Cache

发表于 2019-03-21 | 更新于 2019-06-12 | 分类于 Flink

不管是流式还是批处理都可以使用Flink提供了一个分布式缓存，类似于Apache Hadoop，可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件，如字典或机器学习的回归模型。缓存的工作原理如下。程序在其作为缓存文件的特定名称下注册本地或远程文件系统（如HDFS或S3）的文件 ...

阅读全文 »

kafka Coordinator

发表于 2019-03-21 | 更新于 2019-04-18 | 分类于 Kafka

Rebalancerebalance本质上是一种协议，规定了一个consumer group下的所有consumer如何达成一致来分配订阅topic的每个分区。比如某个group下有20个consumer，它订阅了一个具有100个分区的topic。正常情况下，Kafka平均会为每个consumer分 ...

阅读全文 »