Pray

人肉排渣工程师,擅长排渣数据,服务器排渣


  • 首页

  • 分类

  • 归档

clickhouse 字典

发表于 2019-04-02 | 分类于 clickhouse

介绍一个字典是一个映射 (key -> attributes) ,能够作为函数被用于查询。你可以认为它可以作为更便捷和高效的 JOIN 类型,作为维度表。 数据字典有两种,一个是内置字典,另一个是外置字典。 外部字典当启动服务器时,字典能够被创建,或者初次使用。通过dictionaries_l ...

阅读全文 »

clickhouse global用法

发表于 2019-03-31 | 分类于 clickhouse

global介绍global 有两种用法,GLOBAL in /GLOBAL join。 分布式查询先介绍一下分布式查询SELECT uniq(UserID) FROM distributed_table 将会被发送到所有远程服务器SELECT uniq(UserID) FROM local_tab ...

阅读全文 »

java8 Map merge、compute、computeIfAbsent、computeIfPresent

发表于 2019-03-30 | 更新于 2019-04-18 | 分类于 Java

单词计数var words = List.of("Foo", "Bar", "Foo", "Buzz", "Foo", "Buzz", "Fizz", "Fizz"); 普通写法var map = new HashMap<String, Integer>();words.forEach( ...

阅读全文 »

SimpleDateFormat线程不安全以及解决方法

发表于 2019-03-25 | 更新于 2019-04-18 | 分类于 Java

前言SimpleDateFormat主要是用它进行时间的格式化输出和解析,挺方便快捷的,但是SimpleDateFormat并不是一个线程安全的类。 先看看《阿里巴巴开发手册》对于SimpleDateFormat是怎么看待的:【强制】SimpleDateFormat 是线程不安全的类,一般不要定义为 ...

阅读全文 »

Flink allowedLateness

发表于 2019-03-24 | 更新于 2019-06-12 | 分类于 Flink

out-of-order element与late element 通过watermark机制来处理out-of-order的问题,属于第一层防护,属于全局性的防护,通常说的乱序问题的解决办法,就是指这类; 通过窗口上的allowedLateness机制来处理out-of-order的问题,属于第二 ...

阅读全文 »

Flink trigger

发表于 2019-03-24 | 更新于 2019-06-12 | 分类于 Flink

1. 窗口触发器触发器(Trigger)决定了窗口(请参阅窗口概述)博文)什么时候准备好被窗口函数处理。每个窗口分配器都带有一个默认的 Trigger。如果默认触发器不能满足你的要求,可以使用 trigger(…) 指定自定义的触发器。 触发器接口有五个方法来对不同的事件做出响应:public ab ...

阅读全文 »

kafka partition 数量选择

发表于 2019-03-23 | 更新于 2019-04-18 | 分类于 Kafka

越多的分区可以提供更高的吞吐量首先我们需要明白以下事实:在kafka中,单个patition是kafka并行操作的最小单元。在producer和broker端,向每一个分区写入数据是可以完全并行化的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩。在consumer段,ka ...

阅读全文 »

Flink 批处理 map 与 mapPartition

发表于 2019-03-21 | 更新于 2019-06-12 | 分类于 Flink

map采用一个数据元并生成一个数据元。data.map(new MapFunction<String, Integer>() { public Integer map(String value) { return Integer.parseInt(value); & ...

阅读全文 »

Flink 分布式缓存Distributed Cache

发表于 2019-03-21 | 更新于 2019-06-12 | 分类于 Flink

不管是流式还是批处理都可以使用Flink提供了一个分布式缓存,类似于Apache Hadoop,可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件,如字典或机器学习的回归模型。 缓存的工作原理如下。程序在其作为缓存文件的特定名称下注册本地或远程文件系统(如HDFS或S3)的文件 ...

阅读全文 »

kafka Coordinator

发表于 2019-03-21 | 更新于 2019-04-18 | 分类于 Kafka

Rebalancerebalance本质上是一种协议,规定了一个consumer group下的所有consumer如何达成一致来分配订阅topic的每个分区。比如某个group下有20个consumer,它订阅了一个具有100个分区的topic。正常情况下,Kafka平均会为每个consumer分 ...

阅读全文 »
1…12131415
笑笑

笑笑

142 日志
15 分类
© 2021 笑笑
由 Hexo 强力驱动 v3.8.0
|
主题 – NexT.Pisces v7.0.1
|