线上澳门葡京网

炼数成金 大数据分布式系统
订阅

分布式系统

一致性哈希算法的理解与实践
澳门葡京在线网址
一致哈希是一种特殊的哈希算法。在使用一致哈希算法后,哈希表槽位数(大小)的改变平均只需要对 K/n个关键字重新映射,其中K是关键字的数量, n是槽位数量。然而在传统的哈希表中,添加或删除一个槽位的几乎需要对 ...
HBase Rowkey 设计指南
澳门葡京在线网址
我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下:类似于 MySQL、Oracle中的主键,用于标示唯一的行;完全是由用 ...
分布式快照算法: Chandy-Lamport 算法
分布式快照算法: Chandy-Lamport 算法
Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?简单来说就是用来在缺乏 ...
HBase 协处理器入门及实战
HBase 协处理器入门及实战
HBase 和 MapReduce 有很高的集成,我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。但是在很多情况下,例如简单的加法计算或者聚合操作(求和、计数等),如果能够将这些计算推送到 RegionServer,这将大 ...
这可能是搭建Zookeeper集群介绍最全的文章
这可能是搭建Zookeeper集群介绍最全的文章
怎么搭建单机无安全校验的就不说了,百度一搜一大堆。这里我就说说怎么搭建一个生产环境可用的Zookeeper集群。Docker方式不太建议,要考虑的东西比较多,如果要用Docker方式还是比较建议自建镜像,假如是Docker专家 ...
大数据开发者应该知道的分布式系统 CAP 理论
大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论,以及CAP的权衡问题。CAP理论概述CAP理论 ...
深入理解Flink核心技术
深入理解Flink核心技术
Flink的核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以方便用户编写分布式任务:1. DataSet API, 对静 ...
Kafka 的七年之痒
Kafka 的七年之痒
Kafka 是 2010 年左右在 LinkedIn 研发的一套流数据处理平台。当时 LinkedIn 也和很多大的互联网公司一样,分很多的组,有很多的产品,每天收集非常多的数据。这些数据都是实时生成的,比如用户活跃度、日志,我们有 ...
分布式基础—RPC
分布式基础—RPC
在传统的开发模式中,我们通常将系统的各个服务部署在单台机器,随着服务的扩展,这种方式已经完全无法满足系统大规模的扩展需要,分布式系统由此诞生,在分布式系统中,最重要就是各个服务之间的 RPC 调用。RPC 全 ...
分布式机器学习平台比较:Spark / PMLS / TensorFlow
分布式机器学习平台比较:Spark / PMLS / TensorFlow
机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景的应用。当然, ...
Spark Streaming 技术点汇总
Spark Streaming 技术点汇总
Spark Streaming 支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。 Spark 在接收到实时输入数据流后,将数据划分成批次(divides the data ...
分布式流处理新贵Kafka Stream
分布式流处理新贵Kafka Stream
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kaf ...
分布式锁?架构师的这篇文章带你玩转!
分布式锁?架构师的这篇文章带你玩转!
大多数互联网系统都是分布式部署的,分布式部署确实能带来性能和效率上的提升,但为此,我们就需要多解决一个分布式环境下,数据一致性的问题。当某个资源在多系统之间,具有共享性的时候,为了保证大家访问这个资源 ...
Kafka实践:到底该不该把不同类型的消息放在同一个主题中?
Kafka实践:到底该不该把不同类型的消息放在同一个主题中?
如果你使用了像 Kafka 这样的流式处理平台,就要搞清楚一件事情:你需要用到哪些主题?特别是如果你要将一堆不同的事件作为消息发布到 Kafka,是将它们放在同一个主题中,还是将它们拆分到不同的主题中?Kafka 主题 ...
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Flink 的状态支持是使 Flink 在实现各种用例方面如此通用和强大的关键特性之一。为了使其更加容易使用,社区为其添加了 TTL 的原生支持(FLINK-9510, FLINK-9938),此功能允许在状态过期之后能够清理状态。在 Flink 1 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-3-18 18:20 , Processed in 0.131139 second(s), 16 queries .