大数据入门-什么是Kudu

大家好，欢迎来到IT知识分享网。

一个Tablet是一张表的一个连续片段，Tablet是表的水平分区，Tablet之间的Primary Key范围不会重叠，一张表的所有Tablet片段构成了这张表的所有Primary Key范围。Tablet会冗余存储在多个Tablet Server上设置副本，任何时刻只有一个Tablet Server是Leader，其他都是Follower。

三、特性

====

1.重要性

1.大数据分析的复杂性往往是存储系统的局限性带来的，Kudu 的局限性小很多，一定程度使大数据分析变得简单。

2.新的应用场景需要 Kudu，例如越来越多的应用集中在机器生成的数据和实时分析领域。

3.适配新的硬件环境，从而带来更高的性能和应用灵活性。

2.易用性

1.提供了更接近于 RDBMS 的功能和数据模型；

2.提供类似 RDBMS 的库表存储结构；

3.允许用户以和 RDBMS 相同的方式插入、更新和删除数据。

3.优势

Kudu 同时具备了逐行插入、低延迟随机访问、更新和快速分析扫描的能力，使得它在 OLAP 和 OLTP 中都能提供较好的支持，这些原本需要多个存储系统同时支持的复杂架构被替换成只有一个存储系统，所有的数据被存放在这个存储系统里，极大地简化了大数据的架构。

4.与传统关系型数据库比较

1.跟关系型数据库一样，Kudu 表有一个唯一的主键。

2.关系型数据库中常见的特性，比如事务、外键和非主键索引，目前在Kudu中是不支持的。

3.Kudu拥有一些OLAP和OLTP特性，但是缺少对跨行的原子性、一致性、隔离性、持久性事务的支持。

4.Kudu可被归为混合食物/分析处理（Hybrid Transaction/Analytic Processing，HTAP）类型数据库。

5.Kudu支持快速主键检索，并能在数据持续输入的同时进行分析，而 OLAP 数据库在这种场景下性能通常不是很好。

6.Kudu的持久性保证和 OLTP 数据库更为接近。

7.Kudu的Quorum 能力可以实现一种名为Fractured Mirrors的机制，即一个或两个节点使用行存储，另外的节点使用列存储。这样就可以在行存储的节点上执行OLTP类型的查询，在列存储的节点上执行OLAP查询，混合两种负载。

5.与其他大数据组件比较

1.HDFS擅长大规模扫描，但不擅长随机读，严格来说，并不支持随机写，可以通过合并的方式模拟随机写，但成本很高。

2.HBase和Cassandra擅长随机访问，随机读取和修改数据，但大规模扫描性能较差。

3.Kudu的目标是把扫描性能做到HDFS的两倍，而随机读性能接 HBase和Cassandra，实际目标是在SSD上随机读/写的延迟在1ms以内。

四、常用语句

======

1.建表

Kudu建表是需要主键的，主键不能为空。

1.建普通表

create table test.test1 (

date_timekey string not null,

username string null,

product_qty string null

)

stored as kudu

2.建分区表

create

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/139752.html

大数据入门-什么是Kudu

1.建普通表

2.建分区表

相关推荐

发表回复