处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术处理大数据的基础架构 OLTP 和 OLAP 的区别 数据库与 Hadoop Spark Hive 和 Flink 大数据技术 hadooploap 数据库

大家好,欢迎来到IT知识分享网。

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试



处理大数据的基础架构

处理大数据的基础架构主要有以下几种:

这些基础架构可以相互组合和扩展,以适应不同的大数据处理场景和需求。

之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题

Hadoop、Spark、Hive和Flink

在这里插入图片描述
小数据问题不大

OLTP是啥?

OLTP( On-Line Transaction Processing ) 联机事务处理过程,
通常也可以成为面向交易的处理系统。

个人理解为主要场景针对用户人机交互频繁,数据量小操作快速响应的实时处理系统中
Mysql以及Oracle等数据库软件可以理解为OLTP的工业应用软件体现。

OLAP( On-Line Analytical Processing),联机分析处理过程。
个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。
Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。

原来如此了,数据库做不了大数据的分析类的问题

为什么要大数据?

在这里插入图片描述
在这里插入图片描述
06年写Java的MapReduce程序,难理解

在这里插入图片描述
在这里插入图片描述

只写sql然后转译为hive那边的Java

批处理,这些是【离线一大批】

kafka传输技术,快速

我们从传输开始学起

在这里插入图片描述
在这里插入图片描述
TB级别量的数据,后续可以对接很多大数据处理技术框架

在这里插入图片描述
有点厉害了

现有的消息模型?

在这里插入图片描述
在这里插入图片描述
半结构化的东西

kafka监听器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
docker去部署kafka的内外网监听端口
在这里插入图片描述




kafka的消息模型

在这里插入图片描述
在这里插入图片描述
处于性能和开销的考虑
否则还要维护锁,加锁,减锁
否则就会引入竞争,麻烦
最大化我们要提升性能和吞吐量
在这里插入图片描述
在这里插入图片描述
这种是一对一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
不同分区之间的消费顺序不知道
offset早的是先消费
在这里插入图片描述
你想要保证顺序会设置key同














在这里插入图片描述
tcp?
ack确认信息
在这里插入图片描述
先读信息,至少读一次
在这里插入图片描述
给位置,最多读一次,可以不读
在这里插入图片描述






生产者api

在这里插入图片描述
在这里插入图片描述
生产者只大量生产,不管消费,现在就是中国缓冲区满了,老百姓没钱消费,导致生产过剩

在这里插入图片描述

这就是原子性

kafka序列化

在这里插入图片描述
在这里插入图片描述
前序、中序、后序序列化
跟买电脑一样
一堆零件,你送到了,找师傅安装



在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实际上
在这里插入图片描述
要卡主时间顺序的






在这里插入图片描述
注册制
在这里插入图片描述
header标识一下
在这里插入图片描述



实际订餐和菜品看不到

在这里插入图片描述
在这里插入图片描述
如果前面完不成,后面就gg
网络延时导致的


在这里插入图片描述
异步重试顺序如何保证

在这里插入图片描述
一会上菜,半天看不到,gg
消息积压很恶心

在这里插入图片描述
不看所有信息,只看id
在这里插入图片描述
又有问题,看日志
有几个商户的订单贼多,都放一个partition,怎么办?



那按照用户编号来放,这样,某个订单就走同一个partition

在这里插入图片描述
这样好多了
后面呢?
在这里插入图片描述
促销……
在这里插入图片描述
太骚了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
哈哈哈技术太难了
消息积压有不同的原因














在这里插入图片描述
尝试插入,不行就改key
在这里插入图片描述
主从服务器
有订单,但是没有菜
主从数据库同步延时
就查不到数据
或者查不到最新数据
在这里插入图片描述







在这里插入图片描述
精确传才行

kafka默认就是容易重复

在这里插入图片描述
不存在插入,存在就更新

在这里插入图片描述
公用数据库和kafka系统

cpu容易挂的话,gg

kafka是牛逼的,很少出问题,大多都是逻辑出了问题。


总结

提示:重要经验:

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131955.html

(0)
上一篇 2025-08-04 13:45
下一篇 2025-08-04 14:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信