类别:

HIve

  • 【hive】lateral view侧视图

    【hive】lateral view侧视图lateralview 也叫侧视图 属于 hivesql 所特有的语法

    2025-02-18
  • Hive函数大全(含例子)之字符串函数(String Functions)

    Hive函数大全(含例子)之字符串函数(String Functions)selectrpad 结果为 NULLrtrim 返回结果 去掉字符串 A 右边的空格返回类型 stringselect rtrim 结果为 1 123sentences 返回结果 将自然语言文本串标记为单词和句子返回类型

    2024-12-18
  • hive常用命令,推荐给新手

    hive常用命令,推荐给新手在大数据学习当中 尤其是 Hadoop 生态的学习当中 Hive 是必备的 也是相对门槛较低 比较好入手的一个组件 今天的大数据开发分享 和大家分享 Hive 的基础知识点

    2024-12-05
  • hive 的开窗函数row_number

    hive 的开窗函数row_number因为用 groupBy 聚合函数 只能求出 Top1 不能求 TopN 这里使用 row number over hive 的开窗函数 row number over 技术总结 row number over partition

    2024-11-29
  • Hive中rank()、dense_rank()、row_number()函数的区别

    Hive中rank()、dense_rank()、row_number()函数的区别前言在数据分析中经常对某个维度数据进行排名后取 TopN Hive 中有 rank dense rank row number 三个窗口函数 它们的区别如何呢 下面通过实际例子说明 让你一目了然 代码演示 rank 排序时相同结果的排

    2024-11-29
  • Hive row_number()优化改写:MAX/MIN STRUCT函数

    Hive row_number()优化改写:MAX/MIN STRUCT函数解决方案 3 max min struct 其实是把 row number 中的 partition by 信息改为 group by order by 改为 struct 里面的参数

    2024-11-29
  • Hive–行转列/列转行

    Hive–行转列/列转行一 lateralview 分类 视图功能 配合 UDTF 来使用 把某一行数据拆分成多行数据很多的 UDTF 不能将结果与源表进行关联 使用 lateralview 可以将 UDTF 拆分的单个字段数据与原

    2024-11-17
  • Hive的基本操作

    Hive的基本操作内容提要l Hive及beeline的命令行操作l jdbc操作Hivel Hive函数 3.1 Hive命令操作3.1.

    2024-09-13
  • 比Hive快800倍!大数据实时分析领域黑马开源ClickHouse

    作者 | 张海涛编辑 | Vincent出处丨AI 前线AI 前线导读:ClickHouse 是俄罗斯最大的搜索公司 Yandex 推出的大数据

    2024-07-15
  • Hive元数据存储和表数据存储

    Hive元数据存储和表数据存储一、相关概念1、元数据(metadata)元数据(MetaDate),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(MetadataRepository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所…

    2024-03-17
  • Hive学习之Hive数据类型

    Hive学习之Hive数据类型Hive到0.13.0版本为止已经支持越来越多的数据类型,像传统数据库中的VCHAR、CHAR、DATE以及所特有的复合类型MAP、STRUCT等。Hive中的数据类型可以分为数值类型、字符串类型、日期时间类型、复合类型以及其它类型,下面分别予以介绍。数值类型Hive中的数值类型与Java中的数值类型很相似,区别在于有些类型的名称不一样,可以概括为如下的表格:类型名称

    2024-02-24
  • Hive-On-Tez性能测试

    Hive-On-Tez性能测试TableofContentsHive-On-Tez测试MRR计算模型测试MPJ计算模型测试Hive-On-Tez测试在MRR和MPJ计算模型的处理上,TEZ能够提升的性能较为明显,具体测试如下:MRR计算模型测试测试表格1.users(id,name,password):数据总量1千万条

    2024-02-24
  • Hive的基本常识

    Hive的基本常识1、强制删除数据库:通常情况下数据库中有表是不能删除的,强制删除数据库使用“cascade”。如强制删除数据库“test”dropdatabasetestcascade;2、创建表指定分隔符,不指定分隔符默认是TextFile格式,输出时字段内容会挨着。cmissh@hn0-stg02

    2024-02-08
  • hive 正则表达式详解

    hive 正则表达式详解hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。1.regexp语法:AREGEXPB操作类型:strings描述:功能与RLIKE相同selectcount(*)fromolap_b_dw_hotelorder_fwherecreate_date_widnotregexp

    2024-01-02
  • Hive面试题

    Hive面试题Hive面试题整理(一)1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1)倾斜原因:map输出数据按keyHash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce上的数据量差异过大。(1)key分布不均匀;(2)业务

    2023-11-24
  • Hive 桶的分区

    Hive 桶的分区(一)、桶的概念:对于每一个表(table)或者分区,Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Buck

    2023-10-19
  • Hive – partition table query failed when stored as parquet

    Hive – partition table query failed when stored as parquetHiveisdevelopedbyFacebooktoanalyzeandextractusefulinformationfromtheirhugedatabutnowitis…

    2023-09-21
  • hive中标准偏差函数stddev()详细讲解

    hive中标准偏差函数stddev()详细讲解1.标准偏差概念标准偏差(StdDev,StandardDeviation)-统计学名词。一种度量数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。例如,A、B两组各有6位学生

    2023-09-20
  • Hive mapjoin使用

    Hive mapjoin使用方法一sethive.auto.convert.join=true;是否开自动mapjoinsethive.mapjoin.smalltable.filesize;–mapjoin的表size大小以上两个参数同时使用,在hive.auto.convert.join为true时,只要小表size小于hive.mapjoin.smalltable.filesize的设置值,并且小表不是关联操作的最后一张表,小表就会走mapjoin。sethive.auto.convert.join=

    2023-09-13
  • Hive的ods层建表语句及加载数据「建议收藏」

    Hive的ods层建表语句及加载数据「建议收藏」数仓搭建-ODS层1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。例如创建用户表:DROPTABLEIFEXISTSods_user_info;CREATEEXTERNALTABLEods_user_info(`id`

    2023-08-10
关注微信