hive格式转换函数（如何优雅的用Hive处理json格式字符串）

生簽約琴 2022-10-23 12:39:38

收藏赞分享

在大数据开发过程中我们常常会处理一些客户端日志，服务端的用户行为日志等等，这些日志通常都是JSON格式的，要对这些日志进行研究就需要用Hive把它们做成关系型表，Hive官方为我们提供了两个函数用于处理JSON格式数据。

get_json_object(STRING json_string, STRING path)

该函数从给定路径上的JSON字符串中抽取出JSON对象，并返回这个对象的JSON字符串形式，如果输入的JSON字符串非法，则返回NULL

json_tuple(STRING jsonStr, p1, p2, p3 .., pn)

该函数可以接受多个标签名称，对输入的JSON字符串进行处理（UDTF），相比get_json_object更加高效，通过一次调用就可以获得多个键值。json_tuple函数通常要和lateral view连用，用于将一行数据拆分成多行。

下面我们通过真实场景来看下两个函数的使用方法和区别

源表定义和初始化

如下所示为一个游戏对局结果的log样本

2021-05-29 GameResult {"players":[{"player_id":43455341,"rank":2},{"player_id":15278345,"rank":1},{"player_id":2689332,"rank":3}],"game_id":"111129320310391","timestamp":1622254656,"start_time":1622251256} 2021-05-29 GameResult {"players":[{"player_id":43455342,"rank":1},{"player_id":15278342,"rank":2},{"player_id":2689332,"rank":3}],"game_id":"111129320310392","timestamp":1622255656,"start_time":1622254256} 2021-05-29 GameResult {"players":[{"player_id":43455343,"rank":2},{"player_id":15278343,"rank":1}],"game_id":"111129320310393","timestamp":1622258656}

我们定义一张Hive表,并将样本数据写入到Hive表

CREATE TABLE stark.game_result_test ( logdate DATE, logtype STRING, content STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; # 加载数据 load data local inpath '/home/bi/xxx/gameresult_sample.txt' into table stark.game_result_test;

查看是否导入成功

hive格式转换函数（如何优雅的用Hive处理json格式字符串）(1)

然后我们分别用两个函数处理content字段

get_json_object函数

SQL如下

hive> SELECT t.logdate,t.logtype, > get_json_object(t.content,'$.players') AS players, > get_json_object(t.content,'$.game_id') AS game_id, > get_json_object(t.content,'$.timestamp') AS timestamp, > get_json_object(t.content,'$.start_time') AS start_time > FROM ( > SELECT logdate,logtype,content > FROM stark.game_result_test > ) t;

结果如下

hive格式转换函数（如何优雅的用Hive处理json格式字符串）(2)

通过该函数轻松完成了content字段的解析，但是不难发现每个字段的提取都要通过调用该函数处理json字符串完成，当json字符串中字段很多时会严重影响处理的效率。

json_tuple函数

同样是针对该表content字段的处理，使用json_tuple函数SQL语句如下

SELECT t.logdate,t.logtype,players,game_id,timestamp,start_time FROM stark.game_result_test t lateral view json_tuple(t.content,'players','game_id','timestamp','start_time') a AS players,game_id,timestamp,start_time;

由于get_tuple是UDTF函数（一个输入多个输出），所以要和lateral view 连用把一个字段拆分成多个字段。lateral view 得到的视图要起一个别名（本例为a）。

最终查询结果和get_json_object函数一致。

最后

目前为止，看起来这两个函数能够满足我们的基本需求，不过细心的读者会发现通过两个函数提取出来的players字段我们一直没有进一步拆分（当我们要对每个玩家的对局结果处理时是需要拆分出每个玩家的）。

players字段是一个json数组，这两个函数显然都无法处理，这就需要我们自定义一个UDF函数来进行处理，后续章节我会带领大家了解一下hive的自定义UDF，并拿该函数作为样例。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

出国的小程序有哪些（收集灵感还靠搭梯子）

烂人萌蛋
在电脑城买组装电脑应注意什么（品牌电脑和组装电脑的区别）

或者无趣
华为的手机什么品牌好（华为手机国之品牌）

花的悲伤
刚买的电脑卡顿不流畅是什么原因（电脑又双叒叕卡顿）

疯疯疯疯疯
scratch编程入门与算法进阶的课程（巧用编程软件Scratch再现千年算法）

嗄一站悻福
广州软件测试培训学费（成都软件测试培训班好不好）

未燃尽
哪个软件截屏效果好（截图怎么截）

慕璃晴夏

秒懂生活

hive格式转换函数（如何优雅的用Hive处理json格式字符串）

猜您喜欢

出国的小程序有哪些（收集灵感还靠搭梯子）

在电脑城买组装电脑应注意什么（品牌电脑和组装电脑的区别）

华为的手机什么品牌好（华为手机国之品牌）

刚买的电脑卡顿不流畅是什么原因（电脑又双叒叕卡顿）

scratch编程入门与算法进阶的课程（巧用编程软件Scratch再现千年算法）

广州软件测试培训学费（成都软件测试培训班好不好）

哪个软件截屏效果好（截图怎么截）

热门推荐

排行榜