hive格式转换函数(如何优雅的用Hive处理json格式字符串)

在大数据开发过程中我们常常会处理一些客户端日志,服务端的用户行为日志等等,这些日志通常都是JSON格式的,要对这些日志进行研究就需要用Hive把它们做成关系型表,Hive官方为我们提供了两个函数用于处理JSON格式数据。

  • get_json_object(STRING json_string, STRING path)

该函数从给定路径上的JSON字符串中抽取出JSON对象,并返回这个对象的JSON字符串形式,如果输入的JSON字符串非法,则返回NULL

  • json_tuple(STRING jsonStr, p1, p2, p3 .., pn)

该函数可以接受多个标签名称,对输入的JSON字符串进行处理(UDTF),相比get_json_object更加高效,通过一次调用就可以获得多个键值。json_tuple函数通常要和lateral view连用,用于将一行数据拆分成多行。

下面我们通过真实场景来看下两个函数的使用方法和区别

源表定义和初始化

如下所示为一个游戏对局结果的log样本

2021-05-29 GameResult {"players":[{"player_id":43455341,"rank":2},{"player_id":15278345,"rank":1},{"player_id":2689332,"rank":3}],"game_id":"111129320310391","timestamp":1622254656,"start_time":1622251256} 2021-05-29 GameResult {"players":[{"player_id":43455342,"rank":1},{"player_id":15278342,"rank":2},{"player_id":2689332,"rank":3}],"game_id":"111129320310392","timestamp":1622255656,"start_time":1622254256} 2021-05-29 GameResult {"players":[{"player_id":43455343,"rank":2},{"player_id":15278343,"rank":1}],"game_id":"111129320310393","timestamp":1622258656}

我们定义一张Hive表,并将样本数据写入到Hive表

CREATE TABLE stark.game_result_test ( logdate DATE, logtype STRING, content STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; # 加载数据 load data local inpath '/home/bi/xxx/gameresult_sample.txt' into table stark.game_result_test;

查看是否导入成功

hive格式转换函数(如何优雅的用Hive处理json格式字符串)(1)

然后我们分别用两个函数处理content字段

get_json_object函数

SQL如下

hive> SELECT t.logdate,t.logtype, > get_json_object(t.content,'$.players') AS players, > get_json_object(t.content,'$.game_id') AS game_id, > get_json_object(t.content,'$.timestamp') AS timestamp, > get_json_object(t.content,'$.start_time') AS start_time > FROM ( > SELECT logdate,logtype,content > FROM stark.game_result_test > ) t;

结果如下

hive格式转换函数(如何优雅的用Hive处理json格式字符串)(2)

通过该函数轻松完成了content字段的解析,但是不难发现每个字段的提取都要通过调用该函数处理json字符串完成,当json字符串中字段很多时会严重影响处理的效率。

json_tuple函数

同样是针对该表content字段的处理,使用json_tuple函数SQL语句如下

SELECT t.logdate,t.logtype,players,game_id,timestamp,start_time FROM stark.game_result_test t lateral view json_tuple(t.content,'players','game_id','timestamp','start_time') a AS players,game_id,timestamp,start_time;

由于get_tuple是UDTF函数(一个输入多个输出),所以要和lateral view 连用把一个字段拆分成多个字段。lateral view 得到的视图要起一个别名(本例为a)。

最终查询结果和get_json_object函数一致。

最后

目前为止,看起来这两个函数能够满足我们的基本需求,不过细心的读者会发现通过两个函数提取出来的players字段我们一直没有进一步拆分(当我们要对每个玩家的对局结果处理时是需要拆分出每个玩家的)。

players字段是一个json数组,这两个函数显然都无法处理,这就需要我们自定义一个UDF函数来进行处理,后续章节我会带领大家了解一下hive的自定义UDF,并拿该函数作为样例。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页