hive格式转换函数(如何优雅的用Hive处理json格式字符串)
在大数据开发过程中我们常常会处理一些客户端日志,服务端的用户行为日志等等,这些日志通常都是JSON格式的,要对这些日志进行研究就需要用Hive把它们做成关系型表,Hive官方为我们提供了两个函数用于处理JSON格式数据。
- get_json_object(STRING json_string, STRING path)
该函数从给定路径上的JSON字符串中抽取出JSON对象,并返回这个对象的JSON字符串形式,如果输入的JSON字符串非法,则返回NULL
- json_tuple(STRING jsonStr, p1, p2, p3 .., pn)
该函数可以接受多个标签名称,对输入的JSON字符串进行处理(UDTF),相比get_json_object更加高效,通过一次调用就可以获得多个键值。json_tuple函数通常要和lateral view连用,用于将一行数据拆分成多行。
下面我们通过真实场景来看下两个函数的使用方法和区别
源表定义和初始化如下所示为一个游戏对局结果的log样本
2021-05-29 GameResult {"players":[{"player_id":43455341,"rank":2},{"player_id":15278345,"rank":1},{"player_id":2689332,"rank":3}],"game_id":"111129320310391","timestamp":1622254656,"start_time":1622251256}
2021-05-29 GameResult {"players":[{"player_id":43455342,"rank":1},{"player_id":15278342,"rank":2},{"player_id":2689332,"rank":3}],"game_id":"111129320310392","timestamp":1622255656,"start_time":1622254256}
2021-05-29 GameResult {"players":[{"player_id":43455343,"rank":2},{"player_id":15278343,"rank":1}],"game_id":"111129320310393","timestamp":1622258656}
我们定义一张Hive表,并将样本数据写入到Hive表
CREATE TABLE stark.game_result_test (
logdate DATE,
logtype STRING,
content STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
# 加载数据
load data local inpath '/home/bi/xxx/gameresult_sample.txt' into table stark.game_result_test;
查看是否导入成功
然后我们分别用两个函数处理content字段
get_json_object函数SQL如下
hive> SELECT t.logdate,t.logtype,
> get_json_object(t.content,'$.players') AS players,
> get_json_object(t.content,'$.game_id') AS game_id,
> get_json_object(t.content,'$.timestamp') AS timestamp,
> get_json_object(t.content,'$.start_time') AS start_time
> FROM (
> SELECT logdate,logtype,content
> FROM stark.game_result_test
> ) t;
结果如下
通过该函数轻松完成了content字段的解析,但是不难发现每个字段的提取都要通过调用该函数处理json字符串完成,当json字符串中字段很多时会严重影响处理的效率。
json_tuple函数同样是针对该表content字段的处理,使用json_tuple函数SQL语句如下
SELECT t.logdate,t.logtype,players,game_id,timestamp,start_time
FROM stark.game_result_test t
lateral view json_tuple(t.content,'players','game_id','timestamp','start_time') a AS players,game_id,timestamp,start_time;
由于get_tuple是UDTF函数(一个输入多个输出),所以要和lateral view 连用把一个字段拆分成多个字段。lateral view 得到的视图要起一个别名(本例为a)。
最终查询结果和get_json_object函数一致。
最后目前为止,看起来这两个函数能够满足我们的基本需求,不过细心的读者会发现通过两个函数提取出来的players字段我们一直没有进一步拆分(当我们要对每个玩家的对局结果处理时是需要拆分出每个玩家的)。
players字段是一个json数组,这两个函数显然都无法处理,这就需要我们自定义一个UDF函数来进行处理,后续章节我会带领大家了解一下hive的自定义UDF,并拿该函数作为样例。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com