hive延迟时间方法（统计网页浏览时长）

鱼人首领 2023-01-06 22:09:14

最近在拉勾网学习大数据，刚听到 hive的时候，还不以为然，觉得就是sql的使用罢了，但是听的久了，才知道，自己的认知有多么low，如果没有老师讲过的开窗函数的复杂使用，可能无法完成这道练习题：，下面我们就来聊聊关于hive延迟时间方法?接下来我们就一起去了解一下吧!

hive延迟时间方法

最近在拉勾网学习大数据，刚听到 hive的时候，还不以为然，觉得就是sql的使用罢了，但是听的久了，才知道，自己的认知有多么low，如果没有老师讲过的开窗函数的复杂使用，可能无法完成这道练习题：

这道练习题的大致内容如下：

表结构：

id 用户ID

dt 浏览的时间

url 浏览网页的URL

样例数据如下： -------------------- ------------------- -------------------- | id| dt| browseid| -------------------- ------------------- -------------------- |934e8bee978a42c7a...|2020-05-28 17:02:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 17:23:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 17:09:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 17:12:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 17:31:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 17:34:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:46:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:13:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:14:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:11:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:20:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:25:00|https://www.lagou...| |934e8bee978a42c7a...|2020-05-28 18:41:00|https://www.lagou...| .................. -------------------- ------------------- -------------------- 现在要的结果是如果两次浏览之间的间隔超过30分钟，认为是两个不同的浏览时间；再求每个id浏览时⻓、步⻓预期结果如下： 934e8bee978a42c7a8dbb4cfa8af0b4f 32.0 6 934e8bee978a42c7a8dbb4cfa8af0b4f 35.0 7 含义就是用户【934e8bee978a42c7a8dbb4cfa8af0b4f 】一次浏览的时长是32分钟，看了6个网页用户【934e8bee978a42c7a8dbb4cfa8af0b4f 】另一次浏览的时长是35分钟，看了7个网页。这里的难点是：如果两次浏览之间的间隔超过30分钟，认为是两个不同的浏览时间。那么如何给同一个用户下面的数据进行划分。第一步：我们需要统计时间差，两次时间的差。这里我们需要使用的lag函数，在一行结果中显示上一行的浏览时间。然后通过unix_timestamp函数相减，获取时间差（单位是秒） lag(dt,1,dt) over(partition by id order by dt) as pre_dt, kk=unix_timestamp(dt)-unix_timestamp(pre_dt) -------------------------------- ------------------- ---- --- |id |dt |kk |no | -------------------------------- ------------------- ---- --- |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:02:00|0 |1 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:09:00|420 |2 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:12:00|180 |3 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:23:00|660 |4 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:31:00|480 |5 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:34:00|180 |6 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:11:00|2220|7 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:13:00|120 |8 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:14:00|60 |9 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:20:00|360 |10 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:25:00|300 |11 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:41:00|960 |12 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:46:00|300 |13 | 。。。。。。 -------------------------------- ------------------- ---- --- 通过数据，我们可以看到 no[1-6]是一组，因为这些数据中每次的浏览时间都在30min中。而no[7-13]也是另外一组，因为这些数据中也控制在每次的浏览时间都在30min中。而 6 与 7 的浏览时间超过了1800秒，也就是30min。那么我们人可以知道应该这么划分，但是如何告诉系统我的想法，将1-6 分成一组，将7-13分成另外一组呢。首先：我们人可以知道 7 就是第二组的开始，1是第一组的开始，那么，在程序里应该怎么做呢？建立一个delta字段，对之前的kk做处理，如果 kk >1800，那么kk=0，不然就返回kk -------------------------------- ------------------- ----- --- |id |dt |delta|no | -------------------------------- ------------------- ----- --- |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:02:00|0 |1 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:09:00|420 |2 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:12:00|180 |3 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:23:00|660 |4 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:31:00|480 |5 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:34:00|180 |6 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:11:00|0 |7 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:13:00|120 |8 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:14:00|60 |9 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:20:00|360 |10 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:25:00|300 |11 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:41:00|960 |12 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:46:00|300 |13 | 。。。。。。这样，我们可以看到每一组的开头的值，判断的标准就是 delta =0 -------------------------------- ------------------- ----- --- |id |dt |delta|no | -------------------------------- ------------------- ----- --- |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 17:02:00|0 |1 | |934e8bee978a42c7a8dbb4cfa8af0b4f|2020-05-28 18:11:00|0 |7 | ..... 我们拿到这份每一组开头的数据后，需要添加结束时间，这样每一行的记录中就会记录 id ,开始的时间，结束的时间我们拿到这份数据去和之前的原始数据 join，只要通过 dt 判断是否落在【开始时间，结束时间】这个区间内，就可以拿到这行记录落在哪个分区里。思路就到这里了，完整的代码就不贴啦。。。。完结撒花。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

hive延迟时间方法（统计网页浏览时长）

猜您喜欢

安迪蜕变日记（安迪丢了一堆爱马仕包）

清凉一夏感恩回馈（青春尚好风景无限）

奔腾b50故障通病（一三年奔腾B50SVS故障）

陆游最有诗意的诗句（陆游一首诗虽不是）

覆流年女主重生后杀了穆泽吗（为何前世穆泽明明没有那么爱安然）

综合布线设计包括哪些内容（一个综合布线工程从开始到结束）

不敢越雷池一步是指什么（不敢越雷池一步）

热门推荐

排行榜