SQL29 计算用户的平均次日留存率
SQL29 计算用户的平均次日留存率
❤️欢迎订阅java厂长《SQL每日一题》 ❤️
1、题目📑
现在运营想要查看用户在某天刷题后第二天还会再来刷题的平均概率。请你取出相应数据。
示例:question_practice_detail
id | device_id | quest_id | result | date |
---|---|---|---|---|
1 | 2138 | 111 | wrong | 2021-05-03 |
2 | 3214 | 112 | wrong | 2021-05-09 |
3 | 3214 | 113 | wrong | 2021-06-15 |
4 | 6543 | 111 | right | 2021-08-13 |
5 | 2315 | 115 | right | 2021-08-13 |
6 | 2315 | 116 | right | 2021-08-14 |
7 | 2315 | 117 | wrong | 2021-08-15 |
……… | …… | …… | ………… | ………… |
根据示例,你的查询应返回以下结果:
avg_ret |
---|
0.3000 |
示例1
输入:
drop table if exists `user_profile`;
drop table if exists `question_practice_detail`;
drop table if exists `question_detail`;
CREATE TABLE `user_profile` (
`id` int NOT NULL,
`device_id` int NOT NULL,
`gender` varchar(14) NOT NULL,
`age` int ,
`university` varchar(32) NOT NULL,
`gpa` float,
`active_days_within_30` int ,
`question_cnt` int ,
`answer_cnt` int
);
CREATE TABLE `question_practice_detail` (
`id` int NOT NULL,
`device_id` int NOT NULL,
`question_id`int NOT NULL,
`result` varchar(32) NOT NULL,
`date` date NOT NULL
);
CREATE TABLE `question_detail` (
`id` int NOT NULL,
`question_id`int NOT NULL,
`difficult_level` varchar(32) NOT NULL
);
INSERT INTO user_profile VALUES(1,2138,'male',21,'北京大学',3.4,7,2,12);
INSERT INTO user_profile VALUES(2,3214,'male',null,'复旦大学',4.0,15,5,25);
INSERT INTO user_profile VALUES(3,6543,'female',20,'北京大学',3.2,12,3,30);
INSERT INTO user_profile VALUES(4,2315,'female',23,'浙江大学',3.6,5,1,2);
INSERT INTO user_profile VALUES(5,5432,'male',25,'山东大学',3.8,20,15,70);
INSERT INTO user_profile VALUES(6,2131,'male',28,'山东大学',3.3,15,7,13);
INSERT INTO user_profile VALUES(7,4321,'male',28,'复旦大学',3.6,9,6,52);
INSERT INTO question_practice_detail VALUES(1,2138,111,'wrong','2021-05-03');
INSERT INTO question_practice_detail VALUES(2,3214,112,'wrong','2021-05-09');
INSERT INTO question_practice_detail VALUES(3,3214,113,'wrong','2021-06-15');
INSERT INTO question_practice_detail VALUES(4,6543,111,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(5,2315,115,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(6,2315,116,'right','2021-08-14');
INSERT INTO question_practice_detail VALUES(7,2315,117,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(8,3214,112,'wrong','2021-05-09');
INSERT INTO question_practice_detail VALUES(9,3214,113,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(10,6543,111,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(11,2315,115,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(12,2315,116,'right','2021-08-14');
INSERT INTO question_practice_detail VALUES(13,2315,117,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(14,3214,112,'wrong','2021-08-16');
INSERT INTO question_practice_detail VALUES(15,3214,113,'wrong','2021-08-18');
INSERT INTO question_practice_detail VALUES(16,6543,111,'right','2021-08-13');
INSERT INTO question_detail VALUES(1,111,'hard');
INSERT INTO question_detail VALUES(2,112,'medium');
INSERT INTO question_detail VALUES(3,113,'easy');
INSERT INTO question_detail VALUES(4,115,'easy');
INSERT INTO question_detail VALUES(5,116,'medium');
INSERT INTO question_detail VALUES(6,117,'easy');
输出:
0.3000
2、思路🧠
问题分解:
- 限定条件
- 将第一次查询出来的日期作为第一天来刷题的日期,通过连接来构造出第二天刷题的日期,做一个左连接的操作,通过
date_add(date1, interval 1 day)=date2
来限定第二天刷题的用户,这里需要对device_id
进行去重的操作。 - 使用lead函数将同一用户的日期进行上移操作,进行拼接,即
lead( date ) over ( PARTITION BY device_id ORDER BY date ) AS date2
- 将第一次查询出来的日期作为第一天来刷题的日期,通过连接来构造出第二天刷题的日期,做一个左连接的操作,通过
- 平均概率
- count(date1)得到第一天刷题的全部的date记录数作为分母,count(date2)得到第二天刷题的关联上了的date记录数作为分子,相除即可得到平均概率
- 检查
date2
和date1
的日期差值是否为1,如果为1表示次日留存了,否则为0表示次日未留存,取avg即可得平均概率。
函数介绍:
- lag :向前,形象的理解就是把数据从上向下推,上端出现空格
- lead :向后,形象的理解就是把数据从下向上推,下端出现空格
解决方法:
- 表头重命名:as
- 去重:按照devece_id,date去重,因为一个人一天可能来多次
- 子查询必须全部有重命名,联表查询需要指定表名。
3、代码👨💻
commit AC
SELECT
count( t1_date ) / count( t2_date )
FROM
(
SELECT DISTINCT
t2.device_id,
t1.date t1_date,
t2.date t2_date
FROM
question_practice_detail t2
LEFT JOIN ( SELECT DISTINCT device_id, date FROM question_practice_detail ) AS t1 ON t1.device_id = t2.device_id
AND date_add( t1.date, INTERVAL 1 DAY ) = t2.date
) AS next_date
SELECT
AVG(
IF
( datediff( date2, date1 ) = 1, 1, 0 )) AS avg_ret
FROM
(
SELECT DISTINCT
device_id,
date AS date1,
lead( date ) over ( PARTITION BY device_id ORDER BY date ) AS date2
FROM
( SELECT DISTINCT device_id, date FROM question_practice_detail ) AS t1
) AS count_next_date
4、总结
该题目的对SQL的语法及基础知识,学会使用 year
、month
、day
来对日期进行获取,如果想对时期进行加减操作 加操作:date_add
、 减操作:date_sub
、 日期差:datediff
,像内连接、外连接、左连接、右连接等都要有相关的了解,其次当你编写了大量的SQL之后,就要学会进行SQL的优化,这对于数据查询的时间会有大幅度的降低。
❤️来自专栏《Mysql每日一题》欢迎订阅❤️
厂长写博客目的初衷很简单,希望大家在学习的过程中少走弯路,多学一些东西,对自己有帮助的留下你的赞赞👍或者关注➕都是对我最大的支持,你的关注和点赞给厂长每天更文的动力。
对文章其中一部分不理解,都可以评论区回复我,我们来一起讨论,共同学习,一起进步!
转载自:https://juejin.cn/post/7126901309789192206