本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案。
全书共分为9个章节。
第一章 用户画像基础:讲述用户画像的一些基础概念、数据仓库架构、整个项目开发的流程、以及画像相关的表结构设计;
第二章 数据指标体系:从用户属性、用户行为、用户消费、风险控制等四个维度详细罗列了常用到的用户标签,这些标签基本涵盖了大部分场景一半以上的标签需求。同时介绍了标签的规范化命名方式;
第三章 标签数据存储:讲了为什么使用Hive、MySQL、hbase等数据库对标签数据进行存储,以及存储实现方式;
第四章 标签数据开发:本章是全书的重点章节,讲述了统计类标签、规则类标签、挖掘类标签、流式计算类标签的开发。以及用户特征库、人群计算、标签权重计算、打通数据服务层等方面的开发。;
第五章 开发性能调优:主要包括数据倾斜调优、开发中间表、读取小文件处理、redis缓存热数据等数据性能优化方面;
第六章 作业流程调度:数据的ETL调度是数据开发中的重要内容,本章主要讲了如何使用当下热门的开源调度工具Airflow进行数据的调度及场景调度异常的排查工作;
第七章 用户画像产品化:开发画像后的标签数据,如果只是“躺在”数据仓库中,并不能发挥更大的业务价值。只有将画像数据产品化后才能更方便业务方的使用。本章主要讲述了产品端的用户画像是什么样子?如何帮助业务人员进行分析,提供服务的;
第八章 用户画像应用:用户画像的应用包括用户分析、商品分析、流量分析、push、短信、邮件等营销以及站内的个性化推荐等应用场景;
第九章 实践案例详解:前面的八个章节主要从工程化开发的角度讲了如何从0到1搭建起用户画像系统及其应用场景,本章从完整的工业实践应用角度,通过两个实践案例帮助读者更好地理解画像系统是如何切入到应用场景中帮助提升工作效率、提高ROI的
赵宏田,资深大数据技术专家,先后在中国地质大学(武汉)和武汉大学获得工学和经济学双学士学位。在大数据、数据分析和数据化运营领域有多年的实践经验,擅长Hadoop、Spark等大数据技术,以及业务数据分析、数据仓库开发、爬虫、用户画像系统搭建等。开源项目的贡献者,知乎专栏作者,撰写了大量专业文章,广受好评。著有畅销书《数据化运营:系统方法与实践案例》。
方案二:引入随机数数据按照类型groupby时,会将相同的太ey所需的数据拉取到一个节点进行聚合而当某组数据量过大时,会出现其他组已经计算完成而当前任务未完成的情。可以考虑加人随机数,将原来的一组key强制拆分为多组进行聚合。下面通过一个案例介绍。现需要统计用户的订单量,执行如下代码selecttluseridfrom(selectuser-lfromdim。user_info_fact#用户维度表wheredatadate="20190101anduserstatusid=ljoin(selectuser-id,count(*)asorder_numfromdwdworder_fact#订单表wheresiteidin(600,900)andorder-status_idin(1,2,3)ont1。userid=t2user-id用户维度表中有2000条数据,订单表有10亿条数据,任务在未优化前执行了1个小时也没有跑出结果,判断可能是出现了数据倾斜。订单表中某些key值数量较多,在groupby的过程中拉取到一个task上执行时,会出现其他task执行完毕,等待该task执行的情况。这里可以将原本相同的key通过添加随机前缀的方式变成多个key,这样将原本被个task处理的key分散到多个task上先做一次聚合,然后去掉前缀再进行一次聚合得到最终结果。过程如图5-4所示。
——引自章节:5.1 数据倾斜调优137
朱光潜(1897—1986),中国现代著名美学家、文艺理论家、教育家、翻译家。安徽桐城人。生前长期担任北京大学教授。主要著作包括《悲剧心理学》、《谈美》、《诗论...
◆在一个害怕表现出对低级品位不敬的时代,究竟什么样的电影,才称得上伟大?《伟大的电影3》中100部佳作,选自罗杰·伊伯特生命即将画上句点之时,这是情真意切的推荐...
丁磊美国俄亥俄州立大学人工智能专业博士,美国哥伦比亚大学博士后。人工智能商业化落地先行者,曾为PayPal创立人工智能平台,历任百度金融首席数据科学家、PayP...
婚約者の皇太子と城下町でお忍びデート!?ループ7回目の人生が始まり、皇太子アルノルトのもとへ嫁ぐことになったリーシェ。アルノルトとその弟テオドールとの確執も解け...
《人机交互与戏剧表演:用戏剧理论构建良好用户体验(原书第2版)》由资深交互式设计师、才华横溢的技术专家亲笔撰写,历时20年全面更新,重新注入生命活力,与时俱进,...
《新智人 新时代》内容简介:本书分为十四个章节,分别从新智器时代降临、身边的智能应用、计算机真的有智能吗、智能来自何方、刷出
作者 | 安东·巴甫洛维奇·契诃夫(1860—1904)本职医生,19世纪俄国批判现实主义文学的最后一位伟大作家。从幽默讽刺小品开始自己的文学生涯,代表作有《一...
商法学 本书特色 《商法学(十二五现代远程教育法学专业系列教材)》由赵学刚编著,本教材既考虑到商法总论与分论的构成,更考虑到商主体法与商行为法之别,试图通过编排...
A new assessment of the West’s colonial recordIn the wake of the dissolution of ...
理查德·J. 埃文斯,英国历史学家,以19、20世纪德国史,尤其是第三帝国的研究享誉学界。曾任剑桥大学钦定历史学讲座教授、剑桥大学沃尔夫森学院院长。曾被授予汉堡...
【编辑推荐】★ 告诉你一个秘密,你的老板可能不是人!★新锐小说家康夫全新力作,蒲松龄看了也会被暖到!★惊奇又治愈!10个中国城市奇谭,带你进入“新中式”精怪世界...
精彩摘录使解扬如宋,使无降楚,曰:“晋师悉起,将至矣。”郑人而献诸楚。楚子厚赂之,使反其言。不许。三而许之。登诸楼车,使
作品目录第一章 重逢 第二章 忧伤的阳光第三章 阴影里的恋情第四章 高原上的邂逅第五章 今日相乐 皆当喜欢第六章 悲观主义的花朵
作品目录第1章 谢菲尔德大学的MATLAB遗传算法工具箱第2章 基于遗传算法和非线性规期的函数寻优算法第4章 基于遗传算法的TSP算法
服装造型学--理论篇 内容简介 本书从人体结构及人体测量入手,详细地分析了人体各个部位与服装之间的空间关系与构成原理,并在此基础上分析了利用新文化式原型的相关纸...
1944年,自诺曼底登陆以后,纳粹德军在西线战场遭受了一连串重创。到了1944年末,德军与盟军战势发生了微妙转机。盟军节节进逼但是已呈疲态,德军步步后退但是精锐...
《米》讲述主人翁五龙为了填饱肚子来到城市,在米店做伙计,饱受欺凌和漠视,经历了接连不断的阴谋和杀机。他霸占米店,凭着骨子里的狠劲儿渐渐发迹,成为小城一霸,从此展...
作品目录前言第一章 脑是复杂的信息处理系统1?1 脑的复杂的系统结构1?2 信息处理是脑的主要功能1?3 综合研究是脑科学深人发展的
九吃,原名王诗武,混迹餐饮江湖已逾二十载,现为《四川烹饪》主笔,“四川通吃帮”帮主,致力于推广川菜和四川美食,江湖人称“九吃叔叔”。十多年前创建了“四川通吃帮”...
亨利·罗伯特将军,生于1873年5月2日,胡格诺派教徒。他身材略显消瘦,但酷爱集体交往,是一位果断坚毅的美国陆军工程兵长官。“罗伯特议事规则”就是以他的名字命名...