如今在这个大数据时代,我们经常会被“标签化”,最常见的就是你逛淘宝时,会根据你的兴趣爱好等等特征进行推荐;本文是作者分享的关于从0到1搭建用户画像系统的设计思路,我们一起来学习一下。
1)商城已上线2周年,已有10万+在售物品;数据仓库中积累着大量的业务数据、日志数据及埋点数据;如何充分挖掘沉淀在数据仓库中的数据的价值,有效的支持用户画像的建设,成为当前的重要工作。
2)在保证用户规模不断增长的目标下,运营方考虑建立用户流失预警机制,及时识别将要流失的用户群体,及时采取运营策略换回用户。
目前团队已经搭建了比较成熟的数据仓库。也就是说已经有结构化的、清晰的用户属性、用户行为相关数据。
在此基础上,搭建用户画像系统,需要:
对人、货、场进行分析,对用户个体的性质和特征做出概括,形成相应的用户属性标签、用户行为标签后。才可以开始建模。
建模需要分别从定性、定量,两个方面入手:
模型计算完成后,需要计算模型的置信度;此时根据测试数据(可以是团队内部测试、灰度测试等方式),来判断模型计算的结果,与预期是否相符。
如果相符,就可以用这个模型来预测用户喜欢什么;如果与预期不相符,那么久需要重复上述过程。
比如商城系统中,有以下数据项:
用户忠诚度指标(L),与用户活跃度、购物车商品数、收藏数、下单数、在线时长的用户行为指标有一定的关系;将这5项数据指标的熵权值,定义为用户忠诚度指标,可以用以下公式表示:
其中a表示上表中A2-A6的归一化值,归一化计算公式如下:
w表示权重。权重系数计算公式如下:
其中,e为行为数据信息熵,计算公式如下:
最终计算所有的用户的指标L后,例如可以取前25%为高忠诚用户,25-50%为普通忠诚用户,剩余为低忠诚用户,取值范围可以根据业务实际情况调整。
另外,由于权重系数,有可能随时间的增加而衰减;所以如果需要,还需要定义衰减因子r;加入衰减因子后,标签权重=衰减因子*行为权重。
设计用户画像维度时,建议使用MECE(Mutually Exclusive Collectively Exhaustive)准则;也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并成为有效解决问题的方法。
比如初步搭建用户画像维度,可以参考下图:
上图为商城系统,初步的用户画像维度。图中的数据,按照获取的方式,可以分为:统计类标签、规则类标签、挖掘类标签。
统计类标签:这类标签是最为基础也最为常见的标签类型,例如对于某个用户来说,他的性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费类数据中统计得出;该类标签构成了用户画像的基础。
规则类标签:该类标签基于用户行为及确定的规则产生;例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数>=2,在实际开发画像的过程中,由于运营人员对业务更为熟悉、而数据人员对数据的结构、分布、特征更为熟悉;因此规则类标签的规则确定由运营人员和数据人员共同协商确定。
挖掘类标签:该类标签通过数据挖掘产生,应用在对用户的某些属性或某些行为进行预测判断;例如根据一个用户的行为习惯判断该用户是男性还是女性,根据一个用户的消费习惯判断其对某商品的偏好程度;该类标签需要通过算法挖掘产生。
基于用户画像数据,可以使运营人员、营销人员,有更好的用户认识,带来更佳的用户服务质量,实现精准运营、精准营销。
设计用户画像的可视化展现时,可以使用以下工具:
其中tableau、powerbi等自助式数据分析工具,可以让没有编程经验的业务人员、运营人员等进行自我数据分析,不需要依赖IT人员。
在初步形成了用户画像后,并不能直接交给运营、业务人员实际使用,还需要评估用户画像的准确性。
评估方式主要分为3种:逻辑验证、A/B test、用户回访。
逻辑验证:也叫做交叉验证;在完整的用户画像标签体系中,一些标签往往会存在一些相关性;比如用户的累计在线时长越长,订单量通常会越高;比如购买3C产品的用户群中,男性用户数通常大于女性用户数;另外,如果公司购买了第三方机构的数据,也可用于交叉验证。
A/B test:也叫做灰度测试;以上述的忠诚度为例,保证对照组、实验组的流量相同;对实验组的用户,进行提升忠诚度的运营策略(促销活动、积分奖励等);如果实验组的用户,忠诚度相比对照组用户,有一定提升,则可以认为用户画像比较精确。
用户回访:最朴实的评估方法,比如用户画像系统,定义了10万用户为低忠诚度用户;此时从中随机抽取1000人,交给客服,进行回访。根据回访结果,判断用户画像结果是否准确;甚至可以对回访结果进行文本挖掘,形成词云,查看消极词的占比。
当公司业务规模,用户体量上升到一定量级;业务、运营团队,往往会提出对用户精准运营的想法;此时就需要用户画像系统,在支持业务运营的同时,也可以帮助产品经理更好的了解用户。
0-1搭建用户画像系统,需要在已有比较成熟的数据仓库的前提下进行:
原文:https://mp.weixin.qq.com/s/vsnjfQZPpm6eq3gcXF0laQ
既然来了,说些什么?