【原稿】我分享的主题是数据驱动的决策辅助和产品智能大数据培训是骗局,主要涉及我在数据科学探索方面的经验以及Fix这个数据驱动的创业公司的商业模式、业务流程和参考。特征和推荐算法。
数据科学探索的心得与体会
数据科学可以从获得的大数据竞赛平台开始。这是一个大规模的数据科学家社区。成立于2010年,专注于举办数据科学和机器学习竞赛。
在 C 端,它迅速吸引了大量数据科学家和机器学习开发者的参与。在B端,.com的模式也与一大批优秀企业对接,探索现实中各种业务问题的算法和解决方案。
而其基于社区的招聘服务和代码共享工具也是社区运营的关键竞争力。
人们常说它是一个玩数据的平台,ML开发者大显身手,一举成名。如果你是学习数据科学的新手,想找工作,可以先参加几场比赛。
如下图,有两个练习:
回归分析预测房价。这是美国中西部只有大约 100,000 人的大学城。数据给出了79个解释变量,如质量得分、形状(规则/不规则/非常不规则)、居住面积、路面(铺好的砾石/柏油碎石)等。通过分析这些解释变量,可以预测房价。
如图,Y轴是销售价格,X轴是1-10的质量分数。可以看出,当质量分数增加时,售价也以增加的速度增加。
分类问题。这是给谷歌的视频打标签,使用-8M作为训练数据,视频在百万量级,每个视频对应3-5个标签,标签总数约4000个。
从给定的训练集中提取一些模型并移动到测试集。问题输出是对于每个视频,可以预测一个标签列表,并且标签可以按置信度排序。
在数据竞争中,数据经过预处理,基本变成了行列的表格数据。因此可以省去很多原始数据的预处理过程。
下图展示了基本的数据科学流程:
一开始要先收集原始数据(CRM、历史交易等),以及网站分析或埋点用户的APP行为,根据这些埋点跟踪用户的行为。
之后对原始数据进行预处理,也称为数据清洗,因为原始数据会有很多冗余、重复信息、缺失变量和错误。基于清洗后的数据集,可以进行一些探索性分析和机器学习。
数据科学用途和数据产品
尿布和啤酒是数据科学探索和分析的经典例子。许多分析师对产品信息进行分类并监控产品相关性。
总的来说,大部分产品的相关性较低,约为0.1,啤酒和纸尿裤的相关性为0.3。针对这一奇怪现象,分析人士分析发现,很多爸爸晚上去超市给宝宝买尿布,也买啤酒给自己喝。
这样,超市在推出产品时,可以将相关性比较高的产品放在一起,方便顾客选择。因此,对于数据科学来说,通过数据分析和建模,可以获得一些有说服力的信息,便于决策辅助。
另一个是生成分析和智能数据产品:
数据科学家分类
数据科学家可以分为两类,但也有很多人兼任并相互转换。
更多的时候是问题导向,比如用户在工作时间和下班后在购物平台上的消费习惯不同。最初可以对整体综合信息进行分析,然后根据结果进行更详细的分析。用户可以根据城市、地理位置、用户使用的客户端进行分类细化。
这里的整个过程是互动的,即不断提出新问题,通过分析解决,再提出新问题,最终目的是辅助决策。
主要由指标驱动,例如提高用户在广告平台上的转化率。转化率是从用户点击广告到产生转化或用户访问网站并下载应用的时间。
通过应用新模型或改进现有系统的现有参数来改进指标,最终目标是产生智能产品,当然中间考虑规模和自动化。
Fix的商业和商业模式
Fix的商业模式
Fix 的商业模式与早期的商业模式非常相似。在 2004、2005 年左右,Fix 的商业模式主要是用户可以建立一个他们想在线观看的电影队列。将电影发送到用户家中。
Fix采用的是直邮模式,不过是电商+直邮+推荐。现在,Fix是一家在线个性化服装推荐公司。用户注册后,系统会推荐一些衣服寄到家里,用户可以根据自己的兴趣和喜好来决定是否购买这些衣服。
Fix主要解决用户以下购物痛点:
Fix的商业模式
下图从用户的角度展示了Fix的业务流程:
从用户的角度来看,用户需要填写一份个人风格问卷。问卷涵盖了购买衣服时考虑的一般问题,例如颜色、价格、尺寸等。
Fix 收集用户的个人风格问卷,并根据算法和造型师推荐进行推荐。之后,用户会收到五件不同的衣服,可以在方便的地方试穿和搭配其他衣服,喜欢保留,不喜欢退货。
Fix在推荐衣服或搭配人品时,采用的是人机协同的方式,不是单纯的机器算法,也不是单纯的人工。优势互补,达到1+1>2的效果。
下图为人机协作推荐服装:
按算法:
如下图所示,人与算法协同工作:
构建人机协同系统,让两者优势互补,真正实现1+1>2。人类可以在系统中处理非结构化数据,例如文本数据、照片等。
您还可以与用户进行情感交流。比如造型师和用户之间,如果多做一些情感交流,大家就会更加信任他们。还可以有更多的创造力,使算法不受边缘情况的影响。
如上图,左边是电脑,右边是人。计算机可以处理相对繁重的重复计算。此外,计算机的短期记忆和长期记忆是人类无法比拟的。
人类擅长处理非数据结构,美化照片,建立更好的人机关系。灵敏度也可以处理,比如这句话:把麦克风放在地上,上面放一本书。其中,大家都知道的“上面”是地面,但在这样的场景下机器学习很难。
Fix 的数据团队简介和职责
下图是Fix的数据团队概览:
Fix团队由约80人组成,主要分为四个小团队:客户、推荐、库存和数据平台。数据平台团队的大数据架构和自动化分析流程支持其他三个团队,与业务单元一一对应。
客户团队主要做精准营销、需求预测、用户画像、客服分析。需求预测主要考虑用户的稳定增长、需求的季节性和订阅用户。
推荐团队主要做人货匹配、用户造型师匹配、人与造型师行为分析。
当用户发送请求时,造型师将与用户匹配。Human主要研究造型师在虚拟环境中的行为,比如一些历史购买或退货数据,并基于这些数据采样,构建一个虚拟环境供造型师选衣服。.
在已知购买和退货的情况下控制造型师信息的显示。还要检查不同的演示情况对造型师成功率的影响。造型师行为分析通过日志分析造型师的实际选择行为。
库存团队主要做库存预测、基于算法的清关和标签。
库存在任何时候都是非常可变的。仓库里有库存的商品,还有从库存发往用户家中的商品,留在用户家中,退回用户没有购买的商品,所以需要对库存进行预测。还有产品的标签,有了标签数据,可以做更好的匹配。
Fix的智能物流
智能物流-仓库分配
Fix采用单仓发货、单包方式。
如下图,选择仓库发货:
Fix 有五个存储库。当用户发送请求时,首先选择存储库。在选择仓库的时候,要考虑运输成本、交货时间、库存匹配等。仓库在不断的卖货,所以库存会不断的消耗,不同的库存和用户维度也在实时变化。
智能物流-造型师匹配
如下图,是用户造型师搭配表:
基于交易历史、造型师的用户评分和两个配置文件的匹配。它将考虑用户和造型师的属性。如果用户是妈妈,它会尽量推荐同样是妈妈的造型师。
智能物流——人与货的匹配
下图是基于用户和过去产品交易的特征建模:
人货匹配可以理解为更传统的机器学习算法,其中之一就是协同过滤。协同过滤不使用用户特征和产品特征,而仅使用用户特征和过去的产品交易。
另一种方法是根据用户特征和产品特征进行建模。用户特征部分Fix有用户问卷;产品特征部分通过逻辑回归、支持向量机、深度神经网络学习得到。
下图展示了用户问卷的特点:
从图中可以看出,将收集用户的数据,包括年龄、位置、职业,以及用户的体型、颜色偏好等。
Fix还设计了风格彩虹概念,将每个用户的风格和喜好放在七个维度,包括经典、浪漫、波西米亚、前卫、闪亮、休闲和制服。
另外,隐式大小可以根据交易历史得到。例如,如果用户规模从小到大,在不同的范围内,模型会预测一些隐式的规模来将用户放在相同的范围内。
下图为产品特点:
产品特征通过深度神经网络学习获得。通过对图片的分析,将每个产品的图片放入深度神经网络,并产生一些流程。可以为每个产品过程计算产品相似度矩阵,从而可以使用邻近矩阵。推荐方法。
Fix的推荐算法
在算法方面,Fix主要是在开源库的基础上自研,更像。
如下图,Fix主要算法Mixed-混合效果逻辑回归:
在矩阵中,每一行代表一个用户,每一列代表一个产品。还有用户特征、产品特征,还有一些匹配的反馈。然后通过建模预测这些数据,这是具有混合效应的逻辑回归。
推荐算法的挑战
对于推荐算法,最应该考虑的指标是什么?例如,交易数据、购买率?
Naïve 的解决方案是忽略造型师的选择并为交易数据建模。
交易数据是每个用户,每次邮寄、购买和退回的物品和产品。这样做的好处是可以用传统的机器学习来解决问题,而且交易数据量不是很大。
但是,如果我们真的使用这种方法,我们会遇到很多问题。要删除数据:
当用户有特殊要求时,如果用户不喜欢无袖,造型师不会推荐。这部分数据无法反映在交易数据中。对于此类用户,无法估计这些用户推荐的这些产品是否成功。速度。
购买率不一定是一个好的排序指标
下面两张图是两件衣服的购买率对比:
图中我们可以看到第一项覆盖率比较低,大圈是所有用户群。所有用户群体中只有一小部分选择了这款产品,因为这款产品比较前卫,虽然受众少大数据培训是骗局,但知道为谁选择,购买率高。
第二件比较中性和百搭,可以送给任何人,但造型师不太确定顾客在买什么。因此,被选中的用户圈子覆盖面大,但覆盖率高,购买率低。
如下图,如果以购买率作为指标,则需要将第一项排在第一位:
订购时需要注意的一个非常重要的因素是,在造型师选择过程中会有选择性偏差,可以使用两阶段模型来解决这种偏差。
总结
本文主要分享一些数据科学的经验和Fix的一些关键技术。如果读者对数据科学感兴趣,我建议三个词:兴趣、实践和分享。
以上内容根据王建强先生在“大数据应用创新”专场的演讲内容整理而成。
原美国总部技术总监,中国科学技术大学管理学学士,博士。2008年获得洛瓦州统计学博士学位。他是科罗拉多州立大学(州)统计系的客座教授,美国国家统计局(of)和美国农业部联合培养的博士后,-的高级科学家。 (-Labs),以及 广告组的数据科学家。拥有多年数据分析与建模经验,涵盖需求预测、供应链管理、广告点击率预测、广告排名、推荐算法、统计预测模型等领域。对数据科学教育、互联网广告和新兴零售商业模式感兴趣。
【51CTO原稿,合作网站转载,转载请注明原作者及出处】