1.业务逻辑
数据分析遵循一定的流程,既保证了数据分析每个阶段的工作内容有章可循,也使得分析的最终结果更加准确,更有说服力。
通常,数据分析分为以下步骤:
了解业务,确定目标,分析清楚需求。
理解数据、收集原始数据、描述数据、探索数据和检查数据质量。
准备、选择、清理、构建、整合和格式化数据。
建立模型,选择建模技术,优化参数,生成测试计划,建立模型。
对模型进行评价,对模型进行综合评价,对结果进行评价,对过程进行回顾。
结果的部署和分析结果的应用
2.特色工程
包括特征提取、特征构建和特征选择。特征工程的目的是筛选出更好的特征,获得更好的训练数据。因为好的特征更灵活,可以用简单的模型进行训练,可以得到更好的结果。
3.数据采集/清理/采样
1.数据收集
在数据收集之前,有必要指定要收集的数据。大意是:哪些数据对最终结果预测有帮助?我们能收集数据吗?上网计算快吗?
1:比如现在我想预测一个用户对一个产品的订单,或者我想给用户推荐一个产品。我需要收集什么信息?
店主:商店的等级,商店类别…
商品:商品评分,买家数量,颜色,材质,领子形状…
用户:历史信息(购买商品的最低和最高价格)、消费能力、商品停留时间…
2.数据清理
数据清理也是重要的一步。机器学习算法大部分时间是一个处理机器。至于最终的产品,那就要看原材料的质量了。数据清洗就是去除脏数据,比如一些商品的账单数据。
那么如何判断脏数据呢?
简单属性判断:身高3米的人;一个人一个月买了一个10w的发夹。
或者组合属性判断:要不要判断一个人会不会买篮球鞋,样本中有85%的女性用户?
完成相应的默认值:扔掉不可信的样本,考虑不使用默认值多的字段。
数据清理标准:
数据完整性——比如缺少性别、籍贯、年龄等。在人的属性中
数据的唯一性——例如,不同来源的数据是重复的。
数据的权威性——例如,同一个指标有来自多个来源的不同值的数据。
数据的合法性——比如获得的数据不符合常识,年龄超过150岁。
数据的一致性——比如不同来源的不同指标实际内涵相同,或者同一指标内涵不一致。
3.数据采样
采集清洗数据后,正负样本不平衡,需要进行数据采样。抽样方法是随机抽样和分层抽样。但是随机抽样会有隐患,因为一次随机抽样得到的数据可能会很不均匀,更有可能根据特点采取分层抽样。
阳性和阴性样本不平衡的处理:
阳性样本