roc什么意思(ROC值什么意思)

1.业务逻辑

数据分析遵循一定的流程,既保证了数据分析每个阶段的工作内容有章可循,也使得分析的最终结果更加准确,更有说服力。

通常,数据分析分为以下步骤:

了解业务,确定目标,分析清楚需求。

理解数据、收集原始数据、描述数据、探索数据和检查数据质量。

准备、选择、清理、构建、整合和格式化数据。

建立模型,选择建模技术,优化参数,生成测试计划,建立模型。

对模型进行评价,对模型进行综合评价,对结果进行评价,对过程进行回顾。

结果的部署和分析结果的应用

2.特色工程

包括特征提取、特征构建和特征选择。特征工程的目的是筛选出更好的特征,获得更好的训练数据。因为好的特征更灵活,可以用简单的模型进行训练,可以得到更好的结果。

3.数据采集/清理/采样

1.数据收集

在数据收集之前,有必要指定要收集的数据。大意是:哪些数据对最终结果预测有帮助?我们能收集数据吗?上网计算快吗?

1:比如现在我想预测一个用户对一个产品的订单,或者我想给用户推荐一个产品。我需要收集什么信息?

店主:商店的等级,商店类别…

商品:商品评分,买家数量,颜色,材质,领子形状…

用户:历史信息(购买商品的最低和最高价格)、消费能力、商品停留时间…

2.数据清理

数据清理也是重要的一步。机器学习算法大部分时间是一个处理机器。至于最终的产品,那就要看原材料的质量了。数据清洗就是去除脏数据,比如一些商品的账单数据。

那么如何判断脏数据呢?

简单属性判断:身高3米的人;一个人一个月买了一个10w的发夹。

或者组合属性判断:要不要判断一个人会不会买篮球鞋,样本中有85%的女性用户?

完成相应的默认值:扔掉不可信的样本,考虑不使用默认值多的字段。

数据清理标准:

数据完整性——比如缺少性别、籍贯、年龄等。在人的属性中

数据的唯一性——例如,不同来源的数据是重复的。

数据的权威性——例如,同一个指标有来自多个来源的不同值的数据。

数据的合法性——比如获得的数据不符合常识,年龄超过150岁。

数据的一致性——比如不同来源的不同指标实际内涵相同,或者同一指标内涵不一致。

3.数据采样

采集清洗数据后,正负样本不平衡,需要进行数据采样。抽样方法是随机抽样和分层抽样。但是随机抽样会有隐患,因为一次随机抽样得到的数据可能会很不均匀,更有可能根据特点采取分层抽样。

阳性和阴性样本不平衡的处理:

阳性样本

(0)
上一篇 2022年6月25日
下一篇 2022年6月25日

相关推荐