roc什么意思(ROC值什么意思)

1.业务逻辑

数据分析遵循一定的流程，既保证了数据分析每个阶段的工作内容有章可循，也使得分析的最终结果更加准确，更有说服力。

通常，数据分析分为以下步骤:

了解业务，确定目标，分析清楚需求。

理解数据、收集原始数据、描述数据、探索数据和检查数据质量。

准备、选择、清理、构建、整合和格式化数据。

建立模型，选择建模技术，优化参数，生成测试计划，建立模型。

对模型进行评价，对模型进行综合评价，对结果进行评价，对过程进行回顾。

结果的部署和分析结果的应用

2.特色工程

包括特征提取、特征构建和特征选择。特征工程的目的是筛选出更好的特征，获得更好的训练数据。因为好的特征更灵活，可以用简单的模型进行训练，可以得到更好的结果。

3.数据采集/清理/采样

1.数据收集

在数据收集之前，有必要指定要收集的数据。大意是:哪些数据对最终结果预测有帮助？我们能收集数据吗？上网计算快吗？

1:比如现在我想预测一个用户对一个产品的订单，或者我想给用户推荐一个产品。我需要收集什么信息？

店主:商店的等级，商店类别…

商品:商品评分，买家数量，颜色，材质，领子形状…

用户:历史信息(购买商品的最低和最高价格)、消费能力、商品停留时间…

2.数据清理

数据清理也是重要的一步。机器学习算法大部分时间是一个处理机器。至于最终的产品，那就要看原材料的质量了。数据清洗就是去除脏数据，比如一些商品的账单数据。

那么如何判断脏数据呢？

简单属性判断:身高3米的人；一个人一个月买了一个10w的发夹。

或者组合属性判断:要不要判断一个人会不会买篮球鞋，样本中有85%的女性用户？

完成相应的默认值:扔掉不可信的样本，考虑不使用默认值多的字段。

数据清理标准:

数据完整性——比如缺少性别、籍贯、年龄等。在人的属性中

数据的唯一性——例如，不同来源的数据是重复的。

数据的权威性——例如，同一个指标有来自多个来源的不同值的数据。

数据的合法性——比如获得的数据不符合常识，年龄超过150岁。

数据的一致性——比如不同来源的不同指标实际内涵相同，或者同一指标内涵不一致。

3.数据采样

采集清洗数据后，正负样本不平衡，需要进行数据采样。抽样方法是随机抽样和分层抽样。但是随机抽样会有隐患，因为一次随机抽样得到的数据可能会很不均匀，更有可能根据特点采取分层抽样。

阳性和阴性样本不平衡的处理:

阳性样本