本篇内容主要为分析内容的框架参考。
问题描述与目标
- 一般包含问题的背景(遇到什么问题/解决问题的意义)
- 主要解决的问题
- 解决该问题带来的收益
- 样本以及变量概述
数据说明
- 数据来源
- 数据集每条记录概述,变量描述
- 数据集训练集,测试集划分
数据可视化和摘要
- 统计描述,一般是探索性数据分析,连续变量均值,中位数,四分位数,极值等一系列统计信息。 可以通过观察均值与中位数的差异以及四分位距,了解数据偏度和分散情况;对于离散性变量,可以看到每个取值的频数,了解样本分布是否平均等信息。
- 可以绘制直方图(箱线图)了解数据分布
数据缺失
定义预测任务
- 预测什么
- 变量是什么
- 预测任务
- 特征选择
- 问题的不同解决方案
- 模型评价准则
- 实验方法
预测模型
- 如何应用训练集数据建模
- 建模工具/技术
从预测到实践
- 如何应用预测模型
- 与实际相关的评价准则
- 模型集成
模型评价和选择
- 模型比较
- 实验比较
- 结果分析