【笔记】数据分析应该掌握的基本概念
商业智能、数据仓库、数据挖掘的关系
商业智能
商业智能:BI 即 Business Intelligence.
商业智能是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。
数据仓库
数据仓库:DW 即 Data Warehouse.
数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。
数据挖掘
数据挖掘:DM 即 Data Mining.
数据挖掘的核心包括分析、聚类、预测、关联分析等任务,最终得到有商业价值的结果。
元数据 VS 数据元
元数据
MetaData:描述其它数据的数据,也称为“中介数据”。
类似于面向对象里的类的概念,比如图书,包括书名、作者、出版社等多个属性。
数据元
Data Element: 就是最小数据单元。
继续借用上面的图书例子,书的书名、作者出版社等等就是数据元。
数据挖掘的流程
数据挖掘的一个英文解释叫Knowledge Discovery in Database, 简称KDD。
1. 分类
就是通过训练集得到一个分类模型,然后用这个模型可以对其它数据进行分类。
训练集
用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。
测试集
人们已经给出了测试结果,就是用来给训练出来的模型做验证,看机器分类是否正确。
2. 聚类
人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。往往利用聚类做数据划分。
3. 预测
就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
4. 关联分析
就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事物数据分析中。
KDD过程
1. 数据输入
2. 数据预处理
数据清洗
去除重复数据,去噪声(即干扰数据)以及填充缺失值。
数据集成
将多个数据源中的数据存放到一个统一的数据存储中。
数据变换
将数据转换成适合数据挖掘的形式。
3. 数据挖掘
4. 后处理
将预测结果进一步处理。比如二分类问题,一般得到的0~1之间的概率值,此时以0.5为界,进行四舍五入。