【笔记】数据分析应该掌握的基本概念

商业智能、数据仓库、数据挖掘的关系

商业智能

商业智能:BI 即 Business Intelligence.
商业智能是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。

数据仓库

数据仓库:DW 即 Data Warehouse.
数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。

数据挖掘

数据挖掘:DM 即 Data Mining.
数据挖掘的核心包括分析、聚类、预测、关联分析等任务,最终得到有商业价值的结果。

元数据 VS 数据元

元数据

MetaData:描述其它数据的数据,也称为“中介数据”。
类似于面向对象里的类的概念,比如图书,包括书名、作者、出版社等多个属性。

数据元

Data Element: 就是最小数据单元。
继续借用上面的图书例子,书的书名、作者出版社等等就是数据元。

数据挖掘的流程

数据挖掘的一个英文解释叫Knowledge Discovery in Database, 简称KDD。

1. 分类

就是通过训练集得到一个分类模型,然后用这个模型可以对其它数据进行分类。

训练集

用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。

测试集

人们已经给出了测试结果,就是用来给训练出来的模型做验证,看机器分类是否正确。

2. 聚类

人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。往往利用聚类做数据划分。

3. 预测

就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。

4. 关联分析

就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事物数据分析中。

KDD过程

1. 数据输入

2. 数据预处理

数据清洗

去除重复数据,去噪声(即干扰数据)以及填充缺失值。

数据集成

将多个数据源中的数据存放到一个统一的数据存储中。

数据变换

将数据转换成适合数据挖掘的形式。

3. 数据挖掘

4. 后处理

将预测结果进一步处理。比如二分类问题,一般得到的0~1之间的概率值,此时以0.5为界,进行四舍五入。

5. 得到信息

加载评论框需要科学上网