【笔记】数据分析实战第一课
学习之前的瞎BB
我对数据分析感兴趣,其实是被折磨出来的。为什么呢?
如果你是一个开发,那你一定经历过产品经理或者说需求方的“我觉得”,“我认为”;而且开发完成后也没有持续跟进效果,又开始“我觉得”,“我认为”。
后来我开始了解一些推荐系统的知识,认知到了以数据来说话的思维模式,以结果为导向,不能停留在玄学层面的“我觉得”,“我认为”。
再后来就是开始看一些数据分析的入门书,订阅了学习的专栏。
正式笔记
数据分析概览
数据分析的组成
- 数据采集
这是所有数据的来源- 数据挖掘
分析数据,挖掘商业价值- 数据可视化
让结果直观的展现
数据采集
数据源
- 开源数据源
- 爬虫抓取
- 日志采集
- 传感器
工具使用
- 八爪鱼
- 火车头采集器
- 搜集客
爬虫编写
- Selenium
- lxml
- Scrapy
- phantomjs
数据挖掘
数学基础
- 概率论与数据统计
- 线性代数
- 图论
- 最优化方法
十大算法
- 分类算法: C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
- 聚类算法: K-Means、EM
- 关联分析: Apriori
- 连接分析: PageRank
基本流程
- 商业理解
- 数据理解
- 数据准备
- 模型建立
- 模型评估
- 上线发布
数据可视化
Python
- Matplotlib
- Seaborn
第三方工具
- 微图
- DataV
- Data GIF Maker
这是我摘录的一些高效学习思路, 供大家参考, 共同进步。