【笔记】数据分析实战第一课

学习之前的瞎BB

我对数据分析感兴趣,其实是被折磨出来的。为什么呢?

如果你是一个开发,那你一定经历过产品经理或者说需求方的“我觉得”,“我认为”;而且开发完成后也没有持续跟进效果,又开始“我觉得”,“我认为”。

后来我开始了解一些推荐系统的知识,认知到了以数据来说话的思维模式,以结果为导向,不能停留在玄学层面的“我觉得”,“我认为”。

再后来就是开始看一些数据分析的入门书,订阅了学习的专栏。

正式笔记

数据分析概览

数据分析的组成

  1. 数据采集
    这是所有数据的来源
  2. 数据挖掘
    分析数据,挖掘商业价值
  3. 数据可视化
    让结果直观的展现

数据采集

数据源
  1. 开源数据源
  2. 爬虫抓取
  3. 日志采集
  4. 传感器
工具使用
  1. 八爪鱼
  2. 火车头采集器
  3. 搜集客
爬虫编写
  1. Selenium
  2. lxml
  3. Scrapy
  4. phantomjs

数据挖掘

数学基础
  1. 概率论与数据统计
  2. 线性代数
  3. 图论
  4. 最优化方法
十大算法
  • 分类算法: C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
  • 聚类算法: K-Means、EM
  • 关联分析: Apriori
  • 连接分析: PageRank
基本流程
  1. 商业理解
  2. 数据理解
  3. 数据准备
  4. 模型建立
  5. 模型评估
  6. 上线发布

数据可视化

Python
  • Matplotlib
  • Seaborn
第三方工具
  • 微图
  • DataV
  • Data GIF Maker

这是我摘录的一些高效学习思路, 供大家参考, 共同进步。

加载评论框需要科学上网