数据科学5个技巧(数据科学入门指南)

数据科学5个技巧(数据科学入门指南)(1)

数据科学,据说是本世纪最吸引人的工作,已经成为我们许多人梦寐以求的工作。 但对某些人来说,数据科学看起来像一个充满挑战的迷宫,让人无从下手。 如果你也是其中之一,那就继续阅读。

在本文中,我将讨论如何从零开始数据科学之旅。 我将详细解释以下步骤。

  1. 学习Python编程的基本知识
  2. 学习基本统计学和数学
  3. 学习数据分析Python
  4. 学习机器学习
  5. 项目实战
学习Python编程的基本知识

如果有IT背景的话,可能已经熟悉Python编程,此时,便可以跳过此步骤。 但是如果从未接触过编码的话,应该从学习Python开始。 在所有编程语言中,Python语言最容易学习,并在数据分析开发中广泛应用。

首先,可以搜索免费的在线教程,这些教程将有助于理解Python的基础知识。 我列出了下述一些链接,这些教程可以帮助你在短时间内自学Python。可以尝试一下,自己作出选择。

  • learnpython.org
  • 谷歌的Python类
  • Estudy免费Python课程(视频教程)
  • 代码学院(由在线编辑器编码)

上述列表并非详尽无遗,可以在网络上找到更多其它的资源,这些资源助力学习Python的基础知识,此外,还可以在YouTube上找到许多为初学者提供的Python教程。

一旦掌握了编程语法和其他基础知识之后,就可以开启Python的中级和高级学习之旅。要做到在数据科学领域游刃有余,建议至少学完中级,这样可以熟悉Python中的数据结构和文件系统。

下一步。

学习统计学和数学

数据科学是分析数据并得出有用的和可操作的见解的技能。 为此,必须具备基本的统计学和数学知识。虽然不要求你成为一个伟大的统计学家,但需要对数据分布和算法原理这些基础知识有所了解。 话虽如此,来看看需要学习哪些内容。

首先,复习一遍高中的统计课程,对基本概念有所了解。 为此,我推荐汗学院的“高中统计”系列课程(根据自己的实际情况做出选择)。

刷完高中统计课之后,可以开始阅读以下任何一本书:

  • 统计学习简介(R语言)(强烈推荐)
  • 统计思维(Python语言)

以上链接将直接访问到这些书籍的各自pdf版本,也可以根据需要方便地购买到纸质的书。读完这些书之后,将熟悉数据分析的基本原理,对进一步深入学习有帮助。

注意:虽然我建议从学习Python语言来开启数据科学之旅,但在学习过程中,会遇到其他几个工具,如R,它们也用于统计计算和数据分析。 我的一般建议是,无论你与谁相交,都要有一个开放的心态。 如果要使用两种不同的语言执行任务,则底层工作和逻辑通常是相同的,这只是一个不同的语法和框架问题。

第一次体验数据分析。

学习Python进行数据分析

这便是它的有趣之处,在掌握了了Python编程的基本知识和统计之后,是时候一试身手了。

如果想在不付钱的情况下学习,只需在Udacity上开设一个帐户,注册免费课程-数据分析入门。这门课程将介绍数据分析所需用到的Python库,如PandasNumpy。 你可以按部就班地学习,在几周内轻松完成课程。

在Udacity上还有许多其他课程可以探索,此外,Udacity还提供Nanodegree程序,但通常需要付费。 如果你愿意为学习付费,还有许多好的平台,如Coursera、Dataquest、Datacamp等。

在此步骤结束时,应该掌握Python的一些重要库和数据结构,如SeriesArrayData Frames。还应该能够执行诸如数据争论、得出结论、矢量化操作、分组数据和组合来自多个文件的数据等任务。

虽然已经为下一步做好了准备,但在继续前进之前还有一件事需要学习:桥接数据分析与机器学习之间的终极关键-数据可视化

数据可视化是数据分析的重要组成部分,它有助于得出结论并对数据模式可视化。为此,学习如何可视化数据势在必行,学习数据可视化最简单的方法是通读Kaggle的数据可视化课程。 在此之后,将要熟悉一个重要的Python库-Seaborn。

注:Kaggle是一个受世界各地数据科学家欢迎的网站。 它定期举办竞赛,以挑战数据储备的技能,并为数据爱好者提供免费的互动课程。

太棒了! 你已经学了一半以上的数据科学了。继续下一步,即机器学习。

学习机器学习

机器学习,顾名思义,是机器(计算机)自我学习的过程。通过对计算机算法的研究,自动提升经验。根据数据和业务问题的类型,使用预定义的算法建立模型,利用模型在给定的数据上进行训练,从而对新数据得出结论。

掌握机器学习最简单的方法就是按照给定的顺序学习以下关于Kaggle的课程:

  1. 机器学习概述
  2. 中阶机器学习
  3. 特征工程(优化模型)

条条道路通罗马,虽然有许多其他的方法来学习机器学习,我提出的是最简单的方法,完全免费。 如果没有资金的约束,还可以在Coursera、Udacity和其他相关平台上找到各种课程。

当这一步结束时,您将了解监督机器学习无监督机器学习之间的区别,同时,掌握各种重要的算法,如回归,分类,决策树,随机森林等。

太棒了!从此,可以冲破迷宫加入到数据科学俱乐部,之后,需要做的便是一步一步成为更好。

项目实战

读到这里,你便拥有了成为一名成功的数据科学家所需的一切。在掌握了所有的知识之后,应通过尽可能多的练习来增强它。 要做到这一点,可以寻找一些项目,去解决一些商业问题。

坚持实践的最好方法之一是参加Kaggle比赛。 Kaggle为你提出需要解决的问题和工作所需的数据,它同时是一场比赛,可以提交自己项目的结果,并根据获得的分数得到排名。

也可以在个人项目上建立自己的投资组合,通过尝试以下资源来探索数据集:

  • Kaggle数据集
  • UCI机器学习系统
  • 亚马逊数据集
  • 谷歌数据库搜索引擎

为了练习,建议在本地计算机中下载并安装Anaconda, 这是开发数据科学项目的一个很好的工具包。 在众多Anaconda工具包之中, Jupyter Note book是构建Python项目的一种很好的方法。

遵循本博客中的指导方针,将助力实现学习数据科学的目标,当然,在这一领域还有大量知识要学习,甚至更多的东西有待探索。淡定。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页