r语言深度学习代码(最流行的机器学习R语言软件包是哪些)

选自kdnuggets

作者:Michael Li 、Paul Paczuski

机器之心编译

参与:王宇欣、杜夏德

The Data Incubator 中,有着最新的数据科学(data science)课程。其中大部分的课程都是基于企业和政府合作伙伴的需求而设立的。现在他们希望开发一更偏向数据为驱动的方式,以了解应该为数据科学企业的培训(data science corporate training,以及享受其提供的免费助学金的有意愿进入业界数据科学领域的硕博士生们教授什么样的内容。结果如下。

排名

什么是最流行的机器学习包(ML packages)?让我们来看一下基于包下载量(package downloads)和社交网站活跃度的排名。

r语言深度学习代码(最流行的机器学习R语言软件包是哪些)(1)

  • 下载:来自于 CRAN 镜像的下载量

  • Github:包的主存储库页面上星星数量。

  • Stack Overflow: 包含程序包的名称并以 'R' 标记的问题的数量。

  • CRAN 下载

    有一些 CRAN 的镜像,而我们使用的是 R-Studio 镜像,因为它有一个便捷的 API。RStudio 一定是 R 中使用最广泛的 IDE,但却并非是唯一的。如果我们从其他 CRAN 的镜像统计下载量,我们的排名可能会更好(但并不会有显著变化)。

    GitHub

    最初,我们通过在 Github 的 search API 上查询包的名字来寻找包的 Github 页面,可能会使用「language:R」,但这么做是不可靠的。有时候很难选择正确的 Github 库,而且不是所有的 R 包都是用 R 语言来实现的(在该搜索 API 中,「language:R」参数似乎指的是该存储库写入所使用的最流行的语言)

    相反,我们返回 CRAN 来寻找这些 URL。每个包都有一个官方的 CRAN 页面,其中包括了一些有用的信息,比如源代码链接。这就是我们得到的包的 Github 存储库的位置。

    在这之后,使用 API 就可以容易地得到 Github 的星星数。

    Stack Overflow

    从 Stack Overflow 获取有用的结果需要技巧。一些 R 包的名称,比如 tree 和 earth,存在着明显的困难:Stack Overflow 的结果可能不会被筛选到 R 包的结果当中,所以我们首先在查询中添加一个 「r」 字符串,这非常有帮助。

    一个好的(最优的?)策略是在问题主题中查询包的名字,然后添加一个 『r』标签(这与添加 『r』 字符串不同)

    建立排名

    我们简单地将包按照 3 个指标中的每一个来排名,并取其平均值。该方法没什么特别的地方。

    杂注

    所有的数据都是在 2017 年 1 月 19 日下载的。CRAN 的下载量则是统计了过去 365 天的数据:从 2016 年 1 月 19 日 到 2017 年 1 月 19 日。

    数据科学领域最顶级的 R 包?

    一开始,这个项目是要将「数据科学」领域中所有顶级的包进行排名,但我们很快发现这个范围太大。

    数据科学家做了很多不同的事情。要帮助一个数据科学家,你要将几乎所有的 R 包进行分类。那么,我们应该包含字符串操作包吗?包是如何从数据库中读取数据的呢?

    也许有一天,会有一个更长的项目,它会更多地使用 「Data Science」 来为「数据科学」工作得出一个顶级 R 包的排名。

    资源:

    源代码请查看 The Data Incubator (https://www.thedataincubator.com/) 的 Github (地址:https://github.com/thedataincubator/data-science-blogs/)。如果有兴趣学习更多,请参考:

    1.Data science corporate training

    (地址:https://www.thedataincubator.com/training.html)

    2. Free eight-week fellowship for masters and PhDs looking to enter industry

    (地址:https://www.thedataincubator.com/fellowship.html)

    3. Hiring Data Scientists

    (地址:https://www.thedataincubator.com/hiring.html)

    原文链接:http://www.kdnuggets.com/2017/02/top-r-packages-machine-learning.html

    ,

    免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

      分享
      投诉
      首页