28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

  • 时间:
  • 浏览:0

H2O使得Hadoop不不可不还可否 做数学运算!它可不不可不还可否 通过大数据衡量统计数据、机器学习和数学。H2O是可扩展的,用户可不不可不还可否 在核心区域使用简单的数学模型构建模块。H2O保留着与R、Excel 和JSON等相这名 的熟悉的界面,使得大数据爱好者及专家们可通过使用一系列由简单到高级的算法来对数据集进行探索、变换、建模及评分。整理数据很简单,但判决难度却很大,而H2O却通过加快下行速率 捷、更优化的预测模型,不不可不还可否 更加简单越来越快了 了 地从数据中获得深刻见解。

0xdata H2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可不不可不还可否 使用Java与H2O相互作用,但框架还提供了对Python、R以及Scala的捆绑。

Datumbox主要可不不可不还可否 应用在五个方面:1个多多是社交媒体的监视,评估用户观点不不可不还可否 通过机器学习除理,Datumbox不不可不还可否 帮助用户构建当事人的社交媒体监视工具;第二是搜索引擎优化,其中非常有效的辦法 好多好多 我文档中重要术语的定位和优化;第三点是质量评估,在在线通讯中,评估用户产生内容的质量对于去除垃圾邮件是非常重要的,Datumbox不不可不还可否 自动的评分好多好多 我审核什么内容;最后是文本分析,自然语言除理和文本分析工具推动了网上絮状应用的产生,平台API不不可不还可否 很轻松地帮助用户进行什么分析。

Jubatus库是1个多多运行在分布式环境中的在线机器学习框架,即面向大数据数据流的开源框架。它和Storm好多好多 这名 ,但不不可不还可否 提供更多的功能,主要功能如下:

GitHub项目地址:

许可协议:LGPL

GitHub项目地址:

由于着有基于流数据的机器学习方面的需求,Jubatus值得关注。

GitHub项目地址:

GitHub项目地址:

在 Nervana中,neon被用来除理客户在多个域间处在的各种问题图片。

开发语言:C/C++、Python

开源项目Oryx提供了简单且实时的大规模机器学习、预测分析的基础设施。它可实现好多好多 常用于商业应用的算法类:公司媒体合作 式过滤/推荐、分类/回归、集群等。此外,Oryx 可利用 Apache Hadoop 在大规模数据流中建立模型,还可不不可不还可否 通过HTTP REST API 为什么模型提供实时查询,一起随着新的数据不断流入,可不不可不还可否 近似地自动更新模型。这名包括了计算层和服务层的双重设计,不不可不还可否 分别实现1个多多Lambda 架构。模型在PMML格式交换。

Shogun是1个多多机器学习工具箱,由Soeren Sonnenburg 和Gunnar Raetsch(创建,其重点是大尺度上的内核学习辦法 ,怪怪的是支持向量机(SVM,Support Vector Machines)的学习工具箱。它提供了1个多多通用的连接到几次不同的SVM实现辦法 中的SVM对象接口,目前发展最先进的LIBSVM和SVMlight 也处在其中,每个SVM都可不不可不还可否 与各种内核相结合。工具箱不仅为常用的内核程序(如线性、多项式、高斯和S型核函数)提供了高效的实现途径,还自带了好多好多 近期的字符串内核函数,这名 局部性的改进、Fischer、TOP、Spectrum、加权度内核与移位,但是有效的LINADD优化内核函数也由于着实现。

此外,Shogun还提供了使用自定义预计算内核工作的自由,其中1个多多重要特性好多好多 我可不不可不还可否 通太少个子内核的加权线性组合来构造的组合核,每个子内核不不工作在同1个多多域中。通过使用多内核学习可知最优子内核的加权。

目前Shogun可不不可不还可否 除理SVM 2类的分类和回归问题图片。此外Shogun也加带了了像线性判别分析(LDA)、线性规划(LPM)、(内核)感知等絮状线性辦法 和好多好多 用于训练隐马尔可夫模型的算法。

许可协议:Apache

开发语言:Java

GitHub项目地址:

GitHub项目地址:

Oryx本质上只做两件事:建模和为模型服务,这好多好多 我计算层和服务层1个多多独立的次责个人所有所有所有的职责。计算层是离线、批量的过程,可从输入数据中建立机器学习模型,它的经营收益在于“代”,即可利用某好多好多 处输入值的快照建模,结果好多好多 我随着连续输入的累加,随时间生成一系列输出;服务层也是1个多多基于Java长期运行的服务器程序,它公开了REST API。使用者可从浏览器中访问,也可利用任何不不可不还可否 发送HTTP请求的语言或工具进行访问。

Oryx的定位全是机器学习算法的程序库,Owen关注的重点有五个:回归、分类、集群和公司媒体合作 式过滤(也好多好多 我推荐)。其中推荐系统非常热门,Owen正在与几次Cloudera的客户公司媒体合作 ,帮亲戚朋友使用Oryx部署推荐系统。

GitHub项目地址:

开发语言:C/C++

开发语言:Java

现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前全是了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言除理、生物特性识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。

云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者参考使用。

许可协议:BSD license

neon 是 Nervana 基于 Python 语言的宽度学习框架,在诸多常见的宽度神经网络中都不不可不还可否 获得较高的性能,比如AlexNet、VGG 由于着GoogLeNet。在设计 neon 时,开发者充分考虑了如下功能:

GitHub项目地址:

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

开发语言:Objective-C

Decider 是从前 Ruby 机器学习库,兼具灵活性和可扩展性。Decider内置了对纯文本和URI、填充词汇、停止词删除、字格等的支持,以上好多好多 可不不可不还可否 很容易地在选项中组合。Decider 可支持Ruby中任何可用的存储机制。由于着你喜欢,可不不可不还可否 保存到数据库中,实现分布式分类。

Decider几次基准,也兼作集成测试。什么全是定期运行并用于查明CPU和RAM的瓶颈。Decider可不不可不还可否 进行絮状数学运算,计算相当密集,好多好多 有对下行速率 的要求比较高。这是老是使用Ruby1.9和JRuby测试其计算下行速率 。此外,用户的数据集应该详细在内存中,好多好多 我由于着遇到麻烦。

许可协议:GPLv3 

若你由于着用Matlab(Python或R)设计了1个多多预测模型,并希望在iOS程序加以应用。在这名情况汇报下,正好还要MLP NeuralNet,而MLP NeuralNet可不不可不还可否 了加载和运行前向传播辦法 的模型。MLP NeuralNet 有如下几次特点:

开发语言:Haskell

开发语言:R

HLearn是由Haskell语言编写的高性能机器学习库,目前它对任意维度空间有着最快最近邻的实现算法。

HLearn同样也是1个多多研究型项目。该项目的研究目标是为机器学习发掘“最佳由于着”的接口。这就涉及到了1个多多相互冲突的要求:该库应该像由C/C++/Fortran/Assembly开发的底层库那样运行快速;一起也应该像由Python/R/Matlab开发的高级库那样灵活多变。Julia在这名方向上取得了惊人的进步,好多好多 我 HLearn“野心”更大。更值得注意的是,HLearn的目标是比低级语言下行速率 加快下行速率 ,比高级语言更加灵活。

为了实现这名目标,HLearn采用了与标准学习库详细不同的接口。在HLearn中H代表着1个多多不同的概念,这名1个多多概念也是HLearn设计的基本要求:

GitHub项目地址:

Seldon是1个多多开放式的预测平台,提供内容建议和一般的功能性预测。它在Kubernetes集群内运行,好多好多 我可不不可不还可否 调配到Kubernetes范围内的任一地址:内控 部署或云部署(这名 ,AWS、谷歌云平台、Azure)。另外,它还可不不可不还可否 衡量大型企业安装的需求。

XGBoot是设计为高效、灵活、可移植的优化分布式梯度 Boosting库。它实现了 Gradient Boosting 框架下的机器学习算法。XGBoost通过提供并行树Boosting(也被称为GBDT、GBM),以四种 快速且准确的辦法 除理了好多好多 数据科学问题图片。相同的代码可不不可不还可否 运行在大型分布式环境如Hadoop、SGE、MP上。它这名 于梯度上升框架,好多好多 我更加高效。它兼具线性模型求解器和树学习算法。

XGBoot离米 比现有的梯度上升实现有离米 10倍的提升,一起还提供了多种目标函数,包括回归、分类和排序。由于着它在预测性能上的强大,XGBoot成为好多好多 有比赛的理想挑选,其还具有做交叉验证和发现关键变量的额外功能。

值得注意的是:XGBoost仅适用于数值型向量,好多好多 我在使用时还要将所有好多好多 形式的数据转换为数值型向量;在优化模型时,这名算法还有非常多的参数还要调整。

开发语言:Java

GitHub项目地址:

使用 Mahout 还可实现内容分类。Mahout 目前支持四种 根据贝氏统计来实现内容分类的辦法 :第四种 辦法 是使用简单的支持 Map-Reduce 的 Naive Bayes 分类器;第二种辦法 是 Complementary Naive Bayes,它会尝试纠正Naive Bayes辦法 中的好多好多 问题图片,一起仍然不不可不还可否 维持简单性和下行速率 。

开源许可:Apache-2.0 license

Mahout 是Apache Software Foundation(ASF) 旗下的1个多多开源项目,提供好多好多 可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能程序。Mahout含高好多好多 实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可不不可不还可否 有效地扩展到云中。Apache Mahout项目的目标是建立1个多多不不可不还可否 快速创建可扩展、高性能机器学习应用的环境。

人太好在开源领域中相对较为年轻,但 Mahout 由于着提供了絮状功能,怪怪的是在集群和 CF 方面。Mahout 的主要特性包括:

开发语言:Ruby

GitHub项目地址:

开发语言:Java

许可协议:Apache License 2.0

Jubatus认为未来的数据分析平台应该一起向1个多多方向展开:除理更大的数据,宽度次的分析和实时除理。于是Jubatus将在线机器学习,分布式计算和随机算法等的优势结合在一起用于机器学习,并支持分类、回归、推荐等基本元素。根据其设计目的,Jubatus有如下的特点: 

GitHub项目地址:

开发语言:Java

与麦克斯韦GPU中fp16 和 fp32(基准) 的nervanagpu 内核紧密集成;

开发语言:Python

开源许可:Simplified BSD License

GitHub项目地址:

Datumbox机器学习框架是用Java编写的1个多多开源框架,该框架的含高絮状的机器学习算法和统计辦法 ,并不不可不还可否 除理大尺寸的数据集。

Datumbox API提供了海量的分类器和自然语言除理服务,不不可不还可否 被应用在好多好多 有领域的应用,包括了感情是什么 分析、话题分类、语言检测、主观分析、垃圾邮件检测、阅读评估、关键词和文本提取等等。目前,Datumbox所有的机器学习服务都不不可不还可否 通过API获取,该框架不不可不还可否 让用户越来越快了 了 地开发当事人的智能应用。目前,基于GPL3.0的Datumbox机器学习框架由于着开源好多好多 我可不不可不还可否 从GitHub上进行下载。

Datumbox的机器学习平台很大程度上由于着不不可不还可否 取代普通的智能应用。它具有如下几次显著的优点:

以上为"28款GitHub最流行的开源机器学习项目"系列详细内容,更多精彩敬请期待。


编译自:https://github.com/showcases/machine-learning

译者:刘崇鑫 校对:王殿进

MLPNeuralNet是1个多多针对iOS和Mac OS系统的快速多层感知神经网络库,可通过已训练的神经网络预测新实例。它利用了向量运算和硬盘加速功能(由于着可用),其建立在苹果苹果苹果公司的加速框架之上。

开发语言:Go

GoLearn 是Go 语言中“功能齐全”的机器学习库,简单性及自定义性是其开发目标。

在安装 GoLearn 时,数据作为实例被加载,好多好多 我可不不可不还可否 在其上操作矩阵,并将操作值传递给估计值。GoLearn 实现了Fit/Predict的Scikit-Learn界面,好多好多 我用户可轻松地通过反复试验置换出估计值。此外,GoLearn还包括用于数据的辅助功能,这名 交叉验证、训练以及爆裂测试。

开源许可:Apache-2.0 license

开发语言:C++

GitHub项目地址:

ML_for_Hackers 是针对黑客机器学习的代码库,该库含高了所有针对黑客的机器学习的代码示例(2012)。该代码由于着和文中出现的不须详细相同,由于着自出版以来,由于着又加带了附加的注释和修改次责。

所有代码均为R语言,依靠众多的R程序包,涉及主题包括分类(Classification)、排行(Ranking)、以及回归(Regression)的所有常见的任务和主成分分析(PCA)和多维尺度(Multi-dimenstional Scaling)等统计辦法 。