Spark机器学习(第2版)

时尚
时尚
2019-05-10 15:56
来源:互联网

Apache Spark是分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有的并行计算框架,鲜有能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达力丰富的API的。Apache Spark就是这样一个难得的框架。

本书简要介绍了Spark基础知识,重在通过详细的例子和现实应用来讲解常见机器学习模型,并涉及大规模文本数据的处理、Spark Streaming下的在线机器学习和模型评估方法,以及使用Spark ML Pipeline API创建和调试机器学习流程等。第2版经过全面修订,新增有关机器学习数学基础以及Spark ML Pipeline API的章节,内容更加系统、全面、与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者。

• Spark以及机器学习基础知识介绍。
• 获取公开的机器学习数据集,使用Spark对数据进行载入、处理、清理和转换。
• 借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序。
• 了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入。
• 探索在线学习方法,利用Spark Streaming进行在线学习和模型评估。
• 使用Spark ML Pipeline API创建和调试机器学习流程。

目录

版权声明   阅读  
前言   阅读  
第 1 章 Spark的环境搭建与运行   阅读  
第 2 章 机器学习的数学基础  
第 3 章 机器学习系统设计  
第 4 章 Spark上数据的获取、处理与准备  
第 5 章 Spark构建推荐引擎  
第 6 章 Spark构建分类模型  
第 7 章 Spark构建回归模型  
第 8 章 Spark构建聚类模型  
第 9 章 Spark应用于数据降维  
第 10 章 Spark高级文本处理技术  
第 11 章 Spark Streaming实时机器学习  
第 12 章 Spark ML Pipeline API  

作者介绍

拉结帝普•杜瓦(Rajdeep Dua)

Salesforce公司工程主管,致力于打造云计算和人工智能团队。曾参与Google的大数据分析工具BigQuery的宣传团队。在云计算、大数据分析和机器学习领域有近20年的经验。


曼普利特•辛格•古特拉(Manpreet Singh Ghotra)

Salesforce公司软件工程主管,拥有十余年软件开发经验,目前致力于开发基于Apache Spark的机器学习平台。


尼克•彭特里思(Nick Pentreath)

IBM开源数据及人工智能技术中心首席工程师,大数据及机器学习公司Graphflow联合创始人,Spark项目管理委员会成员。


【译者简介】

蔡立宇

曾从事自然语言处理和图数据分析相关工作,现提供数据分析相关的独立咨询和开发服务。坐标深圳。

大家也喜欢

Doubledeny

请问这本书是用什么语言编写的Scala,Java还是Python

Doubledeny  发表于 2018-12-17 10:59:21


©版权所有,未经授权不得转载以及任何形式使用。
标签:   学习      机器      2版      Spark   
你该读读这些:一周精选导览
更多内容...
品牌推荐 时尚衣橱