本课程主要面向的是软件开发人员、大数据工程师和高级数据分析人员,为学员成长为数据科学家奠定良好的基础。
Spark和Hadoop上的数据科学培训课程
数据科学家帮助科研院校等创建大数据时代的新型信息平台,用于对海量数据进行深度挖掘、从中提取有用的信息,用于回答以前无法解决甚至是无法想象的问题。
学员将学习数据科学家是如何使用Hadoop和Spark技术来帮助企业改进现有产品、开发新产品新应用,留住用户并开拓市场,降低成本,提高收益,发现和带来新的商业机会。
为期3天的数据科学家课程帮助学员理解什么是数据科学家,他们解决什么样的问题,以及使用何种高效工具和新技术。通过课堂模拟,学员学会如何运用数据科学的方法来应对并解决现实中来自不同行业的挑战,为以后胜任数据科学家的角色做好准备。
本课程面向软件开发人员、大数据工程师以及高级数据分析人员。学员需掌握使用Linux环境的基本技能,建议具备Hadoop方面的基本知识或经验:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟练使用至少一种脚本编程语言,建议Python,或者熟悉其他语言譬如Perl或Ruby。
通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
如何获取、清洗和综合来自不同数据源的数据,为分析提供统一全面的视图。
了解用于从海量数据探索潜在商业价值的统计方法。
掌握何时将Hadoopstreaming和ApacheSpark嵌入搭建数据科学所需的数据产品流水线中去。
了解数据科学项目所需的机器学习技术。
如何使用SparkMLlib实现和管理推荐系统,如何设置和评估结果。
了解将新开发的分析项目部署到大规模产品环境中可能碰到的扩展能力问题及如何规避。
学习大数据,学习IT新技术,就来上海腾科IT教育,我们为学员提供专业的课程辅导和实战训练,学员学成后可参加相关的IT认证考试。