学习大数据需掌握的知识-北京大数据培训-北京大数据培训机构-大数据培训费用
发布时间:2019-11-08 14:39:02 已帮助:290人 来源:北京北大青鸟航天桥校区
大数据学习已经成为一种热门的趋势,大数据可观的前景吸引着很多人纷纷学习大数据技术,投入大数据行业,如果想学习大数据开发,掌握Java基础是必不可少的,那么学习大数据究竟需要掌握哪些知识呢?小编为大家找来了具体的内容介绍,一起来学习了解下吧。
在进行数据分析时,往往需要明确每个字段的数据类型。数据类型代表了数据的业务含义,分为3个类型:
1.区间型数据(Interval)
数值型数据的取值都是数值类型,其大小代表了对象的状态。比如,年收入的取值,其大小代表了其收入状态。
2.分类型数据(Categorical)
分类型数据的每一个取值都代表了一个类别,如性别,两个取值代表了两个群体。分类型数据的探索主要是从分类的分布等方面进行考察。常见的统计指标有以下几个:
1)、缺失值
缺失值永远是需要关心的指标,不论是连续型数据,还是分类型数据。过多的缺失值,会使得指标失去意义。
2)、类别个数
依据分类型数据中类别的个数,可以对指标是否可用有一个大致的判断。例如,从业务角度来看,某指标应当有6个类别,但实际样本中只出现了5个类别,则需要重新考虑样本的质量。再如,某个分类型变量只有一个类别时,对数据分析是完全不可用的。
3)、类别中个体数量
在大多数情况下,如果某些类别中个体数量太少,如只有1%的比例,可以认为该类别是个离群值。关于分类型变量离群值的研究比较多,但是如果脱离业务来谈分类型变量的离群值,是不妥当的。
不平衡数据就是一个典型的与业务有关的例子。比如,从业务角度来看,购买黄金的客户只占银行全量客户的很小的一个部分,如果采取简单随机抽样的方式,“是否购买”列的值将只有极少的“是”的取值。
但是,不能将“是”直接判断为离群值,反而“是”有极其重要的业务含义。所以,数据分析者需要灵活地认识和对待类别中个体数量的问题。
4)、众数
和连续型数据的含义一样,众数是数据集中出现频率最高的数据。比如,针对某个分类型取值A、B、C、D中C的出现次数最多,则C就是众数。
3.序数型数据(Ordinal)
和分类型数据非常相似,每个取值代表了不同的类别。但是,序数型的数据还有另外一层含义就是每个取值是有大小之分的。比如,如果将年收入划分为3个档次:高、中、低,则不同的取值既有类别之分,也有大小之分。
如果不了解字段的实际业务含义,数据分析人员可能会出现数据类型判断失误。比如字段的取值为“1”“2”“3”等,并不意味着是一个数值类型,它的业务含义还可以是一个分类型的字段,“1”“2”“3”分别代表了一个类别,其大小没有任何含义。所以,充分了解字段的含义是很重要的。
很多的数据分析工具会根据数据中的字段的实际取值,做出类型的自动判断:如字符型的数据,一般都认定为分类型数据;如某个字段的所有取值只有“1”“2”“3”,则判断其为分类型变量,然后经过用户的再次判断,其很可能是序数型变量。
不同的数据类型,在算法进行模型训练时,处理和对待的方式是不同的。区间型数据是直接进行计算的;分类型数据是先将其转换为稀疏矩阵:每一个类别是一个新的字段,然后根据其取值“1”“0”进行计算。
在很多场景下,人们习惯将分类型数据和序数型数据统称为分类型数据,即数据类型可以是两个:数值型数据(区间型数据)和分类型数据(分类型数据和序数型数据)。
以上就是小编为大家找来的学习大数据需掌握的知识介绍,有想要学习大数据技术的人员可以来做个相关的学习应用,希望对大家有一定的帮助,想要学习更多相关的知识可以继续关注小编为大家带来的后续文章更新,北京北大青鸟航天桥校区为学员设置大数据培训班,欢迎学员咨询了解。
以上就是
北京北大青鸟航天桥校区
小编为您整理学习大数据需掌握的知识-北京大数据培训-北京大数据培训机构-大数据培训费用的全部内容,更多精彩请 在线咨询
也可以拨打咨询电话:
400-888-9073
让在线老师为你详细解答