数据分析分为哪4类(入行数据分析要知道什么是分类型数据)
分类数据是一组信息的集合。如果一个组织或机构试图获取其员工的生物数据,则生成的数据被称为分类数据。该数据被称为分类数据,因为它可以根据生物数据中存在的变量(例如性别、居住状态等)进行分组。
分类数据可以采用数值(例如“1”表示是,“0”表示否),这些数字没有数学意义,既不能将它们加在一起,也不能彼此相减。
分类型数据应用方法次数分布图
依旧使用天津的少儿英语培训机构举例来说。数据来源 教育宝,使用爬虫抓取机构的名称和口碑。
假设这102家机构入住到同一所3层大楼中,我们依照口碑如何进行楼层的划分?(虽然这种方式不太合理)
楼层 |
口碑范围 |
类别转化 |
入驻商家数量 |
3 |
3-3.8 |
一般 |
35 |
2 |
3.9-4.3 |
好 |
45 |
1 |
4.4-4.9 |
较好 |
22 |
这种叫做 分组,编程语言里称作 聚合。每一层作为一个分区,称作 组 。
可以尝试计算一下每个组的一个的一个占比情况,也称作相对次序。
相对次序 = 所属组别的个数 / 数据总数
口碑分组 |
组中值 |
次数 |
相对次数 |
3-3.8 |
3.4 |
35 |
34.3% |
3.9-4.3 |
4.1 |
42 |
41.1% |
4.3-4.9 |
4.6 |
22 |
24.51% |
根据分类的百分比可以制作一个条形图来表示。
分类数据的类型标称数据
是一种用于命名变量而不提供任何数值的数据。这种数据类型源自拉丁语命名法 Nomen(意思是名称)是分类数据的子类别。
名义数据有时称为『标记』或『命名』数据。名义数据的示例包括姓名、头发颜色、性别等。
主要通过调查或问卷收集,这种数据类型是描述性的,因为它有时允许受访者自由输入回复。尽管这一特征有助于得出更好的结论,但有时也会给研究人员带来问题,因为他们必须处理如此多不相关的数据。
序数数据这是一种具有固定顺序或比例的数据类型。这个顺序没有一个标准的尺度来衡量每个尺度中变量的差异。
序数数据示例包括:李克特量表、区间量表、错误严重程度、客户满意度调查数据等。这些示例中的每一个可能有不同的收集和分析技术,但它们都是有序数据。
分类数据特征- 类别:氛围名义数据和有序数据。名义数据称为命名数据,是用于命名变量的数据类型,而有序数据是一种具有比例或顺序的数据。
- 质性:分类数据是定性的,使用一串单词而不是数字来描述事件。
- 分析:分类数据使用众数和中位数分布进行分析,名义数据使用众数进行分析,而序数数据同时使用两者。还可以使用单变量统计、双变量统计、回归应用、线性趋势和分类方法来分析序数数据。
- 图形分析:使用条形图和饼图进行图形分析。条形图主要用于分析频率,而饼图分析百分比。这是在将其分组到表中之后完成的。
- 区间尺度:对于具有给定顺序或尺度的有序数据,尺度没有标准化区间。不适用于名义数据。
- 数值:分类数据是定性的,有时可能会采用数值。然而不能对它们进行算术运算。
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com