CPDA数据分析师(CPDA数据分析师来告诉你)
虽然数据清理使用的技术可能会根据公司存储的数据类型而有所不同,但您可以遵循以下基本步骤为您的组织制定框架。
第1步:删除重复或不相关的观察结果
从数据集中删除不需要的观察,包括重复的观察或不相关的观察。重复观察在数据收集过程中最常发生。当您组合来自多个地方的数据集、收集数据或从客户端或多个部门接收数据时,就有可能创建重复的数据。消除重复工作是这一进程中需要考虑的最大领域之一。
不相关的观察是当你注意到观察结果不适合你试图分析的特定问题时。例如,如果您想要分析关于千禧一代客户的数据,但您的数据集包括老一辈,您可以删除那些不相关的观察。这可以使分析更有效,并尽量减少对主要目标的分心—以及创建更易于管理和性能更好的数据集。
第2步:修复结构错误
结构性错误是指当您测量或传输数据时,注意到奇怪的命名约定、拼写错误或不正确的大小写。这些不一致可能导致错误的类别或类的标签。例如,您可能会发现“N/A”和“不适用”都出现了,但它们应该作为同一个类别进行分析。
步骤3:过滤不需要的异常值
通常情况下,会有一次性的观察,乍一看,它们似乎不符合您所分析的数据。如果您有一个合理的理由去删除一个异常值,比如不适当的数据输入,那么这样做将有助于您所处理的数据的性能。然而,有时候一个异常值的出现会证明你正在研究的理论。记住:一个异常值的存在并不意味着它是错误的。需要此步骤来确定该数字的有效性。如果一个异常值被证明与分析无关,或者是一个错误,考虑删除它。
步骤4:处理丢失的数据
您不能忽略丢失的数据,因为许多算法不接受丢失的值。有几种方法可以处理丢失的数据。这两种方法都不是最优的,但都可以考虑。
作为第一种选择,您可以删除缺少值的观察值,但是这样做会删除或丢失信息,所以在删除信息之前要注意这一点。
作为第二个选项,您可以根据其他观察结果输入缺失的值;同样,数据可能会失去完整性,因为您可能是根据假设而不是实际观察进行操作。
作为第三个选项,您可以更改数据的使用方式,以有效地导航空值。
步骤5:验证和QA
在数据清理过程的最后,作为基本验证的一部分,你应该能够回答以下问题:
a, 这些数据有意义吗?
b, 数据是否遵循其字段的适当规则?
c, 它是否证明或驳斥了你的工作理论,或带来了什么洞察力?
d, 你能从数据中找到趋势来帮助你形成下一个理论吗?
e, 如果不是,是因为数据质量问题吗?
由于不正确或“肮脏”的数据而产生的错误结论可能导致糟糕的业务策略和决策。当CPDA数据分析师意识到你的数据经不起推演时,错误的结论可能会导致报告会议的尴尬时刻。在此之前,在组织中创建一种高质量数据的文化是很重要的。为此,数据分析师应该记录创建这种文化可能使用的工具,以及数据质量对您的意义。
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com