-
清理
如何清洗人力资源分析数据?给你6个详细的步骤指南!
数据清理是人力资源分析中的关键因素。在你分析数据之前,你需要对数据进行 "清洁"。在这篇数据清理指南中,我们将解释为什么数据清理很重要,以及你如何进行数据清理。在文章的底部,我们附上了一个有用的数据清洗信息图。
在数据分析中常说的一句话是。"垃圾进,垃圾出"。
这句话的意思是,你可以在数据分析中投入大量的心思和精力,得出很多结果。但是,如果输入的数据不准确,这些结果就没有任何意义。事实上,这些结果甚至可能是有害的,因为它们会歪曲现实。
为什么数据清理很重要?
HR数据往往是脏的。脏数据是指任何包含错误的数据记录。这可能是由不同的原因造成的。
最简单的是数据丢失。其他脏数据的例子有:同一工作职能的不同标签、同一人在一个系统中的多个记录、不同系统中的不匹配记录等等。
对这些数据进行清理和排序可能是一个耗时的过程。事实上,将所有这些不同的数据源的数据进行汇总,并使其符合要求,可能需要数周甚至数月的时间。这对于国际公司来说尤其如此。这些公司往往使用不同国家的不同系统来记录相同的数据。
数据的问题是很容易被弄脏。只要数据采集程序有丝毫的差异,数据就会变得不一致。
作为公司,你可以决定一次性清理所有的数据。有些公司选择了这种策略。然而,这可能需要大量的时间。因此,只清理你需要执行特定分析的数据是更明智的做法。
这种方法可以避免很多不必要的工作,并能更快地产生结果。根据第一次分析的结果,你可以决定需要清理哪些额外的数据来运行下一次分析。
数据清理有助于运行分析的顺利进行。它还有助于正常的人力资源报告,因为清理后的数据可以反馈到人力资源系统中。这将有助于提高数据质量,对后期的数据分析和数据汇总工作极为有利。
因此,数据清洗是人力资源分析过程中的必要步骤。
数据清洗的过程
在清理HR数据的时候,有两点是你需要了解的。第一是数据的有效性,第二是数据的可靠性。
当数据不有效或不可靠时,它可能告诉你的东西和你要找的东西不一样。下面的章节将对此进行更深入的探讨。理解这两个术语是很重要的。不过,如果你想找一个更实用的分步指南,可以向下滚动到下一节。
有效性
有效性是指你是否真正衡量了你需要衡量的东西。考核系统是否只测量个人的绩效,还是(也)测量谁最受经理的喜欢?数据是在整个组织中均匀地收集,还是有这样或那样的倾斜?
举个例子。波士顿市做了一个应用程序,他们的司机可以在智能手机上安装。该应用程序将测量道路上的颠簸,并通过GPS报告其位置。这些颠簸被记录下来,然后由城市道路服务部门进行修复。据一位发言人称, "该数据为城市提供了实时信息,它用于修复问题和计划长期投资"。
遗憾的是,并不是每个人都能平等地从这个系统中受益。该应用程序主要是由年轻人和较富裕社区的年轻人使用。同时,较贫困的社区并没有平等地获得智能手机和移动数据。这是数据中的一个明显的偏差。(公平性的问题)
你可以问自己的问题,以检查其有效性。
这些数据是否代表了我们想要测量的内容?
我们测量数据的方式是否存在偏差?
数据收集的方式是否清晰、一致?
数据中是否存在离群点?
可靠性
可靠性是指反复测量同样的事情并得到同样的结果。
当你在上午测量某人的参与度时,你希望得到的结果与下午再测量时的结果相似。这是因为参与度是一种随着时间的推移相对稳定的特质。
对于不同的测评人来说也是如此。如果你让比尔和吉姆给温迪的参与度打分,你希望比尔和吉姆都给温迪打出同样的分值。然而,当用来给温迪打分的量表是模糊的,可以有不同的解释,比尔和吉姆很可能会给温迪不同的评价。这就是所谓的评分者偏见,最好避免。
这听起来可能很明显,但事实并非如此。通常情况下,报告的数据取决于其他因素,如给出的指示,以及给出评分的人的心情。当我们谈论可靠性时,这就是一个大问题。当不同的人在一天/一周的不同时间,用同样的方法测量同样的数据,是否能得到同样的分数?
在这个过程中,程序起着重要的作用。在对绩效进行评分时,如果一个经理考虑的是员工过去六个月的绩效,而另一个经理只考虑过去两个星期的绩效,那么绩效评分很可能会有差异,不可靠。明确记录的程序将有助于不同的经理人以同样的方式衡量绩效。
在这种情况下,你应该问自己的问题是:
当同一事物被多次测量时,我们是否一致地得出了相同的结果?
我们是否使用了有明确记录的数据收集方法?
每一次的数据收集说明是否都得到了遵循?
一个简单的数据清理检查表
前面关于有效性和可靠性的问题可以帮助你分析你的输入数据是否足够准确,以产生可靠有效的结果。你的数据还需要符合其他几个标准。例如,你的数据必须是最新的。
过时的数据会产生潜在的不相关的结果,可能会破坏你的结果。此外,你需要检查你是否拥有所有的相关数据:记录经常会丢失。根据您分析数据的方式,这可能会或不会造成问题。有些分析方法允许数据缺失,而其他算法在数据缺失时则会很费劲。
数据缺失会缩小你的人群范围。另外,数据缺失的人群之间确实有可能存在共同的相似性。例如,如果一个部门仍然使用过时的绩效管理系统,遗漏了某些问题,这将意味着你将缺乏该部门所有员工的数据。这就会使你的结果严重偏向于其他部门,并威胁到结果的普遍性。
这是一份实用的检查表,里面有六个步骤来清理数据。
1.检查数据是否是最新的。
2.检查是否有重复出现的唯一标识符。有些人担任的职位不止一个。系统往往会为每个职位创建单独的记录。因此,这些人最终会在一个数据库中拥有多个记录。根据不同的情况,这些记录可能会被浓缩。
3.检查跨多个字段和合并的数据集的数据标签,看看是否所有的数据都匹配。
4.计数缺失值。当缺失的值在组织的特定部分中占比过高时,它们可能会歪曲你的结果。我们在前面的例子中看到了这种情况。此外,缺失值太多(即数据不足)的分析有可能会变得不准确。这也会影响到你的结果的通用性。
5.检查数字上的离群值。计算出描述性统计数字和量值。这些数据可以让你计算出潜在的离群值。最小值和最大值是一个很好的起点。
此外,您还可以计算出区间范围。您可以通过将量值3(Q3)和Q1之间的差值乘以1.5来实现。这个结果可以加在Q3上,再从Q1中减去。超出这个范围的值被认为是离群值。这篇维基百科的文章详细介绍了如何做到这一点。
6.定义有效的数据输出,并删除所有无效的数据值。这对所有的数据都是有用的。对字符数据进行明确的定义。例如,性别被定义为M或F,这些都是有效的数据值。任何其他值都被假定为无效值。这些数据可以很容易地被标记出来进行检查。
通过使用本指南,您将能够找到大多数数据不一致的地方。提示:始终仔细查看您的干净数据,您可能会发现自己遗漏的东西。祝好运!
以上由智能的AI翻译完成,仅供参考。来自AIHR
作者:Erik van Vulpen
扫一扫 加微信
hrtechchina