Nike - HRTechChina.com - 向上的力量！

Nike

知识：什么是人力资本分析People Analytics？定义、流程、趋势和工具人力资本分析People analytics 被定义为深度数据驱动和以目标为中心的方法，研究工作中所有的人员流程、职能、挑战和机会，以提升这些系统并取得可持续的业务成功根据德勤最近的研究，提高工作录用率、减少人力资源帮助票据和优化薪酬只是人力资本分析迅速成为人力资源新货币的几个方法。让我们从头开始，了解一下人力资本分析People analytics 的基本知识。什么是人力资本分析People analytics ？人力资本分析People analytics 可以被定义为深度数据驱动和以目标为中心的方法，研究工作中所有的人员流程、职能、挑战和机会，以提升这些系统并实现可持续的业务成功。人力资本分析通常也被称为人员分析或人力资源分析，我们这里统称一个人力资本分析。从本质上讲，收集和评估人力资本分析可以通过应用统计学和其他数据解释技术来实现更好的决策。更智能、更有战略意义、更有数据支撑的人才决策由此近在咫尺，这适用于整个员工生命周期--从做出更好的招聘决策、更有效的绩效管理到更好的留住员工。与上世纪中期首次在组织中使用时相比，人力资本分析已经有了很大的发展。从规定性分析到预测性分析已经有了明显的转变，有了它，组织现在可以更好地准备面对运营环境的动态性，做到未雨绸缪，而不是被动应付。例如，复杂的数据科学、交互式数据可视化和机器学习--这些都是今天人力资本分析不可或缺的部分，但在几十年前，这些都不是这个过程的一部分。很多朋友也在问如何搭建自己的PA团队？PA团队如何构成？有没有现实的案例给我们参考？那么刚好前几天小编的一个LinkedIn一度好友加盟了Nike的PA团队，他们的PA团队Leader 发了一个帖子谈到自己团队的情况，相信可以给你不小的参考。一起看下？人力资本分析People analytics 的过程今天的人力资本分析更加直观，预测性更强。在这种期望下，这个过程包括以下几个步骤。第一步：挖掘重要的数据这里要问的核心问题是："哪些数据与我们的业务目标相关？"并据此设定关键绩效指标（KPI）。这样，你就可以只调查那些需要直接监控的领域，比如人员管理范围内的运营任务，从而节省主要资源，并能带来实实在在的业务成功。如果不能增加战略价值，挖掘这些数据可能是浪费时间。知道什么是重点，也有助于应用正确的统计、数据挖掘、机器学习、调查管理和战略性劳动力管理工具。第二步：实验、探索、丰富。在一个拥挤且明显分散的市场中，选择人力资本分析工具时，必须对市场进行探索，尝试不同的选项，并分析哪种选项能使组织的内容最丰富。多种产品包括数据挖掘、数据转换和数据可视化技术，所有这些都融合在一个用户友好的自助服务界面中。提供多种功能的平台往往需要大量的人工操作来访问重要的数据，这些方面只能通过系统的实验来测试。第三步：准备好行动计划一旦你知道你的最终目标是什么，哪些数据是相关的，以及可用的选项是什么（基于明确的利弊分析），就制定一个行动计划。将大数据和预测分析应用于人才管理、领导力发展和组织能力，往往有助于对行动计划进行微调。此外，拥有一个定义明确的行动计划，能够更好地理解为什么会发生某些变化，以及组织的发展方向，从而有助于获得更多利益相关者的支持。第四步：避免法律漏洞确保在收集所有数据的过程中保持法律合规性是至关重要的。在你开始分析项目之前，让法律团队验证数据来源技术和流程。事情并没有到此为止。一旦收集和处理了原始数据，收集到的结果也需要在应用或发布之前得到批准。在我们的数字生态系统中，由于数据保护和隐私法律仍在不断发展，谨慎的做法是紧跟变化，并仔细检查法律合规性。第五步：建立更精简的系统无论当前项目的复杂程度如何，流程必须坚持的大战略都需要简单、精干。数据分析和解读的基本流程要做到便于应用、更新和可读。例如，创建基本大纲简化为摄入和设计（数据收集和分析设计）、数据清洗（去除不相关或不可靠的数据）、数据分析（定量和定性探索）、分享见解（数据的解释和展示）。这可以帮助避免不必要的复杂情况，如对所涉及的步骤流程的混淆、时间浪费，或在不规范的流程结构下出现的子流程的重复，同时还可以在必要时留有调整的余地。我们的想法是在有限的运动部件（人和环境的动态性）和流动的、可定制的人力资本分析系统和流程之间找到适当的平衡。当你有了具备相关技能的合适团队，就更容易简化整个流程，并应用质量控制。第六步：建立一个基于事实、可衡量的人力资源业务战略。切实可行的人力资源业务战略可以避免职能孤岛，并能使人才与业务无缝对接。对人力资本分析工作有明确的关键绩效指标和投资回报率预期，可以确保经常以透明的方式衡量影响。一个成功的战略需要有数据和有效的行动计划来支持。第七步：采取技术支持如今，科技已经穿插在生活的方方面面，像人力资本分析这样的流程更是如此，往往大量的分析数据要在几乎没有误差的情况下进行处理。新时代的人力资源科技工具让实时数据变得容易获取。而这是一个需要被榨取的机会，因为今天，敏捷性和实时智能可以真正让你在竞争中脱颖而出。四大人力资本分析趋势Four Key People Analytics Trends 由于人力资本分析在很大程度上依赖于不断发展的数据挖掘技术和数据解释策略，因此围绕人力资本分析的趋势也会随着时间的推移而发展。以下是正在塑造人力资本分析本身及其与业务互动的4大趋势。有些趋势在双循环中起作用--它们影响到人力资本分析，进而影响到人力资源的所有其他方面。 1. 转变HR是什么，做什么 Bersin研究指出，只有微不足道的2%的人力资源组织有成熟的人力资本分析能力可供借鉴。因此，对于试图进入这一领域的创新型、智慧型组织来说，有相当大的先发优势。随着人力资本分析改变了招聘的方式、绩效的衡量方式、薪酬的规划或成长的规划，以及如何更好地管理学习和保留，人力资本分析正在迅速改变人力资源的运作方式。根据德勤最近的研究，提高工作录用率、减少人力资源帮助单、优化薪酬只是人力资本分析迅速成为人力资源新货币的几种方式。此外，随着人力资源流程的发展，以跟上业务需求的步伐，人力资本分析正在从一次性的举措，变成一个实时的、易于修改的工具，HR可以从中获得巨大的好处。 2. 改变HR的业务交互方式随着工作生态系统的最新趋势，人力资源与业务利益相关者（包括内部和外部）之间的互动也在发生转变。人力资本分析需要随着领导力的最新趋势而改变。更多的透明度是这里出现的一个关键趋势，而智能洞察力是当下的需求。今天的企业需要能够理解看似不相关的数据流，并找到一个或多个因素之间的意义、相关性，甚至可能是相互依赖性，从而更好地预测和管理工作。人力资本分析有可能提供可操作的建议，以实现战略规划和执行过程。 3. 转变HR与员工的关系如今员工的期望是消费级的。人力资本分析正在为组织提供升级员工体验的坡道。候选人或员工与组织的每一次互动都是一个数据点，可以利用这些数据点来收集有趣的见解。这个想法是需要转变HR与员工的关系--帮助HR成为并被认为不仅仅是一个支持功能。 4. 转变洞察力的质量在过去的几年中，人们每天所期望的洞察力的质量已经发生了变化。如果你专注于两个关键方面：分析素养和数据安全，人力资本分析可以达到这些期望。更多的员工需要具备分析素养，以减少对技术人员的依赖性，让更多的观点得以发扬光大。随着人力资本分析成为组织的主流，数据完整性和数据安全将需要升级，并维护所有监听渠道和脉冲检查。我们讨论了法律合规性，但数据安全最好比这更深入，成为组织内部的一种文化特质，而不是为了合规而做表面检查。选择合适的人力资本分析工具的三个基于级别的关键检查方法随着大量可用的供应商、选项和订阅计划的出现，选择合适的人力资本分析工具往往看起来是一项相当艰巨的任务。这里有一个基于需求的三级检查，以做出正确的决定。第一级：一个有效的人力资源仪表盘要开始使用人力资本分析，请使用一个基本的仪表板，允许您捕获，汇总和可视化数据。像Power BI、Tableau和Qlik这样的工具可以让你轻松使用和轻松访问数据。有了第1级的要求，你的首要任务应该是让你的人力资本分析系统尽可能的简单。第二级：具有洞察力的人力资源仪表盘你可能有稳定的相关数据，需要基本的洞察力来更好地分析并做出更有力的决策。像Excel或SPSS这样的统计工具也很有效，尽管它们可能没有奇特的视觉辅助和社交媒体风格的界面。像Visier这样的工具，虽然需要一些时间来设置，但却带有整体的分析解决方案。第三级：预测性的人力资源仪表盘当你的组织不仅寻求分析数据，还寻求根据即将到来的趋势进行直观的预测时，你的组织就处于第三个需求层次。这些工具可以帮助你研究行为，你可以预测下一步的行动。例如，你的员工更新他们的LinkedIn页面、频繁休假，可能与他们在工作中不太满意有一定的关联。虽然这是一个非常简单的情况，但预测工具可以帮助你与行为和决策模式建立联系，否则你可能会错过。Python或RStudio可以帮助你对大量数据进行高级分析，尽管它们可能需要你聘请专门从事该领域的数据科学家。更新、升级和提升技能，实现更聪明的人力资本分析。通过最新的人力资本分析和劳动力分析解决方案，你可以深入研究工作中的行为方面，了解工作中不同的人与非人之间的因果关系，并做出更好的决策。要记住的三点是，知道你需要量化和定性的数据是什么，了解最新的趋势是什么，知道你的最终目标是什么。让你的HR能够更新、升级、提升他们的知识和能力，将确保你的组织优化最新的人力资本分析优惠，并能乘着最新的趋势浪潮走向更智能、更快乐的员工队伍。作者：Prarthana Ghosh 由AI翻译，仅供参考，来自TOOLBOX

Nike
2021年03月03日
Nike

耐克谈：什么是成功的候选人体验？为什么重要今天的招聘环境是非常受求职者驱动的。在过去，候选人会向10个或20个不同的公司提出申请，希望能在某个地方找到工作，但现在，10个或20个公司都会主动联系候选人，让他们来为他们工作。考虑到这一点，候选人的体验是招聘过程中非常重要的一个方面。什么是候选人体验？What is candidate experience? 它是指候选人在求职过程中与你的企业进行的所有互动，以及他们对你的企业的印象。它包括求职者与贵公司的每一个接触点，从对公司的认识和兴趣，到浏览和申请工作、面试过程、收到工作通知或被拒绝，最后到入职过程。为什么说候选人体验很重要？Why is it important? 对于想要加入一家公司的求职者来说，求职者的经验可以很好地反映出被该公司录用的整体体验。您对待求职者的方式不仅对您的招聘成功与否有巨大的影响，而且对公司的品牌和底线也有很大的影响。成功雇佣：随着需求量大于供给量，求职者在选择的时候会更加挑剔。你的公司和其他20家公司都在追求同一个候选人，作为一个组织，你需要从竞争对手中脱颖而出，赢得优秀的人才。即使你的公司被卖给了一个求职者，也不意味着这个求职者被卖给了你的公司。候选人很可能会把招聘过程作为他们最终决定的重要部分。有几个因素会让正在决定多个工作机会的候选人望而却步。例如，如果申请过程太过混乱，或者面试过程不合理，或者招聘人员花了太长时间才提供任何更新的信息。一个精简的求职者体验是真实的、体现出关怀的，这将提高招聘质量，减少招聘时间，提高录用率。雇主品牌：这也是雇主品牌塑造的机会。雇主品牌是人们对应聘者和在公司工作的感受。即使只有一个求职者会得到这份工作，你的品牌也会给所有其他没有得到这个职位的求职者留下印象。如果他们有一个积极的体验，他们会出去宣传你的品牌，提高你的雇主声誉。然而，正如可以预料的那样，有不良体验的求职者会在网上和亲朋好友分享。候选人的体验会影响到未来人们对该组织的看法，以及他们如何向其他人谈论该组织。结果：有许多研究结果和数字表明，求职者的体验对公司的影响。如果求职者没有收到雇主的回信，不仅可能会被拒之门外，而且可能不会购买或支持该雇主的产品或服务。有多少次你去过一家餐厅，他们的食物很好吃，但提供的顾客服务却很糟糕？你可能永远不会再去那家餐厅，甚至可能会更进一步，在大众点评上留下负面评论。反过来说，一个正面的体验可能会导致那些求职者向该公司购买或使用他们的服务，而不管他们是否被录用。这就是为什么要注意到候选人的体验会影响公司的所有方式。结论是什么？Conclusion 我最喜欢的一句话是来自美国作家布伦南-曼宁的名言---"在每一次相遇中，我们要么付出生命，要么耗尽生命；没有中立的交换。" 每一次互动，或大或小的互动，都会有正面或负面的影响。如何确保给候选人一个正面的、真实的体验，就看你怎么做了，一个精彩的候选人体验不是招聘人员一个人可以完成的。整个组织在帮助候选人做出加入公司的决定中起着重要作用。以上由智能的AI翻译完成，仅供参考。作者：Grace Yoon

Nike
2020年05月10日
Nike

硅谷观察之大数据篇（完整版）【上篇：挖掘机和“改变世界的”大数据公司们】硅谷的这一个月，我在 startups demo days 和各种大公司一日游中度日，以为会逃脱国内各种会上各种“大数据”和挖掘机的梗，但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷，与你分享大数据在这片土地上的真实生长状况。什么是“改变世界”的大数据公司近两周硅谷两场规模比较大的 demo 大会上，就有十多家自称做大数据的 startups，有做消费者行为的，有做体育分析的，有做 NGO 融资的，有做环保的，有做 UX 的，有做信贷评级的，当然还少不了做移动端广告的。乍看都是高大上的产品，但仔细琢磨一下会发现一些没那么高大上的细节。比如，有一家介绍时候说 "Brings big data to teams, media and fans"，用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的，demo 的哥们表示他们请了一些人看视频的。没错，是人工。自然地，下一个问题就是：未来如何扩张以应对来自不同体育项目大量的全长录像？他的回答也很简单，雇佣更多人。听完我懵了一下，问，那打算如何利用收集的数据呢？答曰：开放 API，自己不做分析。那么，说好的大数据呢？难道有数据就叫大数据公司了？如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了？是，但也不是。先归纳了一下硅谷“大数据公司”的类型，有补充或修正的请拍砖：数据的拥有者、数据源：特点是业务优势能收集到大量数据，就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型，比如Vantage Sports和收集了PB级数据的包子铺。大数据咨询：特点是非常技术，提供从基础设施规划建设维护到软件开发和数据分析等的服务，但不拥有数据，比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。做大数据工具的：比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。整合应用型：特点是收集拥有或购买一些数据，然后结合AI来解决更多实际的痛点。所以回答之前的问题：是，因为包子铺只要收集的消费者数据量够大就能成为数据拥有者，有那么大的数据就有得到洞见的可能；不是，因为可能从真正意义上来说，大数据公司应该只属于第四种类型：AI。对，我相信未来是 AI 的，而 AI 的食物是数据。就像很多产业链一样，最困难且最有价值的创新往往发生在接近最终用户的那端，比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见，影响组织和个人的行为，从而改变世界。收集和整理数据在未来会变得标准化和自动化，而利用 AI 进行分析的能力会变得更为关键。再看硅谷主打 AI 的公司，现在大致可以分成以下三类了：分析用户行为，改进产品和营销的，比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销；统筹大量分散个体，利用大数据实现精确有效的预测和规划的，比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market 分析识别各种类型的数据，开发更智能的设备和程序，比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。这些产品都有一个很明显的共性，就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合，因此认为之前所说的第四种类型的公司是最有希望改变世界的。这样的大数据公司需要什么样的人那么大数据公司，或者说到真正可以改变世界的大数据公司需要什么样的人才呢？这里要介绍一个在硅谷被炒得很热的高频词汇：数据科学家。这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取，那是数据工程师的活。那产生的原因是什么呢？正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分，而且量越大越好，从数学上来说，数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中，也就是说机器学习的效果越来越好，AI 越来越智能。由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学，到算法的选择优化，再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了，以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称，data scientist is a data analyst living in the bay area。值得一提的是，数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面：数据量的急速增长。如今，数据的产生变得异常容易。社交网络，移动应用，几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时，我们就需要新的储存方式，如云储存，以及新的处理方案，如Hadoop这样的分布计算平台。数据本身的非结构化。在传统的数据处理领域，我们处理的主要是结构化数据，例如，Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据，如社交网络的评论，用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中，这些数据中隐含着众多有价值的信息，但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘，这也就是“大数据”的挑战所在。目前硅谷的创业公司正在探索新的应用领域和方法，比如说物联网这块。现在智能设备们才刚刚起步，Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候，大数据的威力才会伴随着巨大的使用规模而发挥出来。另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候，他们的相互关系在各种维度上的交错会产生一张巨大的网络，其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向，即Social Physics。不过按照从硅谷到全国的速度，感觉不管哪一方面的普及起码得等上五年以上的时间。展望一下未来的话，如果参照以前的技术革命和行业发展来看大数据，那么大数据的底层设施将会逐渐被隔离，被模块化和标准化，甚至是自动化，而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。硅谷公司的大数据运行现状目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外，大部分公司要么还没有能力自行处理数据，要么就是正在建立单独的数据处理部门，主要负责从数据基本处理到后期分析的各个环节，然后再送到公司内部的其他部门。对于这些公司来说，建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说，Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。普遍来说，各公司自主建立数据处理平台存在着几个难点：没有足够优秀的数据工程师来组建团队没有足够能力整合数据没有易于操作的基础软硬件来支持数据分析这几个主要难点使得大数据分析越来越专业化、服务化，以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存，数据分析平台建立，到数据分析，数据可视化等等各个环节的成本越来越高，这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务，而将更多的人才和资源放到核心业务的开发上。另外，就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果，也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程，也给众多的大数据公司提供了机会。硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧，被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人，即使一片片的大数据 startups 被拍死在沙滩上，即使 Gartner 预测大数据概念将被回归现实，但相信会有更多的人投入到大数据这个行业，开发出更智能，更有影响力的产品。毕竟，大数据本身，不像一个单纯的 pitch 那样，它能够保证的是一定可以中看并且中用。【下篇：硅谷巨头们的大数据玩法】本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据，其中包括了著名 FLAG 中的三家（Apple 在大数据这块来说表现并不突出）。本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~ Evernote：今年新建AI部门剑指深度学习 Evernote 的全球大会上，CEO Phil Libin 提到，Evernote 的一个重要方向就是“让 Evernote 变成一个强大的大脑”。要实现这个目标，就不得不提他们刚刚整合改组的 Augmented Intelligence 团队（以下简称 AI team）。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy，在此分析一下从她那里得到的一手资料。是什么今年早些时候，这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team，总共十人不到，很低调，平日几乎听不到声响。他们究竟在做什么？与我们常说的 AI（artificial Intelligence）不同，Evernote 的团队名叫做 Augmented Intelligence，通常情况下简称为 IA。Zeesha 显然是这个团队里元老级的人物：“我是在 2012 年加入 Evernote 的，直接加入到了当时刚刚建立的数据处理团队，这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目，比如按照你的个人打字方式来优化用户的输入体验。” 传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算，而终极目的是以之武装人脑，让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处，但是其出发点却是完全不同的。这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具，Evernote 与 Google 之类的搜索引擎相比，最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。从哪来 Zeesha 小组的初衷便是，通过分析用户储存的笔记来学习其思维方式，然后以相同的模式从第三方数据库（也就是互联网上的各种开源信息）抽取信息推送给用户，从而达到帮助用户思考的过程。从这个意义上讲，Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂，为人脑提供各种强大的可理解的数据支持。目前整个团队的切入点是很小而专注的。“我们不仅仅是帮助用户做搜索，更重要的是在正确的时间给用户推送正确的信息。” 实现这个目标的第一步就是给用户自己的笔记分类，找到关联点。今年早些时候，Evernote 已经在 Mac 的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目，Evernote 就会自动返回所有相关信息。例如，用户可以直接搜索“2012 后在布拉格的所有图片”，或者“所有素食菜单”。不管用户的笔记是怎样分类的，Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始，这个团队将在此基础上开发一系列智能化的产品。到哪去不用说，这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿，但是由于整个团队的关注点在个人化分析，外加隐私保护等诸多原因，AI team 并没有做跨用户的数据分析。这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如，假设我只在 Evernote 上面存了 10 个笔记，那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然，这些技术的直接结果是用户用 Evernote 越多，得到的个性化用户体验就越好。长期来讲，也是一个可以增加用户黏性的特点。不过 Zeesha 也坦言：“的确，我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路，但是考虑到这个领域一时还没有很成功的先例，我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。 Facebook：大数据主要用于外部广告精准投放和内部交流 Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。 Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索，才在 2013 年把部门的 key foundation 定位成广告的精准投放，开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动，比如买下世界第二大广告平台 Atlas。据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍，Facebook 的数据处理平台是一个 self-service, self-managing 的平台，管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据，并根据需求进一步分析。目前公司超过 30% 的团队，包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流，明显改变了公司的运行方式。追溯历史，Facebook 最早有大数据的雏形是在 2005 年，当时是小扎克亲自做的。方法很简单：用 Memcache 和 MySQL 进行数据存储和管理。很快 bug 就显现了，用户量带来数据的急速增大，使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期（改变 - 修复 - 发布）带来了阻碍，系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO(“The Associations and Objects”) 分布式数据库，主要解决特定资源过量访问时服务器挂掉的 bug。小扎克在 2013 年第一季度战略时提到的最重点就是公司的大数据方向，还特别提出不对盈利做过多需求，而是要求基于大数据来做好以下三个功能：发布新的广告产品。比如类似好友，管理特定好友和可以提升广告商精确投放的功能。除与Datalogix, Epsilon,Acxiom和BlueKai合作外，以加强广告商定向投放广告的能力。通过收购Atlas Advertising Suite，加强广告商判断数字媒体广告投资回报率（ROI）。 LinkedIn：大数据如何直接支持销售和变现赚钱 LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打？打了后会是个有用的 call？销售们去问 Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。 Simon 和当时部门仅有的另外三个同事写出了一个模型后发现：真正买 LinkedIn 服务的人，在决定的那个环节上，其实是一线的产品经理，和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。那时 LinkedIn 才 500 个人，Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。 “但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。” 今天 LinkedIn 的“猎头”这块业务占据了总收入的 60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：分析每个公司它有多少员工。分析这个公司它招了多少人。分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在Linkedin的活动时间是多少。这是 LinkedIn 大数据部门最早做的事情。 Simon 说，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫“销售解决方案”，已经在今年 7 月底上线。这是卖给企业级用户的。回到刚才销售例子，LinkedIn 大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。” 虽然这第四个商业模式目前看来对收入的贡献还不多，只占 1%，但 anyway 有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon 说。 Google：一个闭环的大数据生态圈作为世界上最大的搜索引擎，Google 和大数据的关系又是怎样的呢？感谢微博上留言的朋友，这可确实是一个很有意思的议题。 Google 在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统 GFS（Google File System），主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代 NOSQL 数据库的鼻祖。 GFS 为大数据的计算实现提供了可能，现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。随后 2004 和 2006 年分别发布的 Map Reduce 和 BigTable，奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖 - 布林和拉里 - 佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。 2011 年，Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery，有点类似于 Amazon 的 AWS，虽然目前从市场占有率上看与 AWS 还不在一个数量级，但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。 BigQuery 和 GAE（Google App Engine）等 Google 自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。再来看 Google 的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。单独说一下 Google maps，这个全球在移动地图市场拥有超过 40% 的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的 3D 视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。 Google 还把 Google+，Panoramio 和其他 Google 云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google 能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。大数据为 Google 带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的 Google 广告（AdSense）。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。像在【上篇】中所说，除 Facebook 等几个很领先的公司外，大部分公司要么还没有自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象： Pinterest： Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上，Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据，并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。 Nike: 不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012 年起与 API 服务公司 Apigee 合作，一方面，他们通过 Apigee 的 API 完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014 年开启了 Nike+ FuelLab 项目，开放了相关 API，使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品，成功地连接了 Nike 传统的零售业务，新的科技开发，和大数据价值。作者: 曾小苏 Clara 摘自：36氪

Nike
2014年12月09日