防止大数据破坏的10个方法

2016年04月22日 作者: 瀚思科技

导语:数据在工作中已经越来越常见,通过异常数据来做一些决策也渐渐成了主流,然而大多数业务决策者没有经过专门培训,因而不太了解异常数据(data outlier)。不过高管、经理以及非数学专业出身的员工可以学习了解基础知识,根据分析结果做出重大判断,本文介绍了几个常见的问题,希望可以给您合适帮助。

数据分析有自己的一套术语,业务决策者学习起来有一股压力。不过要小心,因为技术术语常常宽泛地使用,有时对个人及公司造成不利。异常数据就是个很好的例子。许多人都在谈论异常数据,但不是很多人都明白异常数据为何存在,什么原因导致它们,可以对它们采取什么措施,如果有措施的话。

汤姆·博登伯格(Tom Bodenberg)是市场研究公司Unity Marketing的首席经济学家兼数据顾问,他在接受采访时说:“异常数据是已定义数据集的一个成员,其值与数据集其他成员的值全然不同。它可能是测量或记录错误造成的结果,或者是数据集定义造成的意外又真实的结果。”

异常数据每天都在进入报告的统计数据。有时,异常数据的包含或排除显而易见,有时则不然。比如说,1984年,弗吉尼亚大学声称,修辞和传播专业毕业生的平均起薪是55000美元。然而,异常数据导致分析偏离事实。原来,数据集包括100名薪水为25000美元的毕业生以及另一名毕业生:NBA选秀状元拉尔夫·桑普森(Ralph Sampson),他的起薪超过100万美元。

异常数据因不同的原因而出现:有些是人为错误或机器错误造成的,另一些则代表实际数据。大多数业务人员没有考虑其中的差异,他们也不知道如何处理。

一种策略就是,理所当然地将异常数据包括在数据集中,或者从数据集排除异常数据,而不考虑潜在后果。虽说包括或排除异常数据对分析几乎没有什么影响,但事实上可能恰恰相反。

数学家、决策工具提供商ClearerThinking.org的创始人斯宾塞·格林伯格(Spencer Greenberg)在接受采访时说:“如果你在处理数据,或者别人给了你基于数据的结果,有必要考虑异常数据是如何检测并处理的,你能从中得到什么启示。

要问的重要问题有:‘数据集里面有没有异常数据?它们为何会出现?我们可以从中了解什么?以及该怎么处理它们?’。

一些企业组织在分析异常数据,检测诸如欺诈性交易、犯罪活动、安全隐患和疾病爆发之类的行为。实际上,异常数据有时能表明值得关注的真相,不然它们可能不会引起注意。

数据科学家市场Correlation One的创始人兼首席执行官沙姆·穆斯塔法(Sham Mustafa)在接受采访时说:“谁要试图解读数据,就需要关注异常数据。至于数据是财务数据、社会数据、医疗数据,或者甚至像关系这样的定性数据,那不要紧。针对数据或信息的任何分析必须考虑到异常数据的存在及其影响。

有些异常数据很容易发现,另一些比较难发现。下面是要考虑的几点。

存在数据质量问题

人或机器可能要对进入到分析的劣质数据负责。有人可能键错了数字,或者把某个数字的数位互换了一下位置。另外,一个设备可能报告导致分析偏离事实的错误值。数据在网络上传输时,也有可能受到破坏。

斯宾塞·格林伯格说:“消除或修复异常数据的重要性取决于异常数据有多极端。如果它由小错误造成,可能不是很要紧。但如果异常数据很极端,可能会对分析造成负面影响,导致错误结论。如果你的异常数据由错误造成,就要删除其值或修复。异常数据越极端,这么做就显得越重要。

应该调查异常情况

如果异常数据是异常情况(即是个不太可能但又真实的数据,而不是错误),理所当然地删除可能不明智。有时,异常情况表明未来趋势的开端,或者是应予以调查的其他情况。比如说,某些疾病在世界上一些地区很罕见或不存在,不过由于某一个人的暴露,孤立病例或一群病例可能会出现。

数据分析和技术解决方案咨询公司Innovizo的数据科学主管瓦迪姆·比丘特斯基(Vadim Bichutskiy)在接受采访时说:“你不该盲目地认为,异常数据就是错误。有时,异常数据正是你所寻找的。比如说,在欺诈检测或网络安全应用环境下,异常数据或异常情况可能预示不受欢迎的活动,它们本身值得关注。

当异常数据是异常情况,而不是错误结果时,就应该进行调查。

可视化有所帮助

仅仅看一下数字,是很难发现异常数据的。数据可视化可以让它们立即显露出来。

格林伯格说:“可视化数据可以让异常数据出现在你面前。如果你能看到它,可以试着了解它。如果你能理解为何会出现异常数据,那么你就有机会从中得到启示,决定该对此做些什么。”

异常离群还算常见

大多数业务人员都知道“钟形曲线”(bell curve)即正态分布,因为他们在高中或大学学过这方面的知识。这个概念很受欢迎,因为它适用于日常生活和商业中的许多事情,比如某些设备的环境温度范围。

只要变量是各种影响累计起来后的结果(比如每个基因调整一点高度所带来的总影响),钟形曲线往往会出现。在钟形正态分布下,群体的大部分向中间聚集。比如说,成年男子的平均身高是5英尺10寸(68%的男子高度介于5英尺7寸至6英尺之间。)

格林伯格说:“平均值表明了数据的中心。标准偏差告诉数据有多宽或数据规模,但是它对异常数据极为敏感。你得确保,已经仔细看过了数据,你知道结果没受到仅仅一个数据点的重大影响。”

注意偏斜

另一种很常见的分布就是所谓的“肥尾分布”(fat-tailed distribution),它比正态分布更容易出现极值。

“肥尾分布”在金融界尤其受到关注,因为它们可以比钟形曲线更准确地模拟极端结果,比如金融市场崩溃。

Correlation One的穆斯塔法说:“许多人以为,数据会呈现钟形曲线的形状,但是许多数据并不是呈钟形曲线。比尔·盖茨走进酒吧后,酒吧里面的人平均净值会增加数百万美元。这正好说明,像‘平均值’这些统计指标受到异常数据的重大影响。”

分析原因

异常数据会出现有其原因。问题是,它们是不是归入某个特定数据集及随后的分析。

约翰·约翰逊(John Johnson)是Edgeworth Economics的创始人,著有《Everydata:你每天使用的小数据中隐藏的错误信息》一书。他在接受采访时说:“什么原因导致异常数据实际上是关键问题。有些异常数据显然是数据错误,不该归入分析。如果是比较困难的情形,我们希望看到某个数据点对整个分析有什么程度的影响。”

约翰逊及其团队还查看了结果的可靠性,因为删除或测试异常数据点后,可靠的结果不容易出现大的波动。约翰逊表示:确定哪些数据点有最大的影响及其对结果带来的潜在影响,可帮助人们更聪明地使用数据。

谨小慎微

数据和数据分析工具的数量激增促使更多的人考虑和处理数据。能够批判性地思考数据极其重要。

约翰·约翰逊说:“每个人在考虑数据时都要注意和小心。**异常数据潜伏在每个地方;至少提高意识,明白可能存在异常数据,这点很重要。**循证方法没必要过于复杂化或复杂。查看信息后,发现哪里出现独特或不寻常的情况,然后确定这多适合你的分析结果,这是关键。”

认识到异常数据未必是坏事

异常数据仅仅是一个极端或意外的值。它们可能代表风险、机遇、错误、异常或别的什么。异常数据表明是好事还是坏事,这要看数据上下文、分析目的以及公司目标。

Innovizo的比丘特斯基说:“异常数据”这个术语有负面含义,于是有些人自然而然认为,异常数据是不受欢迎的。实际上,异常数据可能正是你‘苦苦寻找的对象’。比如说,在商业界,异常数据可能代表购买你产品的力度比其他大多数消费者大得多的消费者。

提防假设

与大多数事情一样,关于数据的假设可能有误导性,偏见会影响分析的结果。

帕维斯·阿哈默德(Parvez Ahammad)是应用程序交付平台提供商Instart Logic的数据科学和机器学习部门主管,他在接受采访时说:“采样错误和关于基本统计分布的错误假设是人们常犯的典型错误。还经常可以看到有人不了解基本假设是什么,就使用统计测试或分析程序包。”

“核实你之前在数据方面的假设或观念,确保它们真实有效,要重视数据告诉你的情况,收集尽可能多的数据,那样才有足够准确的样本,以便做出决策;要是你遇到了异常数据,请教可能很熟悉这方面情况的其他人,对方会给出另一番解释。”

异常数据迥然不同

异常数据有点极端、简单或复杂。有许多方法来定义和描述它们。虽说别指望普通的业务人员可以了解所有门道,但是他们还是应该掌握基本方面,寻求数据科学家的帮助,以便帮助解读和验证数据。

肖恩·麦克卢尔(Sean McClure)是数据可视化和预测分析解决方案提供商Space-Time Insight的数据科学主管,他在接受采访时说:“可以从许多方面来描述异常数据的特点:从单个特点到复杂的参数特点和行为,不一而足。”

异常数据确实会影响组织管理和业务运营的方方面面。员工、经理和高管都需要知道异常数据,才能高效地管理其组织和业务运营。”

综述以上种种你是不是也经常会遇到?其实所有的问题交给瀚思就好!