一篇“不太科学”的数据科学文章

一篇“不太科学”的数据科学文章本文作者张晓泉 清华大学经管学院 Irwin and Joan Jacobs 讲席教授 创刊于 1922 年的 哈佛商业评论 Harvard Business Review 以下简称 HBR 是哈佛商学院的标志性刊物 因其关于商业战略的文章而

欢迎大家来到IT世界,在知识的湖畔探索吧!

(本文作者张晓泉,清华大学经管学院 Irwin and Joan Jacobs讲席教授)

创刊于1922年的《哈佛商业评论》(Harvard Business Review,以下简称HBR),是哈佛商学院的标志性刊物,因其关于商业战略的文章而闻名,也被业界誉为“管理圣经”。

然而,它在技术内容方面的文章可能就不是这样了,下面要讲的这篇文章就是一个例子。

2018年,HBR的网站上发表了一篇名为《用这个2×2矩阵优先考虑你的公司需要哪些数据技能》(Prioritize Which Data Skills Your Company Needs with This 2×2 Matrix.)的文章。

一篇“不太科学”的数据科学文章

HBR最喜欢的就是把问题做一个2×2的矩阵,这样讲故事确实很容易follow,但是这篇文章却有很多问题,甚至还可能带来风险。

为什么说它可能存在风险呢?

首先,它引导人们以一种不太实际甚至可能是错误的方式来思考数据科学。这一点稍后会详细说明。

更明显的风险是,不了解情况的人还可能会用这篇文章来指导实际中公司的数据战略。

不仅如此,这还可能会给许多数据专业的人员带来困扰,并让他们感觉自己的经验和技能都受到了贬损。

所以,这篇文章到底讲了什么?

其实,这篇文章基本上是复制粘贴了一个著名的战略商业框架,并试图将其应用于数据技能的学习和提升。

作者使用了一个成本效益矩阵,其中“成本”是学习一项数据技能所需的「时间」,代表着个人或团队获得该技能的机会成本;而“效益”是该数据技能对组织的「效用」,指的是个人或组织有多大可能需要这项技能,这代表它能为个人职业前景的增益,或为公司增加的价值。

结合「时间」和「效用」,作者列出了一个简单的2X2四象限矩阵,并标注为「学习」(Learn)、「计划」(Plan)、「浏览」(Browse)和「忽略」(Ignore)。

一篇“不太科学”的数据科学文章

作者认为,这是一个有用的框架,可以帮助确定需要花时间投资于哪些数据技能。

接着,作者又列出了下面这个更为细化的矩阵来说明具体需要学习的技能有哪些。而这些技能的优先次序,则是根据职业相关技能在招聘、新闻报道和学习者反馈中出现的频率来决定的。

一篇“不太科学”的数据科学文章

这在理论上初看起来不错。

矩阵确实是有用的战略框架,可以帮助人们根据几个关键的考虑因素来确定优先次序(尽管它们在实践中往往被过度使用,而且它们的轴线往往不像人们认为的那样独立)。

那么,这篇文章存在哪些问题呢?

首先,大部分有经验的数据专业人员看这篇文章尤其是这个矩阵的时候可能都会感觉不太对劲。

这里就列出其中最明显的几点。

1)正如上面提到的,这些技能不能简单地逐项考虑,也不能独立考虑。

不学习统计学,怎么能学习统计编程?「数据科学」(Data Science)与「机器学习」(Machine Learning)、「预测性分析」(Predictive Analytics)和其他几个列出的技能有什么不同?「财务分析」(financial analysis)与「商业智能」(business intelligence)又有哪些区别?

试想一个这样的场景:一位企业高管告诉他的数据科学家要专注于数据可视化,但不要考虑数据清洗的问题。

2)这篇文章暗示:有些技能是「容易的」,有些是「更有用的」。

诸如「没有用」(Not useful)和「不费时」(Not time-consuming to acquire)这样的二元陈述都是在表明这种贬损性质。这本身就是有问题的,对数据或分析功能持这种观点的人,都带有一种无形的职业或等级歧视。

绝大多数的数据和分析活动都需要专业的技能或知识,而认为其中一些技能更容易学习,或是比其他技能更有用或更没用,显然是不太合适的。

3)这篇文章强调,所说明的优先权只是一个例子。但一个例子只有在可信的情况下才是有用的,而文章中的这个例子看上去并不是那么可信。

再试想一下,在没有良好的数据清洗和数据仓库,或者没有数学或统计学知识的情况下做数据科学。可以肯定,结果不会很好。

如果数据可视化技能是「不费时的」,为什么优秀的数据可视化专业人员这么难找,而且需求量这么大?

有经验的读者可能还会在这个矩阵上挑出更多不合适的地方。

从本质上讲,这篇文章使用了一个不太合适的说明性例子,试图将一个框架代入实际应用。

当你剔除这些不合适之处时,剩下的只是一个空洞的框架,它无法应用于数据技能的学习或提升,因为它们太复杂,也很难以这种方式逐项列出。

我们在阅读这样的内容时,尤其是需要将其中的理论或框架应用于实际生产生活中时,都应该结合实际提出问题多加思考,并采用一种更加合适的方法应用到实践中。

(本文作者张晓泉,清华大学经管学院 Irwin and Joan Jacobs讲席教授)

本文仅代表作者观点。

一篇“不太科学”的数据科学文章

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/92301.html

(0)
上一篇 2024年 11月 27日 上午9:23
下一篇 2024年 11月 27日 上午9:55

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信