「妙手数评」数据科学家的能力和责任

云烟 • 2023年 10月 14日上午10:00 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

本系列文章由4个主要章节组成，这篇文章是“谁是数据科学家，它是什么，它做什么？”是该系列的第三部分。

上面的照片是对数据科学家所做事情的一种描述，巧妙地表明他处于冥想模式。您在热爱工作时所做的/将要做的每个应用程序或功能都会给您带来一种乐趣，并且您会喜欢这份工作。

现在，简要地讲什么是数据科学？

在可以定义为数据的各种资产中；数据科学是信息化工作的全过程，它定义当前情况，进行信息化发现，通过当前情况对未来进行分类、分类和预测。统计学、机器学习、编程、大数据和开源软件广泛用于数据科学过程。然而，在社会上； “数据科学”值得当前关注，因为它应该包括诸如研究、探究、问题与技术解决方案之间的联系、结果的解释和呈现等技能。

数据科学家呢？它有什么作用？

数据科学家可以用各种工具描述他/她拥有的数据，并对其中的结构进行推断；正是站在视觉特征交汇处的人可以制作预测、预防和处方模型：

他是从数据中提取有用信息过程的管理者。它是知识的艺术家。只是扭曲数据的“物理空间占用”形式的人。换句话说，它是“信息浏览器”。

他知道从哪里获取数据。否则，它提供生产。了解传入数据的结构、含义、存在哪些限制和不足。它根据要解决的问题对数据进行整形。如果没有问题解决，他通过发现过程找到了那些被大家忽略的神秘建筑，他很好奇。知道如何在何种情况下应用各种描述性、推理性、聚类、分类、预测、预测和预防方法。

那么数据科学家的职责是什么？

它是使用各种工具和科学技术从数据中提取有用的信息、行动建议、决策支持系统和面向数据的产品。

数据科学家应该具备哪些技能？

简而言之：

编程
数学、统计学、机器学习
个人技能
业务知识（最重要的项目，但这个能力当然不会在初级阶段）

稍微解释一下：

个人能力：“兴奋”、好奇心、提出正确的问题、分析视角、解决问题的能力、有效沟通、叙述和表达能力（这些非常重要）
科学基础：数学、统计学、概率、线性代数
编程：算法方法、编程逻辑、SQL（数据库）、NoSQL、Bash Script、R、Python、Scala、SPSS、SAS、MATLAB 等。
大数据技术：了解大数据概念、Hadoop、Spark、Hive、Impala、DBs、PySpark、SparkR、SparklyR 等。
云技术：AWS、谷歌云、微软 Azure、IBM 等。

统计学习（SL）：

整洁的数据处理和数据预处理（缺失数据、异常值、不一致审查等）
发现数据分析（描述性统计、数据可视化）
推理统计（样本理论、概率分布、随机变量、假设检验、贝叶斯推理、稳健方法）
多元统计方法（相关、降维（PCA、LDA、Kernel PCA）、方差分析、聚类分析、因子分析、拟合分析、路径分析、分离分析等）
回归模型：线性回归、logit-probit、m.logit-m.probit、分位数回归等。
重采样方法（重采样方法：交叉验证、引导）
线性模型选择和正则化
线性和因果关系

机器学习（ML）：

回归模型：多重回归、多项式回归、SVR、回归树、随机森林回归……
分类：逻辑回归、K-NN、SVM、朴素贝叶斯、决策树、社区学习方法（bagging、boosting、RF、…、）
聚类：分层和非分层聚类方法（分层聚类，K-Means）
关联规则学习（关联规则：Apriori、Eclat）
文本挖掘，自然语言处理
强化学习
深度学习
模型选择（验证、测试失败方法、模型性能评估、参数调整）和了解学习障碍（欠拟合、过拟合、良好拟合）

意识到简单的总是更好，以及“所有模型都很糟糕，有些是有用的”

预测接近吗？因果关系？非常了解他们的情况。

可以更改项目的位置、顺序和标题。一般来说，这些能力定义了一个好的数据科学家。在这种情况下，我们可以假设数据挖掘、机器学习和数据科学等每个概念都将交织在一起。

一些统计学家会认为写在 ML 部分的内容实际上应该在 SL 部分，是的，实际上 SL 和 ML 交织在一起并表达相同的东西。有一些区别。看了相关文章后，在目前的情况下，我们用一句话将两者分开：

“如果要执行因果关系原则和行动者建模目标，也就是说，如果一项研究侧重于人类和制度行为，并且目标是了解事件的原因，那么 SL，如果只关注预测接近性， ML，如果同时考虑因果关系和预测邻近性，首先是 SL 然后 ML = SL * ML “。

在这种情况下，问题实际上减少到了打破线性而不是打破的地步。因为我们无法在非线性模型中进行因果关系查询。

您可以找到许多标题为“统计在数据科学中的重要性”的文章和文章。我不会进入它，因为这本身就是一个领域。

除了SL和ML之外，它实际上可以添加到计量经济学建模中，但我已经在SL中表达了它。那么为什么这很重要呢？他是详细数据科学家培训中的因果关系和计量经济学建模之一。因果关系原理是一个完全不同的领域。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/21803.html