「妙手数评」数据科学家的能力和责任

「妙手数评」数据科学家的能力和责任本系列文章由4个主要章节组成,这篇文章是“谁是数据科学家,它是什么,它做什么?”是该系列的第三部分。上面的照片是对数据科学家所做事情的一种描述,

欢迎大家来到IT世界,在知识的湖畔探索吧!

本系列文章由4个主要章节组成,这篇文章是“谁是数据科学家,它是什么,它做什么?”是该系列的第三部分。

「妙手数评」数据科学家的能力和责任

上面的照片是对数据科学家所做事情的一种描述,巧妙地表明他处于冥想模式。您在热爱工作时所做的/将要做的每个应用程序或功能都会给您带来一种乐趣,并且您会喜欢这份工作。

现在,简要地讲什么是数据科学?

在可以定义为数据的各种资产中;数据科学是信息化工作的全过程,它定义当前情况,进行信息化发现,通过当前情况对未来进行分类、分类和预测。统计学、机器学习、编程、大数据和开源软件广泛用于数据科学过程。然而,在社会上; “数据科学”值得当前关注,因为它应该包括诸如研究、探究、问题与技术解决方案之间的联系、结果的解释和呈现等技能。

数据科学家呢?它有什么作用?

数据科学家可以用各种工具描述他/她拥有的数据,并对其中的结构进行推断;正是站在视觉特征交汇处的人可以制作预测、预防和处方模型:

「妙手数评」数据科学家的能力和责任

他是从数据中提取有用信息过程的管理者。它是知识的艺术家。只是扭曲数据的“物理空间占用”形式的人。换句话说,它是“信息浏览器”。

他知道从哪里获取数据。否则,它提供生产。了解传入数据的结构、含义、存在哪些限制和不足。它根据要解决的问题对数据进行整形。如果没有问题解决,他通过发现过程找到了那些被大家忽略的神秘建筑,他很好奇。知道如何在何种情况下应用各种描述性、推理性、聚类、分类、预测、预测和预防方法。

那么数据科学家的职责是什么?

它是使用各种工具和科学技术从数据中提取有用的信息、行动建议、决策支持系统和面向数据的产品。

数据科学家应该具备哪些技能?

简而言之:

  • 编程
  • 数学、统计学、机器学习
  • 个人技能
  • 业务知识(最重要的项目,但这个能力当然不会在初级阶段)

稍微解释一下:

  • 个人能力:“兴奋”、好奇心、提出正确的问题、分析视角、解决问题的能力、有效沟通、叙述和表达能力(这些非常重要)
  • 科学基础:数学、统计学、概率、线性代数
  • 编程:算法方法、编程逻辑、SQL(数据库)、NoSQL、Bash Script、R、Python、Scala、SPSS、SAS、MATLAB 等。
  • 大数据技术:了解大数据概念、Hadoop、Spark、Hive、Impala、DBs、PySpark、SparkR、SparklyR 等。
  • 云技术:AWS、谷歌云、微软 Azure、IBM 等。

统计学习(SL):

  • 整洁的数据处理和数据预处理(缺失数据、异常值、不一致审查等)
  • 发现数据分析(描述性统计、数据可视化)
  • 推理统计(样本理论、概率分布、随机变量、假设检验、贝叶斯推理、稳健方法)
  • 多元统计方法(相关、降维(PCA、LDA、Kernel PCA)、方差分析、聚类分析、因子分析、拟合分析、路径分析、分离分析等)
  • 回归模型:线性回归、logit-probit、m.logit-m.probit、分位数回归等。
  • 重采样方法(重采样方法:交叉验证、引导)
  • 线性模型选择和正则化
  • 线性和因果关系

机器学习(ML):

  • 回归模型:多重回归、多项式回归、SVR、回归树、随机森林回归……
  • 分类:逻辑回归、K-NN、SVM、朴素贝叶斯、决策树、社区学习方法(bagging、boosting、RF、…、)
  • 聚类:分层和非分层聚类方法(分层聚类,K-Means)
  • 关联规则学习(关联规则:Apriori、Eclat)
  • 文本挖掘,自然语言处理
  • 强化学习
  • 深度学习
  • 模型选择(验证、测试失败方法、模型性能评估、参数调整)和了解学习障碍(欠拟合、过拟合、良好拟合)

意识到简单的总是更好,以及“所有模型都很糟糕,有些是有用的”

预测接近吗?因果关系?非常了解他们的情况。

可以更改项目的位置、顺序和标题。一般来说,这些能力定义了一个好的数据科学家。在这种情况下,我们可以假设数据挖掘、机器学习和数据科学等每个概念都将交织在一起。

一些统计学家会认为写在 ML 部分的内容实际上应该在 SL 部分,是的,实际上 SL 和 ML 交织在一起并表达相同的东西。有一些区别。看了相关文章后,在目前的情况下,我们用一句话将两者分开:

「妙手数评」数据科学家的能力和责任

“如果要执行因果关系原则和行动者建模目标,也就是说,如果一项研究侧重于人类和制度行为,并且目标是了解事件的原因,那么 SL​,如果只关注预测接近性, ML,如果同时考虑因果关系和预测邻近性,首先是 SL 然后 ML = SL * ML “。

在这种情况下,问题实际上减少到了打破线性而不是打破的地步。因为我们无法在非线性模型中进行因果关系查询。

您可以找到许多标题为“统计在数据科学中的重要性”的文章和文章。我不会进入它,因为这本身就是一个领域。

除了SL和ML之外,它实际上可以添加到计量经济学建模中,但我已经在SL中表达了它。那么为什么这很重要呢?他是详细数据科学家培训中的因果关系和计量经济学建模之一。因果关系原理是一个完全不同的领域。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/21803.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信