数据分析师面试问题参考

数据分析师面试问题参考1 随机森林 RF 的随机怎么理解 RANDOM 的理解有两点 一是样本的随机 二是特征的随机 随机性得优点是防止模型过拟合 2 决策树 DT 哪几种 有 3 种 ID3 信息熵 信息增益 偏好取值较多的属性 C4

欢迎大家来到IT世界,在知识的湖畔探索吧!

1、随机森林(RF)的随机怎么理解?

RANDOM的理解有两点:一是样本的随机,二是特征的随机,随机性得优点是防止模型过拟合。

2、决策树(DT)哪几种?

有3种:ID3(信息熵,信息增益,偏好取值较多的属性)、C4.5(采用信息增益率,解决ID3偏好取值较多属性的缺点)、CART(二叉树,使用基尼指数,可用于连续性变量)。

3、大数据的处理方法有哪些?

数据采集、数据处理(ETL,spark,hive,presto[多表查询,单表求和求均值有优势],clickhouse[单个大表查询有优势],impala[多表查询,复杂聚合join优势明显])、数据分析(sql,python)、结果展现(tableau,powerbi,bplus等可视化工具)

4、大数据使用的底层架构设计是什么?

使用的是MapReduce,主要包含input(文件),spliting(拆分),mapping(key-value),shuffing(group by),reducing(count,sum),final(result)

5、GBDT和XGBOOST的区别是什么?

①XGB是GBDT的工程实现

②GBDT的基分类器是CART,XGB的基分类器除了树分类器还有线性分类器,而且XGB使用正则项防止过拟合

③XGB的代价函数采用泰勒展开式的二阶导数,提高准确性

④GBDT采用全部数据,模型训练很耗时;XGB采用随机数据,提升模型训练速度

⑤XGB可处理缺失值

6、集成学习有几种?

主要两种:Bagging(随机森林),Boosting(GBDT)

7、模型评价指标有哪些?

AUC,KS,混淆矩阵

8、特征工程有哪些?

特征生成(特征加工和特征组合),特征筛选(过滤式Filter[卡方、信息增益、相关系数],包裹式Wrapper[模型输出特征重要性],嵌入式Embedded[岭回归,L2正则项])

9、逻辑回归的原理

逻辑回归本质上是线性回归,逻辑回归不是回归算法,是分类算法,Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同。逻辑回归的步骤大致如下:寻找h函数(即预测函数)g(z)=1/(1+e的-z次方),

构造J函数(损失函数),

想办法使得J函数最小并求得回归参数(θ)。

数据分析师面试问题参考



欢迎大家来到IT世界,在知识的湖畔探索吧!

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/130840.html

(0)
上一篇 48分钟前
下一篇 8分钟前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信