一、考试内容:
1、统计决策方法
最小错误率贝叶斯决策、最小风险贝叶斯决策、neyman-pearson决策。
2、非监督学习
动态聚类算法、模糊聚类方法、层次聚类方法、性能度量、距离计算。
3、探索性分析与特征工程
关联分析、因果分析、可视化;特征的评价准则、特征选择的最优算法、主成分分析、因子分析。
4、分类方法
判别函数、决策树、神经网络、支持向量机、近邻法、逻辑回归、XGBOOST、GBDT、LGBM。
5、自然语言处理及应用
自然语言概念与方法、N-gram模型、Word2Vec模型、BERT模型、命名实体识别、实体关系识别、句法分析、情感分析、舆情分析。
6、深度学习
深度学习算法原理、RNN、LSTM、CNN、Transformer、网络优化策略。
7、强化学习
贝尔曼方程、马尔可夫决策过程与价值函数、基于价值的方法、基于策略的方法、actor-critic。
8、群体智能计算
群体智能计算基本概念、演化策略(ES)、差异演化(DE)、遗传算法(GA)、粒子群优化(PSO)算法、人工蜂群优化算法(ABC)。
9、集成学习
个体与集成、Boosting、Bagging、集成策略、多样性。
10、模型评估与选择
经验误差与过拟合、评估方法、性能度量、比较检验、偏差与方差、统计检验。
11、大数据与机器学习方法的应用
经济领域、能源领域、金融领域、大宗商品领域;知识图谱、边缘计算、数据隐私、算法偏见;搜索引擎、地理位置服务、流数据和实时数据分析、社交媒体分析、金融科技。
12、大数据系统建设
关系数据库、NoSQL数据库、数据仓库、数据立方体、大规模并行处理技术、数据中台、MapReduce计算模型、Hadoop平台、Spark平台。
二、主要参考书目:
1. 机器学习方法,李航,清华大学出版社,2022年。
2. 数据商务分析, 叶强 方斌 张紫琼,高等教育出版社,2022年。
3. 机器学习,周志华,清华大学出版社,2016年。
注:因博士考试属于选拔性考试,试题内容不限于大纲公布的范围,本大纲及推荐书目仅供参考。