我们使用cookie,但是你可以在隐私设置中关闭它们。否则,你同意我们使用cookie。接受cookie并不意味着我们正在收集个人资料。学习更多在我们的隐私政策

2023年课程CFA项目II级定量方法

机器学习

下载完整的阅读(PDF)

提供给成员

介绍

投资公司越来越多地使用技术的每一步投资管理价值从提高他们的理解客户发现的新来源α和更有效地执行交易。机器学习技术,该技术的核心部分,是这阅读的主题。这些技术在1990年代首次出现在金融和数据的爆炸已经繁荣廉价的计算能力。

这个阅读提供了机器学习(ML)的高级视图。它涵盖了一些关键的ML算法和他们的投资程序。投资从业人员应配备一个基本的了解投资的类型机器学习可以解决的问题,了解算法的工作原理,词汇与机器学习和数据科学专家。而投资从业人员不需要掌握机器学习的细节和数学,在投资领域专家可以发挥重要的作用在这些技术的实现可以通过适当的模型输入来源,解释模型输出和输出转化为适当的投资行为。

第一节概述投资管理的机器学习。第二部分定义了机器学习和类型的问题,可以解决监督和非监督学习。第三节描述了评估机器学习算法的性能。关键监督机器学习算法都包含在部分4 - 8,9 - 12和部分描述关键的无监督的机器学习算法。神经网络,深度学习网,强化学习都包含在部分13和14。15节提供了一个决策流程图来选择合适的ML算法。阅读与总结总结。

学习成果

成员应该能够:

  • 描述监督机器学习、非监督机器学习和深入学习;
  • 描述过度拟合和识别的方法解决它;
  • 描述监督机器学习算法包括处罚回归,支持向量机,再,分类和回归树,整体学习,和随机森林确定最适合它们的问题;
  • 描述非监督机器学习算法包括主成分分析、k - means聚类,和层次聚类和确定最适合它们的问题;
  • 描述了神经网络,深度学习网,强化学习

总结

获得使用机器学习方法在投资管理价值链的许多阶段。主要点如下:

  • 机器学习旨在从大量数据中提取知识通过学习从著名的例子来确定数据的底层结构。重点是生成结构或预测而无需人工干预。ML算法的基本思路是“找到模式,应用该模式”。
  • 监督学习取决于有标记的训练数据以及匹配组观察到的输入(X的年代,或功能)和相关的输出(Y或目标)。监督学习可以分为两类:回归和分类。如果目标预测变量是连续的,那么这个任务是一种回归。如果目标变量分类或序数(例如,决定一个公司的评级),那么它就是一个分类问题。
  • 与无监督学习算法训练没有带安全标签的数据时,他们必须推断特性之间的关系,总结他们,或现在的底层结构的分布没有显式地提供。两个重要的问题类型适合无监督毫升降维聚类。
  • 在深度学习,复杂的算法解决了复杂的任务(例如,图像分类、自然语言处理)。深度学习是基于神经网络,高度灵活的ML算法求解各种监督和非监督任务的特点是大型数据集,非线性和功能之间的交互。在强化学习中,计算机学习与本身或由同一算法生成的数据交互。
  • 概括描述了ML的程度当样本外预测模型保留它的解释力。过度拟合,缺乏概括,主要原因是ML算法调整的趋势模型训练数据的泛化到新的数据点。
  • 偏置误差的程度是一个模型与训练数据的吻合程度。方差误差描述一个模型的结果多少应对新变化的数据验证和测试样本。基本误差是由于随机性的数据。样本外误差=偏移误差+方差误差+基本误差。
  • K倍交叉验证技术减轻抵抗样本问题(过度训练集大小的减少)。数据(不包括测试样品和最新数据)随机打乱,然后分成k使相等,与k- 1样本作为训练样本和一个样本,kth,用作验证样本。
  • 正则化描述方法,降低高维数据的统计变化通过降低模型复杂度估计或预测问题。
  • 套索(至少绝对收缩和选择操作符)是一种流行的处罚回归它的惩罚项涉及加法回归系数的绝对值。
  • 大的数量包括功能,更大的惩罚。因此,一个功能必须足够的贡献模型适合抵消的处罚包括它。
  • 支持向量机(SVM)是一种分类器,旨在寻求最优hyperplane-the分隔的两组数据点的最大利润(因此通常用于分类)。
  • K最近的邻居(资讯)是一种监督学习技术通常用于分类。这个想法是为了分类新观察发现相似之处(“近似”),再邻国之间现有的数据集。
  • 分类和回归树(CART)可用于预测一个直言目标变量,产生一个分类树,或一个连续的目标变量,回归树。
  • 一个二进制购物车是最初的根节点的组合,决策节点和终端节点。根节点,每个决策节点代表的是单一的功能(f)和截断值(c)功能。CART算法迭代分区数据到群体,直到终端节点形成包含预测的标签。
  • 集成学习技术相结合的一组的预测模型。它通常产生更精确的和更稳定的比任何单一模型的预测。
  • 随机森林分类器是许多不同的集合装袋生成的决策树方法或通过随机培训期间减少特性的数量。
  • 主成分分析(PCA)是一种无监督ML算法,可以减少到更少的不相关的复合变量高度相关特性改变协方差矩阵的特性。PCA产生定义主成分的特征向量(即。,新的不相关的复合变量)和特征值,使总方差的比例在初始数据解释为每个特征向量及其相关的主成分。
  • k - means算法是一种无监督毫升观察划分成固定数量(k)的重叠集群。每个集群的特征是其重心,每个观测属于集群的重心,观察是最亲密的。
  • 层次聚类是一种无监督迭代算法,用于构建集群的层次结构。两个主要的策略是用来定义中介集群(即。,这些集群之间的初始数据集和最后一集集群数据)。
  • 烧结的(自底向上)层次聚类开始每个观察自己的集群。然后,该算法找到最近的两个集群,定义为某种程度的距离,并结合成一个新的、更大的集群。重复这个过程,直到所有的观察都换成一个集群。
  • 分裂(自上而下)层次聚类开始观察属于单个集群。然后观察分为两个集群基于某种程度的距离。然后算法逐步分区中间集群分成更小的集群,直到每个集群只包含一个观察。
  • 神经网络由节点连接的链接。他们有三种类型的层:一个输入层、隐藏层和输出层。学习发生在隐层节点,每一个都由一个求和算子和激活函数。神经网络已成功地应用于各种各样的投资特点是变量之间的非线性和复杂的交互任务。
  • 神经网络有许多隐藏层(至少2但往往超过20)被称为深层神经网络(款)和人工智能革命的中坚力量。
  • 强化学习(RL)包括一个代理,应该执行操作,将最大化其奖励随着时间的推移,考虑到它的环境的约束。