机器学习的基本框架
概率论提供了一个框架用来精确的数学形式描述这种不确定性,对不确定性的量化和计算
- 先验概率和后验概率
- 概率密度
- 期望和方差
贝叶斯概率
- prior 先验概率:预先知道事件发生的概率
- posterior 后验概率: 给定实验,事件,观测后的随机事件发生的概率
likehood 似然函数
关于似然函数,频率学派和贝叶斯的观点不一致:频率的视角,w是一个固定的参数,值被某种固定的形式来估计确定,这个估计的误差可以通过考察数据集的分布来得到。相反,贝叶斯的观点是,只有一个数据集(实际观测的数据集),参数的不确定性由w的概率分布来表达
- 广泛使用的估计是最大似然估计,w是使得似然函数取得最大值的w值,似然函数的负对数叫做误差函数
- 决策论根据合适的标准,利用这种概率表示,进行最优的预测
- 模型的选择:主要是对比不同参数或者模型复杂度下训练误差和泛化误差的变化情况
- 最大似然和最大后验都是构造目标函数的方法, 然后使用各种优化方法来找到目标函数的极值
机器学习的核心问题
- 泛化是模式识别的核心问题
- 过拟合问题是最大似然的一个通用属性,但是在贝叶斯模型中,参数的有效数量会根据数据集的规模而调节
- 以下是决定机器学习算法效果是否好的因素
- 降低训练误差 欠拟合问题 优化算法
- 缩小训练误差和测试误差的差距 过拟合问题 正则化
- 通过调整模型的容量可以控制是否偏向于过拟合还是欠拟合,模型的容量是拟合各种函数的能力,选择假设空间可以控制训练算法的容量,即选择学习算法函数集.
- 两个准则:
- 奥卡姆剃刀原则
- 没有免费午餐定理
机器学习算法的超参数
验证集
交叉验证
参数估计
- 点估计
点估计和函数估计
估计的偏差
估计量的方差
权衡偏差和方差以最小化均方误差
样本方差是有偏估计
权衡偏值和方差以最小化均方误差,最小均方差估计,最靠谱的原则
参数估计的四个性质
最大似然估计
条件对数似然和均方差
贝叶斯估计
参数是不确定的
先验概率分布
任然希望能够单点估计,最大后验估计
使用一个观测数据集来决定概率分布的参数的一个通用的标准是寻找使似然函数取得最大值的参数值
在高斯噪声下,平方和误差函数是最大化似然函数的一个自然结果
极大似然估计推到出的逻辑回归的损失函数是交叉熵,推导出的线性模型的损失函数是最小二乘
逻辑回归的结果服从伯努利分布
机器学习里的缩写
- maximum likelihood estimation MLE 最大似然估计 似然函数是参数的函数,最大似然估计是为了估计参数
- maximum a posteriori probability MAP 最大后验概率估计
- Least Squares Estimate LSE 最小二乘估计
参考资料