U1 概念介绍和入门_IT分享知识网

大家好，欢迎来到IT知识分享网。

文章目录

一、概念
二、相关邻域
三、分类
- 1、主要研究问题
四、模型评估和选择
五、数据集的划分
六、性能度量

一、概念

机器学习的基本思想是让计算机通过从大量数据中学习模式、规律和趋势，并使用这些学习到的知识来做出预测、分类或决策。它依赖于统计学、概率论和优化理论等数学方法，通过构建和训练模型来实现任务的自动化。

二、相关邻域

模式识别，数据挖掘，计算机视觉，自然语言处理。

三、分类

1、主要研究问题

分类聚类回归降维

四、模型评估和选择

1、模型性能

同一问题，多种算法/模型。分类问题：贝叶斯决策、决策树、SVM…

同一算法/模型，不同参数配置

2、误差

误差(error)：算法/模型的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差(training/empirical error)：学习器在训练集上的误差。

泛化误差(generalization error)：学习器在新样本上的误差

最终的目标是泛化误差。但模型的搭建只能得出训练误差，因此要进行转换

3、模型评估选择的步骤

对数据集进行划分，分为训练集和测试集两部分
在训练集上训练得到模型
对模型在测试集上面的泛化性能进行度量
基于测试集上的泛化性能，依据假设检验来推广到全部数据集上面的泛化性能

五、数据集的划分

1、划分方式

1）方式一

目标：将数据集D划分为训练集S和测试集T两部分，在训练集上训练模型，然后在测试集上评估其性能。

原则：测试集应尽量与训练集互斥；即测试样本尽量不在训练集中出现，未在训练过程中使用。

2）方式二

将数据集D划分为训练集S、验证集V和测试集T三部分，在训练集上训练模型，在验证集上调整模型超参数，并对模型的能力（是否过拟合）进行初步评估和选择，在验证集上然后在测试集上评估其性能。

原则：测试集、验证集应尽量与训练集互斥；即验证样本、测试样本尽量不在训练集中出现，未在训练过程中使用。

2、划分方法

保持/留出法(hold-out) ：给定数据随机地划分到两个独立的集合：训练集和测试集。通常，2/3的数据分配到训练集，其余1/3分配到测试集。使用训练集导出模型，用测试集来估计泛化误差。

随机子抽样(random sub-sampling)：保持方法的一种变形；随机地选择训练集和测试集，将保持方法重复k次，总准确率估计取每次迭代准确率的平均值。

k折交叉验证(k-fold cross-validation)：初始数据数据被划分成 k 个大小相似、互不相交的子集/”折”。训练和测试 k 次；在第 i 次迭代，第 i 折用作测试集，其余的子集都用于训练学习，取 k 次测试结果的均值。
与保持法和随机子抽样法不同，这里每个样本用于训练的次数相同，并且用于检验一次。
自助法(bootstrapping):从初始样本 $D$ 中有放回均匀抽样；即每当选中一个样本，它等可能地被再次选中并再次添加到训练集中；采样 $∣ D ∣$ 次后，即可获取大小为 $∣ D ∣$ 的训练样本集；没有进入训练集的数据样本形成测试集。

六、性能度量

1、回归任务

均方误差(Mean Squared Error)： $\frac{1}{n} \sum_{i=1}^n (f(x_i)-y_i)^2$

更一般情况：对于数据分布 $D$ 和概率密度函数 $p (\cdot)$ ，均方误差可描述为：
$\int_{x-D}(f(x_i)-y_i)^2 p(X)dx$

$f$ ：训练的学习器
$D$ ：初始样本集， $D =$ {
$x_1, y_1), (x_2, y_2),…,(x_n, y_n)$ }
$y_i$ ：样本输入 $x_i$ 的真实标记

2、分类任务

错误率： $\frac{1}{n} \sum_{i=1}^n Π(f(x_i)\neq y_i)$
精度： $\frac{1}{n} \sum_{i=1}^n Π(f(x_i) = y_i) = 1-E(f;D)$

3、混淆矩阵

用来作为分类规则特征的表示，它包括了每一类的样本个数，包括正确的和错误的分类

• $TP$ ：被分类器正确分类的正元组；期望为 $P$ ，分类为 $P$ ：称为真正
• $TN$ ：被分类器正确分类的负元组；期望为 $N$ ，分类为 $N$ ：称为真负
• $FP$ ：被错误标记为正元组的负元组；期望为 $N$ ，分类为 $P$ ：称为假正
• $FN$ ：被错误标记为负元组的正元组。期望为 $P$ ，分类为 $N$ ：称为假负

• 准确率(识别率)：评估分类器正确识别正、负样本的能力
$\frac{TP+TN}{P+N}$

• 错误率：评估分类器错误识别正、负样本的能力
$\frac{FP+FN}{P+N}$

• 真阳性率（ $TPR$ ）：评估分类器正确识别正样本的能力
$\frac{TP}{P} = \frac{TP}{TP+FN}$ 敏感性(sensitivity)

• 真阴性率（ $TNR$ ）：评估分类器正确识别负样本的能力
$\frac{TN}{N} = \frac{TN}{TN+FP}$ 特异性(specificity)

• 精度/查准率(precision)：评估预测正样本中的真正样本
$\frac{TP}{TP+FP}$

• 召回率/查全率(Recall)：评估分类器正确识别正样本的能力，等价于敏感性
$\frac{TP}{TP+FN}$

查准率和查全率互相矛盾。查准率高，则查全率低；反之亦然

$P - R 曲线$
以查全率R为横轴，查准率P为纵轴，根据模型预测结果对样本进行排序，把最可能是正样本个体排在前面，而后面的则是模型认为最不可能为正例的样本，再按此顺序逐个把样本作为正例进行预测并计算出当前的查准率和查全率得到的曲线。

$F 1 度量$ ：查准率和查全率的调和平均，推荐系统常用
$\frac{1}{F_1} = \frac{1}{2}(\frac{1}{precision}+\frac{1}{recall})$

$F_1 = \frac{2*precision*recall}{precision+recall}$

$F_β$ 度量： $F_1$ 度量的一般形式，利用参数 $β$ 控制查全率对查准率的相对重要性； $β = 1$ 时，退化为 $F_1$ ； $β > 1$ 时，查全率有更高大影响； $β < 1$ 时，查准率有更高大影响

$F_β = \frac{(1+β^2)*precision*recall}{β^2*precision+recall}$

4、代价矩阵

描述不同错误的不同代价/风险

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/152862.html

U1 概念介绍和入门