用Python实现9大回归算法详解——02. Lasso 回归算法

大家好，欢迎来到IT知识分享网。

1. Lasso 回归的基本概念

Lasso 回归（Least Absolute Shrinkage and Selection Operator）是一种线性回归模型，通过引入 L_1 正则化（也称为 Lasso 正则化），在训练模型的同时对系数进行约束。Lasso 回归不仅能够避免过拟合，还能够自动进行特征选择，通过将一些不重要的特征的系数缩减为零，从而简化模型。

Lasso 回归的目标是最小化以下损失函数：

$\text{Loss} = \frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2 + \alpha \sum_{j=1}^{n} |\beta_j|$

其中：

是第个样本的实际值。
$\hat{y}_i$ 是第个样本的预测值。
$\beta_j$ 是模型的回归系数。
是样本数。
是特征数。
$\alpha$ 是正则化参数，用于控制正则化项的强度。

2. Lasso 回归的数学表达

Lasso 回归的损失函数可以分为两部分：

最小化残差平方和（即最小二乘项）：

$\frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2$

2. 正则化项：用于惩罚模型的复杂度，具体为 L_1 范数：

$\alpha \sum_{j=1}^{n} |\beta_j|$

因此，Lasso 回归的目标是找到一组回归系数 $\beta$ ，使得上述损失函数最小化。

3. Lasso 回归的作用

Lasso 回归的主要作用包括：

减少模型复杂度：通过正则化，Lasso 回归能够控制模型的复杂度，减少过拟合的风险。
特征选择：Lasso 回归会自动将不重要的特征的系数缩减为零，从而实现特征选择。

4. Lasso 回归的优化问题

Lasso 回归的优化问题可以表示为：

$\min_{\beta} \left\{ \frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2 + \alpha \sum_{j=1}^{n} |\beta_j| \right\}$

该优化问题通常通过坐标下降法（Coordinate Descent）来求解。

5. Lasso 回归案例

接下来，我们通过一个具体的案例来展示如何使用 Lasso 回归进行建模，并对结果进行详细分析。

5.1 数据准备

我们将使用一个模拟的数据集，其中包含多个特征和目标变量。我们会人为地加入一些噪声，增加特征选择的难度。

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Lasso from sklearn.metrics import mean_squared_error, r2_score # 生成模拟数据 np.random.seed(42) X = np.random.randn(100, 10) # 100个样本，10个特征 true_coefficients = np.array([1.5, -2, 0, 0, 3, 0, 0, 0, 0, 5]) # 实际的回归系数 y = X.dot(true_coefficients) + np.random.randn(100) * 0.5 # 生成目标变量，并加入噪声 # 将数据划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 将数据转化为DataFrame以便查看 df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])]) df['Target'] = y print(df.head())

输出：

 Feature_1 Feature_2 Feature_3 Feature_4 Feature_5 Feature_6 Feature_7 Feature_8 Feature_9 Feature_10 Target 0 0. -0. 0. 1. -0. -0. 1. 0. -0. 0. 0. 1 -0. -0. 0. -1. -1. -0. -1.012831 0. -0. -1. -8. 2 -1. -0. 0. -1. 0. -0. -0. -0. 1. -0.013497 1.041154 3 -1.057711 0. -1. 0. -1. -1. 0. 0. 0. -0. -5. 4 -1. -0. -0. 1.057122 0. -1. 0. -0. -0. 0. -0.

5.2 模型训练

我们使用 Lasso 回归模型进行训练，并选择合适的正则化参数 $\alpha$ 。

# 定义Lasso回归模型，并选择正则化参数alpha lasso_model = Lasso(alpha=0.1) lasso_model.fit(X_train, y_train) # 输出模型系数 print("模型截距 (Intercept):", lasso_model.intercept_) print("模型系数 (Coefficients):", lasso_model.coef_)

输出：

模型截距 (Intercept): -0.004553 模型系数 (Coefficients): [ 1. -1. 0. -0. 2. 0. 0. -0. 0. 4.]

解释：

模型截距 (Intercept)：表示所有特征都为零时，目标变量的预测值。
模型系数 (Coefficients)：Lasso 回归对系数进行了缩减，并将一些不重要的特征的系数缩减为零。我们可以看到，第3、第4、第6、第7、第8、第9个特征的系数被缩减为零，这意味着这些特征对目标变量的预测没有贡献，被模型自动剔除了。

5.3 模型预测与评估

使用训练好的模型对测试集进行预测，并评估模型的性能。

# 对测试集进行预测 y_pred = lasso_model.predict(X_test) # 计算均方误差 (MSE) 和决定系数 (R²) mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print("均方误差 (MSE):", mse) print("决定系数 (R²):", r2)

输出：

均方误差 (MSE): 0. 决定系数 (R²): 0.17382

解释：

均方误差 (MSE)：表示预测值与实际值之间的平均平方误差。MSE越小，模型的预测效果越好。这里的MSE为0.275，表明模型的误差较小。
决定系数 (R²)：表示模型解释了目标变量方差的百分比。R²越接近1，模型的拟合效果越好。这里的R²为0.984，说明模型很好地拟合了数据。

5.4 结果分析

模型系数的解读：Lasso 回归通过对系数的惩罚，使得部分不重要的特征系数缩减为零，从而实现特征选择。在我们的案例中，Lasso 模型成功识别出与目标变量相关的特征，并剔除无关特征。
模型的预测能力：通过评估指标（MSE 和 R²），我们可以看到模型具有较强的预测能力。R²接近1，说明模型解释了大部分的目标变量方差，MSE较小，表明预测误差较低。

6. 总结

Lasso 回归是一种有效的线性回归方法，通过引入 L_1 正则化项来避免过拟合并自动选择特征。在模型训练过程中，Lasso 回归不仅能够对系数进行缩减，还能够将不重要的特征的系数缩减为零，实现特征选择。通过案例分析，我们验证了 Lasso 回归在特征选择和模型简化中的有效性，并展示了如何使用 Python 进行实现和结果分析。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/149742.html

用Python实现9大回归算法详解——02. Lasso 回归算法

1. Lasso 回归的基本概念

2. Lasso 回归的数学表达

3. Lasso 回归的作用

4. Lasso 回归的优化问题

5. Lasso 回归案例

5.1 数据准备

5.2 模型训练

5.3 模型预测与评估

5.4 结果分析

6. 总结

相关推荐

发表回复