用Python实现9大回归算法详解——02. Lasso 回归算法

用Python实现9大回归算法详解——02. Lasso 回归算法Lasso 回归是一种有效的线性回归方法 通过引入正则化项来避免过拟合并自动选择特征

大家好,欢迎来到IT知识分享网。

1. Lasso 回归的基本概念

Lasso 回归(Least Absolute Shrinkage and Selection Operator)是一种线性回归模型,通过引入 L_1正则化(也称为 Lasso 正则化),在训练模型的同时对系数进行约束。Lasso 回归不仅能够避免过拟合,还能够自动进行特征选择,通过将一些不重要的特征的系数缩减为零,从而简化模型。

Lasso 回归的目标是最小化以下损失函数:

\text{Loss} = \frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2 + \alpha \sum_{j=1}^{n} |\beta_j|

其中:

  • y_i是第i个样本的实际值。
  • \hat{y}_i 是第i个样本的预测值。
  • \beta_j是模型的回归系数。
  • m是样本数。
  • n 是特征数。
  • \alpha 是正则化参数,用于控制L_1 正则化项的强度。

2. Lasso 回归的数学表达

Lasso 回归的损失函数可以分为两部分:

  1. 最小化残差平方和(即最小二乘项):

\frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2

     2. 正则化项:用于惩罚模型的复杂度,具体为L_1范数:

\alpha \sum_{j=1}^{n} |\beta_j|

因此,Lasso 回归的目标是找到一组回归系数\beta ,使得上述损失函数最小化。

3. Lasso 回归的作用

Lasso 回归的主要作用包括:

  • 减少模型复杂度:通过正则化,Lasso 回归能够控制模型的复杂度,减少过拟合的风险。
  • 特征选择:Lasso 回归会自动将不重要的特征的系数缩减为零,从而实现特征选择。

4. Lasso 回归的优化问题

Lasso 回归的优化问题可以表示为:

\min_{\beta} \left\{ \frac{1}{2m} \sum_{i=1}^{m} \left( y_i - \hat{y}_i \right)^2 + \alpha \sum_{j=1}^{n} |\beta_j| \right\}

该优化问题通常通过坐标下降法(Coordinate Descent)来求解。

5. Lasso 回归案例

接下来,我们通过一个具体的案例来展示如何使用 Lasso 回归进行建模,并对结果进行详细分析。

5.1 数据准备

我们将使用一个模拟的数据集,其中包含多个特征和目标变量。我们会人为地加入一些噪声,增加特征选择的难度。

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Lasso from sklearn.metrics import mean_squared_error, r2_score # 生成模拟数据 np.random.seed(42) X = np.random.randn(100, 10) # 100个样本,10个特征 true_coefficients = np.array([1.5, -2, 0, 0, 3, 0, 0, 0, 0, 5]) # 实际的回归系数 y = X.dot(true_coefficients) + np.random.randn(100) * 0.5 # 生成目标变量,并加入噪声 # 将数据划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 将数据转化为DataFrame以便查看 df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])]) df['Target'] = y print(df.head()) 

输出:

 Feature_1 Feature_2 Feature_3 Feature_4 Feature_5 Feature_6 Feature_7 Feature_8 Feature_9 Feature_10 Target 0 0. -0. 0. 1. -0. -0. 1. 0. -0. 0. 0. 1 -0. -0. 0. -1. -1. -0. -1.012831 0. -0. -1. -8. 2 -1. -0. 0. -1. 0. -0. -0. -0. 1. -0.013497 1.041154 3 -1.057711 0. -1. 0. -1. -1. 0. 0. 0. -0. -5. 4 -1. -0. -0. 1.057122 0. -1. 0. -0. -0. 0. -0. 
5.2 模型训练

我们使用 Lasso 回归模型进行训练,并选择合适的正则化参数 \alpha

# 定义Lasso回归模型,并选择正则化参数alpha lasso_model = Lasso(alpha=0.1) lasso_model.fit(X_train, y_train) # 输出模型系数 print("模型截距 (Intercept):", lasso_model.intercept_) print("模型系数 (Coefficients):", lasso_model.coef_) 

输出:

模型截距 (Intercept): -0.004553 模型系数 (Coefficients): [ 1. -1. 0. -0. 2. 0. 0. -0. 0. 4.] 

解释

  • 模型截距 (Intercept):表示所有特征都为零时,目标变量的预测值。
  • 模型系数 (Coefficients):Lasso 回归对系数进行了缩减,并将一些不重要的特征的系数缩减为零。我们可以看到,第3、第4、第6、第7、第8、第9个特征的系数被缩减为零,这意味着这些特征对目标变量的预测没有贡献,被模型自动剔除了。
5.3 模型预测与评估

使用训练好的模型对测试集进行预测,并评估模型的性能。

# 对测试集进行预测 y_pred = lasso_model.predict(X_test) # 计算均方误差 (MSE) 和决定系数 (R²) mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print("均方误差 (MSE):", mse) print("决定系数 (R²):", r2) 

输出:

均方误差 (MSE): 0. 决定系数 (R²): 0.17382 

解释

  • 均方误差 (MSE):表示预测值与实际值之间的平均平方误差。MSE越小,模型的预测效果越好。这里的MSE为0.275,表明模型的误差较小。
  • 决定系数 (R²):表示模型解释了目标变量方差的百分比。R²越接近1,模型的拟合效果越好。这里的R²为0.984,说明模型很好地拟合了数据。
5.4 结果分析
  • 模型系数的解读:Lasso 回归通过对系数的惩罚,使得部分不重要的特征系数缩减为零,从而实现特征选择。在我们的案例中,Lasso 模型成功识别出与目标变量相关的特征,并剔除无关特征。
  • 模型的预测能力:通过评估指标(MSE 和 R²),我们可以看到模型具有较强的预测能力。R²接近1,说明模型解释了大部分的目标变量方差,MSE较小,表明预测误差较低。

6. 总结

Lasso 回归是一种有效的线性回归方法,通过引入 L_1正则化项来避免过拟合并自动选择特征。在模型训练过程中,Lasso 回归不仅能够对系数进行缩减,还能够将不重要的特征的系数缩减为零,实现特征选择。通过案例分析,我们验证了 Lasso 回归在特征选择和模型简化中的有效性,并展示了如何使用 Python 进行实现和结果分析。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/149742.html

(0)
上一篇 2025-03-22 16:25
下一篇 2025-03-22 16:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信