机器学习基础-监督学习-线性回归之多元线性回归

站长

2024年04月01日 20:48 · 阅读数 47

多元线性回归是一种在多个自变量之间建立线性关系的监督学习方法。它可以用于预测一个或多个连续的因变量。下面将详细介绍多元线性回归的原理，并提供一个 Python 代码示例。

原理：

多元线性回归的目标是建立一个线性模型，该模型可以通过多个自变量的线性组合来预测因变量。模型的一般形式可以表示为：

y=β0+β1⋅1+β2⋅2+...+βn⋅cn+εy = \beta0 + \beta{1}\cdot1 + \beta2\cdot2 + ... + \beta n\cdot cn + εy=β0+β1⋅1+β2⋅2+...+βn⋅cn+ε

其中，y 是因变量，x1, x2, ..., xn 是自变量，β0, β1, β2, ..., βn 是模型的系数，ε 是误差项。我们的目标是找到最佳的系数，使得模型对观测数据的拟合最好。

拟合模型的过程通常使用最小二乘法，目标是最小化观测值与预测值之间的平方差。系数的最优解可以使用正规方程（Normal Equation）求解，公式如下：

β=(XT⋅X)−1⋅XT⋅y\beta = (X^T \cdot X)^{-1}\cdot X^T\cdot yβ=(XT⋅X)−1⋅XT⋅y

其中，β 是包含所有系数的向量，X 是包含所有自变量的矩阵，y 是观测值的向量，T^TT 表示矩阵的转置，−1^{-1}−1 表示矩阵的逆。

代码示例：

以下是一个使用 Python 进行多元线性回归的示例代码：

import numpy as np
from sklearn.linear_model import LinearRegression

# 构造输入特征矩阵
X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# 构造对应的因变量
y = np.array([10, 20, 30])

# 创建线性回归模型对象
model = LinearRegression()

# 拟合模型
model.fit(X, y)

# 打印系数和截距
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

# 进行预测
new_data = np.array([[2, 3, 4],
                     [5, 6, 7]])
predictions = model.predict(new_data)
print("Predictions:", predictions)

在上面的代码中，我们使用了 NumPy 库构造了一个 3x3 的特征矩阵 X 和对应的因变量 y。然后，我们使用 LinearRegression 类创建了一个线性回归模型对象。调用 fit 方法对模型进行拟合，得到了系数和截距。最后，我们使用模型进行了预测，输出了预测结果。

这只是一个简单的示例，实际应用中可能需要更多的数据和特征。

当进行多元线性回归时，需要注意以下几点：

数据预处理：确保数据清洁、无缺失值，并进行必要的特征缩放或归一化。这可以提高模型的收敛速度和准确性。
多重共线性：多元线性回归要求自变量之间没有高度相关性，即不存在多重共线性。可以通过计算自变量之间的相关系数矩阵或使用方差膨胀因子（Variance Inflation Factor，VIF）来检测多重共线性。
模型评估：使用评估指标来评估模型的性能，例如均方误差（Mean Squared Error，MSE）、决定系数（Coefficient of Determination，R²）等。这可以帮助你了解模型的拟合程度和预测能力。
特征选择：在多元线性回归中，可以通过特征选择方法来选择最重要的自变量，以避免过拟合或提高模型解释能力。常见的方法包括前向选择、后向消除和逐步回归。
模型诊断：检查残差是否符合模型假设（如误差项服从正态分布、残差独立等），以确保模型的有效性和准确性。可以使用残差分析、Q-Q 图、残差图等方法来诊断模型。
可解释性和解释变量的选择：在解释模型结果时，考虑哪些自变量对因变量具有显著影响，并解释系数的含义。这有助于理解模型背后的关系和推断。

以上是多元线性回归的一般流程和注意事项。实际应用中，可以根据具体问题和数据特点进行调整和扩展。

转载自:https://juejin.cn/post/7249913673215950906