机器学习

课程基本信息

课程名称：机器学习

英文名称：Machine Learning

开课院系：元培学院

授课教师：人工智能研究院张牧涵

选课学期：2025年秋季学期

学分：3

分数构成：

null

课程内容

往年题（2025秋季回忆版）
lab解答

一、

研究一个ElasticNet损失函数

$L=\frac{1}{2n}|Xw-y|$

当 $\alpha=1$ 和 $\alpha=0$ 时，上述损失函数退化，给出两种情况下损失函数的名字（中文英文均可）
选择：以下哪个图形最像 ElasticNet 损失？给出答案并简述理由
使用最大后验概率MAP框架，当其结果为ElasticNet损失函数时，求参数θ的先验分布
分别在 $w_{j}>0$ 和 $w_{j}<0$ 时求出正则化项 $\alpha\lambda|w|$ 对 $w_{j}$ 的导数，并说明为什么 ElasticNet 损失与 L2 损失不同，可以时 $w_{j}$ 在趋于零时稳定在零。

二、

考察观测数据有噪声的情况：

$\hat{x} = x + ϵ, ϵ \sim N (0, σ^{2} I_{n})$

证明在这种情况下

$\min_{\hat{ω}} ∥ \hat{y} - X \hat{ω} ∥_{2}^{2}$

本质上等于

$\min_{ω} ∥ y - X ω ∥_{2}^{2} + λ ∥ ω ∥_{2}^{2}$

并给出 $\lambda$ 的表达式。

三、SVM

给定正样本点 $\boldsymbol{x_1}(1,3), \boldsymbol{x_2}(2,1), \boldsymbol{x_3}(3,2)$ ，负样本点 $\boldsymbol{x_4}(0,0), \boldsymbol{x_5}(1,1)$ 。

计算硬间隔分割超平面，和支持向量到超平面的距离
额外加入一个负样本点 $\boldsymbol{x_6}(2,2)$ ，考察软间隔

目标函数与约束为：

$\min_{\boldsymbol{w}, b, \xi_i} \frac{1}{2} |\boldsymbol{w}|^2 + C \sum_{i=1}^{n} \xi_i \quad \text{s.t.} \ y_i (\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i,\ \xi_i > 0$

对于 1 中求出的超平面和 $H: 2x_2 - 3 = 0$ ，计算当 $C$ 满足什么条件时 $H$ 更优。

对于正样本点 $(2,0), (0,2)$ ，负样本点 $(1,1), (1,0), (-1,0)$ 在平面中线性不可分。使用核函数 $k(\boldsymbol{x}, \boldsymbol{y}) = (\boldsymbol{x}^T \boldsymbol{y})^2$ ，请给出到高维空间中的映射，并说明上述样本点在映射到高维空间后是否线性可分？为什么？

四、高斯过程回归

两个一维数据，无噪声， $x=[1,2]^T$ ， $y=[2,3]^T$ 。

先验均值为 0。使用线性核 $k(x,y)=xy+1$ ，计算 $x^*$ 的后验均值 $\mu(x^*)$ 。
先验均值为 $\mu(x)=2x$ ，使用线性核 $k(x,y)=xy+1$ ，计算 $x^*$ 的后验均值 $\mu(x^*)$ ，和 1 问中结果进行对比，进行分析。
使用 RBF 核函数， $\sigma=1$ ， $x^*=4$ ，计算后验均值 $\mu(x^*)$ 。

五、

考察实数轴上的样本（该数在闭区间中标签为1，不在标签为0）

一个闭区间的VC维是多少？
n个闭区间的VC维是多少？

六、

（本题中具体点坐标可能不准，但表达了原题的相对趋势，不影响做题）

有点 $P_1(1,12)$ , $P_2(2,11)$ , $P_3(8,12)$ , $P_4(9,11)$ , $P_5(2,3)$ , $P_6(3,2)$ , $P_7(7,3)$ , $P_8(8,2)$ 。

课堂上学习了 K-means 聚类，本题中使用 K-medoids 聚类，更新中心时使用中位数（偶数时取中位附近两数的平均值）进行更新。本题中使用曼哈顿距离计算距离： $D(P,Q)=|x_1-x_2|+|y_1-y_2|$ 。

初始点 $(3,0)$ 和 $(9,1)$ ，迭代到收敛，给出各个类别的中心和每个类别包含的点，并计算点 $(6,11)$ 在哪一类。
初始点 $(3,11)$ 和 $(2,1)$ ，迭代到收敛，给出各个类别的中心和每个类别包含的点，并计算点 $(6,11)$ 在哪一类。
你认为上面两种聚类结果哪一种更好？这反映出 K-means/K-medoids 聚类算法的什么特点？

七、决策树

性别	用药量	治疗效果
男 M	10	2
男 M	20	18
女 F	10	14
女 F	20	4

损失函数 $L(y,\hat{y}) = \frac{1}{2}(y - \hat{y})^2$ ，最小化损失，构建深度为 1 的决策树（若选取用药量为特征，取 15 分割），并给出对新样本（F，18）的治疗效果预测。
迭代决策树。 $g_n(x) = g_{n-1}(x) + vf(x)$ 。学习率 $v = 1$ 。第二棵树是对上一颗树的梯度进行决策

$r_i^{(n)} = \left. \frac{\partial L(y,\hat{y})}{\partial \hat{y}} \right|_{\hat{y} = g^{(n-1)}(x)}$

请计算 $r_i^{(n)}$ ，构建出深度为 1 第二棵树（若选取用药量为特征，取 15 分割），并给出在两棵树下对新样本（F，18）的治疗效果预测。

课程基本信息

课程内容

一、

二、

三、SVM

四、高斯过程回归

五、

六、

七、决策树

八、变分自编码器VAE相关

📎 附件