Cxxdgc's Site

Back

机器学习

views

课程基本信息

课程名称:机器学习

英文名称:Machine Learning

开课院系:元培学院

授课教师:人工智能研究院 张牧涵

选课学期:2025年秋季学期

学分:3

分数构成:

null

课程内容

一、

研究一个ElasticNet损失函数

L=12nXwy22+αλw1+λ(1α)2w22 L=\frac{1}{2n}|Xw-y|{2}^{2}+\alpha\lambda|w|{1}+\frac{\lambda(1-\alpha)}{2}|w|_{2}^{2}

  1. α=1 \alpha=1 α=0 \alpha=0 时,上述损失函数退化,给出两种情况下损失函数的名字(中文英文均可)

  2. 选择:以下哪个图形最像 ElasticNet 损失?给出答案并简述理由

  3. 使用最大后验概率MAP框架,当其结果为ElasticNet损失函数时,求参数θ的先验分布

  4. 分别在wj>0 w_{j}>0 wj<0 w_{j}<0 时求出正则化项αλw1+λ(1α)2w22 \alpha\lambda|w|{1}+\frac{\lambda(1-\alpha)}{2}|w|{2}^{2} wj w_{j} 的导数,并说明为什么 ElasticNet 损失与 L2 损失不同,可以时wj w_{j} 在趋于零时稳定在零。

二、

考察观测数据有噪声的情况:

x^=x+ϵ,ϵN(0,σ2In)
\hat{x}=x+\epsilon,\quad \epsilon\sim\mathcal{N}(0,\sigma^2 I_n)

证明在这种情况下

minω^y^Xω^22
\min_{\hat{\omega}}|\hat{y}-X\hat{\omega}|_2^2

本质上等于

minωyXω22+λω22
\min_{\omega}|y-X\omega|_2^2+\lambda|\omega|_2^2

并给出 λ\lambda 的表达式。

三、SVM

给定正样本点 x1(1,3),x2(2,1),x3(3,2) \boldsymbol{x_1}(1,3), \boldsymbol{x_2}(2,1), \boldsymbol{x_3}(3,2) ,负样本点 x4(0,0),x5(1,1) \boldsymbol{x_4}(0,0), \boldsymbol{x_5}(1,1)

  1. 计算硬间隔分割超平面,和支持向量到超平面的距离

  2. 额外加入一个负样本点 x6(2,2) \boldsymbol{x_6}(2,2) ,考察软间隔

目标函数与约束为:

minw,b,ξi12w2+Ci=1nξis.t. yi(wTxi+b)1ξi, ξi>0 \min_{\boldsymbol{w}, b, \xi_i} \frac{1}{2} |\boldsymbol{w}|^2 + C \sum_{i=1}^{n} \xi_i \quad \text{s.t.} \ y_i (\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i,\ \xi_i > 0

对于 1 中求出的超平面和 H:2x23=0 H: 2x_2 - 3 = 0 ,计算当 C C 满足什么条件时 H H 更优。

  1. 对于正样本点 (2,0),(0,2) (2,0), (0,2) ,负样本点 (1,1),(1,0),(1,0) (1,1), (1,0), (-1,0) 在平面中线性不可分。使用核函数 k(x,y)=(xTy)2 k(\boldsymbol{x}, \boldsymbol{y}) = (\boldsymbol{x}^T \boldsymbol{y})^2 ,请给出到高维空间中的映射,并说明上述样本点在映射到高维空间后是否线性可分?为什么?

四、高斯过程回归

两个一维数据,无噪声,x=[1,2]Tx=[1,2]^Ty=[2,3]Ty=[2,3]^T

  1. 先验均值为 0。使用线性核 k(x,y)=xy+1k(x,y)=xy+1,计算 x*x^* 的后验均值 μ(x)\mu(x^*)

  2. 先验均值为 μ(x)=2x\mu(x)=2x,使用线性核 k(x,y)=xy+1k(x,y)=xy+1,计算 x*x^* 的后验均值 μ(x)\mu(x^*),和 1 问中结果进行对比,进行分析。

  3. 使用 RBF 核函数,σ=1\sigma=1x*=4x^*=4,计算后验均值 μ(x)\mu(x^*)

五、

考察实数轴上的样本(该数在闭区间中标签为1,不在标签为0)

  1. 一个闭区间的VC维是多少?

  2. n个闭区间的VC维是多少?

六、

(本题中具体点坐标可能不准,但表达了原题的相对趋势,不影响做题)

有点 P1(1,12)P_1(1,12), P2(2,11)P_2(2,11), P3(8,12)P_3(8,12), P4(9,11)P_4(9,11), P5(2,3)P_5(2,3), P6(3,2)P_6(3,2), P7(7,3)P_7(7,3), P8(8,2)P_8(8,2)

课堂上学习了 K-means 聚类,本题中使用 K-medoids 聚类,更新中心时使用中位数(偶数时取中位附近两数的平均值)进行更新。本题中使用曼哈顿距离计算距离:D(P,Q)=x1x2+y1y2D(P,Q)=|x_1-x_2|+|y_1-y_2|

  1. 初始点 (3,0)(3,0)(9,1)(9,1),迭代到收敛,给出各个类别的中心和每个类别包含的点,并计算点 (6,11)(6,11) 在哪一类。

  2. 初始点 (3,11)(3,11)(2,1)(2,1),迭代到收敛,给出各个类别的中心和每个类别包含的点,并计算点 (6,11)(6,11) 在哪一类。

  3. 你认为上面两种聚类结果哪一种更好?这反映出 K-means/K-medoids 聚类算法的什么特点?

七、决策树

性别 用药量 治疗效果
男 M 10 2
男 M 20 18
女 F 10 14
女 F 20 4
  1. 损失函数L(y,y^)=12(yy^)2 L(y,\hat{y}) = \frac{1}{2}(y - \hat{y})^2 ,最小化损失,构建深度为 1 的决策树(若选取用药量为特征,取 15 分割),并给出对新样本(F,18)的治疗效果预测。

  2. 迭代决策树。gn(x)=gn1(x)+vf(x) g_n(x) = g_{n-1}(x) + vf(x) 。学习率v=1 v = 1 。第二棵树是对上一颗树的梯度进行决策

ri(n)=L(y,y^)y^y^=g(n1)(x) r_i^{(n)} = \left. \frac{\partial L(y,\hat{y})}{\partial \hat{y}} \right|_{\hat{y} = g^{(n-1)}(x)}

请计算ri(n) r_i^{(n)} ,构建出深度为 1 第二棵树(若选取用药量为特征,取 15 分割),并给出在两棵树下对新样本(F,18)的治疗效果预测。

八、变分自编码器VAE相关