一、
研究一个ElasticNet损失函数
{2}^{2}+\alpha\lambda|w|{1}+\frac{\lambda(1-\alpha)}{2}|w|_{2}^{2} L=2n1∥Xw−y∥22+αλ∥w∥1+2λ(1−α)∥w∥22
当α=1和α=0时,上述损失函数退化,给出两种情况下损失函数的名字(中文英文均可)
选择:以下哪个图形最像 ElasticNet 损失?给出答案并简述理由
使用最大后验概率MAP框架,当其结果为ElasticNet损失函数时,求参数θ的先验分布
分别在wj>0和wj<0时求出正则化项{1}+\frac{\lambda(1-\alpha)}{2}|w|{2}^{2} αλ∥w∥1+2λ(1−α)∥w∥22对wj的导数,并说明为什么 ElasticNet 损失与 L2 损失不同,可以时wj在趋于零时稳定在零。
二、
考察观测数据有噪声的情况:
\hat{x}=x+\epsilon,\quad \epsilon\sim\mathcal{N}(0,\sigma^2 I_n)
x^=x+ϵ,ϵ∼N(0,σ2In)
证明在这种情况下
\min_{\hat{\omega}}|\hat{y}-X\hat{\omega}|_2^2
ω^min∥y^−Xω^∥22
本质上等于
\min_{\omega}|y-X\omega|_2^2+\lambda|\omega|_2^2
ωmin∥y−Xω∥22+λ∥ω∥22
并给出 λ 的表达式。
三、SVM
给定正样本点 x1(1,3),x2(2,1),x3(3,2),负样本点 x4(0,0),x5(1,1)。
计算硬间隔分割超平面,和支持向量到超平面的距离
额外加入一个负样本点 x6(2,2),考察软间隔
目标函数与约束为:
w,b,ξimin21∥w∥2+Ci=1∑nξis.t. yi(wTxi+b)≥1−ξi, ξi>0
对于 1 中求出的超平面和 H:2x2−3=0,计算当 C 满足什么条件时 H 更优。
- 对于正样本点 (2,0),(0,2),负样本点 (1,1),(1,0),(−1,0) 在平面中线性不可分。使用核函数 k(x,y)=(xTy)2,请给出到高维空间中的映射,并说明上述样本点在映射到高维空间后是否线性可分?为什么?
四、高斯过程回归
两个一维数据,无噪声,x=[1,2]T,y=[2,3]T。
先验均值为 0。使用线性核 k(x,y)=xy+1,计算 x* 的后验均值 μ(x∗)。
先验均值为 μ(x)=2x,使用线性核 k(x,y)=xy+1,计算 x* 的后验均值 μ(x∗),和 1 问中结果进行对比,进行分析。
使用 RBF 核函数,σ=1,x*=4,计算后验均值 μ(x∗)。
五、
考察实数轴上的样本(该数在闭区间中标签为1,不在标签为0)
一个闭区间的VC维是多少?
n个闭区间的VC维是多少?
六、
(本题中具体点坐标可能不准,但表达了原题的相对趋势,不影响做题)
有点 P1(1,12), P2(2,11), P3(8,12), P4(9,11), P5(2,3), P6(3,2), P7(7,3), P8(8,2)。
课堂上学习了 K-means 聚类,本题中使用 K-medoids 聚类,更新中心时使用中位数(偶数时取中位附近两数的平均值)进行更新。本题中使用曼哈顿距离计算距离:D(P,Q)=∣x1−x2∣+∣y1−y2∣。
初始点 (3,0) 和 (9,1),迭代到收敛,给出各个类别的中心和每个类别包含的点,并计算点 (6,11) 在哪一类。
初始点 (3,11) 和 (2,1),迭代到收敛,给出各个类别的中心和每个类别包含的点,并计算点 (6,11) 在哪一类。
你认为上面两种聚类结果哪一种更好?这反映出 K-means/K-medoids 聚类算法的什么特点?
七、决策树
| 性别 |
用药量 |
治疗效果 |
| 男 M |
10 |
2 |
| 男 M |
20 |
18 |
| 女 F |
10 |
14 |
| 女 F |
20 |
4 |
损失函数L(y,y^)=21(y−y^)2,最小化损失,构建深度为 1 的决策树(若选取用药量为特征,取 15 分割),并给出对新样本(F,18)的治疗效果预测。
迭代决策树。gn(x)=gn−1(x)+vf(x)。学习率v=1。第二棵树是对上一颗树的梯度进行决策
ri(n)=∂y^∂L(y,y^)y^=g(n−1)(x)
请计算ri(n),构建出深度为 1 第二棵树(若选取用药量为特征,取 15 分割),并给出在两棵树下对新样本(F,18)的治疗效果预测。
八、变分自编码器VAE相关