Abstract
本文提出了一种方法,对于深度神经网络分类器,存在通用的很小的干扰(肉眼难察觉)让分类器做出错误的判断。
Introduction
本文的贡献在于:
- 证明了通用干扰的存在性
- 给出了找到这种干扰的算法
universial体现在两个方面:
- 用很小的训练集就可以训练出对于新图片都大概率有效的干扰
- 对于深度神经网络泛化的很好
Universal perturbations
- $\mu$ 表示 $\mathbb{R}^d$ 中图片的分布
- $x \in \mathbb{R}^d$ 表示一张图片
- $\hat{k}$ 表示分类函数, $\hat{k}(x)$ 表示图片 $x$ 的分类结果
- $v$ 表示干扰向量
最终目标:
- $||v||_p \le \xi$ ,是很小的干扰,在范数上加以限制
- $\mathop{\mathbb{P}}\limits_{x \sim \mu}(\hat{k}(x+v)\ne \hat{k}(x)) \ge 1-\delta$ ,干扰会大概率导致分类错误
算法
- 设 $X=\{x_1,\dots,x_m\}$ 是一组服从分布 $\mu$ 的图片,需要找到一个 $v$ 来使分类器分类错误。
- 每一步 $\Delta v_i$ 都会找到一个边界点,即 $\Delta v_i \leftarrow \mathrm{arg} \min\limits_r ||r||_2 \mathrm{s.t.} \hat{k}(x_i+v+r) \ne \hat{k}(x_i)$ 。范数最小也就决定了它一定在边界上。
- 另一个需要注意的就是如何让 $||v||_p \le \xi$ 一直被满足,用到重投影。每当不满足时,将点投影回最近的满足要求的点,即 $\mathcal{P}_{p,\xi}(v)=\mathrm{arg}\min_{v'}||v-v'||_2 \mathrm{s.t.} ||v'||_p \le \xi$ 。
Universal perturbations for deep nets
- 在 ILSVRC2012 数据集上对不同网络进行实验:
- 对于不同网络的干扰噪声示例,并不唯一:
- 对于同一个网络使用不同的数据产生的不同噪声:
未完待续