个人理解: 使用 集成 多个学生网络 来预测 经过在其他数据集预训练的老师网络,通过这种所谓的 预测不确定性 ,各学生网络 针对同一张图片【图片中的各个patch p(r,c)】 老师的输出作为 回归目标;此时 学生网络的预测不确定性和回归的误差 就作为了异常分数; 进一步,为了得到一个 能够输出 discriminative embeddings 的老师网络,作者使用了 两种方法来实现这一效果: 蒸馏一个效率低但性能强大的 分类网络 知识,这里面涉及到的一个损失 L_k 自监督 metric learning t…