参与:杜伟

本周的论文既有利用定向声波黑掉智能音箱的进一步探索,也有 CMU 杨植麟办理 softmax 的新方法 Mixtape 以及运用 seq2seq 模型办理高数问题的 AI 新方法。

目录:

jsp的for循环可以拆分吗7 papers  AI新办法解高数Ross何恺明衬着思绪做图像朋分 jQuery

1. Audio Hotspot Attack: An Attack on Voice Assistance Systems Using Directional Sound Beams and its Feasibility

2. Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products

3. Mixtape: Breaking the Softmax Bottleneck Efficiently

4. Advances and Open Problems in Federated Learning5. Deep Learning For Symbolic Mathematics

6. PointRend: Image Segmentation as Rendering7. Analyzing and Improving the Image Quality of StyleGAN

论文 1:Audio Hotspot Attack: An Attack on Voice Assistance Systems Using Directional Sound Beams and its Feasibility

作者:Ryo Iijima、Shota Minami、Yunao Zhou、Tatsuya Mori 等论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8906174

择要:智能音箱近两年走入了很多家庭的生活,成为了娱乐、购物、日程管理、儿童陪伴乃至教诲方面的帮手。
但是,智能音箱的安全问题也日益受到关注。
继今年 11 月份,有研究利用激光黑掉智能音箱后,又有新的破解方法来了。
这回直接用定向声波。
他们利用了一种名为「音频热点攻击」(Audio Hotspot Attack)的攻击办法,这是一种无声的恶意语音命令攻击,意在滋扰智能音箱或车内导航系统等语音赞助系统。
与以往利用无声命令攻击不同,这一攻击方法能够:实现远间隔攻击(小房间里 3.5 米,长廊里 12 米);通过利用发射载波和边带波的两种定向声波束来掌握听觉区域的位置;在攻击过程中利用空气介质中非线性这一物理征象来攻击语音赞助系统。
研究者表示,如果语音命令在特定的间隔上连续三次被智能音箱吸收,则认为攻击有效。
结果显示,小房间 3.5 米间隔上的攻击成功率最高,但走廊攻击实验表明,12 米间隔上的攻击也是有效的。

Audio Hotspot Attack 的整体架构图。
图上:利用一个参量扬声器攻击(线性攻击);图下:利用两个参量扬声器攻击(交叉攻击,分别发射载波和边带波)。
个中在黄色区域,人可以听到声音。

攻击所需硬件。

攻击间隔(cm)和被唤醒或识别的成功率比较。
噪声 SPL 设置为 60 分贝。

推举:如果有一天,你的智能音箱开始胡言乱语、乱下指令,它可能是被黑了,而且黑得悄无声息。

论文 2:Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products

作者:Tharun Medini、Qixuan Huang、Yiqiu Wang、Vijai Mohan、Anshumali Shrivastava论文链接:https://papers.nips.cc/paper/9482-extreme-classification-in-log-memory-using-count-min-sketch-a-case-study-of-amazon-search-with-50m-products.pdf

择要:过去十年里,诸多困难的 AI 任务(尤其是在 NLP 领域)已被证明可以自然地建模作为极度分类问题,从而提升了精度。
但是,由于末了一层中的内存耗尽,演习此类模型的本钱过高。
为缓解此类问题,研究者在本文中提出了 MACH(Merged Average Classifiers via Hashing),这是一种通用的 K-classification 算法,个中的内存可以在 O(log K) 上进行扩展,而无需类的强假定。
MACH 巧是一种伪装奥妙的 count-min sketch 构造,它利用全域希哈法(universal hashing)将具有大量类的分类减少为具有少量(恒定)类的高度并行和独立的分类任务。
MACH 自然而然地为零通信模型(zero communication model)的并行性供应了一种方法。
研究者在六个数据集进行实验:包括一些多类数据集和多标签数据集,结果表明在各自领域的 SOTA 基准测试中呈现出持续的改进。

MACH 架构图。

MACH 与 Parabel、Embedding Model 在 Matching 度量指标上的结果比拟。

MACH 与 Parabel、Embedding Model 在 Ranking 度量指标上的结果比拟。

推举:实验结果表明,本文提出的 MACH 在 Matching 和 Ranking 度量指标上能够持续优于 Parabel 和 Embedding Model。

论文 3:Mixtape: Breaking the Softmax Bottleneck Efficiently

作者:Zhilin Yang、Thang Luong、Ruslan Salakhutdinov、Quoc Le2论文链接:https://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently.pdf

择要:softmax 瓶颈限定了神经措辞模型的表达能力(expressiveness)。
Mixture of Softmaxes (MoS) 是办理该理论局限的有效方法,但与 softmax 比较,MoS 无论在内存还是韶光上都本钱较高。

来自 CMU 和谷歌大脑的杨植麟、Thang Luong、Ruslan Salakhutdinov 和 Quoc Le 提出了一种新方法 Mixtape,该输出层利用三项新技能——logit 空间向量门控、sigmoid 树分解和门控共享,更高效地冲破了 softmax 瓶颈。

Mixtape 层架构图。

在 WMT 英德和英法措辞对数据上的性能比拟。
Mixtape 在这两项任务上分别利用了 2 亿和 8 亿参数。

推举:2017 年,杨植麟等人提出一种办理 Softmax 瓶颈的大略有效的方法——Mixture of Softmaxes(MoS)。
但该方法本钱高昂,于是最近杨植麟等人再次瞄准 softmax 瓶颈问题,提出兼顾表达能力和高效性的新方法 Mixtape。

论文 4:Advances and Open Problems in Federated Learning

作者:Peter Kairouz、H. Brendan McMahan、Brendan Avent 等论文链接:https://arxiv.org/pdf/1912.04977.pdf

择要:联邦学习(Federated Learning,FL)是这样一种机器学习设置,诸多客户端(如移动设备或整体组织)在中心做事器(如做事供应商)的折衷下来协同演习模型,同时保持演习数据的分散性。
联邦学习表示了集中数据网络(focused data collection)和最小化的原则,并且可以减轻传统集中式机器学习和数据科学方法所导致的诸多系统性隐私风险和本钱。

近年来,联邦学习研究呈现出了爆炸性增长,受此推动,来自澳大利亚国立大学、卡耐基梅隆大学等二十多家机构的五十多位研究者在本文中磋商了联邦学习的最新进展,并提出了大量未办理的问题和寻衅。

FL 演习模型的生命周期以及联邦学习系统中的各种要素。

推举: 研究者希望本篇论文可以为那些在联邦学习和干系领域深耕的学习者带来帮助。

论文 5:Deep Learning For Symbolic Mathematics

作者:Guillaume Lample、Francois Charton论文链接:https://arxiv.org/pdf/1912.01412.pdf

择要:机器学习的传统是将基于规则的推断和统计学习对立起来,很明显,神经网络站在统计学习那一边。
神经网络在统计模式识别中效果显著,目前在打算机视觉、语音识别、自然措辞处理等领域中的大量问题上取得了当前最优性能。
但是,神经网络在符号打算方面取得的成果并不多:目前,如何结合符号推理和连续表征成为机器学习面临的寻衅之一。

近日,来自 Facebook 的 Guillaume Lample 和 Francois Charton 揭橥了一篇论文,他们将数学(详细来说是符号打算)作为 NLP 模型的目标。
更准确地讲,研究者利用序列到序列模型(seq2seq)办理符号数学的两个问题:函数积分和常微分方程(ODE)。
这两个问题不管对接管过数学演习的人还是打算机软件而言都是难题。
他们首先提出一种可用于 seq2seq 模型的数学表达式和问题表示,并谈论了问题空间的大小和构造。
然后展示了如何为积分和一阶、二阶微分方程的监督式演习天生数据集。
末了,研究者对数据集运用 seq2seq 模型,创造其性能超过当前最优的打算机代数程序 Matlab 和 Mathematica。

不同数量的运算符和叶节点所对应的树和表达式的数量。
p_1 和 p_2 分别对应一元运算符和二元运算符的数量,L 对应叶节点数量。
最下方的两条曲线对应二元树和 unary-binary 树的数量。
最上方两条曲线表示表达式的数量。
从该图可以不雅观察到,添加叶节点和二元运算符能够显著扩大问题空间的规模。

该研究提出的模型与 Mathematica、Maple 和 Matlab 在包含 500 个方程的测试集上的性能比拟情形。
此处,Mathematica 处理每个方程时有 30 秒的超时延迟。
对付给定方程,该研究提出的模型常日在不到一秒的韶光内即可找出解。

推举:数学也可以是一种自然措辞,而利用机器翻译方法就可以办理数学问题,这是 Facebook 科学家提出的用神经网络精确解符号打算的方法。

论文 6:PointRend: Image Segmentation as Rendering

作者:Alexander Kirillov、吴育昕、何恺明、Ross Girshick论文链接:https://arxiv.org/pdf/1912.08193.pdf

择要:提到何恺明,读者们都不会陌生。
近年来,他在语义分割和实例分割领域做了很多首创性的事情,用来提升分割效果。
例如,在实例分割方面提出全景分割的方法,在语义分割上则提出了效果惊人的 TensorMask。
最近,Alexander Kirillov(一作)、吴育昕、何恺明等又从打算机渲染的角度出发,提出了一个名为 PointRend 的方法,更好地提升图像分割过程中的平滑性和分割细节效果。

这一方法是否会对现有的网络架构带来很大影响?研究者表示,这一方法可作为已有的图像分割架构的一个模块来利用。
他们在 Mask R- CNN 和 DeepLabV3 等模型上进行了测试,性能提升明显,而且算力占用很小。

利用 PointRend 实行实例分割和利用传统方法的比拟。
传统方法(左)分割的时候图像分辨率低,分割效果差。

Mask R-CNN [19] + 标准掩码头的结果示例(左侧图像)vs Mask R-CNN + PointRend 的结果示例(右侧图像)。
模型利用 ResNet-50 和 FPN。

PointRend 的抗锯齿效果。

推举:Facebook FAIR 实验室再次创新图像分割算法,这回利用的是图像渲染的思路。
算法可作为神经网络模块集成,显著提升 Mask R-CNN 和 DeepLabV3 性能。

论文 7:Analyzing and Improving the Image Quality of StyleGAN

作者:Tero Karras、Samuli Laine、Miika Aittala、Janne Hellsten 等论文链接:https://arxiv.org/abs/1912.04958

择要:利用天生方法(尤其是天生对抗网络)得到的图像的分辨率和质量都在快速提升。
在高分辨率合成任务上确当前最佳方法是 StyleGAN,研究表明其能在多种数据集上可靠地发挥浸染。
这项研究关注的问题是修复 StyleGAN 的特有伪影以及进一步提升其结果的质量。
StyleGAN 的显著特色是其具有非常规的天生器架构。
这种架构不会仅在网络的开始处向其馈送输入隐代码 z ∈ Z,而是其映射网络 f 首先会将其变换成一个中间隐代码 w ∈ W。
然后,仿射变换通过自适应实例归一化(AdaIN)得到能掌握合成网络 g 的层的风格。
其余,其还通过向合成网络供应额外的随机噪声图而提升了随机变革的性能。
研究表明,这种设计能让中间的隐空间 W 比输入的隐空间 Z 的纠缠少得多。
这篇论文的所有剖析都集中在 W 上,由于从合成网络的视角看,它是干系的隐空间。
很多不雅观察者把稳到 StyleGAN 天生的图像会有很有特点的伪影。
这篇论文给出了产生这些伪影的两个缘故原由,并描述了可以如何通过修正架构和演习方法来肃清这些伪影。

天生的汽车图像。

天生的人脸。

推举:近日,英伟达公开了 StyleGAN 的 2.0 改进版,提出了对这种天生对抗网络的多项新改进,在办理了天生图像伪影的同时还能得到细节更好的高质量图像。
新的改进方案也不会带来更高的打算本钱。