当前位置:首页 > 行业报告 > 正文

苹果发布首份人工智能报告(全文):瞄准AI视觉2016-12-27 14:32:12 | 编辑:hely | 查看: | 评论:0

日前,苹果发布了其首份关于人工智能(AI)的学术论文——“通过对抗网络使用模拟和非监督图像训练”,其中主要描述了在计算机视觉系统中提高图像识别的方法,而这或许也标志着苹果公司研究的新方向。

3.实验

我们使用MPIIGaze [40,43]上的外貌估计数据集和纽约大学的手势数据集 [35]来评估我们的方法。我们在所有实验中使用完全卷积的精炼网络与ResNet块(图6)。

3.1基于外貌的注视估计

注视估计是许多人机交互(HCI)任务的关键因素。然而,直接由眼睛图像进行估计是有挑战性的,特别是在图像质量不佳时。例如智能手机或笔记本电脑前置摄像头采集到的眼睛图像。因此,为了生成大量注释数据,最近几次方法[40,43]用大量合成数据训练它们的模型。在这里,我们展示使用SimGAN生成的精细合成图像训练显著提高了任务的表现。

注视估计数据集包括使用眼睛注视合成器UnityEyes生成的1200万样本,以及来自MPIIGaze数据集的21,000实拍样本。MPIIGaze的图像样本都是在各种照明条件不理想情况下捕捉到的图像。而UnityEyes图像都是在同一渲染环境下生成。

定性结果:图5展示了合成生成的眼睛注视图像以及经过处理的实拍图像。如图所示,我们观察到合成图像的显著质量改进:SimGAN成功捕获皮肤纹理,传感器噪点以及虹膜区的外观。请注意,我们的方法在改善真实性的同时保留了注释信息(注视方向)。

‘视觉图灵测试’:为了定量评估精细图像的视觉质量,我们设计了一个简单的用户研究,要求受试者对图像是属于实拍或是合成进行区分。每个受试者被展示50张实拍图像和50张合成图像。在试验中,受试者不断观看20个真假混杂的图像,最终受试者很难分辨真实图像和精细图像之间的差异。在我们的总体分析中,10个受试者在1000次试验中正确率只有517次(p=0.148),跟随机选差不多。表1展示了混淆矩阵。相比之下,当使用原始图像和实拍图像进行测试时,我们给每个受试者展示10个实拍和10个合成图像,这种情况下受试者在200此实验中选对了162次(p≤10-8),结果明显优于随机选择。

 

undefined
(表1:采用真实图像和合成图像进行的“视觉图灵测试”。平均人类分类精度为51.7%,表明自动生成的精细图像在视觉上已经达到以假乱真的程度。)

 

 

undefined
(图7:使用MPIIGaze实拍样本进行的眼睛注视估计的定量结果。曲线描述了不同测试数量下系统预估的误差。图示中使用精细图像而不是合成图像能显著提高系统表现。)

 

定量结果:我们训练了一个与[43]类似的简单的卷积神经网络(CNN)来对眼睛的注视方向进行预测。我们在UnityEyes上训练,并在MPIIGaze上进行测试。图7和表2比较了CNN分别使用合成数据以及SimGAN生成的精细数据的不同表现。我们观察到SimGAN输出训练的表现有很大的提高,绝对百分比提高了22.3%。我们还发现训练结果和训练数据呈正相关——此处的4x指的是培训数据集的100%。定量评估证实了图5中观察到的定性改进的价值,并且表明使用SimGAN能使机器学习模型有更好的表现。表3展示了同现有技术的比较,在精细图像上训练CNN的表现优于MPIGaze上的现有技术,相对改善了21%。这个巨大的改进显示了我们的方法在许多HCI任务中的实际价值。

实施细节:精炼网络Rθ是一个残差网络 (ResNet) 。每个ResNet块由两个卷积层组成,包含63个特征图,如图6所示。大小为55x35的输入图像和3x3的过滤器进行卷积,输出64个特征图。输出通过4个ResNet块传递。最后ResNet块的输出被传递到1x1卷积层,产生对应于精细合成图像的1个特征图。

 

undefined
(表2: 使用合成数据和SimGAN输出进行训练的比较。在无需监督真实数据的情况下,使用SimGAN输出的图像进行训练表现出22.3%的优势。)

 

 

undefined
(表3: SimGAN与MPIIGaze现有技术进行比较。R=真实图像,S=合成图像。误差是以度为单位的平均眼睛注视估计误差。对精细图像的训练带来了2.1度的改进,相对现有技术提高了21%。)

 

鉴别器器网络Dφ包含5个扩展层和2个最大合并层,分别为:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。

我们的对抗网络是完全卷积的,并且已经被设计为使Rθ和Dφ中的最后层神经元的接受域是相似的。我们首先对Rθ网络进行1000步的自正则化损失训练,Dφ为200步。然后对于Dφ的每次更新,对应在算法中更新Rθ两次。即Kd被设置为1,Kg被设置为50。

眼睛注视估计网络同[43]类似,不过略作修改以使其更好地利用我们的大型合成数据集。输入是35x55的灰度图,通过5个卷积层,然后是3个完全连接的层,最后一个编码三维注视向量:(1)Conv3x3,特征图= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有网络都使用恒定的0.001学习速率和512批量大小进行训练,直到验证错误收敛。

3.2关于深度图像的手势图像模拟

下一步,我们将用这宗方法对各种手势的深度图像进行模拟。在研究中,主要使用了纽约大学所提供的NYU手势数据库,其中包含72757个训练样本以及使用3台Kinect相机所采集的8251个测试样本,其中每个测试样本包括一个正面手势图像以及两个侧面手势图像。而每一个深度图像样本都对手势信息进行了标记,从而生成了合成图像。图10展示了手势数据库中的一个样本。我们对数据库样本进行了预处理,利用合成图像从真实图像中提取了相应的像素点位。在使用深度学习网络ConvNet进行处理之前,每个图像样本的分辨率大小被统一调整为224*224,背景值设置为零,前景值设置为原始深度值减2000。(此时假设背景分辨率为2000)。

 

undefined
图10:NYU手势数据库。左图为深度图像样本;右图为处理后的合成图像。

 

定性描述:图11显示了“生成对抗网络”( SimGAN)对手势数据库的计算结果。由图可知,真实深度图像的噪声已经边缘化,且分布不连续。SimGAN能够有效对原有图像噪声进行学习并模拟,从而产生出更加真实精细的合成图像,且不需要在真实图像上做出任何标记或注释。

 

undefined
图11: NYU手势数据库的精细测试图像示例。左图为真实图像实像,右图上为合成图像,右图下为来自苹果生成对抗网络的相应精细化输出图像。 实际图像中的主要噪声源是非平滑的边缘噪声。 学习网络能够学习模拟真实图像中存在的噪声,重要的是不需要任何标记和注释。

 

定量分析:

我们采用一种类似于Stacked Hourglass人体姿态算法的CNN仿真算法应用于真实图像、合成图像以及精细化合成图像处理,与NYU手势数据库中的测试样本进行对比。通过对其中14个手关节变换进行算法训练。为了避免偏差,我们用单层神经网络来分析算法对合成图像的改进效果。图12和表4显示了关于算法对手势数据库进行处理的定量结果。其中由SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%,其中仿真 模拟输出的注释成本为零。同时要注意的是,3X代表图像训练选取了所有角度。

 

undefined
图12:手势估计的定量结果,关于NYU手势测试集的真实深度图像。 图表显示图像与背景之间函数的累积曲线。可见,SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%。 重要的是,我们的学习网络不需要对真实图像进行标记。

 

 

undefined
表4:通过训练生成各种手势图像的相似度。Synthetic Data为一般网络训练产生的合成图像,Real Data为真实图像,Refined Synthetic Data为生成对抗网络SimGAN输出的精细化合成图像。3X表示对真实图像进行多角度模拟。

 

实现细节:关于手势图像判别的架构与眼睛图像相同,但输入图像分辨率为224*224,滤波器大小为7*7,残差网络值为10。判别网络D如下:(1)Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先,我们会对R网络进行自我规则化训练500次,随后引入D网络训练200次;随后,每更新一次D网络,就相应将R网络进行两次更新。在手势估计中,我们采用Stacked Hourglass Net人体姿态算法输出大小为64*64的热点图。我们在网络学习中引入[-20,20]的随机数据集来对不同角度的图像进行训练。直至验证误差有效收敛时,网络训练结束。

3.3对抗训练的修正分析

首先我们比较了本地化对抗训练以及全局对抗训练的图像偏差。在全局对抗中,判别网络使用了完全连接层,从而使整个图像相对于更加精细。而本地化对抗训练则使得生成的图像更为真实,如图8所示。

 

undefined
图8:左为全局对抗训练结果,右为本地化对抗训练结果。显示了全局对抗训练与本地化对抗训练的结果偏差。左图生成的图像更精细但不真实,右图生成的图像相对真实度更高。

 

接下来,在图9中,显示了使用反复训练的历史精细化图像对判别网络进行更新,并将其与标准对抗生成的合成图像进行比较的结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影,譬如在标准对抗训练中,眼睛角落里没有阴影。

 

undefined
图9:使用历史精细图像对判别网络进行更新的结果。左图: 标准合成图像;中图:使用历史数据对判别网络进行更新后的图像结果;右图:使用近期历史数据对判别网络进行更新的图像结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影。

 

4结论以及下一步工作

在文中,我们提出了一种“模拟+无监督”的机器学习方法,能够有效提高模拟图像的真实感。我们描述了一种新的生成对抗网络SimGAN,并将其应用于未经标注的真实图像,获得了最好的结果。下一步,我们将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。

上一篇:2016年中国数据驱动型互联网企业大数据产品研究报告(PPT) 2016年微信大数据报告发布下一篇:

公众平台

搜索"raincent"或扫描下面的二维码