Inception v4

  • 对 v3 进一步加深和优化,提高性能。
  • v3 中不同 Inception 模块的超参数(卷积层输出通道)都不同。在 v4 中对这一点做了改进,对每种尺寸的特征图采用统一的超参数。

总体结构图

3*299*299
384*35*35
384*35*35
1024*17*17
1024*17*17
1536*8*8
1536*8*8
1536
1536
Image
Stem
4 x Inception-A
Reduction-A
7 x Inception-B
Reduction-B
3 x Inception-C
AvgPool k=8
Dropout 0.2
softmax classifier

内部模块

  • Stem
3*299*299
32*149*149
32*147*147
64*147*147
64*147*147
96*73*73
64*73*73
160*73*73
64*73*73
96*71*71
160*73*73
64*73*73
64*73*73
64*73*73
96*71*71
192*71*71
192*71*71
192*35*35
192*35*35
384*35*35
Input
Conv k=3 s=2 BN ReLU
Conv k=3 BN ReLU
Conv k=3 p=1 BN ReLU
Conv k=3 s=2 BN ReLU
MaxPool k=3 p=2
DepthConcat
Conv k=1 BN ReLU
Conv k=3 BN ReLU
Conv k=1 BN ReLU
Conv k=[1,7] p=[0,3] BN ReLU
Conv k=[7,1] p=[3,0] BN ReLU
Conv k=3 BN ReLU
DepthConcat
Conv k=3 s=2 BN ReLU
MaxPool k=3 s=2
DepthConcat
Output
  • Inception A
384*35*35
384*35*35
384*35*35
384*35*35
64*35*35
64*35*35
96*35*35
384*35*35
96*35*35
96*35*35
96*35*35
96*35*35
384*35*35
Input
Conv k=1 BN ReLU
Conv k=1 BN ReLU
Conv k=3 p=1 BN ReLU
AvgPool k=3 p=1
Conv k=1 BN ReLU
Conv k=3 p=1 BN ReLU
Conv k=3 p=1 BN ReLU
Conv k=1 BN ReLU
DepthConcat
Output
  • Inception B
1024*17*17
1024*17*17
1024*17*17
1024*17*17
192*17*17
224*17*17
192*17*17
192*17*17
224*17*17
224*17*17
1024*17*17
384*17*17
256*17*17
256*17*17
128*17*17
1024*17*17
Input
Conv k=1 BN ReLU
Conv k=1 BN ReLU
Conv k=[1,7] p=[0,3] BN ReLU
Conv k=[7,1] p=[3,0] BN ReLU
Conv k=1 BN ReLU
Conv k=[1,7] p=[0,3] BN ReLU
Conv k=[7,1] p=[3,0] BN ReLU
Conv k=[1,7] p=[0,3] BN ReLU
Conv k=[7,1] p=[3,0] BN ReLU
AvgPool k=3 p=1
Conv k=1 BN ReLU
DepthConcat
Output
  • Inception C
1536*8*8
1536*8*8
1536*8*8
1536*8*8
384*8*8
384*8*8
384*8*8
448*8*8
512*8*8
512*8*8
1536*8*8
256*8*8
256*8*8
256*8*8
256*8*8
256*8*8
256*8*8
1536*8*8
Input
Conv k=1 BN ReLU
Conv k=1 BN ReLU
Conv k=[1,3] p=[0,1] BN ReLU
Conv k=[3,1] p=[1,0] BN ReLU
Conv k=1 BN ReLU
Conv k=[1,3] p=[0,1] BN ReLU
Conv k=[3,1] p=[1,0] BN ReLU
Conv k=[1,3] p=[0,1] BN ReLU
Conv k=[3,1] p=[1,0] BN ReLU
AvgPool k=3 p=1
Conv k=1 BN ReLU
DepthConcat
Output
  • Reduction A
384*35*35
384*35*35
384*35*35
384*17*17
384*17*17
192*35*35
224*35*35
256*17*17
1024*17*17
Input
Conv k=3 s=2 BN ReLU
Conv k=1 BN ReLU
Conv k=3 p=1 BN ReLU
Conv k=3 s=2 BN ReLU
MaxPool k=3 s=2
DepthConcat
Output
  • Reduction B
1024*17*17
192*17*17
192*8*8
1024*17*17
256*17*17
256*17*17
320*17*17
320*8*8
1024*17*17
1024*8*8
1536*8*8
Input
Conv k=1 BN ReLU
Conv k=3 s=2 BN ReLU
Conv k=1 BN ReLU
Conv k=[1,7] p=[0,3] BN ReLU
Conv k=[7,1] p=[3,0] BN ReLU
Conv k=3 s=3 BN ReLU
MaxPool k=3 s=2
DepthConcat
Output

实验结果

  • ILSVRC 2012 上 144 切割的实验结果
Network Crops Top-1 Error Top-5 Error
ResNet-151 dense 19.4% 4.5%
Inception-v3 144 18.9% 4.3%
Inception-v4 144 17.7% 3.8%

参考文献

  1. Szegedy, C., Io e, S., Vanhoucke, V.: Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv:1602.07261 (2016)