两个幼模型(xing)就能(neng)吊打大(da)模型(xing)!北(bei)大(da)校友、谷歌华人(ren)一(yi)作「模型(xing)荟萃」,CNN、Transformer都适用!

 

模型(xing)非(fei)要(yao)大(da),性能(neng)才会(hui)好(hao)吗(ma)?

那可纷歧定!

当为(wei)新(xin)的(de)机(ji)器学习行使程序构建深度模型(xing)时,钻研人(ren)员清淡会(hui)从现有(you)的(de)网络架构,比如ResNets或EfficientNets中(zhong)筛选出一(yi)个初起架构。

倘若初起模型(xing)的(de)精度不足高,那么换用一(yi)个更大(da)的(de)模型(xing)能(neng)够是一(yi)个比较常见的(de)选择,但这实际上能(neng)够不是最佳解决方(fang)案。

相逆,经由过程设计一(yi)个针对特定义务优化的(de)新(xin)模型(xing),能(neng)够会(hui)获得更好(hao)的(de)性能(neng)。然而,这栽竭力能(neng)够具有(you)挑衅性,清淡必要(yao)消耗大(da)量资源。

华人(ren)钻研员Wang Xiaofang在Google Research演习期间,发外的(de)论文「Wisdom of Committees:An Overlooked Approach to Faster and More Accurate Models」中(zhong),给出了模型(xing)集成(cheng)和模型(xing)级联(lian)两栽手段。

https://arxiv.org/pdf/2012.01988.pdf

这两栽手段都是经由过程搜集现有(you)模型(xing)并组相符它们的(de)输出来(lai)构建新(xin)模型(xing)的(de)简片面法。

钻研表明,即使是幼批易于(yu)构建的(de)模型(xing)的(de)荟萃也能(neng)够匹配或超过最先辈模型(xing)的(de)精度,同时效果隐微挑高。

Wang Xiaofang是卡内基梅隆大(da)学机(ji)器人(ren)钻研所(suo)的(de)别名博士钻研生,本科(ke)就读于(yu)北(bei)京(jing)大(da)学计算机(ji)科(ke)学专科(ke),是IJCV、TIP、ACM Computing Surveys等期刊的(de)审稿人(ren),也是CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR等会(hui)议的(de)审稿人(ren)。

什么是模型(xing)集成(cheng)和级联(lian)?

集成(cheng)(ensemble)和级联(lian)(cascade)是有(you)关的(de)手段,它们行使多个模型(xing)的(de)上风来(lai)实现更好(hao)的(de)解决方(fang)案。

集成(cheng)并走实走多个模型(xing),然后组相符它们的(de)输出来(lai)进走最后展望。

级联(lian)是荟萃的(de)子集,但是挨次实走搜集的(de)模型(xing),并且一(yi)旦展望具有(you)有(you)余高的(de)信任度,就相符并解。

对于(yu)浅易的(de)输入,级联(lian)操纵较少的(de)计算,但是对于(yu)更复杂的(de)输入,能(neng)够会(hui)调用更多的(de)模型(xing),从而导致更高的(de)计算成(cheng)本。

集成(cheng)和级联(lian)概述,此示例表现了集成(cheng)和级联(lian)的(de)二模型(xing)组相符。

与单(dan)一(yi)模型(xing)相比,倘若搜集到(dao)的(de)模型(xing)展望存在迥异,集成(cheng)能(neng)够挑供(gong)更高的(de)实在性。

例如,ImageNet中(zhong)的(de)大(da)无数图像对于(yu)现在的(de)图像识别模型(xing)来(lai)说(shuo)很容易分(fen)类(lei),但是有(you)很多图像的(de)展望在模型(xing)之间有(you)所(suo)差别,这栽情况下,模型(xing)集成(cheng)受好(hao)最大(da)。

固然集成(cheng)(ensemble)是多所(suo)周知的(de),但它们清淡不被认为(wei)是深度模型(xing)架构的(de)中(zhong)央构建块,并且在钻研人(ren)员开发更高效的(de)模型(xing)时很少被追求。

所(suo)以,该工刁难集奏效果进走了周详的(de)分(fen)析,并外明浅易的(de)集成(cheng)或现成(cheng)预训练模型(xing)的(de)级联(lian)能(neng)够挑高最先辈模型(xing)的(de)效果和实在性。

模型(xing)集成(cheng)有(you)以下有(you)好(hao)特性:

易于(yu)构建:集成(cheng)不必要(yao)复杂的(de)技术(例如,早期退出学习)。 易于(yu)维护:模型(xing)经过自力训练,易于(yu)维护和安放。 可义务的(de)训练成(cheng)本:一(yi)个荟萃中(zhong)模型(xing)的(de)总训练成(cheng)本清淡矮于(yu)同样准确的(de)单(dan)个模型(xing)。 设备添速:计算成(cheng)本的(de)降矮成(cheng)功地转化为(wei)实在硬件上的(de)添速。 效果和训练速度

集成(cheng)能(neng)够挑高实在性并不稀奇,但是在集成(cheng)中(zhong)操纵多个模型(xing)能(neng)够会(hui)在运走时引入额外的(de)计算成(cheng)本。

题目来(lai)了,一(yi)个模型(xing)荟萃是否能(neng)比具有(you)相通计算成(cheng)本的(de)单(dan)个模型(xing)更准确呢?

通太甚析一(yi)系(xi)列模型(xing),从EfficientNet-B0到(dao)EfficientNet-B7,当行使于(yu)ImageNet输时兴,它们具有(you)差别的(de)精度和浮点(dian)运算程度(FLOPS)。

集成(cheng)模型(xing)比ImageNet上的(de)单(dan)一(yi)模型(xing)精度更高,同时操纵的(de)FLOPs更少。

集成(cheng)展望是经由过程平均每个单(dan)独模型(xing)的(de)展望来(lai)计算的(de)。

他们发现,在大(da)计算量周围内(大(da)于(yu) 5B FLOPS),集成(cheng)清晰更具成(cheng)本收(shou)好(hao)。

例如,两个EfficientNet-B5模型(xing)的(de)集成(cheng)能(neng)够匹配单(dan)个EfficientNet-B7模型(xing)的(de)精度,但是操纵大(da)约50%的(de)FLOPS。

在大(da)计算量周围内(超过5B FLOPS),模型(xing)集成(cheng)优于(yu)单(dan)个模型(xing)。

这外明,在这栽情况下,答该操纵多个幼得多的(de)模型(xing)的(de)荟萃,而不是操纵大(da)的(de)模型(xing),这将降矮计算请求,同时保持实在性。

此外,集成(cheng)的(de)训练成(cheng)本能(neng)够矮得多(例如,训练两个B5模型(xing)必要(yao)统统96个TPU天;训练一(yi)个B7模型(xing)必要(yao)160TPU天)。

在实践中(zhong),模型(xing)集成(cheng)训练能(neng)够操纵多个添速器并走化,从而进一(yi)步缩短训练时长(zhang)。这栽模式(shi)也适用于(yu)ResNet和MobileNet系(xi)列。

级联(lian)的(de)兴旺和简洁

固然吾们已经演示了模型(xing)集成(cheng)的(de)效用,但是行使集成(cheng)对于(yu)浅易的(de)输入来(lai)说(shuo)往往是铺张的(de),由于(yu)集成(cheng)的(de)子集会(hui)给出准确的(de)答案。

在这些情况下,级联(lian)经由过程批准挑前退出来(lai)撙节(jie)计算量,能(neng)够会(hui)在操纵一(yi)切模型(xing)之前停留并输出答案,而挑衅在于(yu)确定何时退出级联(lian)。

级联(lian)(cascade)算法假代(dai)码

为(wei)了特出级联(lian)的(de)实际益处,选择一(yi)栽浅易的(de)启发式(shi)手段来(lai)测(ce)量展望的(de)信任度:将模型(xing)的(de)信任度视为(wei)分(fen)配给每个类(lei)的(de)概率的(de)最大(da)值。

例如,倘若图像是猫、狗或马的(de)展望概率别离为(wei)20%、80%和20%,则模型(xing)展望(狗)的(de)信任度为(wei)0.8,操纵信任度得分(fen)的(de)阈值来(lai)确定何时退出级联(lian)。

为(wei)了测(ce)试这栽手段,他们为(wei)EfficientNet、ResNet和MobileNetV2系(xi)列构建模型(xing)级联(lian),以匹配计算成(cheng)本或精度(将级联(lian)局限(xian)为(wei)最多四个模型(xing))。

集成(cheng)在大(da)计算量区域做事卓异,级联(lian)在一(yi)切计算量区域都表现出上风。

经由过程级联(lian)设计,一(yi)些难得的(de)图像输入比浅易的(de)图像必要(yao)更多的(de)FLOPS,由于(yu)更具挑衅性的(de)输入比更容易的(de)输入在级联(lian)中(zhong)经历更多的(de)模型(xing)。

而一(yi)切测(ce)试图像的(de)平均FLOPS计算效果外明,级联(lian)在一(yi)切计算周围都优于(yu)单(dan)个模型(xing)(当FLOPS的(de)周围从0.15B到(dao)37B时),并且能(neng)够挑高一(yi)切测(ce)试模型(xing)的(de)精度或缩短FLOPS(未必两者都有(you))。

当操纵相通的(de)FLOPS时,级联(lian)比单(dan)个模型(xing)获得更高的(de)精度(由指向上方(fang)的(de)红色箭头表现)。级联(lian)也能(neng)够匹配具有(you)清晰更少FLOPS的(de)单(dan)一(yi)模型(xing)的(de)精度,例如B7为(wei)5.4倍(绿色箭头指向左侧)。

在某些情况下,局限(xian)因素不是平均计算成(cheng)本,而是最坏情况下的(de)成(cheng)本。经由过程在级联(lian)构建过程中(zhong)增补浅易的(de)收(shou)敛,能(neng)够保证级联(lian)计算成(cheng)本的(de)上限(xian)。

除了卷积神经网络,钻研人(ren)员还考虑了基于(yu)Transformer架构的(de)ViT。

他们构建了ViT-Base和ViT-Large模型(xing)的(de)级联(lian),以匹配单(dan)个最先辈的(de)ViT-Large模型(xing)的(de)平均计算或精度,并外明级联(lian)的(de)上风也适用于(yu)基于(yu)Transformer的(de)架构。

ViT模型(xing)的(de)级联(lian)在ImageNet上的(de)外现。级联(lian)能(neng)够以相通的(de)吞吐量实现比ViT-L-384高1.0%的(de)精度,或者在与其精度匹配的(de)情况下实现比该模型(xing)高2.3倍的(de)速度。

推(tui)理(li)效果

上面的(de)分(fen)析中(zhong)操纵了FLOPS进走平均来(lai)衡量计算成(cheng)本,而验证级联(lian)的(de)FLOPS降矮实际上转化为(wei)了硬件添速也很主要(yao)。

TPUv3上用于(yu)在线处理(li)的(de)级联(lian)的(de)平均耽延。每对相通颜色的(de)条形都有(you)相等的(de)准确度,而级联(lian)能(neng)够大(da)幅降矮耽延。

经由过程比较性能(neng)相通的(de)单(dan)一(yi)模型(xing)与级联(lian)模型(xing)在设备上的(de)耽延和添速,他们发现与精度相等的(de)单(dan)个模型(xing)相比,高效网络的(de)级联(lian)模型(xing)在TPUv3上的(de)平均在线耽延降矮了高达5.5倍。随着模型(xing)越来(lai)越大(da),相通级联(lian)带来(lai)的(de)速度升迁也越来(lai)越多。

【编辑选举】

量子计算是人(ren)造智(zhi)能(neng)的(de)异日吗(ma)? Kubernetes容器网络模型(xing)解析 先睹为(wei)快:现在您能(neng)够在Raspberry Pi 4计算机(ji)上运走安卓12了 为(wei)人(ren)造智(zhi)能(neng)构建的(de)计算机(ji)特出配件和外部组件 认清实际与理(li)想(xiang)的(de)差距,查查边缘计算还有(you)哪些坑?

 


posted @ 21-11-19 12:57  作者:admin  阅读量:

Powered by 泛亚电竞官网_泛亚电子竞技平台 @2018 RSS地图 HTML地图

Copyright 365站群 © 2013-2021 版权所有