首页 » 科技

CVPR 2019 - 夺取6项冠军的旷视如何筑起算法壁垒

01-2914
走进今年 cvpr 的工业展区,映入眼帘的是熟悉的 MEGVII 字眼和以蓝色为主基调的展位,蓝白相间的 booth roof 甚是亮眼,这多少让记者有些惊讶。旷视,这家来自中国的计算机视觉独角兽公司,竟然「霸占」了全世界顶尖学术会议的 C 位。

  CVPR,全称 IEEE 国际计算机视觉与模式识别会议,在计算机视觉领域是和 ecCV、ICCV 并称的三大顶尖会议。今年的 CVPR 于当地时间 6 月 16 日在美国加州长滩开幕,前后共 5 天,吸引了超过 9200 多名参会者、284 家赞助商和 104 家展商。论文方面,来自全球的 14,104 位作者提交了 5000 多篇论文。  不远千里来到长滩会议中心的旷视研究员,在今年的 CVPR 上满载而归:拿下 6 个挑战赛世界冠军,包括自动驾驶、细粒度识别等等,数量位列今年国内参会公司之首;首次在 CVPR 举办研讨会和挑战赛,吸引了超过 300 多支队伍注册参加;14 篇论文入选了今年的 CVPR,比去年多出 6 篇,其中 1 篇入选口头报告(Oral Presentation,5.6% 接收率)。  参加 CVPR 对以算法为核心的旷视有重要的战略意义。2019 年伊始,在成立八年之际,旷视宣布了从品牌到战略的全面升级,并且确立了以算法为核心基因,围绕计算视觉及相关传感技术开发感知、控制、优化算法,包括但不限于人脸识别、手势识别、文字识别、物体检测、视频分析、三维重建、智能传感与控制等机器学习技术。  一方面,学术会议的同行评议,是考验旷视技术的试金石;另一方面,旷视也在借此机会吸引人才,鼓励学术界思考中国计算机视觉行业的特殊需求,并回馈研究社区。  旷视首席科学家和研究院院长孙剑告诉机器之心,“在一次和姚期智先生(也是旷视学术委员会主席)的座谈上,姚先生说的非常好:‘发表论文、参加学术会议,其实是有人对你的工作鼓掌,激励你继续前行。’”  6 项冠军背后的算法优势  挑战赛可以看成是技术预演的过程,处于研究和产品之间的环节。通过挑战赛,研究员可以打造更好的集成架构、优化算法、测试极端情况,在挑战赛上验证过的技术有助于加快产品落地。  今年,旷视横扫了 6 个挑战赛项目,涵盖自动驾驶、细粒度识别、终端图像处理、3d 物体识别等众多领域,且含金量都很高,分别是:  1.自动驾驶方向  WAD nuscenes 3D Detection Challenge  WAD Domain Adaption Detection Challenge  WAD Domain Adaption Tracking Challenge  2.细粒度图像识别  FGVC iNaturalist  FGVC Herbarium  3.图像恢复和增强  NTIRE Real Image Denoising Challenge  以 iNaturalist 为例,这是细粒度图像识别里的标杆性比赛,要求参赛团队在上千种动植物子类别中实现图像识别,被看作是该领域的 ImageNet。iNaturalist 所属的细粒度视频分类(FGVC)研讨会,在 CVPR 上已经举办过六届。  旷视的参赛团队来自南京研究院,细粒度图像分析是其基础研究方向之一,他们也涉猎小样本、深度学习、物体检测、图卷积等领域。南京研究院的负责人魏秀参告诉机器之心,今年 iNaturalist 的难度相比往年有所提升,主要体现在三个方面:  首先,数据集不仅涵盖了一千多个动植物品类,而且有些动植物类别之间的差别普通人根本看不出,比如你知道下图哪张是「白腹蓝彩鹀」,哪张是「靛彩鹀」吗?这些问题只有植物专家或者动物专家才能回答。

上图是靛彩鹀,下图是白腹蓝彩鹀  其次,这是一个长尾分布的数据。所谓的长尾分布指的是大约 20% 的类别包含 80% 的图像,而 80% 的类别只覆盖 20% 的数据,所以整个数据集呈现指数递减趋势,这对解决实际问题带来了很大的挑战性。  再者,除了识别动植物,在具体的一个类别,还需要识别动植物不同的发育期状态。比如说一些两栖动物可能会有一些变态反应,不同的状态需要进行精细的甄别。  魏秀参介绍说,此次参加挑战赛的模型集成了最前沿细粒度技术成果,包括 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等;同时,团队也提出「后验概率重校准」技术,即通过先验知识对模型输出的后验概率进行校准,极大提高拥有较少训练图像的长尾类别的识别准确率。最终结果,旷视在 iNaturalist 挑战赛上比第二、三名领先了一个身位。  在另一个细粒度图像识别的比赛 Herbarium Challenge(植物标本挑战赛)中,参赛团队需要从植物标本中鉴定开植物物种(Melastomes),数据来自纽约植物园。旷视击败了去年的冠军、今年的第二名大连理工。  多说一个细节:在细粒度图像识别的挑战赛上获胜的模型使用了旷视自研的 Brain AutoML 技术。旷视内部采用了 One-shot 神经架构搜索的方法,兼顾了性能、效率、灵活性,使得 Brain AutoML 可以在实际模型生成中实现快速落地和调用。  这是旷视南京研究院第一次参加 CVPR 的挑战赛。从 2017 年组建至今,南京研究院希望将此机会将多年积累的技术放到国际舞台上比一比。魏秀参后来透露,挑战赛的胜利提升了团队的自信心和凝聚力。  相比于在 iNaturalist 挑战赛上的突破,旷视研究院检测组负责人俞刚带队获得自动驾驶挑战赛三项冠军更像是「常规操作」。在去年 CVPR 上,俞刚带队就获得了自动驾驶识别挑战赛实例视频分割(Instance-level Video Segmentation)的冠军。今年,旷视分别在 BDD100K