旷视首席科学家孙剑去世，他有哪些成就？

点击联系发帖人 时间：2022-06-15 09:05

中国科学院院士著名核物理学家

孙剑从视觉智能、计算机摄影学以及AI计算3个方面介绍了计算机视觉研究领域的变革。

AI科技评论按：7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。

峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日，「智慧城市·视觉智能」专场正式拉开帷幕，本专场全面围绕“未来城市级视觉AI的发展方向”这一主题展开。

会上，旷视首席科学家、研究院院长、西安交通大学人工智能学院院长孙剑带来了题为《深度学习变革视觉计算》的精彩分享。

孙剑从视觉智能、计算机摄影学以及AI计算3个方面介绍了计算机视觉研究领域的变革。

他首先回顾了深度学习发展历史，深度学习发展到今天并不容易，过程中遇到了两个主要障碍：

第一，深度神经网络能否很好地被训练。在深度学习获得成功之前曾被很多人怀疑，相比传统的机器学习理论，深度学习神经网络的参数要比数据大10倍甚至上百倍；

第二，当时的训练过程非常不稳定，论文即使给出了神经网络训练方法，其他研究者也很难把结果复现出来。

这些障碍直到2012年才开始慢慢被解除。

孙剑认为，深度学习和传统机器学习最大的差别是，随着数据量越来越大，使用更大的神经网络就有可能超越人类性能。

而具体到计算平台上，目前包括云、端、芯上的很多硬件上都可以部署智能，技术发展趋势是如何自适应地根据计算平台做自动模型设计。在这方面，旷视提出了Single Path One-Shot NAS的模型搜索新方法，它分为两步：

第一步是训练一个SuperNet，是一个超网络，包含我们想搜索的子网络，先训SuperNet所有的权重；

第二步是搜索Sub-Nets子网络，好处是第二步不需要训练，非常高效。整个模型搜索时间只是正常训练时间的，提供了各种计算机视觉API，服务了全世界的开发者。

我们另一个产品是FaceID.com，它是目前最大的第三方身份认证平台，由于它远超人类的能力，目前服务于包括互联网金融、银行客服、交通出行等领域。

上述讨论的产品主要应用在云上，不用太考虑计算速度和神经网络的大小。云端模型的目标是突破认知边界，看我们能做得多好。

但是在线下场景，很多应用需要在移动端或手机上运行。在移动端这个计算平台上，有两个代表性的神经网络设计可以参考：

ShuffleNet有V1和V2版本，核心是提出了一套设计原理：比如让卷积更平衡；尽量不要产生分支；降低整体结构的碎片化，避免逐元素操作。

由此旷视助力国内全部一线手机厂商，做出了第一款2D人脸解锁手机、第一款3D结构光人脸识别解锁手机、第一款红外人脸解锁手机等。

随着端上对功耗要求更低、面积体积更小，所以需要进一步研究如何把神经网络在芯片上高效运行。

因此出现了以低比特表示为代表的一系列工作，包括DorefaNet（旷视首先提出），在低比特运算方面，这是第一个提出将权重、激活向量、和梯度都进行低比特化的工作。

在芯片上，比计算最大的问题是内存访问带宽受限，需要内存访问量很大程度压下去，才可能高效运行。

这是我们在2017年推出的第一款基于FPGA的智能相机，我们把DorefaNet放在智能相机里。

2018年，我们把DorefaNet放在了一颗我们与合作伙伴联合研发的ASIC芯片上，提供了比FPGA高非常多的性能。

它不但可以用在手机上，还能用在实时的自动化场景中。右上图是AGV，用来搬运货架或物品，它有两个摄像头，朝下和朝前看，分别做车的导航和避障，类似室内无人车。

摄像头是机械臂的眼睛，它在搬运物体需要实时识别箱子在哪里，在哪里抓取箱子。在自动化流程过程中需要高效、高速地在端上做智能计算。

用了这些芯片的计算方法，可以应用到非常多的智能硬件上。这张图是都是旷视自研的硬件。

在神经网络设计的最新研究方面，目前很热的趋势叫AutoML或者NAS。这是一个很好的网站（automl.org），大家可以在这里看最新的文章。

NAS的问题核心是解一个嵌套的权重训练问题和网络结构搜索问题。

这个问题非常难，需要非常大的计算量。最早Google用增强学习或演化计算方法降低计算量，但计算量依然非常大。

最新流行的方式是用权重分享的方式，比如用Darts或ProxyLess等工作。我们旷视今年年初推出了Single Path One-Shot的新方法，分为两步：

第一步是训练一个SuperNet，这是一个超大的网络，任何子网络是我们想搜索的网络。我们先训SuperNet所有的权重；

第二步是做对SuperNet采样其中的子网络，好处是这一步不需要训练，非常高效，训练时间是正常训练时间的1.5-2倍，可以得到非常好的效果。目前在多个测试集上得到了最好效果。

我们的方法不但可以做图像分类，也可以做物体检测。

我们的方法还可以用来做模型简化（Pruning），同样可以用SuperNet的方法，先训一个PruningNet，它相当于一个SuperNet，由PruningNet生成很多子网络，得到很多很好的Pruning的效果。

以上是今天的第一部分，说的是视觉智能，我们从Feature的功能化定义，到走向模型的设计，再走到现在的模型搜索。

第二部分，我想分享以前做了很多年的研究方向——计算摄影学。除了计算智能，计算机视觉中还有一个问题是给输入一个图像，输出是另一个图像。从输入质量比较差的图像（比如模糊、有噪声、光照不好）恢复更好的图像，这就是计算摄影学，也是目前研究很活跃的方向。

计算摄影学以前是怎么做的？这篇（上图）是我们2009年的Dehaze去雾，引入黑通道先验并结合雾的物理产生过程来恢复没有雾的图像，效果非常好，并获得了CVPR 2009最佳论文。

这是我们以前和同事一起做的（上图），如何从一张模糊图像和噪声图像恢复成清晰的图像，这里用了很多传统的反卷积方法。

这是另一问题，被称为图像抠图：左边是输入，右边是输出，目的是把前景精细分离出来。

这是我和今天第一位讲者贾佳亚教授当年联合做的一篇文章（上图）。

这是我和贾佳亚合作的第二篇文章（左上图）。一张图上缺失一部分或者想移除一个人，我们通过交互的方法，上面画一些线；后来我们又利用Patch自然统计的方法，能够做的更好。

总结一下传统的计算摄影学方法：“八仙过海”，每个问题需要寻找不同的假设，每个问题都要单独的去建模和求解。

不同的研究员有不同的方法，好处是你有能力的话可以做出非常有意思的方法，坏处是每一个方法都要独立设计。

今天的深度学习的方法是抛弃了以前的做法，不需要做任何显式的假设，通过全卷积的Encoder-Decoder输出想要的图像。

举个例子，关于Image Matting问题，今天的方法是：通过一个多任务的网络，可以直接输出Matting的结果，非常细的毛发都能提取出来。我们的工作在图像Matting最大的两个benchmark上都排名第一。

Matting不光可以做图像合成，它还可以用单摄像头就拍出像单反一样的效果。

还有一个变革是这对相机里面的图像信号处理器ISP(Image Signal Processor)，上面是传统的图像ISP和图像信号处理流程，后面是AI-ISP，用一个神经网络来做。

左边是之前，右边是之后，AI-ISP可以得到非常好的降噪效果和高质量的图像。

这个方法获得了今年CVPR图像降噪的冠军，同时我们将这个方法应用在OPPO今年最新的旗舰手机OPPO Reno 10倍变焦版的夜摄超画质拍摄技术上。

最后我想分享我们在计算上的变革。

左边传统的冯诺伊曼计算架构，服务了我们很多年。但随着数据的日益增大，出现了“冯诺伊曼瓶颈”，指内存和计算单元之间搬运数据的瓶颈。

右边是今天神经网络做训练、推理的方法，它突破了这个瓶颈。因为神经网络计算非常简单，基本上只包含向量和矩阵之间的操作，可以避免很多判断和分支，用大规模并行的计算方式消除瓶颈。

虽然摩尔定律慢慢消失了，AI计算能力反而在超指数增长，从2016年10 TFLOPS的算力，现在到几百的TFLOPS。

前期带来的变化是从以前的大规模计算CPU Cloud（大盒子）迁移到了 GPU Box（小盒子）。但是大概2015年后，大家发现这些小盒子也不行，因为我们现在用更大的模型，我们今天在ImageNet上的模型比我们2015年用的大10倍都不止。另外，很多人一起工作时的每人一个小盒子的效率是非常低效的。

在模型大小方面，物体识别目前最权威的比赛是COCO，2017年我们得到了3项冠军，随着我们更大的模型，效果越来越好。2018年我们有更大的模型，拿下了4项COCO冠军。

这么大的模型，在一个小盒子里是不行的。2018年我们提出一个方法MegDet，结论是你可以用多个计算单元，可以把训练速度非常高效的提高，几乎是线性速度的加速，性能更好，这是模型的变化，是第一个方面。

数据的话也会越来越大，这是旷视和北京智源人工智能研究院共同推出的Objects365，第一阶段开源超过1000万的标注框，这是目前世界上最大的检测数据集，不光是数据大，可以真正学到更好的Feature，这是第二方面。

第三方面，如果你的数据非常大无法放在小盒子里，必须放在中心。带来的问题是，如果我们同时训练，传输是很大的问题，

于是，在2015年之后，我们又从小盒子又回到大盒子，但这个大盒子是是GPU或者TPU Cloud。

据我所知，旷视是所有创业公司中唯一一家自研深度学习引擎并且全员使用的公司。引擎之下是计算环境，包括硬件管理，包括计算存储管理、模型训练支持等。

最后是自动模型搜索，也是在我们引擎中。它需要用大算力才可以把最好的模型搜索出来。

以上是我今天的分享，谢谢大家！

}

封面新闻记者孟梅付文超

6月14日，旷世科技发布讣告，旷视首席科学家、旷视研究院院长孙剑因突发疾病抢救无效，于2022年6月14日凌晨去世。资料显示，孙剑，1976年10月出生，终年45岁。

讣告称，孙剑博士一生专注于科研工作。他的不幸离世，让旷视失去了一位在人工智能技术领域探索和创新的领路人。每一位和他共事过的旷视同学，失去了一位智慧谦和的师长。

对此，旷世科技相关负责人告诉记者，关于孙剑的去世，一切以讣告为准。

公开资料显示，孙剑1993年考入西安交通大学，2003年毕业于西安交通大学人工智能与机器人研究所，先后获得本科、硕士和博士学位，毕业后加入微软亚洲研究院至2016年。2016年7月，孙剑加入旷视担任首席科学家和Megvii Research负责人。

孙剑的突然离去，引发外界广泛关注。记者在知乎上看到已经建立起了“旷视首席科学家孙剑博士去世，如何评价他的贡献？”话题，目前该话题关注者超过2000人，浏览量超过440万次。

有旷视的员工、有同行、也有与孙剑仅有一面之缘的人，还有只听过这位AI大佬名字的人，在话题页里面纷纷缅怀孙剑，表达对孙剑离去的痛心和遗憾。同时，他们还在话题页里讲述起与孙剑之间的过往，是如何受到了他的影响。有人工智能领域的同行表示，作为人工智能领域标杆式的科学家，孙剑的离世是AI领域的巨大损失。

据悉，旷视科技与云从科技、依图科技和商汤科技并称为“AI四小龙”。5月16日，上交所科创板披露信息显示，恢复旷视发行注册程序，旷视继续推进上市进程，有望在2022年内实现挂牌。

}

在旷视科技，除了印奇，还有孙剑！

2017年10月31日，一则新消息刷屏各大媒体和朋友圈，旷视科技完成新一轮/group/5974797/

}

绿色游网