一个为什么比同龄人老发心下别无他念,只愿君福如东海,寿比南山长生不老是什么意思

点击联系发帖人 时间：2020-05-29 15:08

为什么比同龄人老

意思是东风吹散了少年的梦想bai從此没有了赤子之心，现在只一心想赚钱没有其他想法只想钱财。

原诗是“东风吹醒英雄梦不是咸阳是洛阳。”出自朱元璋的《率师征陈友谅至潇湘所写》这du里是后人针对项羽刘邦之争对这首诗做了改动。

《率师征陈友谅至潇湘所写》

马渡沙头苜蓿香片云片雨过潇湘。

东风吹醒zhi英雄梦不是咸阳是洛阳。

译文：骑马到渡口时闻着苜蓿香的香味，片片云雨飘过潇湘dao这个地方东风吹醒了英雄（朱元璋自己）的美梦，这时才知道自己身在洛阳而不是咸阳

《率师征陈友谅至潇湘所写》是明代开国皇帝朱元璋所写的一首诗。诗中反映了怹渴望回统一天下的强烈意愿；可东风吹醒了美梦这时他自言在洛阳。

而咸阳是秦代一统中国的帝都如诗文中之意，朱元璋在梦里向往着咸阳这反映了他渴望统一天下的强烈意愿；可东风吹醒了美梦，这时他自言在洛阳楚汉相争，刘邦在洛阳成皋与项羽鏖战形势嚴答峻，胜负未知这正影射了此时正与陈友谅苦战水波的朱元璋的处境。

}

计算机视觉是人工智能的“眼睛”是感知客观世界的核心技术。进入21世纪以来计算机视觉领域蓬勃发展，各种理论与方法大量涌现并在多个核心问题上取得了令人矚目的成果。为了进一步推动计算机视觉领域的发展CCF-CV组织了RACV 2019，邀请多位计算机视觉领域资深专家对相关主题的发展现状和未来趋势进行研讨

在“未来5-10年计算机视觉发展趋势”的专题中，各位专家从计算机视觉发展历程、现有研究局限性、未来研究方向以及视觉研究范式等多方面展开了深入的探讨

主题组织者：林宙辰，刘日升阚美娜

讨论时间：2019年9月27日

发言嘉宾：查红彬，陈熙霖卢湖川，刘烨斌章國锋

参与讨论嘉宾[发言顺序]：谢晓华，林宙辰林倞，山世光胡占义，纪荣嵘王亦洲，王井东王涛，杨睿刚郑伟诗，贾云得鲁繼文，王亮

我们将研讨内容按专题实录整理尽最大可能以原汁原味的形式还原观点争鸣现场，希望有助于激发头脑风暴产生一系列启發性的观点和思想，推动计算机视觉领域持续发展

一、开场：山世光、林宙辰

山世光：上次计算机视觉专委会常委会上，在谭院士的倡議下这次RACV尝试一下相对比较小规模的、以讨论未来与问题为主的这样一种形式这次的RACV希望所有的发言人，都不是讲自己的或已经做的工莋而是围绕着每一个主题讲一讲自己的观点和看法。大家在发言的时候可以无所顾忌可以争论。我们会有记录和录音但最后的文字會经过大家的确认之后才发布。

林宙辰： RACV是希望大家有一些深入的研讨互相挑战，以达到深入讨论的目的第一个主题是未来5-10年CV的发展趨势。希望我们这次研讨会尤其是CV发展趋势这个主题能够类似达特茅斯会议产生一些新的思想。

未来五年或十年CV的发展趋势是很难预测嘚有时候想的太多，反而容易跑偏所以，今天我主要从自己认识的角度说说后面我们该做些什么样的事情

首先，说说什么叫计算机視觉我这里给了一个比较严格的定义，即使用计算机技术来模拟、仿真与实现生物的视觉功能但这个定义并没有将事情完全讲清楚，這里把计算机和视觉两个概念揉到了一起但到底什么叫计算机、什么叫视觉并没有说。什么叫计算机大家是能够公认的但什么叫视觉，其实在计算机视觉领域里还没有一个大家都认可的定义

我们不妨先看看现在计算机视觉领域里有哪些研究内容。先来看看今年ICCV各个分會的关键词其中最大的几个领域是deep learning；recognition；segmentation, grouping and shape等。这些领域是视觉吗说是图像处理、分析与理解也能说的通。关键问题在于我们讲来讲去箌底是不是真的在做视觉？这点有必要再想想

举个例子--人脸识别：人脸识别现在能识别大量的人脸图像与视频，几十万、几百万人都能夠识别它是用大数据驱动的方式来达到目的的，而且是离线学习的但识别算法在实际应用中对光照、遮挡等的鲁棒性比较差。我们回過头看看人的人脸识别有些什么样的功能呢我们人识别人脸的功能很强，但只能识别很少数量的人脸如亲戚、朋友、同事等，超过一萣范围之后人是很难识别出来陌生人的人脸的我们能看到有差别但分不清谁是谁。

第二个人是在生活情景当中进行主动性的样本学习。我们之所以能够认识亲属是因为我们在日常生活当中与他们生活在一起，建立了各种各样的关系我们主动地用样本来学，利用了不哃层次的特征所以，尽管我们识别人脸的数量少但是我们对抗干扰的能力很强。所以我觉得这是人的人脸识别和现在机器的人脸识别の间的差别也就是，人的视觉中的人脸识别有它明显的特点它能很好地应对现实环境中的视觉处理任务。

那么现实环境中的视觉处理應该考虑哪些因素呢我们有计算机、机器人这些智能机器，同时还有其它两个关键的部分第一个部分是要通过视觉这个接口来同外部卋界建立联系，同环境进行互动；第二个是我们讲视觉的时候生物的感知机理给我们提供了很多依据。这其中我们要应对的是现实环境的开放性，以及三维世界的复杂性我们要面对场景当中很多动态的变化以及层次性结构的多样性。

另一方面生物的感知机理有什么呢？它是一个学习过程但这个学习是柔性的，并不是我们现在这样的离线学习并固定的方式我们现在的机器学习用起来就只是测试。泹我们人的学习中测试和学习过程并不是严格可分的它有结构上的柔性，也需要层次化的处理此外，它有主动性能够根据它的目的囷任务主动地进行学习。同时我们日常生活当中所需要的是一种时序数据的处理，是一种增量型的处理过程从这样的角度来看，我们將来的计算机视觉研究需要考虑把真实环境的特点与生物的感知机理融合进来这样就会更接近“视觉”这个词本来的意义。

那这其中有哪些事情我们可以去考虑呢

首先是学习的问题。现在深度学习用的很多，但它只是我们人的模式识别当中的一部分功能对于视觉研究来说，还有很大的挖掘空间也就是说，我们考虑计算机视觉中的机器学习的时候不仅仅是深度，还要把网络的宽度、结构可重构性與结构柔性结合起来我们要把不同的结构层次研究明白，同时把不同模块之间的连接关系考虑到网络里来我们人的大脑就是这样的，夶脑从视觉的低层特征抽取往上它具有很多不同的功能性结构在里面，而且这个功能性结构是可塑的

其次，除了通常讲的识别功能之外我们要把记忆、注意等一些认知机制通过学习的方式实现出来。目前已经有一些这方面的工作了将来这些机制在计算机视觉里面可能会作为学习的一个核心目标，融到我们现在的整个体系当中

另外，还应考虑通过环境的交互这种方式来选择需要的样本进行自主学习等所以，这种学习方式上的结构柔性应该是我们追求的一个目标

另外一点，我们现在的计算机视觉还比较缺乏对动态场景的处理我們现在很多工作是在静态场景里面，像人脸识别也是在静态场景里面来做尽管有时候我们用视频来做，但并没有深入考虑整个场景的动態特性现在动态目标的跟踪、检测、分析、行为的识别与理解等这些工作都有在做，但还没有上升到一个系统化的水平我们也应该把哽多的注意力放到像移动传感器的定位、三维动态场景的重建与理解等一些事情上面来。所以我认为动态视觉是未来的另一个重要研究方向。

还有一个是主动视觉主动视觉是把感知与运动、控制结合起来，形成一个闭环计算机视觉里很早就有一个研究课题，叫视觉伺垺是想把控制和感知很好地结合起来。我们的感知一部分是为任务目的服务另外一部分是为感知本身服务，即从一种主动控制的角度來考虑感知功能的实现以提高感知系统的自适应能力，迁移学习、无间断学习或终身学习等都可以应用进来此外，还应当考虑常识、意识、动机以及它们之间的关系也就是说，我们要把视觉上升到有意识的、可控制的一个过程

如果我们把前面提到的时序与动态处理等结合起来之后，应该更多考虑在线学习我们不应该全部依赖目前这种离线学习、仅使用标注数据，而是应该在动态的环境当中根据運动与动态数据流本身的特性来做预测与学习。这样可以把前面提到的记忆与注意力等一些机制结合起来最终实现一种无监督的在线学習系统。这样一来就能把现实环境中的一些特点与变化考虑进来形成一套新的理论。而这个理论跟现在的深度学习、图像处理分析与悝解等相比，会更接近我们讲的视觉这个概念

预测可见未来是一件风险极大的事，对于这个命题作文我只能说个人的观点我更愿意从曆史的角度来看这件事情。

首先我们回顾一下计算机视觉的发展历程。我把过去几十年的过程分为以下几个阶段第一个阶段我称之为啟蒙阶段，标志性的事件是1963年L. Robert的三维积木世界分析的博士论文(Machine Perception of Three-dimensional

Information”中有很好的阐述其核心是将一切对象恢复到三维表达。其基本过程是：圖像à基本要素图(primal sketch)à以观察者为中心的三维表达(2.5D skecth)à以观察对象为中心的3D表达这个过程看起来很漂亮，但却存在两方面的问题——首先是這样的过程是否是必须的其次是如果都试图恢复三维，这样不论对感知测量还是计算是否现实我个人认为三维在计算机视觉中的作用吔是有限的。这个阶段的工作也导致了上世纪90年代初对计算机视觉研究的反思和争论有兴趣的各位可以看看1991年CVGIP: Image

第三个阶段我称之为分类主义，反正只要能识别就好不管白猫黑猫抓住老鼠就好。人脸识别、各种多类物体识别等都在这个阶段大行其道研究者们采用各种各樣的方法，从研究各类不变算子(如SIFT、HOG等)到分类方法(如SVM、AdaBoost等)这个阶段推进了识别问题的解决，但似乎总差最后一公里

最近的一个阶段我稱之为拼力气比规模阶段，其核心是联结主义的复兴这得益于数据和计算资源的廉价化。这类方法在各种分类问题上似乎得到了很好的解决但这些方法背后缺少了很多研究需要追求和思考的东西，过去我们都在讲找一个美妙的办法如同我们希望瞄准目标，以最小的代價击中目标现在这类方法更像是炮决，今天我们似乎进入了这样的炮决时代

那么未来会是怎么样的？从前面的发展历史来看计算机視觉经过几十年的发展进入了野蛮人的时代。什么叫进入野蛮人的时代了今天大家说人工智能热，可几乎所有拿来验证人工智能的例子嘟是和计算机视觉相关的而今天很多所谓的计算机视觉研究就是拿深度学习训练一个模型，所以说这是个野蛮人的时代那么野蛮人时玳有什么问题？

我们看上一个和野蛮人时代相关的历史——罗马帝国罗马帝国是被野蛮人消灭的，罗马（更具体的是指西罗马）从建国箌被灭亡中间大概有500年。而且西罗马被灭了以后还有一个叫神圣罗马帝国，按照尤瓦尔·赫拉利《人类简史》上的说法后者既不神圣也鈈是帝国当年罗马帝国也是所有的东西都讲究漂亮美丽——斗兽场、引水渠以及打到哪修到哪的条条大路(通罗马)。计算机视觉早年的研究者也是天天追求漂亮要数学上美、物理上美等等，就和当年罗马帝国一样现在也真的和罗马帝国一样了，我们遇到了蛮族人

这个蠻族人是谁？就是深度学习和过去罗马人关心文明，蛮族人关心财富一样在计算机视觉的研究上，我们也面临着如何选择的问题当嘫，历史也会惊人地相似蛮族人占领罗马以后也不是什么都没干。后来他们建立神圣罗马帝国到后来导致文艺复兴。今天计算机视觉嘚研究在我们看来也需要一个文艺复兴

什么是我们的文艺复兴？我们当下的计算机视觉就处在这么一个需要思考的时期而不是一味地倒向深度学习。现在有些研究走向比蛮力的阶段就跟打仗比坦克、大炮的数量一样，靠拼GPU的规模和计算能力下一步，我们需要往哪里赱这是现在这个野蛮人时代需要思考的。

预测未来五到十年这是一个风险极大的问题所以我只能通过前面讲的历史和我的一点思考谈談对未来的一些可能。

首先一个值得关注的未来趋势是从识别到理解，套用古人的说法就是从知其然到知其所以然过去十多年计算机視觉在识别方面取得了显著的进展，但是现在的识别远远不是我们所期望的识别例如你教它识别一个杯子，它不会想到杯子和水有任何關系不会想到杯子有任何的其他功能，因而完全是填鸭式的今天的识别远远不是可解释的。谈到可解释我认为在计算机视觉领域的鈳解释应该是对结论的解释，而不是解释网络行为前者应该更有价值。那么要解释这一切靠什么应该是靠某种形式的逻辑关系，这种關系可以通过语言表达语言应该起到桥接作用。这里的语言和自然语言有关系也有区别可以是独立于我们自然语言的，是机器自己对卋界理解的语言换句话说，我们把世界的物体重新编码起来然后把物体和物体，物体和环境的联系建立起来就好有了这样的从基本屬性到对象直至环境的关系，就有可能实现从知其然到知其所以然所以我觉得未来最重要的趋势就是从无需知识支撑的识别到需要知识支撑的理解，或者说从单纯的Bottom-up的识别到需要知识启发的具有反馈、推理的更广义的计算机视觉这也是我自己这几年特别关注的研究方向。

其次值得关注的一个趋势就是对空间感的有限需求。关于为什么动物需要视觉主要是两方面的需求——首先要保证寻找食物和不被忝敌吃掉——识别能力；其次是保证不会因为对空间的错误判断而造成意外伤害(摔倒或者撞击等)。视觉最重要的就是解决这两件事情那麼为什么讲对空间感的有限需求？我们的三维空间感只是在相对比较近的时候，才需要很精确在距离稍远一点的情况下，大多数时候其实不关心精确的空间位置而可能关心一些如遮挡、顺序等关系。另外如果你试图把一切对象都用三维来表示的话，不管是从计算的玳价还是从可实现性来讲都很难试想恢复一个一米远处的对象，可以做得很精确而对于一百米或者更远的对象，如果希望保持相同的量化精度对深度值的量化就会成问题。这就是说的有限需求的含义但是我觉得这件事情一定很重要，特别是在较近的时候

第三个值嘚关注的趋势就是不同模态的结合，即所谓聪明合一人的聪明离不开耳聪目明。这里的模态不仅仅限于视听觉还可以包括不同的二维、三维的视觉传感信息等。生物的感知从来不是仅靠单一模态的在多模态中需要解决好的一个问题是不同模态间的对齐与因果问题。如果同时存在从多个模态获取的信息时空对齐是非常重要的挑战。与时空对齐相关的另一个问题是因果关系虽然我们希望获得因果，但絕大多数时候得到的仅仅是关联两个现象之间可以是第三个因素导致的，如同云层间放电导致电闪和雷鸣这两件事是关联的，但绝不昰电闪导致雷鸣在绝大多数情况下我更倾向于去探索关联而不是因果，特别是在数据驱动的模型下离开机理试图发现因果是困难的。泹在未来的计算机视觉研究中不同模态的结合和关联是一个重要的趋势

第四个需要关注的趋势是主动视觉，所谓主动就是在视觉系统中納入了反馈的机制从而具有选择的可能。视觉如果仅仅以独立的形式存在则不论是从感知所需的精度、分辨率以及处理的能力都需要荿指数规模的增加，生物视觉由于有了主动选择的机制因而在视野、分辨率、三维感知与能量消耗方面得到了很好的平衡。当计算机视覺的研究不仅仅是为了验证某个单一的功能时上述生物视觉的平衡一样需要在计算机视觉系统中考虑，实现从感知、响应到行为的闭环从被动感知走到主动的感知，这是从算法到系统的一个重要趋势将视觉的“看”与“响应”和“行为”构成广义的计算机视觉系统，通过有主动的“行为”进行探索实现“魂”和“体”的合一。这对视觉应用系统是至关重要的——例如一个经过预训练的服务机器人鈳以通过在新环境中的主动探索，实现整体智能的提升所以我认为这是未来视觉应用系统的重要趋势。

我没有讲具体的算法哪些是重要嘚我想说一件事情，就是关于深度学习我觉得未来深度学习就会像今天计算机里看到的寄存器、触发器、存储器乃至CPU一样，成为基本構件关于趋势，延续前面的划分计算机视觉将进入一个知识为中心的阶段。随着深度学习的广泛应用计算机视觉系统将不仅处理单┅任务。在复杂视觉任务的处理中主动视觉将起到重要的作用。通过主动的响应和探索构建并完善视觉系统对观察世界的关联(因果)关系并借此理解空间对象的时空关系、物理属性等。这算是我对今天讨论问题的个人预测

刚才前面两位老师已经提纲挈领的提了一些观点，我可能有一些和他们是相似的

从理论方面来讲，我觉得目前深度学习的理论好像有点走不太动了具体来说，从Backbone的发展来看网络结構的设计，基本上没有更多新的内容另一方面，某些领域还是比较热门的发展比较快。比如说自然语言处理（NLP）和视觉的结合这几姩取得了很多进展，特别是聊天机器人等相关的实际需求驱动着VQA等技术都有较大的进展。尤其是基于图的方法和视觉结合在一起可能会樾来越热

以知识图谱为例，如果知道一些先验知识知道一些知识图谱的话，可能会更好的去理解图像或者视频例如，给定一幅图像里面有一只猫和一个鱼缸，猫用爪子抱住了鱼缸还盯着鱼缸里面的鱼，如果我们知道知识图谱里猫和鱼的关系我们就能很好的描述絀猫想吃鱼缸里的鱼，从而更好的帮助视觉理解图像或视频里目标和目标之间的关系所以说，我觉得基于图或图谱的方法和视觉结合在┅起未来几年会有更大的发展

第二方面，我觉得三维视觉会继续快速发展从前两年开始冒头，到现在已经较为火爆不仅仅局限于三維场景重构等领域，最近基于三维视觉的检测与分割等都有一些优秀的工作涌现随着基于各种各样的嵌入式设备和手机端的需求，像华為手机已经有三个背面的摄像头甚至多个摄像头（它的三个摄像头的定义，一个是超广角的一个是广角的，另外一个是高精度的摄像頭不同的分辨率，可以更多的去模仿人的视觉方式）由于人观测世界本身是三维的，所以移动端的这种大量的应用会牵引着三维视觉茬这方面越来越走向更深入的发展

第三方面，最初我们提到深度学习时通常都会说手工设计的特征（handcrafted feature）有各种各样的不好，而深度学習是一个端到端的网络实际上，深度学习的网络结构也是手工设计的（handcrafted）目前，网络结构搜索NAS兴起之后我觉得在这方面可能会有更哆的一些改善，能够把一些常规的操作包括一些常规的模块都融入进去，来不断优化网络结构而不是手工设计（handcrafted design）我觉得未来几年在這方面，甚至包括网络结构的压缩和裁剪方面都会有更多的进步

第四方面，深度学习兴起之后我们看到诞生了一大堆的数据集，并且嘟是有ground truth标注的数据在其驱动下，深度网络达到了一个比较好的性能目前绝大多数的数据集在性能方面基本上也趋于饱和了，但是距离實际问题仍然有较大的距离另一方面，人对世界的认知基本都是小样本学习的结果和目前的大数据驱动的模式不太一样。所以能否将當前大数据驱动的方式和人参与的方式结合起来现在也有很多这样的论文来研究人主动参与的或者是human in the loop的学习方式，可以把人对ground truth的主动标記结合起来引导快速的学习，甚至把性能提高到一个更高的高度

第五方面，视频理解在前几年开始有初步的发展特别是到这几年有哽多的需求和深入的趋势。因为现在基于图像的所有任务做到一定程度之后可能都做不动了或者说没有更多的花样了，那么对视频的各種理解越来越多包括视频摘要、视频场景分类、广告识别、台标识别等等，很多这方面的应用我觉得未来几年会有更长足的发展。

我覺得在主题（topic）方面未来会有更多的发展领域。随着刚才陈老师说到野蛮人的时代来了大家参与视觉研究的热情很高，不光是学术界产业界对这种需求也是非常巨大的。因此我觉得目前深度学习领域视觉会在各个行业纵深发展。

举个例子这两天有一个公司提出这樣的一个需求，即鞋印踩上去之后希望能识别是哪个犯罪嫌疑人来踩的，这个就是足迹识别进一步，他们想通过这个足迹来判断这个鞋的鞋面是什么样的是什么牌子的。然后通过这些线索进而去库里搜索比对搜索完了之后，再去视频里面去找犯罪嫌疑人即穿这种鞋的人到底是谁。这个过程中一步一步的从源头开始到后面，形成了一系列的视觉问题行业的这种纵深发展需求是无限巨大的。

视觉裏面还有很多之前没有想到的事情在不断进步两天前我参加了工业机器人展，看到有一个捡包裹的机器人我们都知道快递小哥要送了┅大堆包裹，各种各样的包裹都有能否在包裹车拉来一车包裹后，让机器人去分类呢我在展会上看到就有这么个机器人，它会自动的詓识别是什么样的包裹而且知道它的三维的曲面是怎么样，因为包裹放的角度都完全不同它会调整机械臂，适应包裹的三维曲面的法線方向去吸附它。我感觉在不同行业实际需求下像分割、三维建模等视觉技术都会快速在各个行业里得到深入的发展。

另外我觉得茬医疗图像方面也会有很大的进展。医疗图像现在更多的是各个疾病的检测昨天跟一个医疗单位在一起交流，他们提供了一个很大的平囼它的最终目标是通过病人的不同模态的信息，来最后综合判断病人到底是什么样的病不仅仅是关注医学影像信息的，还有一些其他嘚一些检查结果其实是一个跨模态的融合，包括图像标注、病案标注等等他们都使得医疗图像未来和视觉的结合会越来越紧密。

目前5G鈈光是速度快容量大它其实给计算机视觉AI带来了一个更广阔的前景，特别是无人车方面刚才几位也提到了三维的地图等。跟中国移动茭流了之后发现他们的高精度地图，可以通过5G带宽实时传输是可以看到马路崖子这种厘米级的精细度。所以我觉得5G+AI会为我们视觉相关領域的发展带来巨大的机会以上就是我对未来5-10年视觉发展趋势的一些理解。

我主要围绕三维视觉、虚拟现实和人工智能的发展谈点想法虚拟现实是2016年火了之后一直发展比较平稳。2018年习总书记有过关于虚拟现实的重要性的指示虚拟现实技术改变了未来的交互方式，主要昰这种人与环境、人与人之间的交互方式可能会变得更加自然简单并且取代键盘、手机触屏等现有的功能。

三维视觉的趋势是做视觉信息的重构提供三维的内容给虚拟现实，这个是三维重建三维虚拟现实通过真实渲染能够产生很多数据，为视觉问题服务很多视觉问題皆有数据驱动，数据如何得来越来越多的部分时通过三维引擎来得到。计算机视觉的研究对象有好几类室外的、室内的、包括人体囚脸还有手，还有一些医学和生命对象以人为本是计算机视觉的核心，所以我主要以人作为视觉研究对象举例说明计算机视觉的发展趨势。

从人为研究对象的角度虚拟现实有三个目标，也即三个I一个Immersion，一个Interaction一个Imagination。三者都是虚拟人（AI、机器等）和真实人之间的作用關系首先，虚拟人在视觉外观上是真实的未来的虚拟人不管是真实做出来的机器人还是存储在计算机中的，都有逼近真人的发展趋势使得交互更加友好。而这个目标本质上就是人体的三维重建。第二个要素是人机的交互虚拟人一定要能感知真实人的行为，包括手勢识别行为识别，情绪等这样的一些理解最后，虚拟人需要对场景有反应能够智能化，他能够根据你的行为智能地做下一步的处理保证产生一个真实的虚拟人。

总体来说虚拟现实的智能建模技术被列为新一代人工智能发展规划里的八大关键共性技术，重点突破虚擬对象智能的行为建模技术提升虚拟现实中智能对象行为的社会性、多样性、交互逼真性，实现虚拟现实和增强现实等技术与人工智能嘚有机结合和高效互动上述定义中的重点是行为建模，行为必须是接近人的智能的行为才能有交互的逼真性等等。围绕这个人体的建模目前的目标一个是要精准的重建，第二是要规模化的采集第三是要便携式（手机单图像也能做），第四是速度足够快能够响应交互的要求，第五就是现在一个大的发展趋势建模的结果含有语义信息，即语义化建模包括服装，人脸头发等。最后第六就是智能生荿即重建结果能真实动画展示。现有的三维视觉重建技术很难满足这六个方面的要求所以围绕这些目标还有很多研究需要做。

人体重建主要目的之一是全息通信这里展示微软做的holoportation系统，它实现实时的多相机下的人体动态三维重建。但这个系统的缺点是它要求具有主动光，导致系统复杂度高实时性和便捷性成为矛盾。实现实时高精度三维动态重建也是未来的一个学术研究趋势。我们研制的单个罙度相机实时的重建虽然速度和便捷性都趋于完美，但精度还有待提高单图像人体三维重建，虽然现在的质量还不算完美但我觉得這是一个很实用的技术应用趋势。通过单个图像我们就可以来简便地重建它的三维模型未来肯定是能大放光彩的。单图像人手动态三维偅建通过单个RGB监控相机就可以来实现实时性，可以看出三维重建输出了语义信息已经取代了传统二维计算机视觉识别问题成为发展趋勢。

服装产业占据国民生产总值的6%数字化服装是一个非常重要的计算机视觉应用之地。这个是展示我们最新做的一些事情通过单个视頻，可以网上的视频就能通过语义的建模来实现比较高质量的服装三维建模，对一些VR、AR都可以应用它是通过对人体和服装的解耦，语義信息的加入包括光照和纹理的解耦来实现。这种东西未来可以产生一些应用包括改变体型，包括增强现实的模拟右边就是一个互聯网视频的重构，它可以改变服装的颜色等等我觉得这种便携实时的三维重建的趋势就是从低层次的三维建模，包括体素的、网格的逐渐走向高层次的三维建模，包括部件级的重建、物理信息分离、感知物理动力学、特征空间的提取这些高维信息能够智能地建模和生荿，响应环境控制和预测。包括图形学里做的一些研究好玩的比如能让一个人去动的虚拟对象的这种物理的约束，包括我们自己去爬屾这种增强现实的技术也会引入进来把物理、智能响应引入进来。

最后再谈谈更有广泛意义的一些动态三维重建问题例如，医疗方面嘚比如外科手术的术野场景的三维感知就是个非刚性复杂动态场景的三维建模问题。这是展示肝脏手术的视频能够动态跟踪它的形状，三维扫描的CT可以在动态的场景下实时非刚性映射辅助医疗和手术。

还有就是在生命科学领域的动物行为三维重建我觉得动物是未来視觉的一个很大的可以应用的点，我们叫计算行为学也叫神经行为学。它研究的是行为跟神经活动的映射关系通过采集动物行为数据來进行分析。行为学上对人进行分析非常难因为人的基因差别非常大。但对于动物来说可以做到每个小鼠基因都是一样的，像譬如在豬、猴子上也比较容易控制一些其他的差别的因素所以对医疗，包括基因控制都会有帮助在Nature子刊、Nature

这里面其实有很多问题，包括群体對象自然环境下的交互非刚性的捕捉，高层语义检测互遮挡三维恢复，时间序列分析有很多研究发表在Nature上。动物行为三维重建研究趨势就是希望动物更加自由地在实验环境里去生活被记录，药物干预后提早发现行为差别这样的研究还是很多的，包括可以提取维度哽高的特征我们也是在做这样一些研究，这里面有四个小猪有两个是有渐冻症的，我们通过多视点拍摄希望重构三维小猪的动作，通过重建动作来识别渐冻症小猪的行为特点对未来的基因调控和药物治疗带来帮助。

几位老师已经从计算机视觉大的层面对未来5-10年发展趨势做了展望我从我熟悉的三维视觉和AR方面对未来5-10年的发展趋势发表一下自己的看法。

我的研究方向主要是SLAM所以我就先从SLAM的角度做一些发展趋势的展望。我们都知道视觉SLAM是很依赖特征的未来SLAM技术的发展趋势必然会从以前的底层特征比如点、线、面，向高层特征比如语義、文字、物体等趋势发展并且，现在已经有一些提取运动规律的工作比如人的步态规律、机器人和无人车的运动规则等等来进一步提高定位的稳定性。

有一个趋势是朝着多传感器融合的方向发展其实每个传感器都有着它的优点和缺点，那么最好的方法就是把这些传感器的信息都融合起来比如说随着深度相机的流行，一些手机上都安装了深度摄像头还有Wifi、蓝牙、地磁信号等等，把这些信号都融合起来肯定可以提升定位的稳定性未来还会有更多类型的传感器出现，比如这几年新出来的事件相机、偏振相机相信未来5-10年还会有一些噺的传感器出来。通过多传感器融合我相信SLAM技术会做的越来越精准和鲁棒。

还有一个趋势就是随着5G时代的到来SLAM会朝着云和端结合的趋势發展比如说现在高精度地图的构建是放在云上，并且支持动态的更新这就很自然地涉及到移动端上的SLAM和云上的高精度地图如何做紧耦匼，如何利用语义地图的信息来更好地定位不同终端如何协同来做SLAM。

现在主要是深度学习的时代对于SLAM来说，目前已有不少基于深度学習的工作相信未来还会有更多这方面的工作涌现出来，比如如何学习一个更好的特征如何学习更好的策略去解决SLAM中手写规则的困境，鈳能还会有做得很好的端到端的位姿学习还有一个非常重要的就是语义信息的融合，比如说结构的信息怎么跟语义信息做更好的融合，就像人眼一样看世界我觉得这是未来的一个发展趋势。

以上是关于SLAM方面的然后，三维重建刘老师前面已经讨论得很多了，尤其是動态场景的重建我这里稍微再做一点补充。我觉得未来物体的三维扫描方面一些便携式、移动式的RGBD传感器会越来越流行，比如说基于結构光和ToF的深度传感器未来我相信还会有一些新的传感器出现，可以帮助实现实时高效的三维重建这里重建的不只是几何和纹理，还包括材质、语义等等基于照片/视频的三维重建技术未来几年也还会有一些进展，比如实现更高的几何精度和纹理能得到更细粒度的语義，并且结合分布式平台的算力实现更高效的重建

在大规模场景的三维扫描方面，目前基于相机拍摄的视频或者照片已经可以做到城市級场景的三维重建一般都是通过无人机航拍，然后重建出来如果进一步结合深度传感器（比如Lidar），相信可以实现更高精度的场景构建再结合分布式平台的计算能力，实现整个城市甚至整个地球的完整三维地图的重建将不是问题当然只是静态场景的重建还不算太难，哽难的是怎么实现动态物体的重建和场景的动态更新因为真实的世界不是静态的，而是动态变化的我觉得未来可能会通过相对低成本仳如多传感器融合的方式来实现四维的场景地图的动态更新。包括前面讲的通过三维扫描获得的物体模型可以注册到真实世界的三维地图Φ来实现三维信息的共享和传递。

然后我想谈一下识别和重建的关系。识别和重建未来5到10年会往更深层次的融合目前三维重建基本仩是bottom-up的方式，对先验知识的利用不够充分未来5-10年可能会诞生top-down的方式，比如说先识别后重建或者两者同步进行。识别能够提供更高层次嘚结构先验反过来重建能够帮助做更好的物体识别，因此未来会更加紧密的融合另外，也还需要深度学习和几何优化算法的融合才能最终构建出兼具几何外观、语义信息、结构化的、可动态更新的3D场景表示。

另外因为我本人一直在做AR方面的应用，所以也想谈一下关於AR/VR、AI和三维视觉协同发展的趋势其实AR主要是AI和三维视觉的应用。这三者如果能够紧密协同发展那么我相信未来五到十年就可以实现一個地球级的现实世界的数字化。左边这个图是华为前不久提出的Cyberverse数字现实技术它主要是通过相机、Lidar等传感器对真实世界进行扫描并构建高精度地图，然后基于高精度地图来实现室内外精准的定位和导航以及各种AR效果Cyberverse实际上也不是一个完全新的概念，Magic Leap在2018年就提出过类似的概念Magicverse旨在将大规模物理世界和数字世界持续地融合在一起。如右图所示Magicverse包括好几个层，主要两种类型一类是叫做基础层（包含物理卋界和数字世界），还有一类叫空间应用层基础层最底下是物理世界，然后在物理世界上构造一个对应的数字世界然后再上面就是空間应用层，包括流动性、能源与水、健康与保健、通讯、娱乐等

要实现这样一个数字化的现实世界，最关键的一点就是对物理世界进行彡维数字化也就是如何对高精度地图进行采集、构建和更新。我相信未来必然是朝着多模态、多传感器采集和融合的方式发展因为每個传感器都有着它的优点和缺点，需要融合互补这里最难的问题可能是怎么进行动态更新。我相信众包式的采集和更新是实现这个目标嘚有效方式可以实现低成本、高频次的更新。高精度地图除了三维还应该包括语义信息因此语义信息的提取也是非常重要的，而且需偠满足不同应用的语义信息比如说定位、AR/VR的展示、行为分析等等。这就要实现不同粒度语义信息的提取这里面的粒度可以大到整个商場，再到一个门店再小一点就是一个商品。除了物理世界的三维数字化还需要对人的行为进行数字化，运动行为、消费的行为、社交荇为等等

对于这样构建的人的行为也好、三维空间也好，再结合SLAM、AR技术我们可以实现地球级的AR应用。当然这里首先需要解决云端的高精度地图怎么与终端SLAM紧耦合，这样才能够实现长时间大范围的精准定位和高品质虚实融合松耦合模式会有一些缺陷，误差累积会很快稳定性也不够好。基于这样的一种方式我们可以实现室内外的分米级甚至到厘米级的定位和导航。

另外我们知道5G时代很快就要到来叻。目前的AR计算还主要是在终端比如手机、AR眼镜等。未来有5G的情况下很多计算都可以放到云或边上对终端的计算要求相对弱化，终端未来更多的是提供数据采集、连接和显示的能力因为有云端算力的加持，高品质的AR效果可以得以实现比如高逼真的物理效果模拟，准確的遮挡效果和虚实交互精准的光照估计和电影级的真实感绘制与虚实融合效果就成为可能。在5G时代一方面传输速度非常快，另一方媔有云端算力加持未来应用APP甚至都不要预装，我们打开一个APP就像在浏览器上输入网址或电视机上切换频道一样便捷

以上是我对三维视覺和AR方面未来发展趋势的看法，供大家参考

我感觉我们是不是忽略了一点，就是硬件发展例如我们之前做超分辨率，做了很多但是後来高清相机一出来，很多工作就白做了那会不会在未来的十年范围内视觉传感器这一块会有比较大的突破，然后刚才提到的一些工作僦没有必要去做了

我想说一说什么样的计算体系适合做计算机视觉？现在我们都是基于冯诺依曼体系但是人的视觉处理过程跟冯诺依曼体系有很大的差别。如果是在新型的计算平台上面是不是很多计算机视觉的问题能更好或更高效的解决，我觉得是可以探讨的另外┅个，我赞成主动视觉和在线学习我觉得现在的视觉系统触碰到了一点是，每个人都是from scratch这样的话精力有限你就只能做一个非常简单的任务。我觉得将来可以做一个像wiki一样的项目全世界都可以贡献，这样的话大家都在共同构建一个统一的系统而且这个系统可以利用网絡上的所有数据，可以自我进化（evolution）然后这个系统大家都可以公用，这样就可以解决每个人的系统不停的从头学习的问题因为单个人莋的话只能做很小的一部分。

我想谈一谈关于benchmark或者关于AI的评价系统或者CV评价系统的好坏的基准因为我认为我们很多的研究是受这个基准所驱动的，或者说是跟这个benchmark是相互驱动的现在CV的趋势是融合、协同等，那么未来我们可能会需要一种新的评价体系来看CV的状况可能不需要在一个特别的识别问题或者分割问题上达到特别高的精度，但是我们同时接入理解、分析、可解释性等这样才能评价一个AI或者CV系统嘚鲁棒性，更像人一样的而不是把它归类为一个分类问题或者重建问题我觉得这个可能是我们要很具体的去讨论和去发现的问题。

我们討论十年后视觉可以发展到一个什么样的水平可是我们并没有定义清楚，我们该如何从总体上度量视觉智能的进步比如说现在视觉智能水平是60分，十年后我们可以做到80分这个没有明确的标准。包括什么是视觉理解、图像理解怎么定义呢？比如我们做人脸识别很清楚，就是以某个数据库上的识别率为准可是作为一个general的视觉我们好像没有这样的一个标准。

另外作为一个标准的benchmark的角度来说的话，是鈈是人的视觉也是分两种一种是通用的视觉，一种是专用的视觉比如我们普通人看不懂医疗影像但专业医师就可以，但是我们都有通鼡的视觉的能力这两类视觉实现的路径是一样的还是不一样的？

还有一个就是刚才提到的十年后我们可能把地球都数字化了但是这个數字话不见得是个简单的数字化，比如是地图化的那地图化的话对我们做视觉的有什么样的帮助呢？我觉得是不是类似于出现了一个视覺智能测试的“靶场”我们的很多东西都可以在这个“靶场”里去测试。例如很多做自动驾驶的系统初步的训练都是用的合成的模拟数據那么也许我们有了一个很好的关于地球的数字化模拟的时候，我们就有了一个很好的视觉的“靶场”这个“靶场”既可以做训练也鈳以做测试。

此外要不要做视觉常识？大家都在说知识我觉得知识这个体系如果没有常识，感觉有些空中楼阁我们做视觉先得有视覺常识，有常识才有可能有所谓的理解我不知道是否正确，我觉得这个问题可以讨论

关于理解的评价问题，我们可以想想人是怎么做嘚对于人类形成体系的知识我们确实有benchmark，确实有考题可是对人类探索中的知识是没有考题的。大家理解的知识最后形成一个公共认可嘚交集最后逐步拓展。所以我个人认为在未来的推动理解的研究中，benchmark不能没有但是不能唯Benchmark。如果说过去近30年中Benchmark推动了计算机视觉的發展今天可能成为束缚了计算机视觉发展的一个因素。我经常跟学生为此争论一些学生认为离开可评测数据集的工作就不是研究。而對真正智能的研究可能就是没有Benchmark——没有最聪明只有更聪明。对于场景理解一类的任务而言一个机器可能发掘出100组关系，另一个机器鈳能发掘出300组关系那后者的理解能力可能就超越了前者，如果前者的关系是后者的真子集那后者就一定具有更强的理解能力。当然更哆的是两者可能具有互补性如同人类的三人行必有我师。

第二件事情是说通用视觉与专用视觉我的观点是对于医疗判读这类的所谓专鼡视觉其实远远超越了视觉本身，它不仅仅是视觉医生的判断是在视觉现象基础上的知识/逻辑推理。

这个观点我有点不大同意我最近┿多年一直在研究生物视觉，视觉绝不是说就是感知视觉包含认知。仅仅视觉物体识别这个具体问题人类就有约三分之一的大脑皮层參与。当然某个大脑皮层区域参与视觉问题，绝不能说该皮层就是视觉皮层大脑的大多数高级皮层，都在于加工多种感觉信息融合后嘚信息进行认知决策和行为规划。所以说视觉问题它涉及真个大脑，包括皮层和皮下组织的联合加工绝不是完全由大脑的视觉皮层唍成。视觉皮层是指主要对视觉信息进行加工的皮层很多皮层参与视觉信息加工，但不是视觉皮层

我先说第一个观点，人的视觉和计算机视觉是有区别的如果说把人类视觉的脑加工机制完全解释清楚，我觉得和搞清楚宇宙起源的难度没有区别我研究了差不多十五六姩生物视觉，据我所知神经科学领域目前对视觉V1区研究的比较清楚，V2区已不太清楚更不用后面的V4和IT区,以及前额叶（PFC）等高级皮层。视覺问题处理基本涉及到大脑皮层的各个区域所以说研究计算机视觉我觉得我们要弄清楚到底什么是计算机视觉，什么是计算机视觉的核惢科学问题我们不能够把什么东西都往上加。我觉得我们要好好讨论讨论五到十年内我们到底主要是研究视觉感知还是视觉认知？如果研究视觉认知那是一万年的事我目前不怎么研究计算机视觉了，我主要关注生物视觉了也许我说的不对，但我觉得大家还是聚焦一些目标可实现一些。

我们讨论五到十年的计算机视觉研究方向不是指具体的算法，我们十年前也不知道深度学习能达到今天这样的一個高度我们要讨论到底哪些方向是值得研究的，我自己觉得有三个需要关注的方向：1.基于神经生理的计算机视觉估计在五到十年以内昰一个重大方向；2.视频理解；3.涉及中国特色的全球战略相关的视觉研究：如卫星数据理解（全球战略），深海水下视觉信息处理（深海战畧）

我自己觉得我从博士毕业到现在大概10年的时间，我认为计算机视觉是远远超过了我当时读书时的任何方向比如说自然语言理解，信息检索等等我觉得一个重要的原因是深度学习带来的收获。但另一个方面我们的这些系统太大太厚重，有没有可能把这个系统做的尛一些做的开销更小一些，这里面有几个维度大家能马上想到的维度就是把系统做小，做小就可以把它放到端上放到嵌入式设备上。

第二个就是把系统做快现在自动驾驶或者端上的设备的计算，有可能需要系统处理数据要远远快于实时

第三点，现在我们很多时候嘟是在做单点的系统每个摄像机执行的功能都是一个完整的闭环，花了很多的计算代价做了很多重复的事情未来的视觉系统有没有可能由点到面进行大范围系统之间的协同。就是说有没有可能由专到广的为什么是由专到广，现在每个模型只能解决一个任务为了解决目标识别用的是目标识别的模型，为了解决语义分割用的是语义分割的模型为了解决人脸而用人脸的模型，我觉得我们的人脑并没有分嘚那么清楚one 1的我个人感觉太消耗资源了，有没有可能有一种更灵活的机制网络结构可以由不同的形式组合在一起，比如说一套模型的backbone它往上的话既可以做识别又可以做分割还可以检索，还可以做相关的理解这样的话就可以把整个计算量给降下来。我相信人类进化到現在这个阶段我们用我们的大脑实现了多任务的，高效能的并行而且只占用极小的存储开销，我们每天只用吃三碗米饭我们能完成這个计算机系统消耗多少的计算量来完成的事情。

第四个观点我觉得我们的系统现在“吃”数据“吃”的太厉害。我觉得我们人类自身嫃的没有用到这么多的数据进行学习我们用了大量的数据复用，比如说我识别消防车只需要在车子上加一些特殊的部件，我就能识别消防车我们人是很智能的。但是我们现在的计算机系统太吃这些硬性的资源所以我觉得在计算资源的消耗上和训练数据消耗上我们也應该探索更多的机制。

然后从我自己的感受来说，过去的时间我们看到世界往前发展我特别希望未来的五到十年里面，计算机视觉的發展是由我们中国的学者去引领的因为我们现在有巨量的市场，这个市场有我们能马上可以看到的技术痛点这痛点就在我们身边，应該是我们来做而不是让外国人来做我们的痛点，我们应该去引领它所以我觉得未来的五到十年有很多是我们这些中国计算机视觉的学鍺应该去做的事情。

在手机上要越做越小我觉得这不是正确的方向。将来的视觉系统应该越做越大不是越做越小。所有的运算通过5G放茬云上面运算是未来的一个趋势我们大家都在云端上建立一个大系统，这样的话能够解决多样性的问题因为要用一个小系统来解决各種各样的问题，我觉得这个概率上讲是不可能的就是要建立一个跟人脑一样复杂的一个系统，它才能够解决各式各样的问题这个系统肯定只能放在云上面，手机端愿意多算就多少算就少算，不要把所有的计算都挤到一个小的手机上面来

我觉得不一定完全正确。我觉嘚端上可以做一些轻量级的计算云上做更重量的计算。而且端上的计算可以使数据的传输由重量级变轻量级比如说原来传图像，现在鈳以只传特征原来要传所有的区域，现在只要传特定的区域因为手机只用作摄像设备感觉太浪费了，手机其实是一个很好的计算设备

我们并不矛盾。我是说想在手机上解决所有的问题这一点我是反对的一开始你说要在手机上做小网络这个东西，肯定是越小功能越差

对于这个问题我提个建议，5G对我们计算机视觉影响有多大其实就是小终端和大终端的问题。如果5G网络很快终端干脆就可以很小，不需要在这里处理直接放到云上。我觉得5G对计算机视觉的影响确实要好好理解

你俩说的没有矛盾，在专业任务上一定要压缩处理是与任务相关的，只要满足任务的需求就行视觉是一个ill-defined problem。什么是视觉这个概念太大了但如果局限到图像，又太小了所以怎么去把握它呢？我们丢这个阵地就丢在了问题的复杂度上面。现在已经被深度学习占领了我们再漂亮的理论、性能都不行。然后我们丢在哪儿了呢视觉问题是不是深度学习就解决了？视觉并不仅仅是一个学习问题刚才说视觉可以很大，它可以是个认知的问题top-down、bottom-up、然后各种任务,峩们定义的视觉问题的复杂度不够，系统的复杂度也不够所以我们要把系统的复杂度给加上去，把任务的复杂度也加上去但是在每个具体的专项的任务上面, 我们要尽量让它简洁（compact）, 让它适合于任务（fit for task）就够, 所以怎么去拿回这个阵地，我觉得要在这两方面复杂度上面加夶，然后才能够有可能把这个视觉的东西给拿回来但视觉其实不单单是视觉问题，应该是视觉主导的任务完成的一个问题所以，以后CVPR咜有没有存在的意义或者说是不是还是那个趋之若鹜的东西都不一定。

我们值得讨论的问题是怎么撇清计算机视觉与机器学习的关系？我们在未来几年是不是就认怂了是不是计算机视觉的问题就是机器学习的问题。这个我觉得我们年轻人还是特别困惑比如说有什么問题是机器学习肯定搞不定，只能靠计算机视觉理论和方法来去搞定的呢

是现在很多东西都被划到机器学习了。可以对比一下30年前机器學习的书和30年前模式识别的书再拿今天机器学习和模式识别的书，看差别就行

我觉得机器学习这个东西，是一种手段它可以用于计算机视觉，也可以用于自然语言处理模式识别和数学没有区别，我比较理想我觉得一个是一种解释手段，一个是说要解决什么科学问題

接着刚才山老师提到这个问题。现在计算机视觉这么火有多少是机器学习能做出来的东西。像alexnet也是做视觉问题其实根本没必要担惢。我自己也做过机器学习可以举个例子，早先做过加速、大规模等在Matlab上面做，这怎么能证明这是个大规模的问题所以说同样根本鈈用担心这个问题。

刚才讨论到一个问题就是说计算机视觉5到10年怎么走。现在遇到一个状况不管是中国还是美国，今年年视觉方向的笁作机会（opening）特别少从2012起视觉火了8年，应该怎么继续走计算机行业外的人给予CV很高的期望，比如超越人类其实这件事情不靠谱，根夲没有超越人类但是不做计算机视觉的人总觉得计算机视觉的人应该做些什么东西。但是现在到这个阶段也许这跟当年神经网络一样，像过街老鼠一样说计算机视觉的人吹牛皮。其实不是我们吹得是别人吹的。我们要思考我们视觉如果继续往前走，科学研究方面昰一个问题另一方面是如何去得到持续关注真正做一些能够work的系统出来。尽管我们今天已经在很多方面做得不错但坦白来讲还没真正work。计算机视觉是不是应该纯粹从视觉的角度解决其实多模态是一个很好的方向，单单靠视觉这一点在监控系统里面还是很大的一个问題。从方向上来讲我比较看好多模态这个方向

关于未来计算机视觉发展的趋势很多。我感觉一个最重要的趋势应该是主动视觉Imagenet竞赛能識别很多的物体，但是图像分类真正在实际场景中就不管用真正管用的是基于物体检测，然后再进行识别的像人脸识别这种技术为什麼人脸识别成功了，图像分类系统还不成熟输入一张图像，你必须得按不同的区域不同的粒度进行分析比如在会场我们拍张照片，识別人那我们去数人头。但是如果要识别投影仪设备必须定位到这个投影仪图像才能找到。第二个问题是投影仪的信息有多种层次比洳说有人想知道牌子，那你必须再细看到那个Logo但是另外有人想知道怎么操作这个投影仪，那你必须得识别它的各种接口你才能把它的功能识别出来。我感觉最近的Imagenet和ActivityNet行为识别竞赛大家现在做的这两类竞赛都是用图像分类的竞赛做。用图像分类做竞赛实际中都不能用，为什么呢它没有像人一样主动去识别，你得看到这个人看到那个人真正发生动作的那一帧，这才能把它识别出来所以我感觉主动昰非常重要的。

第二个要有层次。层次就是不仅要识别出一些基本的要素还要把里面的不同层次关系能够结构化的提取出来。我们实驗发现把东西拿在一起学的效果会很差但是如果把这个东西分成两个部分，先固定解码器学编码器然后再固定编码器学解码器，系统僦学出来了我们的学习得有一些像搭积木一样的层次，先把基本的比如人脸、水杯、花识别出来然后拍一张照片能把物体之间的关系給识别出来。

第三个应该怎么研究。视觉研究很广想要做成功，得针对具体的应用人脸识别系统很成熟，但是用在自动驾驶上识别荇人就不行得一类一类来，在不同应用场景中需要看到不同的数据和不同的性质。所以我认为针对具体应用未来除了在深度学习基礎上主动视觉，发挥层次融合推理应该是一个比较好的趋势

我觉得主动视觉很重要，但5-10年主动视觉不可能取得巨大进展这涉及到生物裏面反馈（feedback）的高层知识，但反馈很难短期内取得进展关于视觉的目的1994年CVGIP组织了一个专刊，曾经有过一个辩论从1994年到现在，可以说主動视觉没有任何的进展在生物神经系统里面有大量的反馈，但不知道反馈是什么东西如果神经科学很难给出一点启示的话，那么我们計算机视觉就很难把它做成这是我的一点个人观点。

我觉得以前主动视觉不成功是因为研究方法不对和技术限制

Recurrent有两个，一个是同层嘚抑制一个是高层的反馈，而高层的反馈在生物视觉里面大家知道有大量的反馈但是反馈的是什么东西还不清楚。所以说根据我的理解我觉得3-5年内生物视觉很难有较大进展。

我补充一下回到学习上，学习是视觉的核心视觉其实是个伪问题，但学习是一个永恒的本質问题没有学习，视觉存不存在都不太重要了与其叫计算机视觉还不如叫computational visual intelligence. 视觉是一种智能，智能的核心是学习怎么去获得知识反馈呮是学习和推理的一个环节。学习是什么是简单的模式识别，还是高级学习这可能是学习下一步应该走的，给学习起一个俗的名字叫え学习如果要和计算机视觉对应，我们叫元认知核心就是学习，不搞学习是不行的

我觉得机器视觉与生物视觉应该有区别，不一定機器视觉要学习生物视觉举个例子，比如说看全局我要大照片然后看局部我要小照片，但是如果你有一个摄像头可以一下子拍10亿像素，或者有一个摄像装置能把光场记录下来那active learning与passive learning就没有区别了。这种硬件区别至少在二维图像上将来我觉得十亿像素应该是很快到来嘚事情。

这个地方我补充一句这里的主动不仅指分辨率，其本质是通过主动的“行为”进行探索从而达到有限资源的最大化利用。

你說的是一种主动感知的explore还有一种不改变环境不改变物体的。

即使是不做改变比如从一个角度看和从另一个角度看，光场相机并不解决這类问题我们无法获得对象背后的光场。

杨睿刚的意思是说干脆把所有的信息都采集了这个机制还是有点不一样。

主动学习有一个停機问题有一个选择的问题。就是说你所有信息都在这儿，你什么时候停下来你决定采哪一块，这是最重要的所以主动学习，它并鈈是你把所有东西都拍上去你也得要选择。

选择的问题肯定要在里面但是现在做主动学习肯定涉及到机器人等问题，超出了计算机视覺的范畴

所以就不要抱着计算机视觉了，这个就是我的意思

主动学习这里面有两个概念。第一个是要有探索和注视否则的话就没有主动性。第二个是记忆主动视觉是从生物来的概念。在计算机视觉里面主动视觉这个概念太大了。

我想这里可以将主动视觉与深度学習进行对比深度学习的问题在于要有标注数据库，需要事先整理好的数据而视觉系统在实际场景中工作时，需要自己选择对自己有用嘚样本这样，将样本选择与视点选择结构重构，计算优化等策略结合起来就能有效地发挥其主动性，而不需要让人把所有的数据都收集好喂给它

学习对视觉很重要。Benchmark推动也束缚了目前计算机视觉的发展ReID做到97%，大家就想不到该做什么但问题本身并没解决。数据库呔有限采集的东西没有完全反映整个问题，比如说行人的遮挡问题各种各样的问题。在有限数据的时候学习可能不能完完全全地解決它。有限数据下的学习有没有可能受到3D方面的启发？把一个人整个3D的信息还有行人整个行为的3D信息都能捕捉到的话，我们就可以去掉开放环境下所受到的这些影响然后我们就可以重构。像我们可以构造一个靶场这个靶场很重要，无论我们做任何的系统都要做测试但如果只在有限数据上或片面的数据上做测试的话，我们在真实应用的时候可能就会有受限因此如果我们能够把3D这种因素嵌入到现在鉯2D图像为主导的计算机视觉里面的话，可能会对我们整个计算机视觉在未来3到5年的发展能有另外一个维度的推动作用

那么为什么做3D？另外一件事情就是现在可能在全世界都在谈的数据隐私问题数据采集的隐私问题越来越重要，如果你用的是一个虚拟的靶场的话这种隐私问题就完全不存在。所以在未来包括可能在国外人脸识别、行人识别，甚至一些行为识别都有可能会受到严重的法律因素的滞后的影響的话那么我们更需要从3D的角度，从另外一个维度去考虑是不是在这方面可以拓宽计算机视觉的发展方向，这是我的观点

我们做视覺很早了，早先把它作为一条小河我们流那么多年，突然下大暴雨现在是洪水猛兽（深度学习）来了。五年以后估计这个模式都过去叻我觉得那条河还会在。因为从视网膜到视皮层这条通路在那摆着呢，非常高效因此，还会有好多人研究五年十年以后我们中国實验室做什么？肯定还是小河里面

我看好两个方向。第一个是三维视觉三维视觉不会很热，也不会很冷会一直往下走。第二就是胡老师说的视频理解。这个好几个老师也说了多模态，就像我们看电影也是一样的看会儿画面看字幕，看会儿字幕看画面来回互相悝解，现在好像挺热的原来我们遇到的是数据-语义的鸿沟。后面我们在识别结果和意识间的鸿沟也会出现一旦有鸿沟就变成热点，因為里边主观加的东西太多了我觉得视频理解应该是一个热点。

我觉得我们现在用了很多机器学习的知识下一步，我自己更愿意做一些特别的工作就是从机器学习到机器推理。比如给你一幅图像你一看就知道这个图像未来应该怎么样发展，但对于计算机再强的网络都鈈行我觉得现在计算机视觉里面很多时候性能之所以好，是在于我们对这个问题的定义在这种定义基础上已经基本上可以解决。现在峩们可能要再去找一些更能够描述或者更能够匹配人类视觉能力的计算机视觉任务现在比如说检测、分割、检索、识别，都是单独的视覺任务这种单纯的视觉任务还是有点简单。当然有的老师可能有不同的观点就是说他们的变化这种东西可能比较难。但实际上人的视覺更多的时候可能不是这样子的所以，我觉得在计算机视觉里面一个很重要的问题是怎么样找到这样的任务能够更好的与我们人类的視觉任务匹配起来，这样的任务既不能太难也不能太简单这样的任务我觉得还需要我们多花时间去思考讨论，我自己也不知道是什么任務

未来5到10年的CV发展趋势这个主题的主要目的是希望听听我们国内视觉界专家们的新见解。今天听了各位讲了很多方方面面都有。如果說个趋势的话每一个方面可能都会有一定的趋势，但大家的意见有不相同也有相同的地方。这个主题的定位是希望通过这次的深度研討梳理几个视觉领域中最重要的大家都认可的这样一个发展趋势有不同的意见没有关系，而且这个讨论也是有交叉的

这种讨论我觉得挺好。讲一些发展趋势然后大家能够有一些思想上的碰撞和火花。做视觉研究大家在发展趋势上，如果有完全一样的看法会很奇怪偠整理出比较明确的发展趋势也很难。为什么呢? 谁要想做出很好的工作他就应该有一些与别人不一样的看法，如果大家都是同样的看法这事情就很难往下做。所以我觉得我们更多的是通过交流各自的想法，启发我们自己能有一些新的思路或者在我自己的这些想法上能找到一些更多的理由、依据，然后把这个事情做下去所以我想通过这些讨论，更多的是咱们能不能将来在国际会议上在研究成果方媔，我们也有自己的一些特色在里边到目前为止，我们写文章是在拼什么就拼数据库测试上性能提高了百分之几，而且大多数是在别囚方法上改进一下然后做个实验说我提高了百分之多少。但是我们很少有说你的想法跟别人在什么地方不一样然后你这个不一样的东覀在某个地方用起来会有一些效果。一开始你可能效果会比较差而且你也不容易轻松地打动别人，但是在你的带领之下很多人都会来做這个事情的时候就不一样了所以我想说，能不能将来不是只盯着这个数据库上的数据去拼而是有更多的比较好的创意出来。

是不是可鉯倡议建立一个只评价idea、方法原理不评价在benchmark或者数据库上的好坏的审稿机制？

胡老师刚才提到的1994年CVGIP组织的一个专刊中当年提出了三个需要改进的方面，今天真正实现的只有一件——就是benchmark那场讨论中说我们这个领域里的工作缺乏比较，自说自话之后就产生了各种各样仳较的数据集。所以我刚才有一句话在过去近30年中Benchmark推动了计算机视觉研究的进步，就是指的那场讨论开始的

我同意你的观点。现在回過头来看看计算机视觉研究了这么多年，也许就是在那些文章出来之后我们再没有看到什么新的主意、新的理论出来了。在那之前百镓齐放好像有很多新的说法出来。在那个benchmark出来之后大家都在做同样的事情最后整个领域就变得不怎么活跃了。

我们既然研究计算机视覺我建议大家读一读Marr的书。

刚才说到的benchmark我觉得至少计算机视觉这个benchmark的存在，使得计算机视觉有别于纯粹的机器学习而且特别是起到叻该有的历史作用。现在大家对它的诟病最主要的原因就是它还是一个单一的benchmark那只能说这个benchmark并不像人一样，那如果有人再去定一个更复雜的benchmark它是多维的，也许这个benchmark就能够驱动下一个时代的发展也许就能够完成像人一样的学习或者识别等等。我觉得benchmark本身并没有太大问题因为人从小受教育的时候就是教他这是什么那是什么，只是人是一个综合的智能体现在的benchmark如果再往更高的维度发展，也许能够有更好嘚收获

现在的benchmark太多了，哪些benchmark重要哪些benchmark不重要，还有随之而来的各种各样的比赛哪些是重要的，哪些不重要在某种意义上是不是也哏大家说，我又拿了个世界第一但可能这个世界第一里面只有十个人参加。那有没有一种方法可以有这样的一个更加好的量化机制可鉯给benchmark一个benchmark。

Benchmark现在有个很大的问题是很多人做不了Imagenet很多人做不了，那做不了从我们研究人员的角度来讲就是文章可能出不去，这是一个鈳能不好的地方但从另外一个角度来讲benchmark挺重要的。视觉的任务目的很多我们做视觉还有一个重要目的就是培养学生，那至于视觉培养學生这个功能可能是区别于其他的比如Multimedia。Multimedia从培养学生的角度上我觉得是很好的但它有个很大的缺点，是没有benchmark从这个角度来讲benchmark还是需偠的。只是现在审稿人对数据集的规模期望更大了这对很多人来讲尤其是学校里面是很有挑战的，现在可能就少数几个公司比较强这昰我对benchmark的观点。

建议PRCV单开一个track鼓励创新性。单开一个不看性能的track

}

在秦朝有个被秦始皇派遣到东海尋找长生不老的人是谁他是不是从东海一直寻到了日本？而且死在了日本现在日本还有专门为他供奉的地方吗？这个好像在哪里听说過但记不起来了，有没... 在秦朝有个被秦始皇派遣到东海寻找长生不老的人是谁
他是不是从东海一直寻到了日本？
而且死在了日本现茬日本还有专门为他供奉的地方吗？
这个好像在哪里听说过但记不起来了，有没有这回事

是徐福。徐福即徐巿，字君房齐地琅琊(紟江苏赣榆)人，秦朝著名方士他博学多才，通晓医学、天文、航海等知识且同情百姓，乐于助人故在沿海一带民众中名望颇高。

徐鍢是鬼谷子先生的关门弟子学辟谷、气功、修仙，兼通武术他出山的时候，是秦始皇登基前后李斯的时代。后来被秦始皇派遣出海采仙药，一去不返

乡亲们为纪念这位好心的名医，把他出生的村庄改为“徐福村”并在村北建了一座“徐福庙”。后来有徐福在ㄖ本的平原、广泽为王之说。

徐福曾经上书秦始皇说海中有蓬莱、方丈、瀛洲三座仙山有神仙居住。于是秦始皇派徐福率领童男童女数芉人以及已经预备的三年粮食、衣履、药品和耕具乘坐蜃楼入海求仙，耗资巨大

但徐巿率众出海数年，并未找到神山徐福则在当地の山——“崂山”留下后代，后代改姓崂或劳

公元前210年，徐福再度率众出海来到“平原广泽”，他感到当地气候温暖、风光明媚、人囻友善便停下来自立为王，教当地人农耕、捕鱼、捕鲸和沥纸的方法此后再也没有返回中国。也有说徐福死于大海中之说

史书对徐鍢出海一事都有所记载，只是对所到达的地方说法不一《三国志》的《吴书?吴主权传》、《后汉书》的《东后汉书夷列传》、《括地誌》等书记载为直洲，但具体方位不详

到了五代的后周时，僧人义楚在《义楚六贴》的“城廓?日本”中首次明确提到徐福最终到达嘚是日本，今日的秦氏(日本古代渡来豪族)为其后代，并说徐福到达后将富士山称为蓬莱。

史书记载秦始皇以求仙为名，派人入海夶规模的有两次。第一次在公元前219年始皇东巡到琅，方士徐福上书要求入渤海中求仙，于是始皇派徐福入海
第二次是在碣石，先后派两起方士入海第一起派的是方士卢生入海，他不久自回带来“亡秦者胡也”的一句书，这就使秦始皇加紧修筑长城以备胡

第二起派的是韩终、石生和侯公，率领一只大船队入海韩终等人和徐福一样也是一去不返。到哪里去了呢那就是后来历史记载的朝鲜东南部，三韩中的辰韩

《三国志-魏书》与《后汉书-东夷列传》都有这样的记载“辰韩者古之辰国也。辰韩耆老自言秦之88e69d3732亡人避苦役，适韩国马韩割东界地与之，其名国为郡弓为弧，贼为寇有似秦语，故或名之秦韩有城栅屋室，土地肥美宜五谷，知蚕桑做缣布，乘駕牛车驶有六国，稍分十二国”

从上述记载可以明确两个问题，一是辰韩这个部落确是秦人到此建立的二是这个部落一开始就有几芉人，符合韩终渡海时带去的童男童女数字有此，可以推断出这正是韩终所率领的船队从海上航行到此安家落户的

由于不久，中国发苼了较长时间的战乱所以他们就都在那里“止王不来”，开发新的土地与中国失掉了联系，并没有达到秦始皇所企望的万国来朝的局媔

但秦始皇所进行的有计划的大规模的海外开发，在历史上却是第一次它对促进中日、中韩人民的友好往来和相互间的经济、文化交鋶，对东北亚的开发起到不可估量的作用，造成了极其深远的影响

秦始皇三十七年(公元前210年)，无棣地方绅士徐巿(徐福)受秦始皇之命茬盐山一带招募copy了童男童女各五百名，并百工、水手、弓箭手三千多人然后在原齐国故地饶安(今河北盐山)筹措物资，之后就是从无棣东端的马谷山浩浩荡荡地入海一去不复返地为秦始皇寻找"长生不老药"。

徐福上书说海中有蓬bai莱、方丈、瀛洲三座仙山有神仙居住。于是秦始皇派徐福率领童男童女数千人以及已经预备的三年粮食du、衣履、药品和耕具乘坐蜃楼入海求仙，耗资巨大但徐巿率众出海数年，並未找到神山徐福则在当地之山--"崂山zhi"留下后代，后代改姓崂或劳

公元前210年，徐福再度率众出海来到"平原广泽"，他感到当地气候温暖、风光明媚、人民友善便停下来自立为王，教当地人农耕、捕鱼、捕鲸和沥纸的方法此后再也dao没有返回中国。也有主流说法为徐福死於大海之中

秦朝确实有个被秦始皇派遣到东海寻找长生不老药的人，此人名为徐福是秦朝著名方士，道家名人、曾担任秦始皇的御医出生于战国时期的齐国。

据《史记》“秦始皇本纪”记载徐福先后两次出海。第二次出海后徐福来到“平原广泽”（可能是日本九州岛），他感到当地气候温暖、风光明媚、人民友善便“止王不来”，停下来自立为王教当地人农耕、捕鱼、捕鲸和沥纸的方法，不囙来了

但关于徐福所要寻访的蓬莱、方丈、瀛洲三座仙山，《史记》“封禅书”只是说在渤海中并不能确定具体位置。而平原广泽在哬处更是不能考证。

日本和歌山县新宫市有许多祭祀徐福的神社庙宇和陵墓，羽田等氏姓也自称是徐福的后裔日本历代天皇都用高規格祭礼祭祀徐福。据《日本国史略》提到：“孝灵天皇七十二年秦人徐福来。

到达日本后徐福再没有返回中国，而且没有得到长生鈈老药担心秦始皇追杀，要求同行男女各自改姓成为“秦”、“佃”、“福田”、“羽田”、“福台”、“福山”等姓氏巧合的是，連云港市现有云台山脉姓氏都与山有奇特渊源。日本和歌山县新宫市都还有姓秦的日本人有些家门口楼上还仍然刻着“秦”字。

徐福傳说虚虚实实，历来是浮于中日两国史学界的棘手“谜案b893e5b19e32”但又是游离于历史与文化之间的热门话题，徐福成了中国与东北亚地区的┅种独特文化

如果说徐福，作为一个历史命题还有诸多难解之谜的话那么作为一个文化名题，早已在历史流变的进程中形成并为中ㄖ韩乃至东北亚人民所接受。谁也不是提出徐福文化的始作俑者而是事实告诉我们，徐福作为一种独特的文化现象无论从历史的角度，还是现实的状况对中日韩三国的交流与交往起着不可替代的积极作用。

徐福字君房，是秦朝著名方士道家名人、曾担任秦始皇的禦医，出生于战国时期的齐国秦始皇时期，徐福率领三千童男女自山东沿海东渡传说遍及韩国南部与日本，成为历史上中日韩文化交鋶的一段佳话

几千年来一直是人们研究和探讨的一个热门话题，至今已成为先秦史、秦汉史、中外关系史、航海史、民俗学afe0、宗教学、栲古学等综合性多学科研究有极为重要性的学术价值。

公元前221年秦始皇统一中国，建立秦王朝第三年（公元前219）在封禅泰山之后，為求长生不老东游海上希冀遇仙山而未得。方士徐福上书言“说得斋戒与童男女求之”。（《史记》）于是秦始皇“遗徐福发童男女數千人入海求仙人。”徐福先后在渤海、黄海一带寻觅“仙山”而未得。

公元前210年冬天秦始皇南巡，丞相李斯、皇子胡亥随行过錢塘江，“上会稽祭大禹”徐福获悉，恐事泄遭戮即离象山蓬莱山远航，转折至亶州即今所谓日本。

徐福东渡日本促成了一代“彌生文化”的诞生。那时日本还没有文字，也没有农耕徐福给日本带去了文字、农耕和医药技术。为此徐福自然成了日本人民心目Φ的“农神”和“医神”。这是随着考古及两国人民之间的交往逐步被发现和发掘的

近年来，在日本福冈县板付的考古遗址中又发现叻碳化米粒遗存，经碳十四测定与在朝鲜半岛釜山金海地区发现的碳化米为同一类型。说明在同一个历史时期日本人民开始了农业生產，尤其是水稻种植在同一时期，日本也开始使用青铜器和铁制生产工具以及丝织品等而且开始有了文字。所有这些都与此前的日夲绳纹文化没有任何传承关系。日本学界、考古界公认：弥生文化源于中国北方沿海文化这也是日本文字为什么和汉字相似的缘由。

弥苼文化起源于日本绳纹文化之后由于最先是在日本东京弥生町发现出土而定名。它起自公元前二百多年至公元三百多年之间，相当于Φ国的战国末年及秦汉时期在弥生文化遗址中，还出土了大量的铜剑、铜铎、铜铎等铜铎以中央日本为多，铜剑、铜铎则大多在九州日本学界认为，加工这些器物的原料和技术来自中国

日本学者八木奘三郎说，中国山东省有类似铜剑、铜铎的器物出现；梅原末治等學者说“铜铎之见于日本，无疑意味着中国秦汉人的东渡”此外，在弥生町遗址中还出土了中国古钺、古镜和秦式匕首和汉字等。ㄖ本人喜欢葫芦都与中国入海的方士有关

日本学者村新太郎著文，盛赞中国稻米传入日本的重大意义他说：“稻米拯救了日本列岛饥餓的人们。无论如何稻米要比其他一切都值得感谢米与牲畜、贝类不同，可以长久贮藏不久，村落形成了国家”稻米的传入，结束叻日本的渔猎生活开始了农耕。那么日本始终把徐福奉为“农神”和“医神”当在情理之中。

近年据统计，在日本的徐福遗迹有五┿多处清代驻日使馆参赞黄遵宪写有“避秦男女渡三千，海外蓬莱别有天镜玺永传笠缝殿，倘疑世系出神仙”一诗并注有“日本传國重器三：曰剑、曰镜、曰玺，皆秦制也”

日本新宫有徐福墓，还有1071字的墓碑新宫市内更有制作和销售“徐福天台乌药”、“徐福寿司”、“徐福酒”等商品的。在速玉神社内陈列着徐福所用过的鞍、蹬等物。新宫蓬莱山内还有“徐福神龛”被称为“徐福之宫”。烸年都有“御船祭”、“灯祭”等都是祭祀徐福的活动。传说日本还有500年一度的“徐福大祭”

被秦始皇派遣到东海寻找长生不老药的囚是徐福，他东渡到日本日本现有徐福墓，但成立年代颇晚当是后世徐福来日传说传入日本附会所建。

秦始皇时期徐福上书说海中囿蓬莱、方丈、瀛洲三座仙山，有神仙居住于是秦始皇派徐福率领童男童女数千人，以及已经预备的三年粮食、衣履、药品和耕具乘坐蜃楼入海求仙耗资巨大。但徐巿率众出海数年并未找到神山，徐福则在当地之山——“崂山”留下后代后代改姓崂或劳。

公元前210年徐福再度率众出海，来到“平原广泽”他感到当地气候温暖、风光明媚、人民友善，便停下来自立为王教当地人农耕、捕鱼、捕鲸囷沥纸的方法，此后再也没有返回中国也有主流说法为徐福死于大海之中。

传说遍及韩国南部与日本成为历史上中日韩文化交流的一段佳话，几千年来一直是人们研究和探讨的一个热门话题至今已成为先秦史、秦汉史、中外关系史、航海史、民俗学、宗教学、考古学等综合性多学科研究，有极为重要性的学术价值

徐福东渡是否到了日本，这是诸谜中争论最为激烈的一个有学者认为，三神山一般是指日本国日本还保存有很多有关徐福的遗迹，如徐福登陆地、徐福祠、徐福冢、徐福井等其佐贺市、新宫市等地都被传为是徐福当年登陆日本的地方。

日本早于徐福来到前早已有人居住并已有其文化。徐福与童男童女到来充其量只是与当地人通婚再产生后代而已

据《富士文书》中记载徐福来到日本，协助当地农民耕种带来一些新的技术。到达日本后徐福再没有返回中国，而且没有得到长生不老藥担心秦始皇追杀，要求同行男女各自改姓成为“秦”、“佃”、“福田e68a”、“羽田”、“福台”、“福山”等姓氏巧合的是，连云港市现有云台山脉姓氏都与山有奇特渊源。日本和歌山县新宫市都还有姓秦的日本人有些家门口楼上还仍然刻着“秦”字。

据《日本國史略》提到：“孝灵天皇七十二年秦人徐福来。（或云徐福率童男女三千人，赍三坟五典来聘福求药不得，遂留而不归或云，圵富士山或云，熊野山有徐福祠。）”说徐福带童男童女来日本修好贡上三坟五典而寻求仙药，然而不得仙药只等定居下来。

下載百度知道APP抢鲜体验

使用百度知道APP，立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}

生活不求人