这稍微有些不同。期刊评议是单盲,评审人知道作者,作者不知道评审人是谁,因此上传到arXiv也不会有多大的影响。因为期刊论文评议可以有评议完成之后大修和小修的周期。相比之下,学术会议采用双盲同行评议,评审人和作者彼此都不知道谁是谁,尽管现在很多会议也有作者答辩评审这一环节,会议论文评审结果从本质上来讲还是“一锤子买卖”,因此评议也会更为凌厉直接。关于arXiv,我最主要的意见是,由于论文上传以后作者姓名是公开的,这样很多会议如CVPR双盲评审形同虚设。2015年,德国马克思普朗克研究所的Michael Black教授(他也在布朗大学任职多年)曾经提出动议并被PAMI-TC通过——凡是和媒体讨论过并进行过宣传的论文一律该被CVPR给拒绝掉,因为这直接影响了双盲的同行评议公正性,为评议过程带来了不必要的额外的偏差(bias)。(参见http://www.cv-foundation.org/CVPR2015/tc_meeting_060915_presentation.pdf)
成为CVPR 2019程序主席:进一步展现华人工作,预期3个方向近两年会有发展
您是CVPR 2019的程序主席(Program Chair),您和bidding团队拿下CVPR 2019主办权的原因是什么?作为CVPR 2019程序主席,您对会议有什么规划?
实际上CVPR、ICCV的管理是通过一个松散的,非常民主化的学术组织,叫做PAMI-TC(Technical Committee on Pattern Analysis and Machine Intelligence)的委员会完成的。要做会议的主办方,需要在当年会议开始前提前一个月申报去申请三年后的举办权,PAMI-TC组委会的成员现在通过网络投票(早年就是开会现场大家举手投票,有很多有趣的故事),多的时候会有3到4个团队在争取。申请2019年CVPR的主办权的是我们团队和另一个团队,我们能够拿下的原因主要有3点:第一是团队强,我们的团队成员里有很多知名、资深的学术代表;第二是我们充分考虑到了多样性,不仅有领域非常资深的研究员,也有领域里面在职业中期的中坚力量,和不少学术新星。有来自各大洲的代表,也有很多女性成员;第三则是我们有为领域服务好的责任心,并制定了周详的组织计划,提前预计到很多可能出现的困难以及解决方案。举例来说,2003年是我第一次参加CVPR,那时候的参会人数大约是900,到2016年时CVPR的参会人数已经达到3000人了。我们估计到CVPR 2019,参会人数有5000人的规模,因此特地选择了美国长滩的会馆,能够容纳下这么多人。
还有一点,在各个学术会议中,CVPR的参会注册费实际上是最低的,学生注册费大体上在300美元左右,研究员则在600~700美元的样子——其他学术会议这个价格都会上千。因为洛杉矶地区的餐饮相对便宜,我们团队预计在CVPR 2019能够覆盖参会者的餐费,也就是可以免费的提供早中晚餐给参会者提供。因此,从组织团队成员背景、多样性以及办会地点实际情况调研等多个方面,我们都做了周全的考虑,这就是我们获得主办权的原因。大家可以参看我们争取CVPR 2019举办权的报告(http://www.cv-foundation.org/CVPR2019/Long_Beach_for_CVPR19.pdf)。
当然,我们能够得到主办权也离不开华人学生、学者的支持。如今,参加CVPR的华人学生、学者实际上已经超过总人数的50%。但是,在各个主席职位,比如领域主席(area chair)、程序主席(program chair),还有大会主席(general chair)这些位置上,华人学者并不多,至少从参会人数应有的比例上看是远远不够的。我们主办CVPR 2019,其中一点也是希望进一步提高和展现华人的工作和领导能力。
至于在CVPR 2019特别想做的,就是为大家呈现一个优秀的,让大家满意的计算机视觉的学术盛会,期望看到更多新思维、新方法以及新老方法的相互融合。著名法国学者Nikos Paragios,《计算机视觉与图像理解》期刊(Computer Vision and Image Understanding Journal,CVIU)的主编(华刚博士是CVIU的编委),他在LinkedIn上写了一篇文章,我印象很深。Paragios在文中提到,以前的计算机视觉是很包容的,会议上能看到各种方法,比如统计、几何、代数……都有,氛围十分活跃,参加这样一次会议,能得到计算机视觉技术的现状、问题及发展比较综合的理解。但是,深度学习出现以后,大有一统天下之势,这不一定是好事。其中,也包括有些好的想法被深度学习这一波浪潮所淹没。
您是指这样的情况吗——有论文提出了新的想法,但由于种种原因结果并不出彩,或者在现有条件下论证还没那么充分;而使用深度学习方法的论文做出的效果很好,或者在各项基准测试都取得了当前最好的结果,于是,后者被接收,而前者被拒绝了?
这是其中一种。深度学习在计算及视觉领域这一波的浪潮是从2012年开始兴起的。那么2012年以后进入计算机视觉领域的学生,按照时间来讲,今年正好是博士毕业。这一批人会慢慢成为会议审稿的主要力量,由于接受的训练主要以深度学习为主,就可能会进一步产生这种倾向。这类审稿人对问题理解的深度,还有思维模式(mindset)需要重塑。现在我们对深度学习的局限性也有了更全面的认识,这也是为什么我说要多看10年、20年前论文的原因。
您对计算机视觉技术未来2年的发展有什么预期——作为CVPR 2019的程序主席,您需要掌握领域的总体发展趋势,深度学习、神经网络还会继续盛行吗?您认为什么技术和研究方向会成为届时的热点?什么新技术会崛起?什么现在尚未解决的问题到时候有可能被攻克?
这个问题提得很好。就像我以前说过的一样,研究的英文是“Research”,也就是“Re-Search”——再搜索。有时候,完全脱离领域历史沿革的全新(brand-new)技术的出现是很少的。任何新的研究工作和思想,或多或少都会受到前人的工作和思想的影响。就如牛顿说的,“我比别人看到更远,是因为我站在巨人的肩膀上”。我想一个健康的研究领域,更多还是要一种多样性的融合,共同推动领域发展,比如将深度学习和以前的方法相结合,所谓“老树开新花”。什么技术或方向会成为热点?谈一个我个人感兴趣的方向吧:知识描述、知识表征,也就是用语言的方式将视觉内容表征出来,成为知识的一种载体,来更好的解决计算机视觉的问题。就好比人类使用语言可以传递信息和知识,只有有了对知识的表征,智能体相互之间才能沟通学习。不过,要完成这个项目,两年的时间估计不够(笑)。
宽泛一些来说,我认为以下3个方面在接下来两年会有所发展:
一是基于图像、视频建模的无监督学习;
二是基于任务的视觉建模机制;
三是基于知识和小样本学习进行视觉建模。
转载请注明出处。