本篇文章4239字,读完约11分钟
指南:计算机视觉技术的魔法。
雷锋网表示:世界人工智能与机器人峰会( ccf-gair )在深圳召开,峰会由中国计算机学会( ccf )主办,雷锋网、香港中文大学(深圳)承办,在宝安区政府的大力指导下,国内人工智能与机器人。
雷锋网ccf-gair继前两次“顶级”阵容之后,先后建立了一个主会场和11个专场(仿生机器人专场、机器人领域应用专场、计算机视觉专场、智能安全专场、金融科技专场、智能驾驶专场,
6月30日,ccf-gair大会举行到第二天,计算机视觉专场如期举行。 本专题由上午的“计算机视觉前沿与智能视频”和下午的“计算机视觉与医疗图像分解”两大议题组成。 本文是计算机视觉专业前半部分的精选文案。
上午的主题演讲由香港科大电子和计算机工程系助理教授、ram-lab主任刘明担纲主持。 在他的串联下,港科大教授权龙、广视科技首席科学家孙剑、云从科技联合创始人姚志强、舆识科技首席科学家任鹏、云天励飞首席科学家王孝宇及商汤联合创始人林达华等学术界、工业界众多大牛进行了6个深度的共享,成为计算机视觉技术的前沿研究。
最先出场的是香港科大教授权龙。
香港科技大学教授、iccv主席、ieee fellow权龙
权龙教授今天分享的主题是“计算机视觉、识别和三维重构”,他主要从三个方面进行阐述,分别是计算机视觉的基础、计算机视觉的变迁和快速发展,以及计算机视觉的最新进展。
他说,目前由于深度学习技术的飞速发展,人工智能变得非常火热,计算机视觉作为人工智能行业也变得非常火热。
人工智能的目的是让电脑去看、听、读,其中一个重要的部分就是图像。 权龙教授认为视觉是人工智能的核心行业。 因为视觉占人类感觉系统的80%,也是最困难的部分。 他甚至认为计算机视觉是推进人工智能“革命”的决策技术。
其次,权龙教授简要回顾了计算机视觉的变迁和快速发展。
20世纪70、80年代,计算机视觉取得了第一个飞速的发展。 权龙教授有幸在80年代参加了相关事业。 那时,我说最开始做简单的物体分类事业,在一点特点上做了。
90年代到2000年之间发生了变化。 以前提取过一点特征点,这几年大家开始回顾几何学的问题。 几何学是“三维重建”,这推动了许多事业,必须以点为基础,说明点。 这是一个使计算机视觉迅速发展的非常重要的事件。
年后,计算机视觉进入卷积神经互联网( cnn )时代,这个行业发生了翻天覆地的变化,基本上从特征到各种算法,都被cnn统一了。 cnn有端到端的利益,其实现比较容易。
关于计算机视觉的迅速发展,权龙教授说,现在每个人都在进行识别,但并不代表所有的计算机视觉,识别只是一部分。 要有一点点的交互和感知,首先必须恢复三维,因此基于识别,下一层必须走向“三维重建”。
与这个行业相比,权龙教授和他的研究小组已经做了很多工作,取得了一定的成绩,4月份他们获得了两个计算机视觉排名的世界第一。
当然,目前由深度学习推动的计算机视觉技术还存在很多不足和挑战,特别是在卷积神经互联网迅速发展达到更高维度的时候,越来越多的行业研究者需要探索。
科学技术首席科学家、研究院院长孙剑
接着,科技首席科学家孙剑上台,分享他眼中的云、端、芯的视觉计算。 科学技术成立已有7年,集中在计算机视觉感知行业。
计算机视觉,简单地说,就是让机器能够看到。 如果更先进的话,机器可以理解图像和视频。 我们能做什么? 对此,孙剑和玩给出了“给亿万摄像头”的答案,让应用于各行各业的摄像头拥有智能,无论是云、端、芯片。
孙剑一直在研究计算机视觉的几个核心问题(包括分类、检测、分割),分别识别出一张图像、一张图像的不同区域、一张图像的各个像素。 其中,分类是最核心的工作。 如果输入视频,则需要利用帧和帧之间的时间关系进行识别。
孙剑简述了计算机视觉的历史,据他所说,计算机视觉的迅速发展是图像如何研究representation的历史。 在80年代,早期的神经互联网成功地实现了面部和拷贝识别,但当时仅限于这两个行业,因此要定义什么是图像representation并不容易。
2000年初,在深度学习流行之前,有一种叫做feature-based的方法。 这是基于特征的,从图像中提取特征并将其分解是深度学习之前的最佳方法。 但是,这种方法最大的问题是有两个缺点。 其一是整体非线性变换,矢量的变换次数有限。 其二,里面的大部分参数都是人工设计,包括feature。
今天转移到了深度神经网络上,弥补了这两个缺陷。 一是整个非线性变换可以做非常多的事情,所以具有非常强的识别能力。 二是所有参数都是联合训练的,这两点可以让深度神经互联网取得真正非常好的效果。 孙剑在微软提出的152层resnet,首次在imagenet上超过了人的能力。
从2005年开始,出现了各种各样的网络。 孙剑从计算平台的角度对这些net进行了简单的分类,分别是云、端、芯片三个不同的计算平台。 googlenet,resnet在云层上,GoogleMobilenet 和去年提交的shufflenet就像边缘一样。另一个net在芯片上。 例如,bnn还无视拟议的dorefanet。
孙剑对比了shufflenet的结构进行了更详细的介绍,这个神经互联网是专门为手机端设计的。 他们今年也设计了第2版的shufflenet,抛弃了分组卷积的思想,导入了新的做法,用非常简单的结构做了。
对比目前不同平台设计相关互联网的现状,孙剑相信未来会出现能够统一处理各平台上神经互联网设计和优化问题的“metanet”。
最后,孙剑简要介绍了计算机视觉在云、端、芯三个平台上的应用,包括人脸识别、车辆识别、人脸支付、智能安防、智慧金融等。
云来自科技联盟创始人姚志强
云从科技联合创始人姚志强那里之后分享了对其作为人工智能视觉方案企业领域的了解和企业的进展。 他认为人工智能最大的作用是架起巨大的计算资源、智力资源和广泛应用的桥梁。 自 年成立以来,云从科技上把公司的重要定位锁定在人机交互行业,但对人工智能技术、服务和生态的理解经过了许多探索。
姚志强认为,一家人工智能公司只有聚集技术资源、数据资源、平台、入口和资金,才能高速发展,稍成熟的公司将向初创企业开放技术,使后者能够在其中的某个场合深耕。 数据资源特征的积累也非常重要,有平台资源,目前很多来自云端的人工智能服务通过云平台开放。
目前,云从数据行业设立的联合实验室获取领域内部数据,并在对应领域内部提供培训和服务。 云与政府有大数据等进行合作。 在银行中,姚志强介绍说,云从银行已经是领域第一大人脸识别供应商,希望带动越来越多的生态银行提供完善的智能银行服务。 安全领域也存在许多难题,从安全角度看,安全领域涉及新闻获取、加密、解密等诸多复杂难题。
未来,云将不再是一个领域化的企业,而是基于人工智能、人机交互行业的企业,通过现有资源扩大越来越多的领域,连接越来越多的领域和人。
臻识科技联合创始人兼首席执行官任鹏
臻识科技 ceo 任鹏谈到了如何构建智能照相机产品。 进一步科技致力于视觉技术的产业化,智能相机作为载体,应用于智能交通、智能社区、安防等各个场景。 任鹏表示,这是一款满足一个场景应用感知需求的摄像机,不同行业对场景的感知诉求不同。
任鹏用“金字塔型”描述完美的感知应用场景,下层是像素,中间是对象,最上层是行为。 但是,现在大部分应用都停留在对象层,很多问题是智能城市根据云的识别结果做出决定等,但是前端的图像模糊,识别错误,会影响决定和系统的运用效率
一般来说,实现这样的智能相机的落地有成像、算法、制造三个难点。 在摄像方面,目前智能摄像机的摄像评价领域缺乏标准,但除了处理硬件、结构、热设计、光学等问题外,isp(image signal processing )是摄像机的中心问题, 在智能摄像机的isp 开发——算法方面,用嵌入式设备开发智能摄像机,首要的是数据的多样化、均衡性、场景适应性的手柄控制,第二芯片方案的选择有很大的挑战。 在制造方面,供应链是不可避免的问题。
除了观看双目深度摄像机外,进一步的知识也在尝试多传感器融合等越来越多的感知方案。
云天激飞首席科学家王孝宇
云天励飞首席科学家王孝宇博士根据学术界到工业界的经验分享了关于ai应用的重要意见。
王孝宇博士年在nec美国研究院进行无人车、人脸识别研究,随后与李佳等人共同成立了snapchat研究院,专注于计算机视觉在手机终端的应用。 加入云天励飞后,主要聚焦于ai+新警务、ai+新社区、ai+新零售。
王孝宇博士认为,能够与人自由交流的强ai可能在100年后实现。 当前人工智能带来的是越来越多的基础性能变化,拥有更多的数据和建立更准确的模型是当前人工智能最重要的进展。
王孝宇博士以snapchat和facebook竞争迅速发展为例,阐述了技术快速发展的时间节点很重要,技术完全成熟后不需要落地,重要的是提供顾客认同的产品的观点。 技术应用需要找到正确的立场和平台算法不等于技术,数据的重要性更为突出。
商汤科技联合创始人、香港中文-商汤联合实验室主任林达华
香港中文大学信息工程系助理教授、商汤科技联合创始人、港中文商汤联合实验室主任林达华教授在计算机视觉专业场发表了演讲。
商汤一直很受资本欢迎,大家都很好奇这家创业企业为什么有这么大的吸引力。 林达华在现场表示,商汤能取得如今的成绩,是其背后香港中文大学多媒体实验室18年的技术研究中不可缺少的。
林达华提到了大量的数据、运用场景数据的积累、gpu的快速发展、计算能力的大幅上升,在提供算法进步基础的基础上,带来了今天人工智能的成功和计算机视觉技术在许多应用场景的落地。
而且,林达华回顾了这几年计算机视觉的迅速发展,他认为这项技术还能做很多事件,还有很长的路要走。 他认为可以向提高计算机视觉技术的识别效率、降低数据价格、提高识别质量三个方向努力。
至今,计算机视觉仍以粗放的方式迅速发展,依赖于数据堆积、计算资源堆积,获得很高的性能。 但是将来还需要进一步优化,他分享了商汤的视频和自动驾驶的例子。 此外,目前对计算机的视觉研究非常昂贵,因此高度依赖人工。
林达华认为可以适当改变思路,从数据、场景中寻求内容本身所包含的一点注释新闻。 与提高计算机视觉识别的质量相比,有必要探索越来越多的技术可能性。
来源:安莎通讯社
标题:“从学术研究到应用落地,这6位计算机视觉大咖在CV专场上都讲了什么?”
地址:http://www.a0bm.com/new/19475.html