商汤科技：人工智能3D视觉技术的未来趋势

发布时间：2020-01-22 14:45:35 所属栏目：运营来源：安防知识网|0

导读：副标题#e# 在上世纪70年代，工业界开始运用3D视觉技术测量和扫描物件，提高生产效率。最近10多年，家用游戏机厂商将3D体感外设带入大众视野，带来了新奇的体感游戏。近三年，越来越多的智能手机开始配备3D传感器，并在AI的加持下，开拓出了更多更具想象空间

副标题[/!--empirenews.page--]

　　在上世纪70年代，工业界开始运用3D视觉技术测量和扫描物件，提高生产效率。最近10多年，家用游戏机厂商将3D体感外设带入大众视野，带来了新奇的体感游戏。近三年，越来越多的智能手机开始配备3D传感器，并在AI的加持下，开拓出了更多更具想象空间的应用场景。未来10年，AI+3D将无处不在，给我们的生活和工作带来深远影响。

　　赋予机器感知三维世界的“眼睛”

　　人类拥有与生俱来的3D环境感知和理解能力，这是因为我们用两只眼睛来捕捉图像，通过大脑处理形成立体视觉，从而辨认物体的形状方位、他人的动作，轻松自然地跟这个三维世界交互。

　　能否让机器也能感知三维世界呢?或许很多人会想到给机器添加一颗摄像头。但普通RGB摄像头拍摄的现实世界的影像，仅能采集场景中的色彩信息，无法采集物体和摄像头之间的距离和方位。也就是说，无论场景中的三维结构有多么丰富，对机器来说都是一个平面，一个二维世界。

　　3D视觉技术，就是赋予机器感知三维世界的信息和能力，并给我们带来颠覆性的价值。试想一下，将汽车立体模型通过增强现实(AR)技术投射出来，客户可360度观看，还能“开车门”，由此直观地提出意见，而不是一张张翻看照片；或者派无人机探索森林或洞穴，一边前行一边绘制周边场景的三维地形，而不是我们拿着一张平面地图亲自探险……

　　事实上，3D视觉技术目前已经在工业界取得成功，但在消费领域，受限于3D感知硬件的成本和体积、计算能力等困扰，很多场景并未激活。除了扫地机器人等个别终端外，我们的智能手机等移动设备，还处在二维世界里。但近几年，3D视觉技术终于开始走向个人终端，机器认知世界的新大门正在打开。

　　3D感知硬件小型化，ToF渐成主流

　　实现3D视觉能力，3D感知硬件的加持至关重要。目前主流的3D感知硬件技术包括双目视觉、结构光、ToF(飞行时间)以及激光雷达。

　　双目视觉系统是通过双摄像头同时进行成像，然后通过对比两个图像中每个像素点的相对位置差，来计算出该像素点在三维环境中的位置，类似于人双眼的工作原理。

　　结构光和ToF则能在RGB的基础上直接提供深度信息，属于RGB-D方案，在精度上比双目视觉更胜一筹。其中，结构光是通过投射大量光斑到物体上，然后根据光斑的形变量来判断其所处深度；ToF则是向物体发射连续的光脉冲信号，并接收返回的信号，通过计算信号发射和返回的时间来计算深度信息。相比之下，结构光在较短距离内拥有更高精度，而ToF支持的工作距离更长，适用于更加多元化的场景，且传感器模块少，体积小。

　　激光雷达的原理与ToF类似，但其感知距离更远，范围更大，精度也更高。很多自动驾驶汽车通过激光雷达来感知周围环境，不过缺点是成本过于高昂，只适用于特定场景。

　　在最近的三年，我们观察到的一个显著趋势是ToF和结构光的小型化，使得它成功地应用到了手机当中。而ToF以其体积更小、适用场景更广等优势，逐渐受到更多厂商青睐，很多最新的旗舰手机都将ToF作为一大卖点。据统计，2019年有约5000万台配备ToF的手机出货，业内预计2020年、2021年将分别达到1.5亿和5亿台，逐渐呈现出爆发态势，2020年全球智能手机3D感知硬件市场的规模也将到达99.25亿美元。

　　ToF在智能手机上的加速应用，有助于3D视觉技术的广泛普及化，成为接下来10年中非常重要的科技趋势。深入地触达消费市场，也激活了更多的应用创新可能。

　　AI技术，突破3D视觉技术的难点

　　3D感知硬件能够提供距离、深度等数据信息，但我们要的并不是单纯的数据，而是基于这些数据，通过不同的表达和理解方式，实现不同的应用。比如对三维场景进行数字化建模，或者绘制三维地图，从而让机器能够实时感知自己在所处空间中的位置，以便在运动时及时避开障碍物等。这需要根据深度信息生成深度图像，并与RGB图像，甚至是红外图像进行融合并完成大量计算。

　　但是，通过硬件感知的信息生成的深度图像，往往存在因硬件性能限制而产生的瑕疵，例如在细小或复杂交错的物体之间，出现深度信息估计错误等问题。此外，精准度、鲁棒性、实时性、效率等都是决定实际应用效果的关键。这都需要依靠额外的算法进行实时处理予以弥补和增强。

　　在工业场景中，由于应用相对单一，且3D感知硬件大多处于固定或平稳状态，很多难题可以通过编写特定算法加以解决。但在移动终端上，不规则的抖动、晃动等情况带来的难以预估的挑战，传统算法难以突破。

　　2012年，AI在计算机视觉领域取得突破，给3D视觉技术发展也带来了全新思路。AI可通过对大量实际数据进行学习，自行总结其中的规律和特征。这种方法可以在短时间内，完成传统算法需要多年才能突破的问题，有效弥补硬件能力的不足。

　　更为重要的是，AI不仅能感知场景中的三维结构，还能识别出场景中的三维物体是什么，在做什么。例如检测人、物体，识别人的姿态，跟踪物体的运行轨迹……这就进一步敞开了机器认知世界的新大门。

　　在我们看来，3D硬件的小型化，是3D视觉技术应用场景拓展和创新的硬件基础，而AI技术则是真正的动力引擎。两者密不可分，可以说，AI+3D视觉技术拐点已至。

　　AI+3D，紧密协作实现完美空间感知

　　目前，商汤科技已经将AI技术广泛地应用于3D感知的各个领域，开发了基于ToF等3D感知硬件的技术与产品，包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等，均体现了AI+3D的显著优势。

（编辑：广西网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

1199元起中兴远航30S	SEO工作的数据分析
创始人聊米家智能眼镜	众筹2499元起米家眼镜