cv是什么(计算机行业cv是什么)

下面这篇文章来自数据战斗学校，作者是保罗·波普。

从数据转到实战派

作者:保罗·波普(神经实验室首席执行官)

译者:张育甲

原文:我们用算法观察如何破坏计算机视觉:以及合成计算机视觉如何修复它

深度学习的出现带动了整个机器学习领域的发展，以数据为中心的发展也是如此。

本文将讨论主流计算机视觉(CV)的缺陷和未来的发展重点:合成计算机视觉(SCV)。

计算机视觉的现状

根据Crunchbase的统计，过去8年对1800多家计算机视觉创始公司的投资价值超过150亿美元。福布斯数据还表明，现在有20多家估值超过10亿美元的CV公司，而且还在增加。

为什么这些公司的价值如此之高？因为它们教会计算机如何看待世界，并自动完成以前通过人类视觉完成的任务。

这种繁荣是2012年计算机视觉领域出现神经网络技术之后才有的。神经网络是一种模拟人脑的算法，利用大量的人类标记数据进行训练。自2012年以来，该算法经过多次稳步改进，在一些视觉任务上的性能与人类相当，如目标计数、唇语识别或癌症筛查。

在过去的10年里，很多人为计算机视觉的发展做出了贡献:学术界研究了更好更先进的算法；大公司投资那些试图给图像数据集贴标签的人。有些成果也会开源让大家受益，比如包含1400万图像数据的ImageNet数据集。

然而，当我们将这些系统部署到产品中时，我们会遇到以下问题:

1.现有的标注数据并不可靠。麻省理工学院的一个团队在系统研究机器学习(ML)数据集时发现，ImageNet数据集中标记错误的错误率为5.93%，其他数据集的平均错误率为3.4%。

2.很少有人去解决数据本身的问题。学术界大多把智慧集中在算法开发上，忽略了对好数据的需求。吴恩达曾经说过，人们99%的注意力都集中在算法上，而只剩下1%的数据。

3.计算机视觉算法不能很好地从一个领域扩展到另一个领域。用于在法国南部检测车辆的算法使得在白雪覆盖的挪威检测车辆变得困难。同样，在特定相机上训练的系统很可能在另一个相机制造商或型号上失败。

早在1946年，艾伦·都灵就提出将国际象棋作为计算机能力的评价标准之一。经过更深入的研究，这个标准得到了很多媒体的认可。

Elo评分系统是一种普遍接受的衡量国际象棋表现的方法，它可以有效地比较每个人的国际象棋技能。下面是世界冠军和棋牌游戏引擎的分数。过去50年，人类的表现一直徘徊在2800点，但在2010年被计算机超越。

近十年来，人类一直在根据自己能理解的规则设计象棋算法。但是，深度学习革命可以超越人类理解的范围，带来像计算机视觉一样的飞跃。

图|国际象棋引擎和人类ELO评分

虽然国际象棋游戏引擎在深度学习的技术下取得了不错的进步，但是已经被下一代国际象棋引擎超越:DeepMind的AlphaZero。更神奇的是，AlphaZero没有使用任何人类提供的数据。它是在没有任何国际象棋游戏知识的情况下建造的，也没有任何关于最佳行走方式的人类指导。AlphaZero既是老师也是学生——通过比赛和自己学习，自学如何更好地下棋。

AlphaZero一局未输，击败了当时最好的Stockfish 8引擎。即使给AlphaZero少一个数量级的考虑时间，这种优势依然可以保持。

看到AlphaZero取得的显著成就，人们不禁要问:能否将其在国际象棋上的成功应用于计算机视觉？

以数据为中心的人工智能

以数据为中心的人工智能的目的不是创造更好的算法，而是通过改变数据本身来提高模型性能。即使不考虑图像数据集的获取和标注难度，数据质量的问题依然存在:数据是否覆盖了所有可能的情况？你想报道边境的情况吗？

如果要构建以数据为中心的计算机视觉，就必须控制数据的来源。为了使计算机视觉模型更好地学习和理解参数，需要保证数据的平衡。

例如，我们想要控制三个参数:相机角度、光照和遮挡。当你收集这样一个真实的数据集时，你必须设法控制这三个参数的值，同时收集1000个相关的图像。但是有了这些真实的数据，任务还是很艰巨的。

在过去的五年中，我们在优化数据收集流程和提高数据标签质量方面取得了巨大进步。此外，将使用各种数据增强技术来充分利用数据集信息。例如，将一些数学函数应用于数据集中的图像，以创建更多样化的数据。

目前，有400多家公司，总市值为1.3万亿美元(略高于脸书)，满足了当今算法的数据需求。

然而，这些方法最终会走进死胡同吗？算法在人类数据集上达到极限了吗？就像我们在国际象棋中使用人类数据作为算法的输入一样，模型会受到数据集设计的限制，无法超越人类。

在国际象棋中，如果我们停止建立人类的数据，允许机器建立自己的数据来优化学习过程，那么后深度学习将会有所突破。在计算机视觉中，我们还必须允许机器独立生成能够促进其学习的数据。

CV:合成计算机视觉

通过虚拟现实引擎，可以更好地创建训练数据。在精度上，模型的输出已经达到了现实世界的标准。意味着可以通过模型生成智能数据来指导计算机视觉模型的学习。这种合成数据可以成为以数据为中心的人工智能框架的基础。

因此，我认为现在有必要广泛使用可视化合成数据。

虚拟现实引擎有专门的生成合成数据的组件（比如 NVIDIA IsaacSim，Unity Perception），这些合成数据不仅美观，而且有助于训练更好的算法。

3D 功能正迅速成为一种必需品——最新的 iPhone 手机就配备了激光雷达（LiDAR）和用于 3D 扫描的应用程序，来达到更好的性能。

元宇宙（Metaverse）的时代即将开始。人们将会渐渐习惯生活在虚拟现实的世界中。比如未来的宝马制造厂和谷歌的孪生供应链，就会应用到数字孪生技术。行业的领头者已经开始使用虚拟现实技术来改进计算机视觉算法：特斯拉（Tesla）就在利用虚拟现实技术来生成驾驶场景的边缘情况和更多的新视角。

如果我们有合适的工具来建立数据集，我们就可以省去手动标记数据的繁琐过程，更好地开发和训练计算机视觉算法。Gartner认为，未来三年，合成数据将比真实数据更占优势。

如果我们向前迈一步呢？进入一个计算机视觉不需要人类标记图像的世界。

通过合成计算机视觉，我们可以在虚拟现实中建立模型，并在现实世界中部署它们。就像在国际象棋比赛中，AlphaZero可以自己学习重要的部分，所以我们用算法来决定模型需要学习什么，才能达到最好的学习效果。

在合成计算机视觉(SCV)中，我们使用虚拟现实引擎来训练计算机视觉模型，并将训练好的模型部署到现实世界中。

人眼能看到的远不如现实世界丰富，所以我们构建的算法只能达到人类能理解和标记的信息范围。但事实可能并非如此，因此我们可以为传感器构建算法，以测量人类感知范围之外的事物。这些算法可以通过虚拟现实中的编程进行有效训练。

与其建立更大的模型，用更多的计算能力去解决问题，我们还不如获得更好的对算法学习有帮助的数据。算法的学习不需要相同类型的数据，而是各种不同的数据。

《深度心灵》显示，AlphaZero只是一个开始，他们已经将同样的方法应用到围棋、星际争霸和蛋白质折叠中。现在我们已经拥有了为计算机视觉构建一个类似AlphaZero的系统的所有必要组件，这样它就不会受到人类设计输入的限制，可以自我学习。该系统可以创建和操作虚拟场景，并通过自学解决视觉自动化的任务。

合成计算机视觉是基于合成数据的。前期大概有30家左右的公司开始了可视化合成数据生成的业务。一些公司专注于一个垂直领域的特定用例，而大多数公司同时在多个垂直领域进行。

2021年只是新研究的开始，合成数据只是需要解决的问题的一小部分。

图|合成数据公司

cv是什么(计算机行业cv是什么)

相关推荐