什么是合成数据?

由计算机模拟或算法生成的合成数据提供了一种廉价的替代现实数据的方法,这些数据越来越多地用于创建精确的人工智能模型。
通过 杰拉德•安德鲁斯

编者按:本文于2022年10月31日更新

在当今的人工智能时代,数据是新的石油,但只有少数幸运儿坐在井喷上。因此,许多人都在自己制造燃料,一种既便宜又有效的燃料。这叫做合成数据。

什么是合成数据?

合成数据是计算机模拟或算法生成的带有注释的信息,可以替代真实数据。

换句话说,合成数据是在数字世界中创建的,而不是从现实世界中收集或测量的。

它可能是人为的,但合成数据在数学上或统计上反映了真实世界的数据。研究表明对于训练人工智能模型来说,它可以和基于实际物体、事件或人的数据一样好,甚至更好。

与Omniverse在NVIDIA DRIVE Sim上生成的合成数据
用户可以在NVIDIA Omniverse中使用Python为自动驾驶车辆生成合成数据。

这就是为什么深度神经网必威体育特别活动络的开发人员越来越多地使用合成数据来训练他们的模型。事实上,一个实地调查将合成数据的使用称为“现代深度学习中兴起的最有前途的通用技术之一,尤其是依赖于图像和视频等非结构化数据的计算机视觉”。

这份156页的报告引用了719篇关于合成数据的论文。报告总结说,“合成数据对深度学习的进一步发展至关重要……(而且)还有更多潜在的用例”有待发现。

人工智能先驱吴恩达(Andrew Ng)呼吁广泛转向以数据为中心的机器学习方法,而合成数据的崛起正是在此背景下出现的。他正在争取对数据质量基准或竞争的支持,许多人声称这代表了人工智能领域80%的工作。

他在他的通讯中写道:“大多数基准测试提供了一组固定的数据,并邀请研究人员对代码进行迭代……也许是时候保持代码固定,并邀请研究人员改进数据了。”批处理

Gartner表示,合成数据将主导人工智能
合成数据将成为人工智能应用的主要数据形式。来源:Gartner,“Maverick Research:忘掉你的真实数据——合成数据是人工智能的未来”,Leinar Ramos, Jitendra Subramanyam, 2021年6月24日。

一份报告在合成数据方面,Gartner预测,到2030年,人工智能中使用的大部分数据将由规则、统计模型、模拟或其他技术人为生成。

报告称:“事实是,如果没有合成数据,你将无法构建高质量、高价值的人工智能模型。”

为什么合成数据如此重要?

必威体育特别活动开发人员需要大量精心标记的数据集来训练神经网络。更多样化的训练数据通常会产生更准确的人工智能模型。

问题是,收集和标记可能包含几千到数千万个元素的数据集是费时的,而且通常非常昂贵。

输入合成数据。第一批专门合成数据服务之一的联合创始人保罗·沃博尔斯基估计,从标签服务中获得的一张可能需要6美元的图像,可以以6美分的价格人工生成。

节约成本只是开始。合成数据可以解决隐私问题,并通过确保用户拥有代表现实世界的数据多样性来减少偏见。

由于合成数据集是自动标记的,可以故意包括罕见但关键的极端情况,因此有时比真实数据更好。例如,在下面的视频中NVIDIA全能宇宙复制器生成合成数据,训练自动驾驶汽车在模拟停车场的购物车和行人之间安全行驶。

合成数据的历史是什么?

合成数据已经以这样或那样的形式存在了几十年。它存在于电脑游戏中,如飞行模拟器和从原子到星系的一切科学模拟中。

哈佛大学统计学教授唐纳德·b·鲁宾(Donald B. Rubin)在帮助美国政府各部门解决人口普查中漏报人口(尤其是穷人)等问题时,突然想到了一个主意。他在1993年的一篇论文中描述了这一点,经常被引用为合成数据的诞生。

鲁宾解释说:“我在那篇论文中使用了合成数据一词,指的是多个模拟数据集。

他补充说:“每个数据集看起来都可能是由创建实际数据集的同一过程创建的,但没有一个数据集透露任何真实数据——这在研究个人机密数据集时具有巨大的优势。”

合成数据示例。
点击动画:开发人员可以扩展合成数据集必威体育特别活动,提供更多的多样性和更好的人工智能精度。

在这之后人工智能的大爆炸在2012年的ImageNet比赛中,神经网络识别物体的速度超过了人类,研究人员开始认真寻找合成数据。

NVIDIA的模拟技术和人工智能高级总监Gavriel State说,几年之内,“研究人员就在实验中使用渲染图像,而且回报不错,人们开始投资产品和工具,用他们的3D引擎和内容管道生成数据。”

增强和匿名数据与合成数据

大多数开发必威体育特别活动人员已经熟悉数据增强,这是一种向现有的真实数据集添加新数据的技术。例如,他们可能会旋转或照亮现有的图像来创建一个新的图像。

考虑到人们对隐私的担忧和政府政策,从数据集中删除个人信息是另一种越来越普遍的做法。这叫做数据匿名化它尤其适用于文本数据,这是一种用于金融和医疗保健等行业的结构化数据。

增强数据和匿名数据通常不被认为是合成数据。但是,可以使用这些技术创建合成数据。例如,开发人员可以混合现实必威体育特别活动世界汽车的两张图像,以创建一个包含两辆汽车的新合成图像。

福特,宝马生成合成数据

事实上,汽车制造商——以及银行、无人机、工厂、医院、零售商、机器人和科学家——如今都在使用合成数据。

最近的播客,福特的研究人员描述了他们如何结合游戏引擎和生成对抗网络(甘斯)来创建人工智能训练的合成数据。

为了优化生产汽车的过程,宝马创建虚拟工厂使用英伟达Omniverse这是一个模拟平台,允许公司使用多种工具进行协作。宝马生成的数据有助于微调组装工人和机器人如何协同工作,以高效地制造汽车。(见下面的视频)。

在物流方面,亚马逊机器人公司使用合成数据来训练机器人确定包不同类型和大小的。食品和饮料巨头百事公司使用Omniverse Replicator来生成用于训练人工智能模型的合成数据英伟达道,使其运作更有效率。(见下面的视频。)

医院、银行和商店的综合数据

医疗成像等领域的医疗保健提供商使用合成数据来训练人工智能模型,同时保护患者隐私。例如,创业公司Curai训练一个诊断模型在40万个模拟医疗案例上

Nikolenko在他2019年的调查中说:“基于gan的医学成像架构,无论是生成合成数据还是适应来自其他领域的真实数据……都将定义未来几年该领域的最先进水平。”

GANs在金融领域也越来越受欢迎。美国运通研究了如何使用GANs来创建合成数据,完善其检测欺诈的人工智能模型。

在零售业,像启动雀跃使用3D模拟来拍摄产品的5张图像,并创建一个包含1000张图像的合成数据集。这样的数据集使智能商店成为可能,顾客可以在商店里买到他们需要的东西,不用排队结账。

如何创建合成数据?

NVIDIA的State表示,“有无数种技术”可以生成合成数据。例如,变分自动编码器压缩数据集以使其紧凑,然后使用解码器生成相关的合成数据集。

在另一种方法中,NVIDIA的研究人员使用AI将2D视频数据转化为完整的3D模拟。他们的神经重建引擎,现在是NVIDIA驱动,让用户自动化开发模拟和数字的双胞胎如下面的视频所示。

另外,NVIDIA正在开发数千个成熟的现实物体的3D模型,如叉车、调色板和梯子,开发人员可以将它们放入模拟中。必威体育特别活动这些SimReady资产是否可用于英伟达Omniverse这是一个在虚拟世界的元宇宙中创建和协作的平台。

虽然GANs正在崛起,特别是在研究领域,但模拟仍然是一个受欢迎的选择,原因有两个。它们支持许多工具来分割和分类静态和动态图像,生成完美的标签。它们可以快速生成不同颜色、灯光、材质和姿势的物体和环境版本。

最后一个功能提供了对领域随机化至关重要的合成数据,这种技术越来越多地用于提高AI模型的准确性,并根据任何用户应用程序的需求对其进行定制。

专业提示:使用域随机化

领域随机化使用对象及其环境的数千种变化,因此人工智能模型可以更容易地理解一般模式。下面的视频展示了智能仓库如何使用域随机化来训练人工智能机器人。

领域随机化有助于缩小所谓的领域差距——如果人工智能模型被训练在特定一天碰巧发现的确切情况下,它将做出完美预测的空间不足。这就是为什么NVIDIA将用于合成数据生成工具的领域随机化构建到Omniverse中,这是中描述的工作的一部分最近的一次谈话GTC。

这些技术正在帮助计算机视觉应用程序从检测和分类图像中的物体转变为查看和理解视频中的活动。

合成数据在处理视频时尤其有价值,用户可以创建完全注释的视频帧。专家们预计这种方法会火起来。

我可以在哪里获得合成数据?

虽然这个行业只有几年的历史,近100家公司已经提供合成数据。每个公司都有自己的特色,通常专注于特定的垂直市场或技术。

例如,少数公司专门从事医疗保健用途。六家公司提供开源工具或数据集,包括合成数据仓库这是麻省理工学院开发的一套库、项目和教程。

NVIDIA的目标是与广泛的合成数据和数据标签服务合作。在其最新的合作伙伴

  • 合成的人工智能使用合成数据帮助客户构建用于计算机视觉应用的高级AI模型。
  • 天空引擎该公司总部位于伦敦,致力于跨市场的计算机视觉应用程序,并可以帮助用户设计自己的数据科学工作流程
  • 以色列Datagen为广泛的市场创建模拟合成数据集,包括智能商店、机器人和汽车和建筑的内饰。
  • CVEDIA其基于合成数据的计算机视觉定制工具的用户包括空客、霍尼韦尔和西门子。

用合成数据训练机器人

通过Omniverse, NVIDIA的目标是让越来越多的设计师和程序员有兴趣在每个行业的虚拟世界中构建或协作。合成数据生成是该公司预计将在那里开展的众多业务之一。

英伟达创建艾萨克Sim作为机器人技术的全宇宙应用。用户可以在这个虚拟世界中使用合成数据和领域随机化训练机器人,并将得到的软件部署到在现实世界中工作的机器人上。

Omniverse支持垂直市场的多种应用程序,例如NVIDIA DRIVE Sim卡自动驾驶汽车。它一直让开发人员在真实模拟的安全环境必威体育特别活动中测试自动驾驶汽车,甚至生成有用的数据集在大流行期间

这些应用是模拟如何实现人工智能合成数据承诺的最新例子之一。

了解关于合成数据的更多信息

有关合成数据的更多信息,请查看以下资源: