什么是合成数据?

由计算机模拟或算法生成的合成数据提供了一种廉价的替代现实数据的方法,而现实数据越来越多地用于创建精确的人工智能模型。
经过 杰拉德•安德鲁斯

数据是当今AI时代的新油,但只有幸运的少数人坐在喷丝上。所以,许多人正在制作自己的燃料,一个既低廉而有效。它被称为合成数据。

什么是合成数据?

合成数据是带注释的计算机模拟或算法作为现实世界数据的替代品的信息。

换句话说,在数字世界中创建了合成数据,而不是在现实世界中收集或衡量。

它可能是人为的,但合成数据在数学上或统计上反映了真实数据。研究表明对于培训AI模型而不是基于实际对象,事件或人员来训练AI模型可能会好甚至更好。

在NVIDIA驱动SIM与OMNiverse上生成的合成数据
用户可以在NVIDIA Omniverse内使用Python生成自动车辆的合成数据。

这就是为什么深度神经网必威体育特别活动络的开发人员越来越多地使用合成数据来训练他们的模型。的确,2019年勘察呼叫合成数据的使用“现代深度学习中兴起的最有前途的一般技术之一,依赖于图像和视频的非结构化数据。

俄罗斯圣彼得堡斯蒂克洛夫数学研究所的谢尔盖I.谢尔肯尼科的156页报道CITES 719篇论文。Nikolenko得出结论“综合数据对于进一步发展深度学习的进一步发展...... [和]许多潜在用例仍然被发现。

合成数据的兴起来到AI Pioneer Andrew NG呼吁广泛转移到更为数据以来的机器学习方法。他对索赔的基准或数据质量竞争的Rallying支持代表了AI中的80%。

“大多数基准提供一组固定的数据,并邀请研究人员对代码进行迭代……也许是时候保持代码不变,并邀请研究人员改进数据了,”他在他的通讯中写道,批处理

增强和匿名的与合成数据

大多数开发必威体育特别活动人员已经熟悉数据增强,这是一种涉及将新数据添加到现有的真实数据集的技术。例如,它们可能会旋转或亮起现有图像以创建新的图像。

鉴于隐私的担忧和政府政策,从数据集中删除个人信息是一个越来越常见的做法。这被称为数据匿名化,它特别适用于文本,这是一种在财务和医疗保健等行业中使用的结构化数据。

增强和匿名的数据通常不被认为是合成数据。但是,可以使用这些技术创建合成数据。例如,开发人员可以混合两个必威体育特别活动现实世界汽车的图像来创建一个带两辆车的新的合成映像。

为什么合成数据如此重要?

必威体育特别活动开发人员需要大的、仔细标记的数据集来训练神经网络。更多样的训练数据通常会使AI模型更精确。

问题正在收集和标记可能包含几千到数千万元素的数据集是耗时,并且通常非常昂贵。

输入合成数据。可以为六分之一的标签服务中占用标签服务6美元的单个图像,估计Paul Walborsky,他们共同创立了第一个专用的合成数据服务AI.Reverie之一。

节省成本只是开始。“综合数据是通过确保使用数据分集来代表现实世界的数据分集来处理隐私问题并减少偏差的关键。”沃尔巴罗基补充道。

因为合成数据集是自动标记的,并且可以有意地包括罕见但关键的情况,它有时比真实数据更好。

合成数据的历史是什么?

几十年来,合成数据已经以一种形式为单独。它在电脑游戏等飞行模拟器和从原子到星系的一切都是科学模拟。

哈佛统计教授唐纳德B. Rubin正在帮助美国政府的分支机构解决了欠款的问题,特别是当他击中一个想法时,尤其是普查中的贫困人口。他在1993年的论文中描述了它,通常被称为合成数据的诞生。

“我在那篇论文中使用的术语合成数据指的是多个模拟数据集,”鲁宾解释说。

“每个看起来都可以通过创建实际数据集的相同进程来创建,但没有一个数据集显示任何真实数据 - 在学习个人机密数据集时,这有一个巨大的优势,”他补充道。

合成数据的例子
点击生成动画:开发人员可以通过修改扩必威体育特别活动展合成数据集,从而提供更多的多样性和更好的AI精度。

在醒来之后人工智能大爆炸在2012年的ImageNet竞赛中,神经网络识别物体的速度比人类快,研究人员开始认真寻找合成数据。

在几年内,“研究人员在实验中使用了渲染的图像,并且它还足够好,即人们开始投资产品和工具,以产生与他们的3D发动机和内容管道的数据,”仿真高级总监Gavriel State说NVIDIA的技术和AI。

福特,BMW生成合成数据

银行,汽车制造商,无人机,工厂,医院,零售商,机器人和科学家今天使用合成数据。

最近的播客,福特的研究人员描述了它们如何结合博彩发动机和生成的对抗性网络(g)为人工智能训练创建合成数据。

优化它是如何使汽车的过程,宝马创建了一个虚拟工厂使用nvidia omniverse.,这是一个让公司使用多种工具协作的模拟平台。宝马产生的数据有助于调整装配工人和机器人如何协同工作,以高效制造汽车。

医院,银行和商店的合成数据

医疗成像等领域的医疗保健提供者使用合成数据来培训AI模型,同时保护患者隐私。例如,启动曲线训练诊断模型40万例模拟病例

Nikolenko在2019年的调查中表示:“基于gan的医疗成像架构,无论是生成合成数据还是调整来自其他领域的真实数据,都将定义该领域未来几年的技术水平。”

Gans也在金融中获得牵引力。美国快递研究了使用GANS的方法来创建合成数据,完善其检测欺诈的人工智能模型。

在零售业,等公司启动钳口使用3D仿真只需少到产品的五个图像,并创建一千张图像的合成数据集。此类数据集启用智能存储,客户抓住他们需要的东西,而无需等待结账行。

如何创建合成数据?

“从NVIDIA的说综合数据有一个BAZILION技术”以产生合成数据。例如,变形AutoEncoders压缩数据集以使其紧凑,然后使用解码器产生相关合成数据集。

虽然GAN在崛起,特别是在研究中,模拟仍然是一个受欢迎的选择,有两个原因。它们支持一系列工具来分段和分类静止和移动图像,生成完美的标签。他们可以快速用不同的颜色,照明,材料和姿势产生物体和环境的推销版本。

最后一个能力提供了对域随机化至关重要的合成数据,这项技术越来越多地用于提高AI模型的准确性。

专业提示:使用域随机化

领域随机化使用了对象及其环境的数千种变化,所以AI模型可以更容易地理解一般模式。下面的视频展示了智能仓库如何使用域随机化来训练人工智能机器人。

领域随机化有助于消除所谓的领域差距——如果人工智能模型在给定的某一天碰巧遇到的准确情况下进行训练,那么它就无法做出完美的预测。这就是为什么NVIDIA在Omniverse中构建合成数据生成工具的域随机化的原因最近的一次谈话中在GTC。

这些技术是帮助计算机愿景应用程序从图像中的对象移动到图像中的对象,以了解和理解视频中的活动。

“市场正在朝这个方向发展,但该技术更加复杂。合成数据在这里更有价值,因为它允许您创建完全注释的视频帧,“沃尔巴斯基说。

我在哪里可以获得合成数据?

虽然该部门只有几年,50多家公司已经提供合成数据。每一种都有自己的特色,通常专注于特定的垂直市场或技术。

例如,有少数人专门从事医疗保健用途。有六家公司提供开源工具或数据集,包括合成数据库,在麻省理工学院开发的一套图书馆,项目和教程。

NVIDIA旨在使用各种合成数据和数据标签服务。其中最新合作伙伴

  • ai.reverie.在纽约提供具有可配置传感器的模拟环境,让用户收集自己的数据集,并在农业,智能城市,安全和制造等领域工作。
  • 天空发动机该公司致力于开发各种市场的计算机视觉应用程序,可以帮助用户设计自己的数据科学工作流程
  • 以色列Datagen.从模拟中创建合成数据集,包括各种市场,包括汽车和建筑物的智能商店,机器人和室内设计。
  • CVEDIA包括基于合成数据的计算机愿景的可定制工具的空中客车,霍尼韦尔和西门子。

使市场与Omniverse

通过Omniverse,英伟达的目标是让越来越多的设计师和程序员有兴趣在每个行业的虚拟世界中建立或合作。合成数据生成是该公司预计将入驻的众多业务之一。

nvidia创造了isaac sim.作为机器人的omniverse中的应用。用户可以使用合成数据和域随机化培训在此虚拟世界中的机器人,并在现实世界中工作的机器人部署生成的软件。

Omniverse支持多个应用程序的垂直市场,如nvidia drive sim.对于自治车辆。它一直让开发人员在逼真的模拟安全中测必威体育特别活动试自动驾驶汽车,甚至产生有用的数据集在大流行中

这些应用程序是模拟如何实现人工智能合成数据承诺的最新例子之一。