计算机视觉创企Roboflow：自动驾驶汽车训练语料库遗漏关键数据-超级汽车网

日期：2022-04-26 作者：汽车网联系电话：浏览：1012

机器学习模型的性能取决于其训练的数据集的质量，而在自动驾驶领域，让此种性能不会受到失误的影响是至关重要的。据外媒报道，计算机视觉初创公司Roboflow发布了一份报告，据该公司创始人Brad Dwyer所说，用于训练自动驾驶汽车模型的语料库确实遗漏了关键数据。

计算机视觉创企Roboflow：自动驾驶汽车训练语料库遗漏关键数据

Dwyer表示，Udacity数据集2包含1.5万张白天在山景城和附近城市开车时拍摄的照片，其中就遗漏了关键数据。在大约5000个样本中，有数千辆未标记的车辆，数百名未标记的行人以及数十名未标记的骑自行车的车，占总数的33%（而217个样本中根本都没有任何注释，此类样本涵盖了汽车、卡车、路灯或行人）。更糟糕的是，还有“幻觉”注释以及除了“严重”加大的边界框（边界框指代感兴趣的对象），还有重复注释的边界框。

考虑到标签是让人工智能（AI）系统理解模式的含义（如有人走到了汽车前面），并基于此类知识评估未来事件，上述现象是很有问题的。错误标记或未标记的物体可能会导致准确性低、决策糟糕，从而为自动驾驶汽车带来灾难。

计算机视觉创企Roboflow：自动驾驶汽车训练语料库遗漏关键数据

AI很容易因为数据集不完整或不正确导致偏差，这很好理解。例如，单词嵌入（word embedding）是一种常见的算法训练技术，需要将单词与向量连接起来的，不可避免地会捕捉到源文本和对话中隐含的偏见内容，在最糟糕的情况下，此种偏见还会被放大。此外，相比于白人，很多面部识别系统错误识别有色人种的次数更多，而且谷歌图片（Google Photos）曾经将深肤色的人识别为“大猩猩。”

计算机视觉创企Roboflow：自动驾驶汽车训练语料库遗漏关键数据

但是，如果将表现不佳的AI用于汽车，就会造成更大的伤害。目前，还没有自动驾驶汽车引发碰撞事故的记录，但是目前公共道路上的自动驾驶汽车数量很少。不过，这种情况很可能会改变，根据市场营销公司ABI的数据，到2025年，将有多达800万辆无人驾驶汽车上路；而Research and Markets公司预计，到2030年，美国将有大约2000万辆无人驾驶汽车投入使用。

如果数百万的汽车运行的是有缺陷的AI模型，带来的影响可能是毁灭性的，会让公众更加不信任无人驾驶汽车。有两项研究 – 一项由布鲁金斯学会（Brookings Institution）和一项由高速公路与汽车安全倡议者（AHAS）表示，大多数美国人并不相信无人驾驶汽车的安全性。在布鲁金斯学会进行的调查中，超过60%的受访者表示，倾向于不乘坐自动驾驶汽车；而在AHAS的调查中，近70%的受访者对于与自动驾驶汽车共享道路表示了担忧。

解决数据集问题的方法可能在于更好地进行标记。根据Udacity数据集2的GitHub页面所说，众包语料库注释公司Autti结合使用机器学习与人工监工的方式来处理标记，目前尚不清楚是否此种方法导致了上述错误，不过严格的验证程序可能有助于发现上述错误。（文中图片均来自venturebeat.com）

打赏

更多>相关资讯

最新发布

推荐资讯

点击排行

联系电话: 微信：

• 一季度净利润转正，销量再创新高。大力士业绩	• 一季度利润猛增18倍。长城汽车的变现工具是什
• 2023年百万级豪华SUV销量榜：劳斯莱斯排名第十	• 2027年停售燃油车的东风本田今年纯电动车型销量
• 东风本田\| 发布2030新战略，“新”出发	• 庆祝成立75周年，本田有望以电动化形式“复活”
• 观点\| 本田水村早苗：2030年推出30款纯电动车型	• 索尼本田将推出三款新车与特斯拉竞争
• 2024年4月俄罗斯汽车销量大幅增长，前十中有9个	• 20万-40万，你要“脸”还是“腿”？这5款车一定