在城市NOA逐渐成为智能汽车发展关键节点的背景下,自动驾驶行业的竞争焦点正逐步转向数据、算力和算法模型的完善。随着2023年上海车展后,业界对于“重感知+轻地图”、纯感知与融合感知路线,以及BEV+Transformer模型的共识形成,如何有效利用算力、算法和大规模高质量数据,成为实现自动驾驶商业化落地的关键。
在自动驾驶领域,数据被视为生命之源,其重要性不言而喻。特别是在端到端自动驾驶时代,数据的作用被空前放大。与传统基于规则的算法时代不同,端到端技术依赖于大量数据来训练模型,使其能够识别和预测各种驾驶场景。高质量的数据输入直接决定了模型输出的准确性和可靠性,这些数据不仅需要涵盖各种道路和天气条件,还要确保标注的准确性和多样性。
获取海量、多样化、高质量的数据是自动驾驶技术发展的首要前提。例如,特斯拉在自动驾驶数据积累方面走在了行业前列,其FSD测试里程目标达到60亿英里,以满足全球监管机构的要求。特斯拉通过不断扩大FSD功能覆盖更多用户,以获取更多的真实路况数据。这一策略显著提升了其自动驾驶系统的性能和泛化能力。
数据闭环的构建是实现自动驾驶系统持续优化和进化的核心。这包括数据的采集、回传、标注、训练以及最终的OTA反馈到车端。尽管数据闭环的概念并非新颖,但在自动驾驶领域,其复杂性和挑战性显著增加。除了传统的代码端问题解决,自动驾驶系统还需要关注AI模型的调整和优化,这引入了数据标注、模型训练等新环节。
在数据采集环节,自动驾驶企业面临诸多挑战,包括采集策略的制定、数据质量的定义和评估,以及数据分布的处理。同时,数据回传的成本和存储处理的延迟也是亟待解决的问题。在数据标注环节,尽管大模型的应用可以自动化部分标注工作,但复杂场景的标注仍需人工完成,这极大地增加了标注的成本和时间。
隐私保护和数据泛化问题也是自动驾驶企业在数据处理过程中必须严肃对待的挑战。不同车型传感器配置的差异导致数据采集的复用性降低,而合成数据的应用为解决这一问题提供了新的思路。
在自动驾驶领域,合成数据尤其适用于极端情况的模拟。这些极端情况难以在真实道路上进行模拟,但通过合成数据技术,可以在几小时内模拟数百万个极端场景,从而提升算法的性能和泛化能力。
数据在自动驾驶产业的驱动力不可忽视。完备的闭环模型需要大规模、高质量、多场景的数据支持,同时还需要高算力、高效率、相对低成本的算法模型,以及趋向自动化的数据标注与处理。数据闭环的每一步推进都是成本和效率的博弈,需要上下游企业共同合作,实现数据共享、技术开源和生态共建。在这条实现城市NOA和更高级别智能驾驶的道路上,每一步都至关重要。