车东西(公众号:chedongxi)
文 | 肖涵

自(zi)动驾(jia)驶技术经过多年发展,已经进(jin)入(ru)到了落地的关键(jian)时期,媒体(ti)和公众往往也喜欢将视线都聚焦(jiao)在自(zi)动驾(jia)驶公司身上。

但在(zai)长(zhang)沙、广州等(deng)地(di)已(yi)经落地(di)行驶的无人(ren)出租车背(bei)后,其(qi)实(shi)都离不开AI数据采集标注这个(ge)工种。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲自动驾驶数(shu)据(ju)标注图(tu)示

正(zheng)(zheng)(zheng)是海量高质量AI测数据(ju)的(de)(de)(de)“喂(wei)养”,才(cai)让无(wu)(wu)人车(che)上(shang)搭载的(de)(de)(de)AI算法(fa)能(neng)够感(gan)知识(shi)别道(dao)路上(shang)的(de)(de)(de)物体,可以说(shuo)数据(ju)训练对(dui)于自动驾驶(shi)(shi)来讲,发挥着“眼睛”的(de)(de)(de)作(zuo)(zuo)用,如果不能(neng)正(zheng)(zheng)(zheng)确(que)感(gan)知道(dao)路环境,智能(neng)驾驶(shi)(shi)的(de)(de)(de)决策(ce)系统就无(wu)(wu)法(fa)正(zheng)(zheng)(zheng)常工作(zuo)(zuo)。

那(nei)么自动(dong)驾(jia)驶公司到底需要(yao)什么样(yang)的(de)数(shu)据?背(bei)后的(de)AI数(shu)据采集和标注工(gong)作又是如何进行(xing)的(de)呢?

带着这些(xie)疑问(wen),车东西(xi)与(yu)国内头部(bu)数据(ju)采(cai)集标注(zhu)公司云(yun)测数据(ju)总经理(li)贾宇(yu)航进行了一次长达90分钟(zhong)的深度对(dui)话,揭开了AI数据(ju)采(cai)集标注(zhu)行业的神秘面(mian)纱。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲云测数据房山(shan)办公区

一、自动驾驶头部企业的特征:数据量第一

谷歌是全球(qiu)公(gong)认的自动(dong)驾驶领头羊,但官方在宣传时,其实很少(shao)直接说自己(ji)的技(ji)术如(ru)何厉害,不过其往(wang)往(wang)会重(zhong)点(dian)强调一个(ge)数据,就(jiu)是自己(ji)的路测里程数,超过多少(shao)多少(shao)万英(ying)里。

在(zai)此前(qian)Waymo公布第五代自动驾驶系统时,其(qi)实(shi)际路测里程(cheng)已经(jing)到达2000万英里(3200万公里),虚拟测试(shi)里程(cheng)更是超过了160亿公里。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲Waymo的(de)无人车(che)在(zai)街头采集(ji)数(shu)据

自动(dong)驾驶软件的核心环节为感知(zhi)和决(jue)策。

为了实现更(geng)好(hao)的(de)(de)感(gan)知结果(guo),大部分公司都会(hui)引(yin)入深度学习等(deng)AI技术。而想让(rang)深度学习的(de)(de)模型(xing)对某一类物体的(de)(de)识(shi)别(bie)率足够精准,就需要大量该类物体的(de)(de)不同(tong)数据(ju),例(li)如图像、视频、3D点云等(deng)。

与此同时,无人车想要量(liang)产,还必须要能够应付各类小(xiao)(xiao)概(gai)(gai)率(lv)事(shi)件(比如十(shi)字(zi)路口突(tu)然有(you)行人摔(shuai)倒在地的情况(kuang)),为(wei)了让决策算法(fa)能够适应这种小(xiao)(xiao)概(gai)(gai)率(lv)事(shi)件,自动驾(jia)驶公(gong)司也需要有(you)这种小(xiao)(xiao)概(gai)(gai)率(lv)事(shi)件的数据进行针对(dui)性地研(yan)发和测试。

所以总结一(yi)下就是,无论(lun)在感知还(hai)是决策环节(jie),自动(dong)驾(jia)驶公司(si)都需要大量(liang)的交通数据来进行研发和测试,数据量(liang)就决定了自动(dong)驾(jia)驶公司(si)的技(ji)术水(shui)准。

这正是Waymo为(wei)什么一直强(qiang)调自家(jia)数据量(liang)足够大(da)的原因(yin)。

除(chu)了Waymo,也在量产(chan)车(che)上(shang)(shang)部署(shu)了一(yi)个影子模(mo)式,就是(shi)在人(ren)类驾(jia)(jia)驶(shi)员开车(che)时,其名为Autopilot的L2级自动驾(jia)(jia)驶(shi)系(xi)统(tong)也会工作(zuo),去(qu)收集一(yi)些特定数据,然后上(shang)(shang)传到后台(tai)来优化Autopilot系(xi)统(tong),并(bing)逐步从L2升级到FSD(L4级完全自动驾(jia)(jia)驶(shi))。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲特斯拉的L2级自动驾驶系统表现极佳

特斯(si)拉旗下(xia)的(de)车型目前(qian)总销量超过100万(wan)台(tai),按照每台(tai)车2万(wan)公里(li)/年的(de)行(xing)驶里(li)程来算,特斯(si)拉每年理论上最多可收(shou)集(ji)200亿公里(li)的(de)实际(ji)路测数(shu)据(实际(ji)情况只收(shou)集(ji)特定数(shu)据)。

正是这样的数据规模(mo),才让特斯拉的Autopilot系统(tong)遥(yao)遥(yao)领(ling)先于(yu)奔驰、宝马、大众等传统(tong)车企,并且不断推出像(xiang)是Navigate on Autopilot、智能召唤、红绿(lv)灯(deng)识别等新功能。

总结(jie)来(lai)看,自(zi)动驾驶技术领先的(de)企业,数据量一定领先。

二、自动驾驶争夺战打响 对高质数据需求增加

自动(dong)驾驶技术应用后(hou),不仅(jin)仅(jin)能够解放人类驾驶员(yuan),还能组成智慧交(jiao)通体系(xi)提升(sheng)整(zheng)个社会的(de)通行(xing)(xing)效率,并改变(bian)网约(yue)车行(xing)(xing)业(ye)(ye)、汽车行(xing)(xing)业(ye)(ye)、运输行(xing)(xing)业(ye)(ye)甚(shen)至是零售行(xing)(xing)业(ye)(ye)(例如移动(dong)无人商店),意义重大。

所以在谷(gu)歌(ge)Waymo研发数年后,中国、美(mei)国、欧洲、日韩(han)等(deng)(deng)地区也(ye)相(xiang)继涌(yong)现出大量自(zi)动驾驶(shi)公司,而(er)像是苹果、英特尔、百度、上汽、通用、本田等(deng)(deng)IT巨头、车(che)企(qi)巨头也(ye)加入到战局之中,一(yi)场席卷(juan)全(quan)球的自(zi)动驾驶(shi)技术争夺战已然打响(xiang)。

正如前文所(suo)言,在研发高等级自动(dong)驾驶(shi)技术(shu)时,还原实际场(chang)景(jing)的(de)路(lu)测(ce)数据或交通(tong)数据,是关键“燃料”。在这场(chang)自动(dong)驾驶(shi)技术(shu)争(zheng)夺(duo)战的(de)背后,高质量(liang)的(de)数据已然成(cheng)为(wei)各(ge)大玩家护城(cheng)河建设的(de)重(zhong)中之重(zhong)。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲美国街头的Waymo无人车(che)

为(wei)(wei)了(le)助力本国(guo)企业抢(qiang)占(zhan)自(zi)动驾驶(shi)技(ji)术高地(di),各国(guo)政(zheng)府也在迅速出(chu)台政(zheng)策为(wei)(wei)技(ji)术应用落地(di)铺(pu)路,并规范行业发(fa)展。

例(li)如(ru)今年2月份(fen),发(fa)改委、工(gong)信(xin)部(bu)、财政部(bu)等11部(bu)委联(lian)合(he)印发(fa)的《智能汽车创新(xin)发(fa)展(zhan)战略(lve)》,给了智能汽车一(yi)个较为清晰准确的发(fa)展(zhan)时(shi)间规划(hua),在(zai)业内人士看来(lai),“战略(lve)”勾勒出智能汽车发(fa)展(zhan)的“远大前景”。

又例(li)如(ru)北(bei)京最近出(chu)台的路测(ce)规定,已经允许(xu)无(wu)人车进行载(zai)人测(ce)试(shi)(shi)(即无(wu)人出(chu)租车可以上路测(ce)试(shi)(shi)了(le)),但同(tong)时也提(ti)出(chu)了(le)一系列要(yao)求(qiu),比如(ru)想要(yao)申请载(zai)人测(ce)试(shi)(shi),需要(yao)先通(tong)过(guo)(guo)实(shi)车+仿真测(ce)试(shi)(shi),且此前的无(wu)载(zai)人测(ce)试(shi)(shi)中(zhong),最近1年内不能出(chu)现过(guo)(guo)交通(tong)事(shi)故(gu)。

毫无疑问,随着自动(dong)驾(jia)驶(shi)竞赛的(de)(de)逐渐白(bai)热化(hua)和政策的(de)(de)不断(duan)演变,自动(dong)驾(jia)驶(shi)行业对(dui)行驶(shi)过程中涉(she)及的(de)(de)真(zhen)实场景数(shu)据的(de)(de)需求量可(ke)谓是日益剧增(zeng),谁(shei)拥有更多的(de)(de)数(shu)据,谁(shei)就能够在这场争夺战(zhan)中取胜。

三、云测数据深耕质量 致力于为行业提供好数据

自动驾驶研发离(li)不开数据(ju)的支持(chi),但数据(ju)也并非是“傻多”,还需(xu)要质量到位(wei)才能发挥作用。

云测数据(ju)总经理贾(jia)宇航告诉车东西,高质量的数据(ju)有三个大框架——还(hai)原场景(jing)、大数据(ju)量、标注精(jing)准(zhun)度高。

还原场景就是说自(zi)动驾(jia)驶(shi)数据要(yao)(yao)有针对性,比如(ru)某自(zi)动驾(jia)驶(shi)公司(si)想训练一下无人车(che)应(ying)对十字路口(kou)行(xing)人摔倒这种突(tu)发情况的能力,那么算法需要(yao)(yao)的场景数据就必(bi)须是发生在十字路口(kou),如(ru)果(guo)是高速公路则(ze)必(bi)然不行(xing)。

同(tong)样的(de),即使(shi)是(shi)在十(shi)字(zi)路(lu)口(kou)这一特(te)定(ding)场景下(xia),还要(yao)尽可能多(duo)的(de)让(rang)数据丰(feng)富(fu)起来,比如是(shi)白天(tian)、黑夜、雨天(tian)、阴天(tian)的(de)十(shi)字(zi)路(lu)口(kou),同(tong)时行人的(de)衣着、摔倒的(de)姿势、过程,也要(yao)尽可能地(di)覆盖更多(duo)的(de)可能性(xing)。

只有这样,才能让无(wu)人车上的(de)AI技(ji)术完(wan)整识(shi)别所需场景,并(bing)作(zuo)出正确决(jue)策。

对自动驾驶(shi)公司来说,想(xiang)要收集到类似“路口行人摔倒”的场景数据,自然十分耗(hao)(hao)时耗(hao)(hao)力。

为(wei)了解决这一难题,云测数据(ju)在(zai)北京、横店、天津(jin)等地搭建了场(chang)(chang)景(jing)(jing)实验室,为(wei)的就(jiu)是能够(gou)模拟还原不(bu)同(tong)的场(chang)(chang)景(jing)(jing)来进行(xing)数据(ju)采集。

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲云测(ce)数据的成员在搭建场景(jing)实验室

“比(bi)如我们在我们自己的数(shu)据采集基地搭建了路口(kou)这(zhei)个(ge)(ge)场景(jing)后,会招募上千名群演(yan)过来模(mo)仿路人(ren)摔倒的情(qing)况,每个(ge)(ge)人(ren)的衣(yi)着、行为举止(zhi)都不一样(yang),并且还(hai)会考虑到白天、黑夜、黄昏(hun)等不同的光照条件,来还(hai)原客户所需要的场景(jing)数(shu)据,做到足够真实。”贾宇航(hang)这(zhei)样(yang)说道。

通常情况(kuang)下,云测数据(ju)团队(dui)会使用(yong)自动(dong)驾驶公(gong)司提(ti)供的无(wu)人车(che)来采集数据(ju),以(yi)完美(mei)匹配该公(gong)司的传感器(qi)设定。而如(ru)果暂(zan)无(wu)车(che)辆可用(yong),云测数据(ju)团队(dui)也拥(yong)有自购(gou)的各类(lei)激光雷(lei)达、摄像头等硬件(jian)设备(bei),并拥(yong)有专业人员进(jin)行传感器(qi)标定,可以(yi)满足不同自动(dong)驾驶公(gong)司需求。

采集足够丰富的(de)数据只是提(ti)供“养料”的(de)第一步(bu),随(sui)后还要(yao)对数据中的(de)关键物体(例如(ru)车辆、行(xing)人、甚(shen)至是固定(ding)物体)进行(xing)标注,才能供深度学习(xi)算(suan)法使用。

数(shu)据(ju)(ju)标(biao)(biao)注(zhu)工作不(bu)仅需要标(biao)(biao)注(zhu)人员拥有(you)特定领域知(zhi)识来保证数(shu)据(ju)(ju)标(biao)(biao)注(zhu)的(de)精(jing)准(zhun)性(xing),同时又对(dui)标(biao)(biao)注(zhu)工具的(de)熟(shu)练(lian)使(shi)用、以及(ji)作业中(zhong)的(de)效率(lv)保证、标(biao)(biao)准(zhun)化流转管理(li)等等众多因素有(you)着要求。对(dui)于自动驾驶(shi)公司来说(shuo),将数(shu)据(ju)(ju)标(biao)(biao)注(zhu)工作交给云测数(shu)据(ju)(ju)这类专业公司其(qi)实(shi)是(shi)最好的(de)选择(ze)。

这方面,云测数(shu)据在(zai)华东、华南、华北等地拥有(you)着自建的(de)数(shu)据标(biao)注基地,通过具有(you)自主知识(shi)产权(quan)的(de)标(biao)注平台和专业(ye)的(de)标(biao)注人员团队,为高质量的(de)AI数(shu)据交付提供着坚实支撑。

“数(shu)据标(biao)注(zhu)的(de)准确(que)率和贴(tie)合(he)度(du)至关重要,比如要在(zai)一个(ge)2D图(tu)(tu)片或(huo)3D点云(yun)图(tu)(tu)里标(biao)注(zhu)出汽车,要尽可(ke)能地不出现错标(biao)和漏标(biao)的(de)情(qing)况。同时,标(biao)注(zhu)的(de)矩(ju)形框还要尽可(ke)能地与物体(ti)贴(tie)合(he)。”贾(jia)宇航解(jie)释道,“云(yun)测数(shu)据利用自主(zhu)开发的(de)标(biao)注(zhu)工具(ju),即使是3D点云(yun)图(tu)(tu)像(xiang),也可(ke)以(yi)保证数(shu)据标(biao)注(zhu)的(de)流畅性(xing)和时效性(xing),以(yi)及行业内(nei)领(ling)先的(de)数(shu)据标(biao)注(zhu)精准度(du)。而像(xiang)是2D图(tu)(tu)像(xiang)中(zhong)的(de)标(biao)注(zhu)贴(tie)合(he)度(du),也可(ke)以(yi)做到5个(ge)像(xiang)素以(yi)内(nei)。”

无人车落地离不开它!揭秘高质量AI数据这条护城河

▲云测数(shu)据的团(tuan)队在进行3D点云标注

“正是定制化的(de)场(chang)景、丰富的(de)数据(ju)量(liang),还有(you)高质(zhi)量(liang)的(de)标注结(jie)果,让云测数据(ju)获得了行业内(nei)几乎(hu)所有(you)的(de)自动驾驶客(ke)户认可,既包括自主、合资车(che)企,大(da)型Tier1,也有(you)做无人出租车(che)的(de)自动驾驶公司。”贾宇航这样(yang)说(shuo)道(dao)。

据(ju)(ju)贾宇航介绍,涉(she)足自动驾驶(shi)领(ling)域3年多来,云测(ce)数(shu)据(ju)(ju)仅在难度较(jiao)大的(de)3D点云数(shu)据(ju)(ju)上,就大概输出了(le)接近1000万帧的(de)数(shu)据(ju)(ju),可谓是(shi)经(jing)验丰富。

“我(wo)们(men)的产品价(jia)格处于主流区间,不(bu)仅(jin)能提供丰富的高质量场景化数据(ju),还能保证项目的高效(xiao)交(jiao)(jiao)付(fu),获得了很多(duo)客户的好评,有(you)些自动(dong)驾驶公(gong)司(si)还会直接(jie)跟我(wo)们(men)签订(ding)年度服务协(xie)议,把他们(men)采集的数据(ju)交(jiao)(jiao)给(ji)我(wo)们(men)来进行标注。”在对话最后,贾(jia)宇航(hang)这样说道。