单件3分钱那些喂养大模型的人
她在一家东北三线城市的小公司工作,这里的工作环境还不错:办公地点在写字楼里,有格子间工位和电脑,颇有“科技公司”的味道。入职时公司说,这份工作“没有门槛”,她接的第一个项目,就是给无人驾驶的图像“拉框”添加标注,其中有2D的街道图,也有来自激光雷达等的图像,后者是三维的,由密集的“点”构成物体的集合,称为3D点云图。
图像标注的要求实际上并不复杂:标注时要区分照片的颜色,或者对图像中出现的人和物体进行分类。标注员按照轮廓拉方框来框出对象,并标注它们的各种属性,比如这是汽车、这是云朵、这是大树等。
这听起来很简单,但凯凯认为,这也不是个轻松的活儿。图像中的情况错综复杂,比如交通繁忙的路口,行人和车辆密密匝匝,看得人眼花缭乱;动态图往往是连帧的,有变道的车会被物体遮挡,也需要标注员进行联想,一个一个地找到、标注出来。
尤其是3D点云,图像是由一个个点组成的,边缘上的物体非常容易被漏掉。有的被挡住的车几乎看不到,但大多数公司规定,只要超过10个点的物体,就必须画框。数据标注的容错率一般在95%以上,也就是说,一个标注员拉上100个框,至少有95个要是准确无误的,否则就会被打回来返修。而在很多公司,正确率要求现在都达到了98%-99%。
分辨这些非常耗神,坐得时间久了,腰酸背痛不说,“费眼睛”更是所有人的抱怨。
一般人提到人工智能(AI)从业者,脑海里最先浮现的往往是北上广大厂里的程序员,他们做的是写代码、迭代算法等“高大上”的工作,月薪动辄上万。但在金字塔底端的,却是这些来自三四线城市的数据标注员们。
数据、算法、算力,是实现AI的三要素。为了让AI能够“睁开眼看世界”,数据标注是基础的工作。数据标注员们将各种没有固定格式、规则的非结构化数据,处理成AI能够理解的特征。这些需要处理的数据根据场景的不同,包括语音、文本、图像、视频等,对应着AI认知世界不同的能力。
像凯凯做的图像标注,就是通过在图上框出行人、汽车轮廓和标签,注入AI训练的模型,无人驾驶汽车才能识别出周边的各种物体。“喂养”一个AI模型需要至少几十亿的数据样本,这背后就需要标注员们靠着双手一个个作出标注。
早在2015年左右,随着第一波人工智能浪潮的兴起,国内数据标注行业也迎来发展。经过几年的积累,在河南、山东、山西、河北、贵州、安徽等省份的三四线城市里,已诞生了大量的数据标注员。
对于这些从业者的数量,目前还没有权威的统计。在国内,AI数据服务商龙猫数据是知名的众包平台之一,在其上已拥有了超过500万注册用户。如果说数据是AI金字塔的基石,那么这批数量庞大的数据标注员们,就是搭建它的蚂蚁雄兵。
这个群体目前以大专生、兼职的大学生、在家想赚些零花钱的宝妈们为主。他们一般在当地线下的数据标注公司和基地工作,或是通过线上众包平台、社交工具上拉的标注群在线接活儿。
绝大多数标注员们的收费模式是计件。数据标注公司相对规范,会和标注员们签订合同,提供底薪,额外完成工作量公司会计件提成。在线上,有项目时,负责人会发布任务的内容、规范和报名的通知,给参与的标注员们计件付费。
一般公司提供的底薪在2000-4000元之间,但计件的单价并不高。前几年还有几毛钱,现在普遍已经降到了几分钱。像凯凯拉一个框,2D的图3分钱,3D的是5分钱。曾从事过这个行业的AIGC公司HEARD创始人蒙太奇估计了下,普通标注人员平均月薪,基本会在3000元左右。
晓妍是名机械专业的大学生,她在老家安徽的一家数据标注公司做了一段时间,底薪有3000元。她拿出刻苦学习的劲儿来,一天干满8小时、每周单休,一个月下来拿到了3200元。
在三四线城市,晓妍这样的收入还算可以了。“这比一般办公室工作要累,但比纯体力劳动还是要轻松的。”但她也特意强调,建议还是不要在线上做——在线上接活儿往往没有底薪,项目也不稳定,达不到量的话,收入就会很低。一位湖南的标注员在社交平台上晒出了自己的结算单,一天内她拉了700多个框,一个单价4分钱,总共是30元零两毛。“干了一天,也就赚个路上的油钱。”
标注员做得熟练了,一小时也能拉上几百个框。一般做到了3个月,公司就要开始向上加量。但返修也是家常便饭。比如凯凯一个标注车位的项目,线画得长了、漏标了,质检时每次总能挑出毛病,返修了四五次才改完一张图。这也代表着,可能你花了一个小时的功夫,到手的只有几毛钱。公司每次接的项目也不一样,往往刚熟悉了一个,下一个就换了,规则和质检要求也跟着改变,结合起不高的单价,就很容易让人烦躁。
在相关贴吧里,不少公司贴出的招聘要求里都说,干这份工作“带手来就行”。但换一个角度看,这也代表着,这份工作中没有挑战、没有新鲜感。很多公司管理上也比较严格,不允许员工上班时接听电话,手机要放到储物格里。但在电脑前枯坐几个小时,只有一遍遍的机械式画线、拉框,这样的重复性劳动往往会带来精神上的疲惫感。在这种状态下,标注员们就忍不住去思考,做这份工作带来的价值和意义。“我觉得,我妈妈来也可以做。”有标注员曾吐槽说。
这也让很多公司很难留住人,尤其是年轻人。凯凯认为,尽管和AI挂钩,但这仍然还是个电子流水线式的工作,“没什么前途”。晓妍也觉得,学生兼职还不如去做家教,“在这里,你是大专、中专还是其他学历,有什么分别?”
她们在各自的公司都只做了不到两个月,就决定不干了。而这,也成为数据标注员们的常态。
单价压低的背后,晓妍说,是因为很多项目尤其是线上的,已经“不知道转过几手了”。这也和整个行业的商业模式与现状息息相关。“做的人多了,现在已经太卷了。”
在2023年,大模型卷起了人工智能的新浪潮。据天眼查信息,今年1月-10月,AI行业新增了72.2万家相关注册企业。而市场对此的认知是:不管是什么应用,只要是用到AI,就必然会对数据标注有需求。
资本的反应也说明了这一点。国内一证券交易市场上,相关公司在今年上半年都出现了一轮估值高涨。A股上的数据标注龙头海天瑞声,在春节后开市就迎来了一个涨停板。到了今年3月底,海天瑞声股价涨幅超过300%。
但是,海天瑞声股价飙升的同时,其盈利能力也在面临挑战。根据2023年上半年财报,公司营收7446万元,较去年同期下降35.13%;净利润亏损1724.14万元,扣非净利润亏损2310.46万元,分别较去年同期减少了188.76%和380.40%。
在2018年完成Pre-A轮融资4年后,去年年底,自动标注公司星尘数据再度获得5000万元的A轮融资。今年上半年,凯望数据、整数智能、柏川数据、曼孚科技等相关公司都相继拿到了融资。
新的中小团队也不断进入,试图在这一个市场中淘金。一家来自内蒙古的创业者去年也投身入这一领域,在当地,有数据基地提供办公空间,也有政府的补贴和扶持,一年内,其团队就扩张到了300人。
数据标注行业基本采用的是分包模式,由甲方企业发标,其他数据服务商进行竞标。各类科技公司、AI公司、车企等是甲方企业;处于中间位置的,是头部数据服务平台和大公司的数据标注服务部门,它们能够独立承接订单,有的还有自己的数据标注基地;再下面就是星罗棋布的中小团队,包括人数从几十人到上百人不等的数据标注公司、3-5人的小作坊,还有线上的个体从业者。
数据标注仍然是个劳动密集型的行业,注定是低利润的。“主要靠堆人工。”蒙太奇告诉「市界」,能够说是大部分的小公司支撑起了这个行业。由于进入壁垒不高,获取客户的能力是团队立足的关键。但能轻松的获得甲方尤其是大公司项目的,往往是业务能力够强、对行业有足够了解的服务商。之后,大部分项目还是会继续向下分包到不同团队手中。由于不少项目对团队规模有要求,在众包平台上,小团队和个人组成了“公会”一起接单;掌握了渠道的中间商,则在其中赚取差价。
“知名的接单公司都在北上广深,外包团队在三四线城市。”一位从业者说。这种模式下,经历了多级分包、层层抽佣,项目单价也被一路压低。等到了接活儿的团队手里,往往单价也被压到了只有几毛钱。给普通数据标注员们的价格自然也就压缩到了几分钱。
对于中小团队来说,订单是不稳定的。“所有的项目都是周期制的,一个项目完成了,客户那边接不上,是常有的事;或者突然之间项目没预算了,就必须面对人员的变动;到最后,利润极其微薄。”蒙太奇说。
大模型的热度对行业本是利好,但也加剧了竞争。一位在今年入局的河南创业者感慨说:“这一行对于新入坑者并不友好。”
“现在价格被压低,项目量也少了。”另一位河南数据标注公司创始人老张说。他已经从业5年,目前拥有50人左右的团队,在这个行业里也算是久经风浪了。
“从我开始做,年年都会看到大批的同行业公司倒闭。”老张说。市场里也存在不良竞争,“有人打压价格,也有无良商家欺骗甲方。”他说,这是个最“磨炼人心性”的行业。要想做下来,只能靠坚持。
云测数据总经理贾宇航告诉「市界」,对行业大模型训练,第一步是要大量行业垂直数据去做预训练,接下来则有必要进行微调工作,例如需要大量的问答对数据(即包含大量问题和答案对的数据集),能够在一定程度上帮助大模型去做到进一步的优化、迭代,再去进一步适应其使用场景。当完成了微调之后,还有必要进行评测和联调。其中,数据标注的质量对于模型训练就最重要。甲方对于容错率的要求,也比以往要更高。
“对于从业人员,按照积累的程度和要求,是会逐渐地出现分层的。”贾宇航说,“像法律或者金融、医疗等行业,也将需要有一定的学历背景或者从业经验才行。”
一位外包领域的业内人士也表示,比如图片类内容审核,要求标注员有中专、大学专科学历即可;但文字审核相对来说,一般就会倾向于大学专科学历;但到了更高难度的行业,比如说金融类数据的编辑、处理,以及一些英文文本的审核,可能就要本科学历才能胜任。在大型的人力外包公司中,数据标注人员的在岗时间也延长了,能做到3-5年。
今年8月,百度智能云与海口市政府合作共建了国内首个大模型数据标注中心,其中拥有数百名专职大模型数据标注师,本科率已达到100%。
在互联网招聘平台上,不少公司发布的对兼职数据标注员招聘信息中,也要求应聘者具有本科学历,工作地点在一、二线元/天不等。
小型公司也感受到了行业的变化。“甲方提出的要求慢慢的升高了,我们人员的技能也要提升。”老张说,“GPT大模型的数据标注,低于本科水平的人很难从事这一岗位。还有英文文本标注,需要对英语高级别的要求。”他的小组成员中,目前最低学历也是统招大专,覆盖了文学、计算机等专业。“不能盲目招聘,重点要放在培养人上。”
第二个变化是,被人类标注出的数据训练出来的AI应用,也逐渐应用到了数据标注场景。AI公司中,商汤科技宣称已经在智能驾驶领域应用大模型自动标注技术;今年4月,海康威视在其财报会议上也提到将AI技术用于自动化标注,并称标注数量能提升10倍。
训练AI的数据标注员们,也在面临一个迫在眉睫的问题:在未来,他们的工作,是否会终将被AI所代替?
前述外包领域业内人士提到,大模型应用后,大厂在数据标注外包方面的投量(投放的物料量/需要审核的原始数据)发生了变化,大约下降了40%-50%。但与此同时,“审核的难度也相对更高了”。
自动驾驶一直是数据标注的大头。对于它所需要的图像拉框等操作来说,目前的学历和经验要求是比较宽松的。但这块领域也在被大模型进占。
在今年4月的一次活动上,理想汽车创始人李想表示,过去公司一年要做大概1000万帧的无人驾驶图像人工标注,请了很多外包公司,一年的成本接近一个亿。但是当理想使用软件2.0的大模型时发现,应用其进行自动化标注,过去需要用一年做的事情基本上3个小时就能完成,效率是人的1000倍。
数据服务商们用自动化标注来替代人工,成为业界的关注重点。行业终将从劳动密集型向技术密集型转化,已是共识。
在今年3月,星尘数据上线了自动化标注平台Rosetta3.0平台。发布时,星尘数据创始人、CEO章磊曾介绍说,新平台在自动化标注和数据闭环上成果显著,数据处理准确度接近100%。
数据服务平台的服务模式也在进行升级,向着AI工程平台方向进化。今年9月,云测数据在去年发布的“AI工程化数据解决方案”基础上进行升级,发布了面向垂直行业大模型的AI数据解决方案,通过以集成数据底座为核心的数据标注平台,为行业大模型提供从持续预训练、任务微调、评测联调测试到应用发布的全流程数据服务,来满足大模型迭代的数据需求。
贾宇航表示,云测数据主要满足行业场景化需求,主要聚焦在无人驾驶、智能AIOT、智慧金融和智慧城市这四个行业。“对行业作出预判,快速适应算法的成长,做好积累和研发;同时关注成本效率,提升准确率的同时,做到成本合理,就能为企业建立壁垒。”
同时他也认为,对于人工标注的需求并不会消失。“随着AI行业的发展,人工标注的数据量还会持续增长,是离不开人工的,人力未来还将更多地参与到算法校验的环节中去。”贾宇航预测,“未来可能会逐渐演化成为人工标注、自动标注以及自动标注之后的人工审核三部分。”
但粗放式的小公司、小作坊们的淘汰赛已然开始。“现在的趋势是自动化和半自动化,行业不会有太多机会了。”蒙太奇说。他认为,对于数据标注员来说,及时转型成为大模型的Prompt工程师(提示词工程师),也是一个方向。
老张也对行业进行了思考。大厂在近年来纷纷自建基地,老张说,对行业中的公司也肯定是有影响的。“但实际上,建基地的费用比起外包来,应该也会更高。”他认为,只有建立良性的管理运营体系,培养和留住员工、争取更多的AI公司项目,才是生存下去的方向。他为公司制定了岗位规章制度和新人培训流程,并且决定全员持股分红。“甲方项目我们不外包,也不采用市面上常见的计件方式。有些项目价格低,公司宁愿原价+补贴给到员工。”
“自动化标注代替人工的时代,是早晚要到来的。没有一个行业会免于受到科技带来的冲击。我们现在要做的,就是努力为接下来的冲击准备好。”他说,“谈梦想之前,首先要活下来。”