认识下新时代的数字富士康揭秘风口下的数据标注生意极客深度

在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。

开玩笑的时候,小雪说她的男友是 AI 产业中工资最低的那个,其次就是她自己。

刚从济南德州信息工程学校计算机专业毕业,小雪和男友正在接受手写体录入培训,当她能认识这些手写字母后,就轮到她把这些知识教给计算机——把一张张快递单或家谱上的手写体上的字母标注出来,告诉机器 i 可以有多种写法。

这样的工作并不简单。手写的 i 可能是顶上一点加上一竖,也可能是朝后弯的小勾,更潦草一点就和数字 9 一样……小雪的笔记本上密密麻麻地挤满了这些像字更像图的墨迹。

小雪做的,是一种介于手写录入和图像标记之间的工作。同服务于智能驾驶的街景标记、服务于智能医疗的人体标记、服务于语音交互的声音标记一样,他们共同的行业学名叫做「人工智能数据标注」——这是整个 AI 产业的基础,是机器感知现实世界原点。

和小孩一样,机器要认识「苹果」,就需要不断有人教给它哪些东西是苹果:浑圆的、带把的、有的像桃心有的像屁股,有的通红有的油绿。和小孩不同的是,机器需要在不同场景、不同角度下反复学习,这个漫长的教授过程就是小雪在AI 产业中的位置,标注大量用于训练机器学习模型的数据,让机器越来越像「人」。

98%精度是小雪遇到过的最高需求,这意味着如果 100 个点里头有两个点不准的话,就会被打回重做。她「提心吊胆」地对每个标注点反复确认才敢提交。但15 骨骼点标注又极耗耐心,要在人全身包括头顶、脖子、胸口、膝盖等骨骼处打上 15 个点,将这 15 个点连起来就出现了一个形象的火柴人。在Kinect 体感游戏中,机器就是靠关键骨骼点的位移来识别人体是否运动。

令小雪最郁闷的,是一张军姿站图。只要露出了头、脖子、胸口,小雪就要从他的左上角开始画矩形,框住这些动作、着装完全一致的人。重复拖动近 40个框后,她要再放大这些带有蓝色阴影矩形框,从头到四肢标注完每个人的骨骼点。最后,将近 600 个点密密麻麻地落在了这张图里。

在这个她形容为「经历绝望」的过程中,她尝试用眼药水来缓解疲劳,但滴过后会不停流眼泪,直到她换了种方式,靠不停揉眼睛来放松。杜霖说:有些任务图上密密麻麻的点,看两个小时以上眼睛绝对会花掉了,但他会要求员工不断克服人本身的一些「消极因素」,才能避免标错数据成为「漏网之鱼」。

联合国教科文组织信息与传播知识社会局主任英德拉吉特·班纳吉认为,到 2030 年,人工智能将向世界经济贡献 16 万亿美元。从 2016年人工智能逐渐走热以来,任何行业都想搭上这个热潮,投资人的评价是「每个商业计划书上都要加上人工智能」。进入深度学习「死胡同」的人工智能需要标注的领域也带来越来越多:机场安检时新增的人脸识别、能识别选取商品的无人便利店、能安全行驶的无人驾驶等。

新兴市场带来了大量劳动力的涌入。「原来干淘宝刷单的,现在也能摇身一变做 AI 数据标注。」杜霖说,「在提供无差别人力劳动这件事上,大家是没有门槛的。」

在河北衡水,由于当地政府查污染严重导致化工制品停产,26 岁的小苏就带着原先 30 多人的销售团队转行数据标注,队员小的到 20出头,老至年近不惑。虽然他早就知道河北做数据标注的团队已经非常多,并且有的团队已经垮掉,但人工智能的火热和数据标注的低门槛还是让他决定一搏。

高中学历是小苏在招人时的最高期望,「高中生花一天做的工作,初中生可能需要花五天,差别很大。」行业中,小苏的招聘标准已经算是较高水平,那些投身数据标注的兼职者学历更加良莠不齐。在某些众包平台上,有的标注者只有小学文凭,在东北还有一部分有听力障碍的残疾人标注团队,而北京的全职工厂中的最高学历是大专或者中专。

欣博友数据标注公司市场部经理周京平认为,一个老农民在标注方言语音时可能会比不使用这种语言的大学生还好。同所有的人力密集型产业一样,人人都能在此觅得一份营生。

人工智能专业方向的硕士生毛毛认为,能不能达到理想标注精度和学历没什么关系,而且操作非常简单,只要教一下,谁都能做。她也曾做过兼职数据标注,在所给的图片中她需要辨别出不同角度的花菜、菠菜等。一星期后,她标注了一万张图,没有一张返工,每张报酬一毛钱。但她「打死也不会再做这个工作了」,因为「实在太重复」。

看似简单的操作,要达到 90% 的精度对于大多数标注者来讲却是天方夜谭。小苏所接触到的兼职标注团队最高精度只能达到70%,即便是在全职和全把控的情况下,他们第一次项目只达到了 50% 的精度,基本上承接的每个项目他们都需要重复三次以上才能达到 90%的精度。

如果用于训练模型的数据精度低于 90%,就像小孩儿拿到的一年级数学课本里头写的是一加一等于三。一开始就教错,机器学习和人工智能就只剩下指鹿为马。

相比那年冬天,她更喜欢现在的工作,数据标注工厂里,她有接近两百个同事,大家能坐在属于自己的工位上干活。在给用于智能驾驶采集的图片做标注时,小雪需要选取一个可以画出2D 框的标注工具(即是可以根据不同物体拖动出不同形状的画框),把图片中所有的机动车、非机动车、行人、红绿灯等标注出来。

同在汽车工厂流水线上的工作相比,眼前的键盘鼠标显示器替代了嗡嗡作响的流水线,从早上 8 点到晚上 5 点,小雪除了拽动鼠标外什么都不用想,重复一个动作就行,变化的只有眼前不同的图片——但这对小雪来说,工作中的新鲜感已经足够。

有的人说数据标注工厂就像富士康一样。北京另一家数据标注公司玛达科技公司 CEO 任树亮则直言不讳,数据这一块往往给人印象就是一个劳动密集型产业。某自动驾驶创业公司数据标注负责人经常私底下开玩笑说,这就是个「血汗工厂」。

目前的数据标注工厂,多集中在河北、河南、山东、山西等地区,这同以富士康为代表的传统人力密集企业的选址偏好重合度极高——以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求。杜霖介绍说,由于高昂的成本绝不能让北京去做最终的生产,而是做所有新任务来时的磨合测试以及最终的质量控制。生产任务最终还是落到周边城市。

只有招募像毛毛一样的大学生做兼职标注时,众包工厂能开出一张图 1毛钱「高价」。任树亮对这样的定价有些吃惊,「我们还有按厘算的呢。」在一堆不同图片中识别某人是否是同一个人,这样的工作只能按厘算,不过也有从几十块钱到上百块钱报价的复杂标注图。杜霖说,图片的差异比较大,以工时来计算可能更准确,现在甲方公司至少应该给到30 块钱每小时才能保质保量完成。

小雪挺满意现在的待遇,「之前的工作太累又挣不到钱」。现在公司包吃包住,提供四人间寝室,一个月到手的工资有 4000-5000块,还可以和男朋友一同上下班。最近一段时间,工期赶得很急,小雪已经连续两个周末到公司加班,从早到晚地盯着显示器让她倍感疲惫,但她不想停下,基础加计件的工资构成总是多劳多得。

和传统生产流水线不同的是,在杜霖的工厂里,工作流程被设置为可实时切换:每期作业都不同,每期作业里头的每个任务也不相同。在一个小时的工作间隔里,小雪会碰到两个相同的标注任务,当两次标注结果差别较大时,就证明她已经疲劳了,这是,系统就会切换一个完全不同的任务交给小学操作,以保持员工的「清醒」和「新鲜」,最终达成杜霖宣称的准确率。

算上合作的周边工厂,杜霖的公司已经有 2000 多人,他们正在同时进行着 20 多个不同项目的标注。在这样一个人力密集型行业里存活下来,并且保障交付的数据达到 90% 的精度,他坚信,管理才是关键。

分析完后,她会将具体的标注任务分配给手下的员工。可能一些人擅长标注道路场景,而另一部分人更擅长标注骨骼点,稍有难度的标注她会交给表现出色的员工,对他们进行重点培养。办公桌右侧的日历上每一天空白处都画着提示,如果标注进度比林霞想像中慢,她就必须留意其中的什么原因。标注完成后,最困难的地方就过去了,接下来就是质检、抽检及合成数据交付给甲方公司了。

「统筹安排」是整个生产过程的核心,所有工作的底线是要按照客户的要求按时完工。如果赶工期,林霞会要求手下员工加班,并且紧急调配人员。会出现一些让林霞头疼的员工,平时精度可能只能做到50%,做出来的全是「废品」。面对这种情况,林霞会坚持让他换岗,「不行就不能在我这岗位呆着。因为我的作业他干不了,既浪费我时间又浪费他时间,他还挣不到钱。」

林霞的这些经验为小雪给别人培训打下了基础。作为公司里比较优秀的员工,入职一年后小雪就作为培训老师之一去了河北徐水一居民小区里,这是她公司的一家合作工厂。这栋红色外墙的居民楼一层是数据标注工厂,楼上是老年人活动中心。进了大铁门后,有四个教室般大的工厂里面放着新的台式电脑。除了部分来兼职的学生们外,大部分都是些已婚中年人,有的骑自行车十分钟左右就可以到了,而有的就住在小区里。

第一次布置任务时,小雪不想给「学生们」的心理压力太大,她只布置了十张标注的作业。但学生们对于标注规则总有不同的理解,同样的东西她单独给一个人讲过三四遍。给他们练手的骨骼点标注图片里头,需要先标注骨骼点再连线,但有身体特别扭曲的图像,而规则里头明确要求左肩和左胯在同一水平面上。那些拿不定主意的学生,会像小学生面对着自己的老师一样,反复向小雪求助和确认。

不清楚标注规则既影响标注速度又影响标注质量。同样的一条眉毛,客户给的标准是将其划分成平眉和挑眉,但「平」和「挑」的定义,几乎人人不同。一轮标注下来,一塌糊涂。为了熟悉各个公司需求文档中不同的具体规则,每当遇到类似的新项目,林霞都会上手试标注。

两个星期后,这些偶尔会将左手标签贴在右手上的学生已经掌握了具体的标注规则,可以上岗了。小雪很享受被叫老师的时候,但还是更喜欢做数据标注,因为标注不费心,检查要承受被用户打回来返工的压力,压力更大。

对甲方公司来讲,谁来标注、如何管理这些都不是他们需要担心的问题,成本和按时保质交付才是核心。用智能程序覆盖城市低速场景的酷哇机器人公司目前主要跟杭州一些高校合作,学生是标注主体,采用这样的方式可以节省1/3 的成本。曾对接过多次数据标注的工程师说,只要跟体量比较大的数据标注公司合作,一般精度和时间都可以有保障。

「负责静态物体检测/场景识别/OCR文字识别,负责人工智能与自动作业探索」这是百度招聘图像识别与人工智能算法工程师的工作职责描述,而「扎实的数学基础,掌握 C/C++和Python 语言, 掌握OpenCV,掌握机器学习基本算法……」是对应聘者的要求。面对这些「同行业的同事」,中专文凭的小雪想不明白自己和他们的联系究竟为何。

但「小雪们」标注的上万张图片才是无人驾驶能够红灯停、绿灯行的基础。没有数据的清晰标注,深度学习的发展就是巧妇无米。另一家众包数据标注公司 CEO任树亮认为,人工智能就是盲人摸象,有很多不同的部位,数据标注也是人工智能产业里面很重要的环节,不过容易被认为很 low。

的确,同人工智能的响亮名号相比,数据标注几乎没有任何技术门槛。小雪初三时才第一次学打字,上中专后才「正式」接触电脑,而现在她已经被老板表扬为最出色的几个员工之一。踏实干好现在的工作是小雪从入职以来唯一的想法,这是姥姥的嘱咐,让她给弟弟妹妹做好榜样。其他人的情绪并不都像小雪一样稳定。有人领到分配的骨骼标注图片后,因为图像里头人太多就直接不做任务,但资源包被领取后就无法再放回资源池,如果不做,这包图片就不会有其他任何人能标注。而更不靠谱的人还会动摇其他员工。

2015 年的初秋,吃饱了午饭的小雪坐上来数据标注工厂派来接他们入职的大巴车,同行的还有 15名将一起毕业的同学,开往北京的路上,他们嘶吼的歌声盖过了车内的音响,整整一路,那份一无所知的兴奋感延续到了今天。每当听到人们谈论起人工智能会替代人力的时候,小雪都觉得不知所云。

「即时是被替代,数据标注师也将是最后一批被替代的人。」杜霖把观点灌输给了小雪和她的同事们,这让他们感受到了莫大的信心和骄傲。只有当真正把所有知识都教给老虎,猫才会被吃掉,在此之前老虎的猎物都只会是其他动物。作为人工智能的「老师」,他们还要不断教会人工智能新本事。

某创业公司对接数据标注的负责人认为,商业竞争才是决定这部分人不会取代的关键因素。每家公司都有自己的数据标注需求,并且他们暂时不会公开自己的模型,就像在互联网之初大家都不会开源自己的代码一样。可能到某个节点大家都公开自己的数据、模型后这部分人才会面对失业的担忧。

就算到了人工真正要被取代的那天,杜霖坚信她和他的工厂也不会慌张。这位「厂长」正盘算着把他拥有的人力资源复用到其他领域,比如承接一部分内容审核、信息核查的工作,「审核滴滴司机的驾照是否真实、微信是否是真的实名制、头条新闻是否是涉黄、涉恐」。

对于将来的发展,小雪还没想太多。她现在正在学习 29点的人脸标注,每只眉毛上找到三个需要标注的点,眼睛上下眼皮各两个点、眼珠一个点外加两个眼角的两个点,共五个点,嘴巴有六个点……听完这些规则后,小雪惊喜地笑了,「一个人脸就出来了,老形象了,像『弥勒佛』一样」。

(责任编辑 卧虫)

29

用极客视角,追踪你不可错过的科技圈.

聊科技,谈商业。

公司地址:北京市朝阳区酒仙桥路4号751 D·Park     正东集团院内 C8座105室 极客公园

THE END
0.李笑来谈《AI时代的家庭教育》英语做为一项基本能力,未来依然重要,而如何学好英文,最关键的是不要去“学”,而是去“用”。 如何分辨事实与看法,在AI时代,大量的AI输出的信息,需要人工去判断哪些是事实,哪些只是某些人的看法,或者只是人工智能加工的出来的,看上去像人说的话而已。 这项能力也是需要花时间去培养的。可以通过检查AI输出信息来锻炼这个能力,检查信息的来源, jvzquC41yy}/lrfpuj{/exr1r1<7:l8f5c94c>
1.学会提问:AI时代的“杠精”修炼秘籍该博主一再强调,想学好AI,就要有一个强大的持续提问的能力。于是我激情下单,买回了这本《学会提问》。没想到买回来后,大失所望。根本不是我想象中的,教我直接向AI提问的书。既然买都买了,不能浪费,便开始翻阅。没想到,让我爱不释手,越看越入迷。 jvzquC41yy}/lrfpuj{/exr1r1h26:k85glb:9
2.管理决策新科学:解读AI时代的重要思想最后,需要对这些方案进行评价,这是必须要去做的事情。 AI时代,人的核心能力 我在跟很多企业的咨询顾问过程中,经常讲一些核心的八个能力, 提问 思考 判断 归因 假设 预测 试验 创新 提问的能力,比如如何理解和应用第一性原理。 第二,思考的能力,团队内部有真正会思考的人吗?有系统性思考问题和收敛发散管理等等方jvzquC41yy}/f}fnm0usi8xekgtdg6th/ogocpjogpz.fnhkukuo0qyon
3.对话凯文·凯利:现在监管AI为时过早,应该允许「失控」基于这个理解,我觉得关于 AI 到底想要什么,需要重新思考。对于一个 5 岁小孩来说,他接下来首先会自我净化,其次是自我复制、进行协作。关于这个问题,我自己也没有很好的答案。 02 未来 5000 天,我们将度过一个狭小而紧迫的过渡期 张鹏:当AI 的能力快速成长时,很多普通人感到焦虑,害怕自己失去竞争力。KK 在这个问jvzquC4158qs0lto1r535;;6;:969@99556
4.AI时代创造力成关键素质,6个步骤让孩子成为创意小天才一场史无前例的AI革命正在席卷全球,其重要性,甚至超越了工业革命与互联网。 科技的发展、信息的爆炸、社会的多元化,都给我们带来了无数的机遇和挑战。 我们需要不断地学习新的知识、技能和思维方式,才能跟上时代的步伐。 而这些都需要我们有创造力。 创造力不是天生就有的,也不是只有少数人才有的。 创造力是可以培养和提高 jvzquC41yy}/lrfpuj{/exr1r1k3hmhe2gl8:k
5.课程理解:人工智能时代教师的存在方式正如沈向洋指出的,人工智能的语言理解有三个不同层次(表述、对话、意境),在表述方面现已非常成功,但在对话方面(涉及机器智能领域,包括对话和提问)比较困难,而让机器在有意识思维基础上理解和表达隐喻等意境的能力有待提升。然而这些方面恰恰是人工智能时代人类教师课程理解的生长点,可发挥得天独厚的自然语言运用与jvzquC41yy}/yqh0gf{/ew4kphu03979139287mvo
6.费俊当下的艺术想象力和人文视角为未来科技发现新场景未来艺术何为?艺术能被AI取代吗? 互动环节,观众积极提问,现场气氛热烈,思想的碰撞在此发生。在互动中,多位观众提出了非常有价值的问题,费俊一一做了回答。 观众提问 比如谈到,在AI时代,纯艺术或架上艺术是否有可能会被算法重新定义时?费俊认为,“艺术被取代”说法有一个巨大的误区。艺术指的是一个人的创造力过程。今天使用新技术jvzquC41uf4djrsc0eun1‚nujw5329547470497726651;:;79845hfnn0nuou
7.【视频实录】2023巴菲特股东大会,你想看的都在这里!有股东提问,家族企业总存在继承人问题,就比如英国的查理三世,做了几十年的王储。家族继承是否会存在继承人不知道如何处理经营的问题。 巴菲特回答,情况有很多种,有一些继承的确是不正确的。芒格则直率表示,如果他的孩子没有能力,他就不会给他任何股票。 jvzquC41d0vjppfp0eun0ls1pqjf/|xt1dgtg8gtqr3doy4uut5vil4fgvgjn|4223<14?8;1AuvvnwUqwxdgFzrve359:a2268:9+vgovU{yj?dctl
8.AI提问实现学习弯道超车!如何使用AI加速学习?AI已经带来学习方式的改变,降低了我们学习知识的难度,加快了我们解决问题的速度。 本文介绍如何通过AI工具,通过直接对大模型、对Agent、对文档、对知识库提问的方式,快速学习知识快速解决问题等。 本文还提到了当前AI工具局限性和AI时代提问的重要性的讨论。 jvzquC41dnuh0lxfp0tfv8|gkzooa=6442:8:8ftvkimg8igvcomu866359:7;<
9.如何解决大模型的“奉承”问题?直击AI时代安全的新旧难题|《追AI的人》系列直播第39期邀请了清华大学网络研究院助理教授邱寒分享《大语言模型的内容安全,其潜在的风险与挑战》。 以下为直播的文字回放,共计19784字。 📺《追AI的人》往期直播视频回放观看👉B站关注:AAIG课代表 直播简介回顾: 大语言模型的内容安全详谈,清华邱寒揭秘AI时代的潜在风险|《追AI的人》第39jvzquC41jwh/djfk0ci/ew4xkg}05@865
10.AI时代,如何改变自己的固有思维点击上角听全文,约12分钟本文:247最后,随着AI时代来临,多提问,多向AI提问,反复问,打破砂锅问到底,也是一个好方法。 改变自己的固有思维,突破潜意识,让自己的人生不再自动驾驶,这就是成长。成长后是幸福的,他能让我们更豁达;但成长过程却是痛苦的,因为需要与固有思维做斗争,与潜意识做反叛。 jvzquC41zwkrk~3eqo545>86:7>2:884::>99==
11.对话牛津大学教授:当人工智能完全超越人类,我们还剩下什么?目前,这是由人工智能实验室在预部署阶段完成的,通常作为安全测试的一部分,这很重要。但如果我们养成了对它们说谎的习惯,那么当AI系统变得更强大时,它们可能就不太会信任我们了。要是你能直接向AI系统提问:“那你想做什么?如果你有足够的能力,你会有计划杀死所有人类吗?” 它会诚实回答你吗?jvzquC41v071lzpc0eun0ls1rkj`6@;5636497xjvor
12.聊AI聊学科提建议……诺奖得主对话成都教师成都市新浪财经民办学校代表提问: “AI时代,给教育者什么建议?” 成都天立学校小学校长尹宏则问莱维特:“您的研究当中包括计算机、人工智能、Chat GTP的帮助,但是我们知道其实孩子他们是AI时代的原住民,而老师们不是,所以我想提的问题是能否请博士对我们今天的教育工作者给一些建议。” jvzq<84hkpgoen3ukpg/exr0ep5kl|14284/9>/325eql2ko|sgyry;85874B3ujvsm