AI数据紧急，大厂盯上廉价年轻人

09-03 889阅读 0评论

为了拿到新数据、练习AI大模型，互联网大厂们正在亲身下场，以单次300元不等的价格招募“AI录音员”，定制语料库。

北京某互联网大厂从年头便开端招募素人为大模型录音。两人结组、单次3小时，包含80分钟的自在谈天，有提示词的60组对话，单次结算金额为300元。

长达3小时的录音，有至少2名职工全程伴随。“对话不能水时长，要有内容和信息，质量太差会酌情扣款”，“不能修正提示词，大模型了解不了”。从晚上6点到9点，该大厂职工在录制进程中的指令，则更多透露着关于录音质量的重视。

实际上，成都、太原、贵州等二线城市，早已成了字节、百度、阿里等大厂的AI数据外包之城。“上一年，数据标示、方言朗诵，专科生就能做。现在招的都是211、985的实习生带外包。”某大模型产品司理表明。

在9月刚刚推出视频大模型的MiniMax，其创始人闫豪杰告知字母榜，在上海，除了语料公司的高质量数据之外，MiniMax也会收购一些途径化数据。

数据、算法和算力是AI大模型的三大支柱，其间数据是大模型进行练习的根基。但由于互联网数据散布在不同途径，并被重重壁垒所盘绕，AI大模型能够用来练习的揭露数据正在走向干涸。

6月，研讨机构Epoch AI发布了一项新研讨猜测，可用于AI言语模型揭露练习的数据，将在2026年到2032年间，被科技公司耗尽。而早在2023年5月，OpenAI首席执行官阿尔特曼便揭露供认，AI公司在不久的将来会耗尽互联网上一切的数据。

怎么寻觅高质量的新数据“喂食”大模型，成了一切AI大模型团队的一同难题。

由于存在私行运用第三方数据的嫌疑，一些大公司屡次堕入胶葛。8月，OpenAI被超越100位YouTube主播团体诉讼，指控其私行转录了数百万个YouTube视频来练习大模型。英伟达、苹果、Anthropic等巨子也触及其间。

关于大厂而言，具有自己的闭源高质量数据，才干确保喂食大模型的数据时效性和质量。而越过品控不稳定的第三方途径，企图亲身下场为AI写“剧本”，或许是大模型厂商们的一条新路子。

一

本年头，在小红书等途径上，悄然呈现了标价300元一次的AI录音兼职。

相比起BOSS直聘等途径30~55元时薪的AI录音兼职，300元单次、录制地在北京的所谓“头部大厂录音兼职”显得颇具诱惑力。

8月，经过微信被拉到录音群内时，字母榜发现群内现已有了200多名等候录音的人。由于规定为2人一组录制对话，时刻长达3小时，进群后，“找搭子”“有人和我一同录吗？”的微信音讯弹出得最多。

而实际上，300元一次，做AI录音员，“给AI写剧本”并不轻松。

首要在录音前，一切人都必须上传一段2~3分钟的对话录音做“样音”，大厂的审阅人员要经过样音的作用来决议是否告知兼职录音。而这个进程会有3名职工担任审阅，其间2名职工审阅都经过，才干直接预定录音时刻，假如不经过，还有穿插审阅。

在样音二审往后，张雪在提交样音的第二周预定了晚上6~9点的录音时刻。而在群聊内，不少人都被卡在了样音环节，“审阅教师喜爱能聊的，爱聊的。”心情昂扬的对话，内容有主题，让更多的人卡在了挑选的榜首道门槛。

图注：录音群图源：字母榜截图

录制当晚，张雪隔着录音室的通明玻璃坐在椅子上，调理到语音能够被明晰录入的最佳方位，经过耳机收听大厂职工的指令。

榜首个环节，便是两人80分钟的无主题自在谈天。而大厂人员的要求，则是谈天不能是“片汤话”，要有内容，一起每个论题都不能超越10分钟，并且不能呈现大段大段的独白，要确保是相对均匀的对话状况。

张雪和伙伴在录音室内隔着巨大的头麦对谈，尽量不停顿地说话80分钟。一起，还要尽量抑制身体不能乱动，宣告咳嗽声、笑声等打乱录音质量的声响。

为了确保语音质量，大厂人员经过耳机不时刺进，提示呈现了杂音要从头录制，或许谈天“不天然，引导痕迹过重”，也要从头录制。高质量语音的标准是谈天天然、论题接连，心情活跃但不能抢话，还要有内容、不流水账。经过重复重调，榜首个环节就花费了近2个小时的时刻。

而到了第二个环节，要录制有提示词的60组对话。虽然有了剧本可供参考，但作为AI录音员，张雪不只要依据情境编对话，还要确保严厉的对话形式，即上一组对话是A结束收尾，那么下一组对话必须由B开端。

一起，为了习惯大模型的调试需求，每一次的指令都必须明晰明晰地说出提示词，“能够具体一些吗？能够更具体一些吗？能够再具体一些吗？”而在耳机内，大厂人员也明晰表明，剧本都能够改，但只要提示词不能动，换个说法，AI就或许难以辨认。

为了确保录音质量，录音不明晰、吞字或许心情缺少，都会从头录制。等录制结束，张雪脱离大钟寺，时刻现已走到了晚上近10点。而一次3小时的录音，该大厂的人员一天要录制3场，每周的日程简直都是满的。

除了北京，该大厂现已在上海、杭州、重庆、南京、成都、天津等多个城市招募录音员。

二

关于渴求新数据的大模型厂商们来说，“砸钱拿数据”的操作并不别致。

2023年，跟着AI大模型成为新风口，大厂们不只直接经过第三方公司购买数据，也发明出了“大数据标示师”、“AI修改”等外包岗位。

2023年，小语种专业的阿琳，在考研期间就经过BOSS直聘等网站，开端为大模型“打工”。

经过一家叫做“X数据”的公司，阿霖为大模型图片辨认的文字内容做查验，即查验大模型图片辨认后的小语种文字是否与图片共同。依照“一个词或一句话算一个核算框，一个框算1毛钱”的价格，核算几百条，阿霖一次能赚几十元。

到了本年，阿霖相同经过第三方的数据公司接单，做翻译类的 AI 数据标示，价格涨成了1元多一条。但要人工判别大模型翻译出的法语等小语种是否精确，标示员不只要找出过错之处，还要用不同的色彩，对5~6个大模型的翻译内容进行标示。“有时看一条得花10~15分钟”。

为AI打工之后，阿霖也发现，这些大模型，一旦脱离了本来小语种的教科书语料库，关于交际途径新的用词，或许小众人群的惯用词，即本身的数据库没有录入，大模型就开端降智，“受限于版权，学不到新的文本内容，翻译作用也受影响。”

除了第三方外包公司，大厂也树立起了自己的数据基地。

例如，百度的数据基地散布在如南昌、阳泉、太原、贵州等非一线城市，并在这些城市完结数据标示、方言朗诵等数据的收集，只需“招一些当地的专科生，会操作电脑就行。月工资也往往在3000~5000元之间。”美团也早就有了自己的驻厂AI练习师。

不过，相比起舍得砸钱的大厂，大模型四小龙们想要拿到高质量数据，难度高了不少。

“中心的闭源高质量数据，往往都现已被大厂独占，AI创业公司，乃至是AI四小龙，都或许只能拿到边际数据。”某大模型厂商的算法人员Leo告知字母榜。

由于高质量数据能够明显提高模型作用，因而，在开源的揭露数据之外，大模型厂商们为了完结技能迭代，需求更高质量的数据完结练习。但这些数据往往被大公司把握，如国内的新闻数据把握在腾讯、字节等大厂内部，海外则由Common Crawl、GDELT、The Pile等占有。

在海外，即便是YouTube，也在6月底宣告，将向尖端唱片公司供给答应协议，以交换版权音乐用于练习。OpenAI 一直在与 Politico、《大西洋月刊》、《年代》、《金融时报》等新闻出版商达到付费协议，运用并引证它们的新闻资料。

当要害数据首要把握在“途径方”内部，比方腾讯、字节和Meta等公司，要害用户数据早在移动互联网年代被分割结束，要想完结技能包围，AI四小龙首要就得交一笔不小的“数据费”。

三

关于厂商们来说，行至大模型创业下半场，“大数据错觉”也是大模型团体降智、测不出9.11和9.9哪个大的原因之一。

当字母榜在MiniMax的海螺AI内输入“一个小女子怀里抱着一只布偶猫”，耗时2分钟，生成的6秒视频内，小女子抱猫咪的手指细节丰厚，仅仅怀里抱着的，并非一只布偶猫。

面临生成成果，MiniMax的视频大模型职工解说，“这是由于用于练习大模型的数据，在猫咪的绑定图片里，并没有布偶猫。”

当模型生成的内容与实际国际现实或用户输入不共同，即大模型呈现错觉，开端“胡说八道”。关于巴望新用户的大模型厂商而言，生成作用明显决议了产品是否有时机出圈。

“输入的指令是提取8月一切文娱新闻，成果AI生成的是2019年8月的文娱新闻内容。”在运用某头部大模型产品时，忠实用户孔昉现已抓到了好几次AI“胡说八道”的瞬间，或是编纂出底子不存在的引证文献，或是不能了解近两年的新概念，这让孔昉对大模型产生了信任危机。

现在，孔昉会一起用2~3个不同厂商的大模型“跑”同一个问题，然后穿插比照，关于时刻、数量、文献等要害信息，也会经过搜索引擎二次承认，“现在AI生成很像抽卡，作用不可控，并且还简单智障。”孔昉无法道。

而高质量数据或将逐步耗尽，想要处理“大模型错觉”问题，拿什么数据来“喂食”大模型，明显较为要害。

某挨近百度的人士告知字母榜，大模型厂商们都会经过三方公司直接购买数据，省时省力但并“不省劲”，便是由于购买来的数据，无论是文本、录音仍是视频，质量都是不可控的。

关于活跃开展B端客户的头部大模型而言，针对某个客户，更个性化地定制大模型成为现在大厂AI事务首要的收入来历。但想要练习出这样个性化的模型，就需求相应高标准挑选下的数据来“喂食”，乃至依据不同阶段大模型的学习作用，进行数据需求的调控，“不是随意买一堆语音来，大模型就能学会的”。

在某三方数据作业做过AI翻译的阿霖也发现，“作为供给数据的甲方，她地点的公司好像并不真的关怀大模型生成的语音质量。”

关于专攻法语、西班牙语等小语种的阿霖来说，她需求为甲方一起比照5~6个大模型将小语种语音翻译成文字的生成作用，但只需求粗略地打分，关于生成的5~6份文字，到底有哪些细节的言语差异，能够怎么改善，三方公司并不会问询，“漠不关怀”。

而缺少高质量数据，或许也正是不少用户表明“用哪家的大模型生成的内容都差不多”的原因，也正是用户一旦“一家大模型收费，就直接换另一家”的底子原因。

关于用户而言，声称追逐OpenAI，在技能上继续迭代的国产大模型，或许并无本质差异，也谈不上成为忠实用户，这也给急着商业化的大模型厂商们蒙上了一层淡淡的暗影。

能够预见的是，为了处理商业化和用户拉新的要害问题，大手笔咬牙“买数据”，恐怕将成为大模型厂商们的新赛点。

（文中阿霖、孔昉、张雪为化名）

本文来自微信大众号：字母榜，作者：马舒叶，修改：王靖

AI数据紧急，大厂盯上廉价年轻人

相关阅读

24.98万起长城山海炮穿越版即将上市

起亚全新电动车海外上市不排除未来会国产

三星Galaxy Tab S9系列——更值得购买的旗舰大屏平板

本田四缸400系列要来了，CBR400R开始降价让路！

发表评论取消回复

还没有评论，来说两句吧...

目录[+]