弱智吧isallyouneed!竟成最佳中文训练数据!中科院等:项测试第一,远超知乎豆瓣小红书

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。

没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:

最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。

其他平台围观网友也纷纷蚌埠住。

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。

作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。

弱智吧数据究竟如何达成这一成就,具体到论文中看。

这项研究起初为解决中文大模型训练中的诸多问题:

中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景

不少数据集是用AI生成的,质量难以保证,容易出现事实性错误

即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。

在众多数据来源中,弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。

分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。‍

看来小模型还没能领悟弱智的精髓。

到了Yi-34B,弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。

另外,在安全评估上弱智吧版本也能排上第二。

对于这类现象,研究人员在分析中也给出简单猜测:

可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:

通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。

另一个原因是弱智吧数据文本质量很高,用词准确且简洁。

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。‍

一开始只是网友拿来拷打AI,搞搞节目效果。

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:

后续版本也渐入佳境了,如2023年8月的文心一言:

直到今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。

THE END
0.不写长篇也能赚!DeepSeek生成知乎短篇,单篇分成2000+实操分享~不要偷懒,开头和结尾一定要自己写! 遇到被退稿,别灰心,多问编辑要具体反馈,再让AI优化细节 最后一句话: 只要思路对了,1小时写1篇知乎短篇不是梦,分成也真能跑出来。别怕试错,别怕失败,实操后你会发现,AI写作变现其实没那么玄乎。 如果你有更高效的DeepSeek指令,欢迎留言一起交流!jvzquC41dnuh0lxfp0tfv8mwc{otj~t1ctzjeuj1fgzbkux136>6;<::;
1.论文AI率太高怎么办?亲测5款降AI神器,笔灵帮我从89%降到13%!(知乎SEO最近几个月,“论文AI率太高”成了研究生圈的噩梦。 随便在知乎上一搜,全是“论文AI率80%被打回重写”“知网AI检测不过关怎么办”这样的帖子。 AI写作工具确实让我们写论文更快,但也让检测系统更敏感。 现在不光查重,连AI生成检测(AIGC检测)都升级了。 jvzquC41dnuh0lxfp0tfv87523e8;>978;:0c{ykenk0fnyckny03>8845819
2.最新小说AI自动生成,可写知乎短文,一键生成大纲灵感一键成文,多平台发4.可以自定义一章节多少字数,然后变会一键成文 后续不满意的文章,你也可以自己再去重新生成,总体来说生成的内容效果还是非常不错的,生成完成后就可以自己去发布小说平台去签约 AI工具地址: AI写作工具jvzquC41dnuh0lxfp0tfv8|gkzooa=:7298868ftvkimg8igvcomu86663823B9
3.AI赋能,知乎加码职业教育赛道!宣布知学堂独立运营南方+在AI技术加持下,职业教育将走向何方?张荣乐表示,职业教育市场正面临数字化和平台化两大趋势,AI大模型将重塑职业教育行业,带来效率和体验革命,随着市场逐步规范化,综合性教育平台即将迎来高增长期。 立足行业趋势和新职人用户需求,知乎知学堂公布了未来的两大核心战略:第一,通过数字化赋能,改善职业教育服务体系和交付标准jvzquC41uvgukl3phcvq0|twvjio0lto1euovnsv14636961345d:>52328/j}rn
4.阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考知乎网友:给AI捏了把汗,该防止人类替考 新智元报道 编辑:编辑部 【新智元导读】一年一度的阿里全球数学竞赛又开始了。本届最大的亮点,首次向硅基AI开放,最高可摘得1万美金大奖。不用等了,带着你的AI来挑战吧。 首个专为AI敞开大门的数学竞赛来了!jvzquC41jwh/djfk0ci/ew4xkg}05><;9
5.工具趋势洞察|一站式公众号编辑器正当道:从AI排版到多平台分发的AI写作→ 2)一键起稿→ 3)AI排版 30s→ 4)AI配图(无版权)→一键同步 20+ 平台→ 6)数据回看与复盘 十一、FAQ Q:是否有适合政务/医疗/教育的样式? A:样式繁多,配合一键速排与换肤即可快速适配对应风格。 Q:同步到小红书/知乎时版面会乱吗? A:支持一键同步至 20+ 平台,常见版式可稳定对齐,减少二次修版jvzquC41yy}/uxmw0eun1j4;73926A53a3836@5873
6.词大合集:周报速成爆款文案旅行攻略一键生成这可能是多数职场人的真实写照。AI工具的能力边界早已超越基础问答,但90%的用户仍停留在“无效提问”阶段10。而真正拉开差距的,是一套精准的提示词指令库——它能将模糊需求转化为AI可执行的“操作指南”,让效率提升10倍不止。 一、职场效率:从“加班写周报”到“5分钟出PPT” jvzquC41dnuh0lxfp0tfv87725e:2<9372;0c{ykenk0fnyckny03=;62:?2:
7.知乎高赞回答生成指令:技术人的内容创作效率工具文章浏览阅读985次,点赞26次,收藏23次。本文介绍了一套实用的AI提示词工程工具——"知乎高赞回答生成指令",可帮助技术人快速生成结构清晰、逻辑严谨的知乎回答。该指令包含角色定义、任务描述、回答结构、写作风格和质量检查等模块,适用于技术经验分享、概念解释等多种jvzquC41dnuh0lxfp0tfv8wgcnnvkƒmw1cxuklqg1fkucrqu13;44:5733