时代,英文为王腾讯云开发者社区

最近Meta开源了llama2,几乎引爆了整个AI行业.这可能意味着AI迈入了一个新的阶段,开源将会深度参与AI技术热潮中. 也意味着未来一切皆有可能.

这篇文章不是说llama2与AI开源的,而是我在查阅llama2的技术白皮书中, 发现了一个非常值得注意的现象. 就是当前主流的前沿AI的训练语言中,以英文为主. 而其它语言,包括中文在内,占有的份额少的可怜.

这意味着什么呢? 如果AI时代不可避免的来临了,按照当前这样的趋势, 英文将成为AI中的绝对语言,包括中文在内的其它语言都不可避免的重要性大大降低.

在Llama 2的技术白皮书中, 有一个地方引起发了我的注意,就是下面这个图:

可以非常容易的发现:

这个图引起了我的注意,我同时好奇另外两个主流的AI, ChatGPT与Claude AI在训练语言中,是个什么情况.所以我就GOOGLE查阅了一下.

ChatGPT

ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。

Claude AI

"Claude 2 was trained on more recent data — a mix of websites, licensed data sets from third parties and voluntarily-supplied user data from early 2023, roughly 10% of which is non-English "

虽然没有查到各语言的具体数据,但是从上面的描述中看出来,在Claude 2的训练数据中,英语同样是9成比重,而非英语语言中,总共才1成左右.

可能现在国内很多使用ChatGPT的人没有意识到这个问题, 因为ChatGPT同样支持中文, 使用起来似乎感觉“还不错”.

这就是值得忧虑的问题. 那你有没有想过一个问题, “比重不到0.1都不到中文有这样的效果,那9成比重的英语的效果又如何?”

很多使用ChatGPT的人没有使用过英文,也就意识不到中文与英语的差距. 且不说中文的很多问题, 就我个人使用来说,ChatGPT对英文明显理解更准确与到位, 我最近在做AI相关的工具时,也发现用英语来编写Prompt的效果会远远好于中文.

很显然,由于当前主流的AI都是美国公司开发的,不管是当前还是未来,理所当然的会以英语为主, 这个趋势不会改变. 长此以往,我认为的效果会是:

英语成为AI的主要语言

当然,各AI肯定会去支持其它语言,不会只用英语训练. 毕竟所有AI都是面向全球. 但是不可避免的, 最主要都会用英语去训练.

那理所当然的英语会成为AI的主要语言. 意味着用英语来与AI打交道,肯定会更好,更高效,更有价值.

比如,一个已经出现的事实能说明这个问题, 文心一格最开始发布时, 闹出了一些笑话, 对一些中文描述的理解几乎是直译为对应的英文,再生成一幅画. 结果令人啼笑皆非.

其它语言成为附庸,发展面临困境

我对大模型语言的算法一无所知.

但我猜想, 模型与训练数据是相互促进的, 在英语为绝对语言的前提下, 大模型算法对英语的理解或效率会越来越好,越来越高. 根据马太效应的原理, 这会进一步促进大模型算法的发展, 而大模型的发展同样进一步深代AI时代对英语的依赖.

至于其它语言,自然就变成这个中的一个附加或附属, 慢慢的在AI中会变得无足轻重.

除非国内的大模型能有所突破,或迎头赶上, 否则AI时代的中文必然会面临困境.

结合现在互联时代中文问题,AI时代这个困境可能只会加深,表现在:

中文内容质量低下

好吧,虽然这个结论有些伤人,但我们很多人都能感受到互联网上中文内容的质量低下化这个趋势.

在上层的空话套话,叠加下层流量为导向的主导下的低质内容普遍化两个趋势的结合下, 中文内容在互联网上质量不高,远比不上英语. 还不说也不能说的普遍存在404的现象导致的很多好的内容不复存在.

大家都能感受到中文内容低下的趋势,事实上,我在使用GOOGLE时,很多时会自然的用英文去搜索,而不是中文. 至于国内的百度, 好吧, 我几乎很少使用,也就不评价了.

中文因为有14亿人的使用,及近五千年的文化沉淀(比如文言文,诗, 词等),使它独具魅力,但如果AI时代英文为主,中文未来的趋势不容乐观.

要说国内的AI, 现在国内大模型有几十个了.令人眼花缭乱.

但事实上,这些模型当前和ChatGPT主流AI还是有差距, 被使用与关注度也非常少. 虽然我最近在做AI工具方面的工作,但关注的主要是ChatGPT, ClaudeAI以及最近开源的llama2这些.

我当然希望国内的大模型能发展的好,有突破. 但凭直觉我会认为现在国内的大模型仍然会有差距. 同时我也确实暂时没感知到周围有使用国内AI的这种氛围或趋势.

做为个体,我的建议是:

学习英语

这是第一个建议, 接受现实吧. 不要说AI, 就是现在的互联网, 如果懂英文, 能更容易接触到高质量的内容, 查找东西更省时省力, 学习到的都是有更有价值的内容.

有人说AI时代不用学习英语,我认为这不会成为事实. 事实上,AI时代,可能英语的重要性不是降低了,而是加大了.

如果你从事的工作或感兴趣的东西前沿都在国外,那保持对英语的学习仍然非常重要. 比如我们程序员,还是要懂英语的.

坚持输出好的中文内容

我们没有办法改变别人,但我们可以让自己做的更好, 所以输出好的内容就成为内容输出者该有的操守.

THE END
0.李开复最新演讲:AI2.0时代来临,我们不会投资移动APP简单加上AI移动时代的标志性应用,如微信、抖音和美团滴滴,是因为没有手机就无法使用,而那些仅仅将网页加上APP的应用,最终都没有取得巨大的成功。在今天的大语言模型时代,AI的时代已经来临。我相信,能够创造最大价值、拥有最多用户、最快达到1亿用户的,都将是原生的AI应用。jvzquC41i0vdqwqkpg4dqv3ep1~03@7513=35994:0nuou
1.AI教育时代来临,精准学如何超越GPT视频一经发布,就引起了不小的震动,让很多人惊呼,AI教育时代来临。根据报道,包括美国、英国、韩国在内,已经有不止一个国家和地区计划在中小学课堂上使用AI辅助教学。可汗学院创始人Salman Khan表示,大多数家长对此都非常兴奋,能看到其中的力量。 而这,也让国内的一些人士担心,GPT可能会拉大国内外的教育代差。但是,jvzquC41v071lzpc0eun0ls1rkj`5A96;4<6:7xjvor
2.科幻作家陈楸帆:科幻作品中的人工智能,有多少已经出现在我们的生活中『人工智能的时代已经来临』 虽然科幻作品中很早就出现了人工智能的形象,但是在现实世界里,科学界真正提出AI的概念,是在1956年的达特茅斯会议上。当时,在美国汉诺斯小镇的达特茅斯学院,科学家们讨论了一个完全不食人间烟火的主题:用机器来模仿人类学习以及其他方面的智能,并为讨论的内容起了一个名字——人工智能。 jvzq<84yyy4djrscytoug{3eqo4dp8s314633856385d69929;3449<;9;:/j}rn
3.东方通2023年年度董事会经营评述3)AI时代来临,市场格局面临洗牌 随着人工智能、元宇宙等新技术的逐步落地和普及,在公共安全信息化领域会进一步体现和发挥大数据赋能的作用,进一步推动行业人工智能的发展,实现管理高效化、业务智能化、研判精准化、服务高质化、数据安全化,对于加强技术创新、具备信息技术应用创新能力、信息安全能力以及大数据能力的公司,会jvzq<84pgyy/39osmc4dqv3ep1814=564;5d8><6557267xjvor
4.“风投女王”徐新:错过张一鸣黄峥后,学到了什么?接下来就是算法,算法究竟是什么?它有20%其实就是找到一个核心技术上的突破,还有80%是不断地训练数据。在这方面,我们国家也是有优势的。 所以,我们觉得在AI时代来临的时候,中国是有机会弯道超车的。我们在人脸识别、电动车无人驾驶各方面其实做得都不错了。 jvzquC4158qs0lto1r529=97;6=83?6;68:
5.AI2.0时代来临:李开复张亚勤等专家解析AI未来发展AI2.0时代来临:李开复、张亚勤等专家解析AI未来发展 11月28日,由36氪主办的WISE2023 商业之王大会在北京国际会议中心正式拉开帷幕,大会以“太阳照常升起(The Sun Always Rises)”为主题,邀请到百余位商业大咖、知名企业家、投资人、技术大咖和现场观众,共同探寻中国商业的内在动力和发展趋势。 36氪CEO冯大刚 中国 jvzquC41pg}t0qjzwp4dqv44249.3:24;1823;=8367/j}rn
6.王水兴:人工智能的马克思劳动价值论审思因此,人工智能时代来临,绸缪技术性失业问题仍然具有重要意义。人工智能技术迅猛发展,在许多工作岗位上替代了人的劳动,不仅大量的体力劳动岗位,连文学创作、新闻写作、音乐制作、司法审判、教育教学等原先只能由人来承担的工作也可以被人工智能取代。伴随着人工智能技术狂飙发展的是人类对自身主体地位丧失的深度忧虑和恐惧。jvzq<84nkvksc}ztg0ibu|3ep1€u|u4omu€zy‚qn{rv04975275u4975276:a>;534720|mvon
7.全球核电再启动,铀矿“十年等一回”随着AI时代来临,发达国家开始面临碳中和和能源需求再次增长压力。过去核电增长主要来自发展中国家,但是目前发达国家亦开始重启核电计划,除了2030年前18.3GW的已有核电重启,我们预计亦有21.3GW的核电新增装机启动,叠加发展中国家的核电需求,到2030年会有一共新增130.9GW核电装机,推动全球核电每年天然铀需求达到9.8万吨U3O8,jvzquC41ycrmu}wggvio0lto1cxuklqgu1983==49