英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍

作者: 来源: 站长之家 2023-07-31 11:19:03

 

编程客栈() 7月31日消息:研究表明,对于类似 OpenAI 的服务,由于计算成本的计量和计费方式,英语输入和输出比其他语言要便宜得多,其中简体中文的成本约为英语的两倍,西班牙语为英语的 1.5 倍,而掸语则要贵 15 倍。


(资料图)

一项由牛津大学进行的研究发现,让一个大型语言模型处理一句缅甸语句子需要 198 个 tokens,而同样的英语句子只需 17 个 tokens。Token 代表通过 API 访问大型语言模型(如 OpenAI 的 ChatGPT 或Anthropic 的 Claude 2)的计算成本,这意味着使用服务处理缅甸语句子比处理英语句子要贵 11 倍。

这种「标记化」模型意味着在不理想的情况下,访问和训练非英语语言模型会更昂贵。这是因为像中文这样的语言与英语在结构上(无论是语法上还是字符数量上)有所不同,从而导致其标记化的成本更高。

举个例子,根据 OpenAI 的 GPT3 tokenizer,将「your affection」这个词组标记化为英语只需两个 tokens,而在简体中文中则需要八个 tokens。这是因为简体中文的文本虽然只有 4 个字符(你的感情),而英语文本有 14 个字符。

微软自己在解释其 ChatGPT 模型的 API 访问和使用的页面上提供了一个很有用的工具,其中甚至包括了一个标记化工具,您可以用来测试每个提示的标记成本。在那里,我们可以看到在英语中,1 个 token 约等于 4 个字符,100 个 tokens 约等于 75 个英文单词。但是这种数学规则并不能应用于其他任何语言,微软清楚地表明了这一点。

在人工智能相关的成本方面,英语的成本效益无可匹敌;例如,相对于输出而言,中文的成本是英语的两倍。但这只是 AI 公司迄今为止javascript用于训练模型的可用训练数据的反映。人工智能的爆发已经向世界展示了高质量紧急数据(作为生活记录而产生的数据)的价值。

此问题直接关系到 AI 公司希望实现递归训练的愿望,python即能够用自己的输出训练 AI 模型。php如果实现了这一点,那么未来模型仍将显示英语与其他语言相比的成本效益,其他语言的复杂性和更有限的基础训练数据导致了更高的标记化速率。

为了进一步复杂化问题,似乎除了标记化之外,其他衡量成本的方法最终也会遇到相同的问题。无论是通过位数还是字符计数,显然没有任何一种语言能够超越英语的实际实用性——英语的「可压缩性」较高,因此标记数量较低。

这意味着问题不在于模型的货币化方式;它实际上是技术和基础模型在训练中的一个真实局限。而且不难想象,这个问题会影响到各个版本的多语言模型。毕竟,它们编程客栈几乎都是以相同方式构建的。

当我们考虑到推出大型语言模型(如 ChatGPT)或生成式图像网络(如 Midjourney)的公司主要位于美国时,这种成本差异已经导致一些国家推出了培训和使用本地语言的大型语言模型的计划。中国和印度都这样做了,而且都声称这样做是为了配合英语为基础的 AI 网络所允许的创新速度。而这种速度主要受到访问和训练成本的限制。

每个人都希望花尽可能少的钱获得尽可能多的东西,这是很自然的。而这些动态直接影响根据基础语言进行 LLM 培训和部署的成本。人工智能业务是如此复杂,其影响如此深远,我们必须非常小心地采取每一个小步骤。

 

相关文章
最近更新
  • 英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍

    英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍

    2023-07-31

  • 震裕科技不超12亿元可转债获深交所通过 民生证券建功

    震裕科技不超12亿元可转债获深交所通过 民生证券建功

    2023-07-31

  • Peru Sees China as a Valuable Partner

    Peru Sees China as a Valuable Partner

    2023-07-31

  • 江西省上云上平台企业突破30万家

    江西省上云上平台企业突破30万家

    2023-07-31

  • 电商卷增长,同向不同路:集权VS放权,公域VS私域

    电商卷增长,同向不同路:集权VS放权,公域VS私域

    2023-07-31

  • 三伏天练“蒸”功夫,致敬!泗泾镇19处爱心接力站为你们敞开

    三伏天练“蒸”功夫,致敬!泗泾镇19处爱心接力站为你们敞开

    2023-07-31

  • AI会比人类更懂宇宙吗

    AI会比人类更懂宇宙吗

    2023-07-31

  • 长白山7月31日快速上涨

    长白山7月31日快速上涨

    2023-07-31

  • 让高质量公共法律服务人人可享

    让高质量公共法律服务人人可享

    2023-07-31

  • 乌兰:向天借“甘霖” 保苗缓旱情

    乌兰:向天借“甘霖” 保苗缓旱情

    2023-07-31

  • 隆戈:米兰关注蒙彼利埃中卫埃斯特维,预计今夏不会再买右后卫

    隆戈:米兰关注蒙彼利埃中卫埃斯特维,预计今夏不会再买右后卫

    2023-07-31

  • 字节出牌方式变了

    字节出牌方式变了

    2023-07-31

  • 国家统计局:7月份制造业采购经理指数为49.3%

    国家统计局:7月份制造业采购经理指数为49.3%

    2023-07-31

  • 创业板成为拟上市板块优选

    创业板成为拟上市板块优选

    2023-07-31

  • “投行+投资”模式下 券商不断加大另类投资业务力度

    “投行+投资”模式下 券商不断加大另类投资业务力度

    2023-07-31

  • 兴业银行台州分行为户外工作者送清凉

    兴业银行台州分行为户外工作者送清凉

    2023-07-31

  • 国产光刻机如何突围?

    国产光刻机如何突围?

    2023-07-31

  • 《超级马里奥:惊奇》通过ESRB评级 大反派还是库巴

    《超级马里奥:惊奇》通过ESRB评级 大反派还是库巴

    2023-07-31

  • 济南万达广场什么时候开业_济南万达广场在哪条路

    济南万达广场什么时候开业_济南万达广场在哪条路

    2023-07-31

  • 汤晓东离开贝莱德后下一站城堡证券,任中国业务负责人

    汤晓东离开贝莱德后下一站城堡证券,任中国业务负责人

    2023-07-31

  • 坚持党建引领 推动“串门儿”行动凝聚人心

    坚持党建引领 推动“串门儿”行动凝聚人心

    2023-07-31

  • 7月31日油价大跌,汽油降价

    7月31日油价大跌,汽油降价

    2023-07-31

  • 《超级马里奥兄弟:惊奇》通过ESRB评级 大反派还是库巴

    《超级马里奥兄弟:惊奇》通过ESRB评级 大反派还是库巴

    2023-07-31

  • 协和天津留学人员创业园揭牌开园  静海区发挥园区聚集效应加快招商引资步伐

    协和天津留学人员创业园揭牌开园 静海区发挥园区聚集效应加快招商引资步伐

    2023-07-31

  • 巴西记者佩德罗点赞:赛事很棒,成都很靓

    巴西记者佩德罗点赞:赛事很棒,成都很靓

    2023-07-31

  • 30周年特装版杜卡迪937ccMonster车型仅500台

    30周年特装版杜卡迪937ccMonster车型仅500台

    2023-07-31

  • 莫斯科市遭无人机袭击

    莫斯科市遭无人机袭击

    2023-07-31

  • 什么叫iphone改版机(改版机和行货的区别是什么)

    什么叫iphone改版机(改版机和行货的区别是什么)

    2023-07-31

  • 紫罗兰水草玛瑙

    紫罗兰水草玛瑙

    2023-07-31

  • 文化和旅游部发布143条乡村旅游精品线路

    文化和旅游部发布143条乡村旅游精品线路

    2023-07-31