谷歌开发语言模型Minerva,在数学考试中可达到人类平均水准

biediaonvhai2022-07-07 00:01:58腾讯科技

近日,谷歌开发了一个名为 Minerva 的自然语言处理(Natural Language Processing,NLP)模型,能够回答微分方程、化学、狭义相对论等高难度学科问题。

据了解,现在已有的 NLP 模型(如 OpenAI 的 GPT-3、DeepMind 的 Gopher 等)可以较好地执行总结、翻译、写作等各类文本处理任务。但目前,这类神经网络模型在解决所谓的定量推理问题(如数学问题)方面的能力还有不足。

(来源:Pixabay)

“定量推理是语言模型仍然远远低于人类水平表现的一个领域,”研究人员在谷歌官方博文中解释说,“通常认为,用机器学习解决定量推理问题需要模型架构和训练技术的重大进步。”

其还提到,数学等复杂学科问题的解决需要使用自然语言和数学公式解析问题,以及生成数值计算的分步解决方法等多种技能的组合。

由于这些挑战,谷歌打造了 Minerva 这种可以解决定量推理问题的AI模型。

6 月 29 日,相关论文以《用语言模型解决定量推理问题》(Solving Quantitative Reasoning Problems with Language Models)为题提交在arXiv上。

据了解,Minerva 建立在 PaLM(5400 亿参数模型,谷歌 2022 年 4 月发布)基础之上,并在一个 118GB 数据集(包括科学论文和含有数学表达式的网页)上进行训练。

(来源:谷歌)

研究人员还提到,他们没有删除这些数据中对数学表达式的语义意义至关重要的符号和格式。因此,Minerva学会了如何使用标准数学符号来表达它生成的答案。并在博文中补充道:“为实现 STEM(Science、Technology、Engineering、Mathematics)推理任务的最先进性能,Minerva 结合了小样本提示、思维链或暂存器提示以及多数投票等提示和评估技术。”

▲图 | Minerva 对两个数学问题的输出解答(来源:谷歌)

比如通过思维链提示,研究人员不仅可以让 Minerva 回答问题,还可以尝试让它解释是如何计算答案的。在某些情况下,这种方法使神经网络能够解决过于复杂的问题。

另外,在解答数学问题时,该模型可以找到多种计算相同结果的方法,然后,对生成的不同解决方案进行比较,根据多数投票原则选择最有可能成为正确答案的解决方案。

▲图 | Minerva 从多个解决方案中选择最常见的结果作为答案(来源:谷歌)

值得一提的是,用户还可以使用谷歌推出的交互式网页试用 Minerva 的输出效果。

▲图 |Minerva 示例浏览网站(来源:谷歌)

为了测试 Minerva 的准确性,研究人员让其回答跨越多个领域的问题,难度从小学水平到研究生水平,涵盖小学和高中数学竞赛、大规模多任务语言理解基准子集 MMLU-STEM、麻省理工学院开放课件等中的各种问题。620 亿参数的 Minerva 在波兰国家数学考试(每年参加人数约有 27 万名)中达到了 57% 的分数,这恰好是 2021 年该国的平均水平,而 5400 亿参数版本实现了 65% 的分数。

研究人员表示,在所有情况中,相较之下,Minerva 都能获得最先进的结果。但值得注意的是,Minerva 还是会犯不少错误,其中计算错误和推理错误约各占 50%,这些错误大都比较容易解释。而结果正确,推理过程错误的情况被研究者称为“误报”,误报率相对较低,620 亿参数的 Minerva 在数学上产生的误报率低于 8%。

谷歌对这些错误样本进行了分析,以确定模型后续需要改进的地方。以下是模型犯的两个示例错误。

▲图 | 计算错误(来源:谷歌)

▲图 | 推理错误(来源:谷歌)

由于 Minerva 并没有使用底层数学结构来回答问题,这使其无法自动验证答案,因而检测不到“误报”情况。该模型还无法利用计算器或 Python 解释器等外部工具。因此,它进行需要复杂数值计算的定量推理任务的能力有限。Minerva 模型的性能目前与人类的表现还有不小差距。

总的来说,通过在大量定量推理数据上训练大模型,并采用一流的 AI 技术,从而让 Minerva 在多类定量推理任务上实现较高的提升。

最后,机器学习模型已在许多科学学科中发挥重要作用,但它们通常局限于解决特定范围的任务。像 Minerva 这类能够进行定量推理的模型有许多潜在的应用,包括作为研究人员的辅助工具、为学生提供新的学习机会等。“我们希望解决定量推理问题的通用模型能够有助于推动科学和教育的进一步发展。Minerva 已经朝这个方向迈出一步。”研究人员表示。

参考资料:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://arxiv.org/abs/2206.14858

解析「Web3悖论」的内在机理与突破路径

编者按孟子曰︰鱼,我所欲也;熊掌,亦我所欲也。二者不可得兼。Web3的世界里:去中心化技术,大众所欲也;应用价值,亦大众所欲也。二者不可得兼。本文将尝试解析我们所憧憬的Web3景象与现实的生态建设之间的鸿沟,...

晚间必读5篇 | 美国政府制裁混币器Tornado

1.金色观察|美国政府制裁混币器Tornado其多个网址404美国政府正在打击加密货币混币器。2022年8月9日,美国财政部外国资产控制办公室(OFAC)宣布制裁混币器TornadoCash,将TornadoCash及38个以太坊地址添加到特别指定...

清算风险正蔓延向NFT市场

8月18日,推特用户Cirrus指出,大量用作抵押品的BoredApeYachtClubNFT接近BendDAO的清算点(被锁定的NFT的健康因子小于1将触发清算)。根据BendDAO健康因素警报列表数据,目前有26个BAYC的健康因子小于1.1,这是有史...

林俊杰的元宇宙房地产塌房,周杰伦站台的 NFT 稀碎

元宇宙房产和NFT暴跌,明星也拦不住。林俊杰50万元(7万多美元)在元宇宙买下的三块虚拟地产暴降80%,跌到9万多元。这些地产如今访问量几乎为零,周围也完全没有建筑装饰,一片空空荡荡。周杰伦带货的NFT幻影熊(Pha...

晚间必读5篇 | 下半年 这五种加密投资趋势值得注意

1.金色观察|Bankless:2022下半年这五种加密投资趋势值得你注意2022年已经过去一半,之前这半年像是一场恶作剧,现在是时候展望未来了。虽然现在大多数人的目光可能都集中在宏观不稳定上,但协议层面也发生变化,将...

DAO是影响工作的新方式

文章作者:Gitcoin联合创始人&ScottMoore文章编译:BlockunicornGitcoin的联合创始人表示,“DAO影响”处于新兴工作文化的最前沿,它要求我们将我们的价值观与我们的行动保持一致。Web3社区在本质上是根植于深刻的乐...

Cosmos 生态:构建可互操作的多链未来

Cosmos生态在过去一年中极大地激发了投资者、开发者和用户的兴趣。我们试图通过回答5个简单的问题来了解这个生态系统。什么是Cosmos?Cosmos通过为开发人员提供巨大的灵活性,为在多链范式中构建区块链提供了一种主...

Bankless: 以太坊对战Cosmos

原文作者:红军大叔译者按1、作者对Cosmos的理解侧重在于消费链的个性化以及staking这一层面,对IBC的价值,以及基于此的互操作性阐述较少。2、不过,将L2和模块化作为一个对比的视角很好,这也是未来Cosmos一个变量...

Foresight Ventures:Web3社交协议垄断性 灵魂绑定代币

作者:Alice@ForesightVentures文章摘要:社交产品的本质是撮合,Web3通过搭建统一的数据底层,最大化应用的撮合能力、提升用户信息获取的效率。优质关系和网络效应的积累需要到达一个临界点才能形成质变,过程是曲折...

炒作虚拟跑鞋实为“击鼓传花”

来源:中国经济网一双虚拟跑鞋,售价在5000元到40000元不等,几个月就卖了上百万双。这双鞋既不能试穿,也不能触摸,为何依然有人抛掷重金?还是背后的投机炒作使然?据了解,虚拟鞋有“跑步赚钱”等新玩法:用户购...

上一篇:金色观察 | 寻求重振业务增长 Meta推进数字藏品计划
下一篇:加密货币暴跌会破坏下一次区块链革命吗?