大家好,欢迎来到IT知识分享网。

Kevin Jablonka 博士,有机化学和大分子化学研究所初级研究组组长 图片来源:Jens Meyer(耶拿大学)
耶拿弗里德里希席勒大学的研究人员最近的一项研究调查了 GPT-4 等现代 AI 模型在化学中的强大功能,以及它们与人类专家相比的表现如何。使用一种新开发的名为“ChemBench”的测试方法,由 Kevin M. Jablonka 博士领导的团队能够证明 AI 模型在某些任务领域令人信服,但也存在明显的弱点。该团队在科学杂志《自然化学》上报告了这一点。
“人工智能在化学领域的可能性引起了越来越多的兴趣,因此我们想了解这些模型到底有多好,”耶拿弗里德里希席勒大学卡尔蔡司基金会初级研究小组“能源应用中的聚合物”负责人 Jablonka 和耶拿亥姆霍兹聚合物研究所 (HIPOLE) 的负责人 Jabbonka 解释说。该研究的核心是“ChemBench”,这是研究人员开发的一种工具,与化学家的技能进行了比较。
超过 2,700 个任务在人类和机器之间进行比较
为了测试人工智能的能力,耶拿大学的团队开发了一种特殊的测试程序,该程序使用现代化学中遇到的现实任务。来自化学各个领域(从有机化学到分析化学)的 2,700 多个问题被集成到“ChemBench”工具中。它们涵盖基础知识和具有挑战性的问题,并基于典型的化学课程。将 AI 模型的性能与从事相同任务的 19 位经验丰富的专家的性能进行了比较。
虽然人类被允许在部分研究中使用 Google 或化学程序等辅助工具,但 AI 模型必须在没有此类外部资源的情况下进行管理。“因此,这些模型能够完全从使用现有数据的训练中汲取知识,”Jablonka 解释说。“我们还测试了两个可以访问外部工具的 AI 代理——但这些无法跟上最好的模型,”化学家补充道。除了答案的准确性外,研究人员还评估了 AI 对自身响应可靠性的评价。
AI 更快、更高效,人类更具反思性和自我批判性
Jablonka 报告说,研究结果显示情况喜忧参半:“即使是要求非常苛刻的教科书式问题,一些 AI 模型也被证明比人类更有效。然而,虽然化学家在某些情况下公开承认他们无法确定地回答问题,但最好的 AI 模型显示出相反的趋势:他们经常非常自信地给出答案——即使内容不正确。
“错误答案与高度确信会导致问题”
“这在关于化学结构解释的问题中尤其明显,例如核磁共振波谱的预测,”Jablonka 说。在这里,这些模型似乎提供了明确的答案,即使它们有时会犯根本性错误。另一方面,人类专家更经常犹豫不决,并质疑自己的结论。“这种差异是人工智能在化学中实际适用性的决定性因素,”Jablonka 分类道,因为:“一个模型如果给出错误答案但置信度很高,可能会导致敏感研究领域出现问题。
“我们的研究表明,人工智能可以成为人类专业知识的重要补充——不是作为替代品,而是作为支持工作的宝贵工具,”Kevin Jablonka 总结道。“因此,我们的研究为 AI 与人类化学专业知识之间更紧密的合作奠定了基础。”
原始出版物:
Mirza, A., Alampara, N., Kunchapu, S. et al., A framework for evaluate the chemical knowledge and reason ability of large language models against the expertise of chemists, Nature Chemistry, (2025), DOI: https://doi.org/10.1038/s41557-025-01815-x
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/179779.html