「有机化合物怎样命名啊?」、「有机化合物命名规矩是什么?」、「这个药物的有效成分叫什么?」、「有没有查找有机化合物命名的软件或程序?」、「某某命名软件还花钱。」、「某软件命名不准确。」......
现在,来自莫斯科罗蒙诺索夫国立大学和 Syntelly 草创公司的研讨人员开发了一种依据 Transformer 的人工神经办法,可依据 IUPAC 命名体系生成有机化合物的称号。
IUPAC 命名法是体系命名有机化合物的办法,在有机化学中发挥着重要作用。化学家一般手动创立 IUPAC 称号,但这个进程简单犯错,需求对命名规矩有深化的了解。计算机可缓解该问题。化学家可运用软件东西来生成称号。
但是,现在还没有用于有机结构到称号翻译的开源东西。与现有处理方案(如 ChemDraw JS 和 LexiChem TK)的答应协议需求特别权限才干嵌入其他渠道。
近来,来自莫斯科罗蒙诺索夫国立大学和 Syntelly 草创公司的研讨人员开发了一种依据 Transformer 的人工神经办法,依据 IUPAC 命名体系生成有机化合物的称号。新的处理方案现已在 Syntelly 渠道上完成,并可在线运用。
src=「开始,咱们想为咱们的 AI 化学渠道 Syntelly 创立一个 IUPAC 称号生成器。很快咱们意识到经过数字化 IUPAC 规矩来创立算法需求一年多的时刻,因而,咱们决议运用咱们在神经网络处理方案方面的经历,」该研讨的首要作者, Syntelly 草创公司的联合创始人 Sergey Sosnin 说。
循环神经网络(RNN)和 Transformer 已成功用于自然言语翻译。研讨人员构建了一个依据 Transformer 的神经网络,能够将分子从 SMILES(简化分子线性输入标准) 标明转化为 IUPAC 称号,反之亦然。描绘了他们的处理方案,评论了其办法的优缺点,并标明 Transformer 能够供给类似于人类化学直觉的东西。
数据库:深度学习技能需求许多数据。新网络运用世界上最大的敞开化学数据库 PubChem 进行练习和测验,包括 94,726,085 个结构。把数据库分红两部分,一半用于练习,另一半用于测验。
IUPAC 和 SMILES 符号器:符号化是将序列区分为块并区分这些块(符号)的进程。它是言语模型的常见预处理阶段。运用依据字符的 SMILES 符号并完成了依据规矩的 IUPAC 符号器。该研讨的 IUPAC 符号器是手动规划和办理的。符号器能够正确处理来自 PubChem 的 99% 以上的分子。
src=图示:SMILES 符号化(顶部)和 IUPAC 称号符号化(底部)的演示。(来历:论文)
Transformer 模型:运用由 Google 团队规划的现代神经架构 Transformer ,这是谷歌开始规划的最强壮的机器翻译神经网络之一,作为研讨的根底,并练习它将分子的结构标明转化为 IUPAC 称号,反之亦然。
验证进程:运用 OPSIN,能够验证生成的化学称号,以保证这些称号对应于正确的结构。能够检测到生成器的毛病而且不会显现过错的称号。
为了验证模型的质量,研讨人员从测验会集随机抽取了 100,000 个分子。SMILES 到 IUPAC 称号转化器以验证进程运转,在测验会集的 100,000 个随机分子的子集上完成了 98.9% 的准确度。
「咱们现已证明,Transformer 能够准确处理算法问题,为软件开发提出了一个新范式。推翻了曾经普遍认为不应该将它们用于此类问题的观念。在机器翻译中,用近义词替换一个单词是很有或许的,而在咱们的使命中,一个过错的符号会导致一个过错的分子。但是,Transformer 成功地完成了这一使命。」Sosnin 弥补道。
表 1:具有不同光束巨细的 100, 000 分子测验集上模型的准确度 ( % ) 。
具有许多符号(寡聚体、肽等)的分子在咱们的数据会集代表性缺乏, 这或许是此类大分子功用下降的一个原因。
虽然模型的准确度在十分大的分子上不超越 50%,但发现了一些风趣的杂乱分子示例,这些示例正确生成了 IUPAC 称号。
src=图示:Transformer 生成正确称号的两个应战分子示例。(来历:论文)
此外,十分小分子的功用显着下降。例如:甲烷,或许是 Transformer 运用了一种自注意力机制来剖析输入序列中符号之间的相关性。关于超短序列,很难把握 token 之间的联系。
新的处理方案现已在 Syntelly 渠道上完成,并可在线运用。研讨人员期望他们的办法能够用于化学符号之间的转化,以及其他与技能符号相关的使命,例如数学公式的生成或软件程序的翻译。
研讨人员标明:「令人惊奇的是,咱们依据神经的处理方案功用,可与依据规矩的软件相媲美。」
在介绍之前,小声明一下:仅代表个人试用的感触,更专业的同学,应该会有更多的收成 ~
首要,翻开在线开源网址:,左边菜单栏有许多功用选项,在这里挑选「Individual」选项,点击查找框,进入画板。输入需求命名的有机化合物结构,以甲苯(C7H8)为例。
src=期刊论文里说到:「能够将分子从 SMILES 标明转化为 IUPAC 称号,反之亦然。」
src=/div>
还有录入的已宣布的期刊论文中有机化学结构命名。当然还能够自行上传新论文 PDF。
在有机化学的初级阶段,化合物的命名并没有一起的规矩。1919 年国际纯粹与应用化学联合会(IUPAC)建立,IUPAC 出书有机化学命名法,俗称「蓝皮书」。供给了有关化合物清晰称号的攻略。
现在有机结构有几种代替标明方式。例如,简化分子线性输入标准(SMILES,Simplified molecular-input line-entry system)旨在为依据人类和依据计算机的化学信息处理供给便当。
曩昔,化学家手动创立 IUPAC 称号。这个进程简单犯错,由于它需求对命名法有深化的了解,且触及杂乱的算法。此外,化学家倾向于琐碎的称号,这对不同符号之间的正确转化构成了额定的应战。计算机缓解了这个问题。现在化学家广泛运用软件东西来生成称号。
称号生成器的前史始于 Garfeld 的开创性作业。但是,第一个面向化学家的日常软件是在 20 世纪末才创立和发布的。
但是,没有用于有机结构到称号翻译的开源东西。与现有处理方案(如 ChemDraw JS 和 LexiChem TK)的答应协议需求特别权限才干嵌入其他渠道。
研讨人员标明:「咱们信任,咱们的办法适用于处理其他技能符号(或其他算法应战)之间的转化问题,并期望咱们的发现能在开发依据规矩的处理方案本钱昂扬或耗不时杰出处理问题的新办法。」
「ScienceAI」重视人工智能与其他前沿技能及根底科学的穿插研讨与交融开展。