通过双重众包预测RNA降解的深度学习模型_呼吸疾病症状

通过双重众包预测RNA降解的深度学习模型

北京那家医院可以治疗白癜风 http://pf.39.net/bdfyy/xwdt/

编辑

萝卜皮

基于信使RNA(mRNA)的药物具有巨大的潜力，正如它们作为COVID-19疫苗的快速部署所证明的那样。然而，mRNA分子的全球分布受到其热稳定性的限制，这从根本上受限于RNA分子对称为在线水解的化学降解反应的固有不稳定性。预测RNA分子的降解是设计更稳定的基于RNA的疗法的关键任务。

在这里，斯坦福大学的研究人员描述了Kaggle上的众包机器学习竞赛（StanfordOpenVaccine），涉及对6,种不同的-核苷酸RNA结构的单核苷酸分辨率测量，这些RNA结构本身是通过RNA设计平台Eterna上的众包征集的。整个实验在不到6个月的时间内完成，获胜模型中41%的核苷酸水平预测在实况测量的实验误差范围内。

此外，这些模型普遍适用于盲目预测更长的mRNA分子（-1,个核苷酸）的正交降解数据，与之前发布的模型相比具有更高的准确性。这些结果表明，此类模型可以非常准确地表示在线水解，支持它们用于设计稳定的信使RNA。两个众包平台的集成，一个用于数据集创建，另一个用于机器学习，可能有助于解决其他需要在快速时间尺度上进行科学发现的紧迫问题。

该研究以「DeeplearningmodelsforpredictingRNAdegradationviadualcrowdsourcing」为题，于年12月14日发布在《NatureMachineIntelligence》。

基于信使RNA(mRNA)的疗法作为模块化治疗平台显示出巨大的前景，可以传递和翻译任何蛋白质，基于mRNA的疫苗针对严重急性呼吸系统综合症冠状病毒2（SARS-CoV-2）的快速部署就证明了这一点。然而，RNA的化学不稳定性对基于RNA的疗法的稳定性设置了基本限制，其中RNA水解特别为基于脂质纳米颗粒(LNP)的制剂的稳定性设置了限制因素。LNP制剂中的水解会降低运输和储存过程中剩余的mRNA的量，并且疫苗注射后体内的水解会限制随时间产生的所得蛋白质的量。开发耐热RNA疗法的更好方法将允许增加它们分布的公平性，降低它们的成本并可能增加它们的效力。

同义序列设计的前景是通往货架稳定性更高的mRNA疗法的未充分探索的途径。一个简单的计算表明，存在10^个mRNA序列，它们都编码SARS-CoV-2刺突蛋白抗原。由于可用于给定治疗靶标的mRNA序列数量是天文数字，因此这些序列中的一些可能具有结构特征，使其比第一代mRNA疫苗制剂更耐水解。事实上，初步结果表明，可以通过优化候选RNA序列，为模型蛋白质系统设计更稳定的mRNA，并使用RNA水解模型进行评分。这些初步研究表明，与未优化的mRNA相比，稳定的mRNA可以产生等量的蛋白质，并且对于某些设计，可以产生更多的蛋白质。预计这些设计策略能够产生不会激活双链RNA免疫传感器（如RIG-I）的mRNA。这些策略还证明了与由修饰的核苷酸合成的mRNA的相容性，包括用于mRNA疫苗制剂的假尿苷。

然而，任何此类mRNA设计算法的潜力都受到预测RNA降解的基础模型准确性的限制。以前的RNA降解模型假设任何RNA核苷酸连接被切割的概率与5核苷酸未配对的概率成正比。使用该模型的计算研究表明，通过序列设计至少可以将稳定性提高两倍，同时保持与可译性、免疫原性和全局结构相关的序列和特征的广泛多样性。然而，降解不太可能仅取决于核苷酸未配对的概率：局部序列和结构特异性背景可能差异很大，自然界中发现的核酶RNA证明了这一点，其序列采用经历自我分裂的特定结构。

图：用于创建RNA降解预测模型的双众包设置。（来源：论文）

斯坦福大学的研究人员希望了解在模型开发的短时间内可实现的RNA降解的最大预测能力。为此，他们结合了两个众包平台：RNA设计平台Eterna和机器学习竞赛平台Kaggle。「RNA设计」的问题涉及设计具有特定目标特性的RNA序列，例如特定的整体结构、目标功能（例如传感器活性），或者在这种情况下，具有高化学稳定性。研究人员使用了在Eterna平台上设计的短RNA片段的降解数据，其中包含多种序列和结构，并假设众包获得机器学习架构的问题将产生一个模型，该模型能够表达由此产生的序列复杂性和结构相关的退化模式（图1a）。研究人员假设这种「双重众包」将导致对开发的模型进行严格和独立的测试，最大限度地减少设计测试结构的个人（Eterna参与者）与构建模型的个人（Kaggle参与者）之间的假设共享，并导致在独立数据集上具有更好的普遍性。

由此产生的模型受到了两次盲目预测挑战。第一个是在Kaggle竞赛的背景下，参与者旨在预测的RNA结构探测和降解数据直到比赛宣布后才获得。用于这些数据的实验方法In-line-seq允许测量单个核苷酸连接的降解率。然而，这种方法依赖于探测短RNA片段，无法扩展以对感兴趣的蛋白质靶标的全长mRNA进行单核苷酸降解测量。其他实验方法，如PERSIST-seq已被开发用于表征每个mRNA分子的总体降解率，这是在设计稳定的基于RNA的疗法时要最小化的主要兴趣值。原则上，长度为N的mRNA分子的总降解率等于骨架中每个二核苷酸键的降解率之和：

，其中

是核苷酸连接i的降解。mRNA的半衰期计算如下，

。

研究人员通过比较每个核苷酸的总降解率与测序剩余的整个构建体的丰度来凭经验测试上述模型，并发现高度一致（扩展数据图1）。使用上述ansatz，在第二个盲目挑战中测试了生成的模型，该挑战预测编码各种模型蛋白质的全长mRNA的整体降解，使用PERSIST-seq进行实验测试。这些模型还证明了在预测这些总体降解率方面比现有方法具有更高的预测能力。因此，这些模型立即可用于指导低降解mRNA分子的设计。模型性能分析表明，预测RNA降解模式的任务受到可用数据量以及用于创建输入特征的结构预测工具的准确性的限制。实验数据和二级结构预测的进一步发展，与此处开发的网络架构相结合，将进一步推进RNA降解预测和治疗设计。

图：竞赛中使用的深度学习策略。（来源：论文）

讨论

OpenVaccine竞赛独特地利用了两个互补的众包平台的资源：Kaggle和Eterna。Kaggle竞赛的参与者的任务是预测单个RNA核苷酸的稳定性测量值。及时开发稳定的COVID-19mRNA疫苗的紧迫性要求比赛在相对较短的三周时间内进行，而不是三个月，这在Kaggle比赛中更为常见。

此处介绍的模型可立即用于mRNA设计，因为它们可以在随机mRNA设计算法中调用，以最大限度地减少预测的降解。可能还有进一步的机会利用自然语言处理的进步来使用此处介绍的数据集来使用文本生成方法生成mRNA设计。本次比赛中使用的降解数据来自用未修饰的核苷酸合成的RNA，但mRNA疫苗是用修饰的核苷酸配制的，包括假尿苷或N-1-甲基假尿苷。修饰的核苷酸通常具有不同的潜在热力学，因此需要开发数据集和预测模型来预测结构和由此产生的用修饰核苷酸配制的mRNA的稳定性。In-line-seq方法可以使用带有修饰核苷酸的RNA来执行，生成的数据可用于重新训练具有此处介绍的架构的模型。如果不为修饰的核苷酸开发全新的热力学参数，就有可能开发有原则的启发式算法，使模型适应用修饰的核苷酸合成的mRNA。例如，Leppek团队修改了假尿苷的DegScore模型，将所有尿苷降解测量值设置为零以模拟假尿苷的稳定作用，并看到相关性得到适度改善。

图：Kaggle模型在全长mRNA降解的独立测试中表现出改进的性能。（来源：论文）

数据集相对较小的Kaggle比赛可能会严重过度拟合公共排行榜，这通常会导致在宣布未见过的测试集的结果时排行榜的「重组」。在这场比赛中，变动很小——大多数顶级团队在私人排行榜上的排名与他们在公共排行榜上的排名接近。由于私人排行榜是根据比赛开始时尚未收集的数据确定的，因此这一结果表明这些模型是稳健且可推广的。

斯坦福大学的研究人员展示了前两个模型概括为预测全长mRNA分子降解的任务，这些分子比用于训练的结构长十倍。研究人员推测，使用单独的、独立收集的数据集进行私人排行榜测试——真正的盲目预测挑战——对于确保普遍性很重要。获胜的解决方案都结合了常用于建模一维序列数据的神经网络架构，包括多头注意力、循环神经网络（LSTM和GRU）和一维CNN。伪标签的有效性有两个含义：更多的数据可能会有益于任何未来的建模工作，并且所使用的简单架构有足够的能力从更多的数据中受益。

图：数据分割的信号噪声。（来源：论文）

此处介绍的模型的一个研究不足的方面是训练对多种数据类型的影响。研究人员认为，由于SHAPE反应性比退化数据类型具有更高的信噪比，具有允许数据类型之间权重共享的体系结构的模型也受益于学习预测SHAPE反应性。在不同时对SHAPE数据进行训练的情况下直接预测RNA降解可能会导致模型性能变差。相反，此处介绍的模型架构也可能被证明在仅预测SHAPE反应性数据方面具有有用的生物学应用。模型开发的未来方向包括在来自更多不同实验来源的更大的化学映射数据集上训练此类模型，并将其集成到RNA结构预测的推理框架中。

最后，在这项工作中开发的用于预测RNA水解的模型可能被证明可用于计算识别已经进化为具有抗降解性的天然RNA类别。这种未来的生物信息学分析可能会提出全新的生物学启发方法来设计抗水解RNA疗法。更直接的是，计算设计mRNA序列以优化本研究中发现的预测降解稳定性，并通过实验测试此类序列是否确实足够稳定以实现mRNA疫苗的更广泛分布将引起强烈兴趣。神经网络预测属性的计算机设计是一个活跃的研究领域，研究人员推测进一步的双众包研究可能有助于加速进展。

论文链接：

转载请注明地址:http://www.huxixitonga.com/hxjbzz/20176.html

上一篇文章：连花清瘟胶囊卖断货以岭药业回应不存在扩
下一篇文章：没有了