百图生科发布RNAGenesis|助力RNA药物设计迈入新时代
近日,百图生科(BioMap)携手斯坦福大学丛乐教授,普林斯顿大学王梦迪教授,张载熙博士后等多个团队共同发布了整合序列理解、结构预测和从头设计的RNA基座大模型——RNAGenesis。该模型成功设计出靶向亲和力达4.02 nM的高效适配体分子,并实现CRISPR基因编辑效率最高提升2.5倍,为RNA药物研发提供全新范式,助力RNA药物研发提效增速。该研究以《RNAGenesis: A Generalist Foundation Model for Functional RNA Therapeutics》为题发表在预印本平台上。 破局:RNA药物设计的“智能引擎” 非编码RNA在基因调控中扮演重要角色,但其“序列-结构-功能”的复杂关系长期制约理性设计。传统方法耗时费力,犹如“大海捞针”。基于百图生科xTrimo大模型平台,深度融合AI设计与湿实验验证,百图生科与合作团队构建了一个赋能RNA分子理性设计的通用基座模型-RNAGenesis: 技术内核:混合标记破解RNA密码 RNA仅有4种核苷酸,词表过小导致迁移NLP模型时表征能力受限。RNAGenesis首创混合N-gram标记化技术,通过多尺度卷积核,同时捕获单核苷酸特征与功能性保守模组(3-5nt)。相比传统方法,模型收敛速度提升,关键任务预测精度显著突破:APA位点预测 𝑅²=89.03 、非编码RNA分类准确率 97.82% 、核糖体负载预测 𝑅²=85.83。 应用突破:从算法到疗法 适配体设计:稳定与亲和兼得 适配体分子凭借其可编程性与靶向蛋白的高亲和力特性,成为治疗学、诊断学和合成生物学的强大工具。RNAGenesis设计的适配体序列与天然适配体相比,序列同源性更高,且具有更低的最小自由能和优化的GC含量。其中RGen-aptamer-8和RGen-aptamer-9对IGFBP-3靶标蛋白结合亲和力低至4.02 nM和6.06 nM,显著优于传统实验筛选的得到的分子(11.6 nM)。 基因编辑:sgRNA效率跃升 通过对生成序列的严格筛选,RNAGenesis生成了相比于其他模型更高质量的候选序列,并大幅提升了CRISPR-Cas9系统的基因编辑效率。 RNAGenesis对排名靠前的骨架序列进行了实验验证:在内源性位点的验证中,RGen-6骨架在多种sgRNA剂量条件下均实现了对B2M和AAVS1基因更有效的敲除,例如在AAVS1中等剂量条件下,效率提升约2倍。在需要更复杂RNA设计的引导编辑中,RGen-6相较于野生型pegRNA,将效率提高了最高1.2倍。 RNATx-Bench 该项目还构建包括超过10万实验数据的RNATx-Bench,囊括siRNA, circRNA, shRNA, ASO等RNA药物模态。RNAGenesis以1B参数,在下游任务预测指标上,超过Evo2 40B等模型。例如,RNAGenesis将shRNA候选药物的预测准确率提升了超过 10%。在ASO与siRNA的效力预测上,对几乎所有关键临床靶点预测中展现出超过所有baseline方法的能力。 未来,百图生科将继续深耕生物计算与实验技术的融合创新,以xTrimo系列大模型为基石,赋能全球生命科学领域的突破性探索。我们期待与更多志同道合的科研机构及产业伙伴携手,共同应对生命科学领域的复杂挑战。 合作联系:info@biomap.com 了解项目: Biorxiv: https://www.biorxiv.org/content/10.1101/2024.12.30.630826v3 Github: https://github.com/zaixizhang/RNAGenesis 王梦迪教授:https://ece.princeton.edu/people/mengdi-wang 丛乐教授:https://profiles.stanford.edu/186687 张载熙博士后:https://zaixizhang.github.io/