AI导读:

华大生命科学研究院与之江实验室联合发布百亿参数基因组通用基础模型Genos,支持超长上下文分析,实现单碱基分辨率精准识别,整合全球636个高质量人类基因组数据,准确率高达98.3%,已在多平台开源。

  23日,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos,这一突破性成果引发了广泛关注。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别,为基因研究领域带来了新的可能性。

  人类基因组由30亿对碱基组成,‘人类基因组计划’虽破译了序列,但碱基的具体功能仍需精准识别。Genos模型的出现,正是为了解决这一难题,推动基因研究向更深层次发展。

  现有模型大多基于1—2个参考基因组训练,难以体现人类遗传资源多样性。Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威资源,首次将全球636个‘端粒到端粒’级别的高质量人类基因组作为训练数据,覆盖全球不同人群,助力更全面理解人类遗传多样性。

  算法架构上,Genos采用‘混合专家’架构,精准调度强相关‘专家’算法协同处理,降低推理成本和资源消耗。测试结果显示,其在致病性突变解读任务中准确率达92%,结合科学基础模型后更是高达98.3%,多项评测超越现有最佳水平。

  华大生命科学研究院相关负责人表示,Genos模型已在HuggingFace(抱抱脸)、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同研究需求,为基因研究领域注入了新的活力。

(文章来源:科技日报)