华大生命科学研究院发布百亿参数基因组模型Genos,引领基因研究新突破
AI导读:
华大生命科学研究院与之江实验室联合发布百亿参数基因组通用基础模型Genos,支持超长上下文分析,实现单碱基分辨率精准识别,整合全球636个高质量人类基因组数据,准确率高达98.3%,已在多平台开源。
23日,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos,这一突破性成果引发了广泛关注。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别,为基因研究领域带来了新的可能性。
人类基因组由30亿对碱基组成,‘人类基因组计划’虽破译了序列,但碱基的具体功能仍需精准识别。Genos模型的出现,正是为了解决这一难题,推动基因研究向更深层次发展。
现有模型大多基于1—2个参考基因组训练,难以体现人类遗传资源多样性。Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威资源,首次将全球636个‘端粒到端粒’级别的高质量人类基因组作为训练数据,覆盖全球不同人群,助力更全面理解人类遗传多样性。
算法架构上,Genos采用‘混合专家’架构,精准调度强相关‘专家’算法协同处理,降低推理成本和资源消耗。测试结果显示,其在致病性突变解读任务中准确率达92%,结合科学基础模型后更是高达98.3%,多项评测超越现有最佳水平。
华大生命科学研究院相关负责人表示,Genos模型已在HuggingFace(抱抱脸)、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同研究需求,为基因研究领域注入了新的活力。
(文章来源:科技日报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

