世界上规模最大的全基因组数据库——英国生物银行(UK Biobank),最近的资料库再次升级了。英国生物银行是知名的健康研究计画,至本次升级共提供科学家近50万人的完整基因序列进行分析,此数据量也是过往数据集的两倍以上。研究人员表示,结合多位参与者的长期追踪健康数据,这个「宝库」将有望改变生物医学研究。
自2006年成立以来,英国生物银行已收集了50万名中老年志愿者的生物样本、全身扫描,以及健康和生活方式等数据。经参与者同意後,它还能透过该国的国家卫生服务部门保存的纪录,追踪这些人罹患癌症、失智症和其他疾病的发生率。
2012年开始,英国生物银行便会定期发布这些经过匿名後的健康数据,以及参与者的遗传讯息,包含DNA标记和外显子组(exome,仅占人类DNA约2%,但负责编码出蛋白质)的序列,且来自世界各地的实验室都可以申请使用这些数据集的存取权。根据英国生物银行的说法,迄今已有来自约90个国家的三万多名研究人员获得使用资料的权利。此外,更有超过9000篇使用英国生物银行数据并通过同侪审查的研究论文被发表在期刊上。研究领域从影响从阿兹海默症(Alzheimer's disease)的风险、心脏病到性格特徵皆有,甚至也包含容易引发争议的性取向等各种面相。
2021年,英国生物银行初步释出约20万名参与者的全基因组,本次发布的数据集包含49万1554名参与者全新和修正後的序列测定数据。不同於外显子,全基因组内含的资讯能使研究人员在基因组的蛋白质编码和非编码区域中,寻找关於某些性状与罕见遗传变异之间的关联。虽然目前科学家已经知道非编码区域参与调节基因活性等功能,但它们对於人类生物学有何种影响/贡献仍是未知数。过去曾在研究中大量使用英国生物银行数据的美国麻省总医院(Massachusetts General Hospital)和哈佛医学院(Harvard Medical School)基因学家、心脏病学家纳塔拉扬(Pradeep Natarajan)认为,本次发布的数据集应该会为此领域带来实质性的进展。
再加上从去(2023)年11月底开始,获得准许的研究人员将可以透过云端分析平台存取数据。有些公司也已经开始在会议和预印本上分享他们的初步分析,例如贝勒医学院(Baylor College of Medicine)的基因学家,同时也是阿斯特捷利康(AstraZeneca)顾问的丁萨(Ryan Dhindsa),就曾经在11月的美国人类遗传学学会(American Society of Human Genetics)的会议上展示新数据集中针对特定类型的罕见变异进行分析。他也期待最新版本的英国生物银行,能够提供的更好的解析度和统计效力。
此消息对世界各国的遗传学家而言十分令人兴奋,像是德国亥姆霍兹转化基因体学研究所(Institute of Translational Genomics, ITG)的所长泽吉尼(Eleftheria Zeggini)就表示,对於研究人类基因组学领域来说样本量的大小至关重要,而如此庞大的序列集也将为研究人类健康和疾病的生物学基础提供独特且丰富的资源。
尽管拥有无可比拟的规模和广泛的医疗保健数据,但英国生物银行仍存在一些值得注意的限制。例如该资料库的参与者往往比英国的总人口更健康、生活更为富裕,且大部分参与者是欧裔,只有约一万名参与者是非洲裔,南亚裔参与者的数量也仅有约一万名。相比之下,在美国国家卫生研究院(National Institutes of Health) 生物库计画「All of Us」共有超过72.5万名参与者注册参加,约有一半人属於「种族或民族少数群体」。但该平台只发布了约25万个全基因组序列,且资料直到去年8月才开始接受国际组织的申请。
伦敦大学学院(University College London)遗传研究所的基因学家科提斯(David Curtis)表示,英国生物银行目前仍然是一项非常独特的资源。期望未来此资料库可以被世界各地的研究人员深入研究,找出令人耳目一新的发现。
(Adobe Stock)