跳转到主要内容
新闻 自闭症研究的最新进展。
插图显示了研究人员选择DNA螺旋的部分安全粉碎。
插图由Alexander Glandien
新闻

“消毒”功能基因组数据可能会防止隐私被侵犯

通过/ 2021年1月8日

来听这个故事:

一种掩盖人体原始基因组数据部分的技术增加了共享性在不牺牲隐私一项新的研究显示。

要进行功能基因组学研究,科学家必须分享大量参与者的基因数据,这可能会不经意地将一个人的污名化或其他私人细节暴露给不道德的一方或雇主。

根据美国法律,雇主和医疗保险公司必须遵守禁止歧视根据基因检测结果。但并不是所有国家都有这样的法律,坊间报道显示,美国的雇主也有这样的法律无视法律。在瑞典的一项调查中,超过一半的父母表示担心他们如何自闭症儿童的基因数据将来可能会被用来对付他们。

关于遗传数据的信息标签还可以公开学习参与者到隐私违规行为Yaniv Erlich设计他是哥伦比亚大学(Columbia University)计算机科学副教授、genealogy公司的首席科学官迈尔马蒂奇他没有参与这项工作。恶意行为者可以通过交叉引用多个登记处来重新识别基因数据库捐赠者,从而将基因数据库捐赠者与他们的基因数据联系起来,这种入侵被称为“链接攻击”。

首席研究员说,新的数据“净化”技术模糊了参与者的基因组区域,以保护她的隐私,并可能鼓励更多的人参与基因研究马克·格斯坦他是耶鲁大学生物医学信息学教授。

“如果有人黑进了你的电子邮件,你可以得到一个新的电子邮件地址;或者如果有人黑了你的信用卡,你可以得到一张新信用卡,”格斯坦说。“如果有人黑了你的基因组,你就无法获得新的。”

屏蔽数据:

为了确定哪些信息和多少信息应该保持隐私,以防止连锁攻击,格斯坦和他的同事们对现有的基因数据集进行了连锁攻击。在一次样本攻击中,他们比较了两个公开的数据库和RNA测序结果,成功识别了421个个体。

在另一个联系攻击中,Gerstein的团队排序了两个志愿者的RNA并将这些数据汇集到更大的数据集中。然后他们从志愿者使用咖啡杯中获得DNA样本并测序它们的基因组。同样,他们可以以高度确定性将两个人链接到他们的基因组。

基于他们从模拟连锁攻击中学到的知识,格斯坦的团队开发了一种技术,可以在保留这些变体在基因组中的位置的同时,掩盖人体遗传数据中的一些变体。为了做到这一点,他们用参考基因组中的基因替代了关注的基因变体;哪些变异会被移除取决于遗传条件或某人的遗传数据显示的倾向。

引入太多这样的隐私屏蔽变体会降低数据的有用性。但是格斯坦的团队在让研究人员获得基因表达值数据的同时,也让研究参与者能够决定他们希望隐藏多少基因信息上取得了平衡。

这部作品于11月出版细胞。

通过问题:

这项研究表明了关联攻击如何揭露有关研究参与者的敏感信息,说Karen Maschke.是纽约驻军驻军的非营利性生物伦理研究所黑斯廷斯中心研究学者。“他们开发的隐私保留数据格式是另一层保护。”

但是,在基因数据管理员可能采用它之前,还需要做更多的工作,Erlich说。改变基因数据的存储方式并不像安装一个新的计算机程序那么简单;他说,维护基因数据库的研究人员也将需要对该软件进行更多的复制,因为尽管掩蔽技术看起来很强大,但可能存在“我们没有意识到的弱点”。

除了使用这样的技术,基因研究人员应该做更多的事情来赢得他们的研究参与者的信任,解释他们将如何保护数据,并在数据泄露时纠正错误,埃尔利希补充说。“隐私不是问题;它的信任。有了信任,你就不需要隐私了。”

坚实的遗传研究需要来自许多人的数据,并“让所有这些数百万人参与,我们必须为他们提供良好的保证,他们的隐私受到保护,”Gerstein说。当谈到遗传条件的遗传条件等遗传条件时,信任尤其重要,因为披露遗传信息具有促使参与者亲属的增加的潜力。

格斯坦和他的团队计划将他们的软件提供给不同的实验室,以使人们能够舒适地使用它,并确定它是否在比本研究中测试的更大的规模下工作。