Contreras, Jorge L., and Jerome H. Reichman. "Sharing by design: Data and decentralized commons." Science 350.6266 (2015): 1312-1314.
在基因学、地球科学和天文学等领域,雄心勃勃的国际数据共享计划已经存在多年。但要实现大规模共享科学数据的承诺,必须克服知识产权 (IP)、数据隐私、国家安全和其他法律和政策障碍 (1)。虽然这些问题在企业界引起了极大的关注,但在学术和政府环境中却很少受到重视。在这些环境中,解决不同司法辖区的数据池之间的法律互操作性(legal interoperability)问题已经退居二线,现居一线的是应对技术挑战。然而,如果在大型跨境数据共享项目开始时未能考虑法律和政策问题,可能会导致过度的资源支出和数据共享结构,从而可能带来比预期更少的益处。借鉴我们在跨国地球变化研究项目“贝尔蒙特论坛”上的经验,我们提出了一个框架,帮助规划者创建数据共享安排,其重点关注关键的早期设计决策,包括了法律互操作性等选项。
本文以 Ostrom (2) 的工作出发,其大量的文献研究涉及从全球环境到公共生活空间的环境中,用户社区共享的公共池资源的组织和治理。 最近的工作将这些原则扩展到知识共享:无形资源的集合,例如数字图书馆、学术出版物和科学数据 (3)。 为响应加强国际科学合作的呼吁,一些专家机构制定了跨境数据共享的高级原则 (4-6)。 尽管这些努力为广泛的数据池计划奠定了基础,但我们认为,必须在解决更大的治理和运营问题之前,对该计划做出关键的设计决策。
一个中心化的光谱
尽管关于数据共享和相关成本的公地结构的实证研究很少,但我们观察到当前科学数据池的四种基本结构模型——从最集中到最不集中(见下表)。
- (i) 完全集中式:所有数据都集中在一个集中管理的单一存储库(repository)中;
- (ii) 中等分散式:存储库是分布式和单独维护的,有时跨越国界,但可以通过中央访问门户互连,可以共享其他技术服务组件,并且可以使用通用数据交换格式[有时称为联合数据库系统(7)];
- (iii) 完全分布/分散式:存储库在本地维护,在技术上没有集成,但共享一个共同的法律和政策框架,允许以统一的条款和条件访问(法律互操作性);
- (iv) 非公地/非共享式:存储库在很大程度上是分散的,缺乏技术和法律互操作性,最多可能共享一个共同索引。
具有管理、分析和质量控制功能的集中式数据存储库可以显着提高它们包含的数据的价值 [例如,DNA 和 RNA 序列数据的 GenBank 存储库 (8)],这并不奇怪。然而,集中式结构是有代价的,并且由于政治、法律和组织等问题,在许多跨境合作中可能不切实际。但是完全集中式公地的替代方案不一定就是非公地。非公地模型的不足包括数据格式不兼容、无法跨数据集搜索、数据资源利用不足、访问要求个性化且效率低下,以及难以跨国界移动数据。然而,与完全集中的模型相比,分散式公共结构提供了有意义的收益子集,成本和资源使用更低。
例如,研究人员可以通过其访问多个独立存储库的在线门户,对用户来说可能感觉像是一个集中的公共资源,但它避免了集中存储库的成本和治理开销[例如,全球地球观测系统系统 (GEOSS)]。基于门户的结构还可以使中央管理员更容易为用户提供增值服务和汇总统计数据 [例如,世界微生物数据中心 (WDCM) (9)],并允许用户同时查询多个存储库和更轻松地组合和分析多个数据集 (7)。
即使在技术上不存在链接存储库的资源,也有利于促进分散式存储库之间的合法互操作性 (10)。为了跨司法管辖区实现这一目标,数据使用和访问规则必须相互兼容,必须遵守相关司法管辖区的法律法规,并且必须解决授予数据生成者的所有权和控制权 (11)。如果实现,法律互操作性可以使研究人员能够跨多个存储库访问和使用数据,而无需逐案寻求授权,这增加了将更多数据投入生产使用的可能性。也许实现法律互操作性的最直接途径就是向公共领域提供数据并放弃所有未来控制它的权利 (11)。这种方法已被 250 多个组织提倡,这些组织已经认可了 2010 年潘顿科学开放数据原则(Panton Principles for open data in science )(12)。或者,希望因其贡献获得归属信用但又愿意放弃对它们的控制权的研究人员,已根据已广泛用于其他在线内容(包括开源)的标准化知识共享 (CC) 许可发布数据编码软件、音乐和照片。
尽管这些方法简单且有吸引力,但它们并不总是可行的。数据通常会受到法律法规的约束,例如明确或隐含地披露个人身份信息、从人类研究对象获得、与敏感技术相关或披露基础设施细节。威尔班克斯和其他人认识到这些要求,呼吁建立新的“知情-同意”和隐私保护模式,以促进至少某些类别的此类数据的广泛、对社会有益的共享 (13)。
设计的注意事项
如果一个合作研究项目有足够的资源来创建一个集中的数据存储库,并配备相应的基础设施和人员配置(可能需要数百万美元的前期和之后的数百万美元用于人员配备和策划的存储库),则可以实现重要的收益。然而,在大多数情况下,这一水平的资金往往可望不可及,故分散式数据共享可能是一个理想的替代方案。根据我们在贝尔蒙特论坛的经验,我们发现该项目的领导层非常重视早期关于广泛数据共享的理想化声明。但在这样做时,可能没有充分考虑潜在有用的分散式数据结构。当在漫长的规划阶段结束,中心化的公地模式显然超出了现有的预算限制时,唯一可行的选择就是完全不接受公地,并依靠该项目崇高但不具体(不切实际)的数据共享原则来激励研究人员自行分享数据 (14)。为了帮助规划人员在未来避免此类困境,我们提供了以下可操作的框架,用于在项目规划阶段的早期,去评估分散式数据共享。
第一,需要考虑的是要有多少个数据存储库才可行?如果数据存储库的数量很少,那么完全分散式的、未链接的存储库(即没有公共资源/公地)可能就足够了。研究人员可以轻松访问每个存储库,并且可以避免实施公地结构的成本。
第二,是否有资源来开发通用/公用数据门户?随着数据存储库数量的增加,某种形式的公共结构可能会促进数据共享和使用。虽然成本不低,但一个通用的数据门户可以提高数据的价值和可用性。如果无法获得数据门户的投资,规划者可能希望考虑具有合法互操作性的完全分散式公地。
第三,相关司法辖区是否会对数据进行监管?无论选择哪种公地结构,这个问题都是必须被关注的。如果数据不受人类主体、隐私、健康或类似法律制度的监管或约束,请考虑将数据发布到公共领域或根据通用许可对其进行许可。然而,如果数据在一个或多个相关司法辖区受到监管,规划者应考虑聘请法律专家制定符合每个司法辖区法规的通用数据访问和使用政策。例如,如果数据包括人类遗传信息,则应考虑遗传非歧视法和数据隐私法规。只有在每种情况下都遵守最严格的司法辖区法规或以其他方式解决时,才能实现法律互操作性以及用户通过单一授权以一致的条款访问和使用所有数据的能力 (13)。
尽管贝尔蒙特论坛无疑将产生大量有价值的地球科学数据,但对数据共享选项的初步评估可能会促进其众多国家参与者的决策和规划,并产生更强大的数据共享结构。 尽早解决这些设计选择——同时承认预算、法律和政治限制——可以在以后节省规划和实施成本。(文终)
尾注
1.J. H. Reichman, P. F. Uhlir, Law Contemp. Probl. 66, 315 (2003).
2.E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action (Cambridge Univ. Press, Cambridge, 1990).
3.B. M. Frischmann, M. J. Madison, K. J. Strandburg, Governing Knowledge Com- mons (Oxford Univ. Press, New York, 2014), chap. 1.
4.Policy RECommendations for Open Access to Research Data in Europe (RECODE), http://recodeproject.eu.
5.International Council for Science, World Data System Strategic Plans 2014–2018, (ICSU, Paris); http://www.icsu.org/about-icsu/strategic-priorities.
6.B. M. Knoppers et al., Genome Med 3, 46 (2011).
7.Institute of Medicine, Sharing Clinical Trial Data: Maximizing Benefits, Minimizing Risk (National Academies Press, Washington, DC, 2015), chap. 6.
8. J. L. Contreras, Science 329, 393 (2010). 9.J. H. Reichman, P. F. Uhlir, T. Dedeurwaerdere, Governing Digitally Integrated Genetic Resources, Data, and Literature: Global Intellectual Property Strategies for a Rede- signed Microbial Research Commons (Cambridge Univ. Press, New York, forthcoming 2016), chap. 8.
10.J. Palfrey, U. Gasser, Interop: The Promise and Perils of Highly Interconnected Systems (Basic Books, New York, 2012).
11. Group on Earth Observations (GEOSS), “Mechanisms to share data as part of the GEOSS data-core” (White paper, GEOSS, Geneva, 2015).
12. P. Murray-Rust, C. Neylon, R. Pollock, J. Wilbanks, “Panton Principles: Principles for open data in science” (19 February 2010); http://pantonprinciples.org.
13.J. Wilbanks, in Privacy, Big Data, and the Pubic Good, (Cambridge Univ. Press, Cambridge, 2014), chap. 11.
14. Belmont Forum Steering Committee, “A place to stand: e-Infrastructures and data management for global change research” (30 June 2015); http://belmontforum.org/belmont-forum-governance.