要闻

当前位置/ 首页/ 要闻/ 正文

加速生命科学和健康发现 将数据转化为真知灼见

导读 随着单细胞基因组测序、增强生物医学成像和医学“物联网”设备等技术的激增,关于人类健康的关键发现越来越多地出现在复杂的生命科学和健康数据中。 但是,从这些数据中得出有意义

随着单细胞基因组测序、增强生物医学成像和医学“物联网”设备等技术的激增,关于人类健康的关键发现越来越多地出现在复杂的生命科学和健康数据中。

但是,从这些数据中得出有意义的结论是一个困难的问题,可能涉及拼凑不同的数据类型,并操纵庞大的数据集,以响应不同的科学查询。 问题在于计算机科学,而不在于其他科学领域。 这就是Paradigm4进来的地方。

该公司由Marilyn MatzSM‘80和图灵奖得主和麻省理工学院教授Michael Stonebraker创建,帮助制药公司、研究机构和生物技术公司将数据转化为洞察力。

它是通过一个计算数据库管理系统来实现这一点的,它是从地面上建立起来的,在生命科学研究的前沿托管多样化的、多方面的数据。 这包括来自国家生物银行、临床试验、医学物联网、人类细胞地图集、医学图像、环境因素和多组学等来源的数据,这一领域包括基因组、微生物、代谢物等的研究。

除了该系统独特的架构外,该公司还建立了数据准备、元数据管理和分析工具,以帮助用户找到隐藏在所有这些数字中的重要模式和相关性。

在许多情况下,客户正在探索数据集,创始人说,数据集太大和太复杂,无法用传统的数据库管理系统有效地表示。

马茨说:“我们希望让科学家和数据科学家能够做以前做不到的事情,让他们更容易处理大规模的计算和对不同数据的机器学习。” “我们正在帮助科学家和生物信息学专家进行合作、可重复的研究,以便更快地提出和回答难题。”

新的模式

石制动器几十年来一直是数据库管理系统领域的先驱。 他创办了九家公司,他的创新为现代系统允许人们组织和访问大型数据集的方式设定了标准。

Stonebraker的大部分职业生涯都集中在关系数据库上,这些数据库将数据组织成列和行。 但在2000年代中期,Stonebraker意识到,生成的许多数据最好不是存储在行或列中,而是存储在多维数组中。

例如,卫星将地球表面分解成大的正方形,全球定位系统跟踪一个人的运动,随着时间的推移。 该操作涉及垂直、水平和时间测量,这些测量不容易分组或以其他方式操作关系数据库系统中的分析。

斯通布雷克回忆起他的科学同事抱怨说,现有的数据库管理系统太慢,无法在基因组学等领域处理复杂的科学数据集,研究人员在这些领域研究人口规模多组学数据、表型数据和医疗记录之间的关系。

“[关系数据库系统]水平或垂直扫描,但不是两者兼而有之,”Stonebraker解释道。 “因此,您需要一个同时执行两者的系统,并且需要一个存储管理器,它可以通过一个非常大的数组水平和垂直地移动。 这就是范式4所做的。

2008年,Stonebraker开始在麻省理工学院开发一个数据库管理系统,将数据存储在多维数组中。 他证实了这种方法提供了主要的效率优势,允许基于线性代数的分析工具,包括多种形式的机器学习和统计数据处理,以新的方式应用于庞大的数据集。

2010年,Stonebraker决定将这个项目转投到一家公司,当时他与成功的企业家Matz合作,后者共同创建了一家大型工业机器视觉公司,该公司于1989年上市。 创始人和他们的团队致力于构建系统的关键特性,包括其允许系统在低成本服务器上运行的分布式体系结构,以及其以有用的方式自动清洗和组织数据的能力。

创始人将他们的数据库管理系统描述为科学数据的计算引擎,他们将其命名为SCIDB。 在SCIDB的基础上,他们开发了一个分析平台,称为RevEAL发现引擎,基于用户的日常研究活动和愿望。

马茨说:“如果你是一名科学家或数据科学家,Paradigm的RevEAL和SciDB产品将处理所有的数据争论和计算“管道和布线”,所以你不必担心访问数据、移动数据或建立并行分布式计算。 “你的数据已经准备好了。 只要问你的科学问题,平台就会为你安排所有的数据管理和计算。”

SCIDB被设计为科学家和开发人员使用,因此用户可以通过图形用户界面或利用R和Python等统计和编程语言与系统进行交互。

马茨说:“销售解决方案,而不是积木是非常重要的。” “我们在生命科学领域与顶级制药、生物技术和研究机构取得成功的很大一部分,是为他们带来了一套针对具体应用程序的解决问题的方法。 我们没有给他们一个分析平台,这是一组LEGO块;我们给他们解决方案,处理他们日常处理的数据,解决方案,使用他们的词汇和回答他们想要解决的问题。”

加速发现

如今,Paradigm4的客户包括世界上一些最大的制药和生物技术公司,以及国立卫生研究院、斯坦福大学和其他地方的研究实验室。

客户可以将基因组测序数据、生物特征测量、环境因素数据以及更多的信息集成到他们的查询中,以便在一系列生命科学领域中获得新的发现。

马茨说,在最近的一个基准测试中,SCIB在不到一个小时的时间内做了10亿次线性回归,它的规模可以远远超过这一范围,这可能会加快发现速度,降低传统上不得不从文件中提取数据的研究人员的成本,然后效率较低的基于云计算的方法来规模应用算法。

马茨说:“如果研究人员能在几分钟内进行复杂的分析,而且过去需要几天的时间,这会极大地改变你能问和回答的难题的数量。” “这是一个力量倍增器,将改变每天的研究。”

除了生命科学之外,Paradigm4的系统对任何处理多方面数据的行业都有希望,包括地球科学(Matz说,美国航天局的一位气候学家已经在使用该系统)和工业物联网(IoT),在那里,数据科学家考虑大量不同的数据来理解复杂的制造系统。 马茨说,该公司明年将更多地关注这些行业。

然而,在生命科学中,创始人认为他们已经有了一个革命性的产品,能够创造一个新的发现世界。 在这条线上,他们看到SCIDB和REVEAL为国家和世界范围的健康研究做出了贡献,这将使医生能够提供最知情、最个性化的护理。

每个医生都想查询的问题是,当你走进他或她的办公室,显示一组症状时,医生问:“在这个国家数据库中,谁有像我的基因,像我的症状,像我的生活方式暴露? 他们的诊断是什么? 他们的治疗是什么? 他们的发病率是多少?“ 斯通布拉克解释道。 “这是把你和其他人交叉在一起做非常个性化的医学,我认为这是我们掌握的。”

进一步探讨