下一代生物信息学工具实现大数据分析,无需编程专业知识

DrBioRight使用自然语言界面为更广泛的研究社区提供直观的数据分析乐动体育LDsports中国

一种新的数据分析工具乐动体育LDsports中国德克萨斯大学MD安德森癌症中心合并一个用户友好的,自然语言的界面,允许生物医学研究人员没有生物信息学或编程语言的专业知识,进行直观的分析大数据集。乐动体育LDsports中国

这个开放获取、人工智能(AI)驱动的程序被称为DrBioRight,旨在降低所有研究人员充分利用现代研究方法产生的越来越多的数据的障碍。乐动体育LDsports中国一份关于这个平台的报告今天发表在癌症细胞.

“我们认为,我们可以改进目前进行常规生物信息学分析的模型,并通过创建任何研究人员都可以使用的工具,大大加快周转时间,”他说乐动体育LDsports中国韩亮博士。,香港大学教授生物信息与计算生物学. “DrBioRight的长期目标是成为每位研究人员的智能合作者。”乐动体育LDsports中国

现代生物医学研究中使用的高通量技术产生大量、复杂的数据集,提供有关患者、动物模型或正在研究的细胞系的全面信息。乐动体育LDsports中国这些可能包括,例如,研究整个遗传信息(基因组学),基因表达(转录组学),或蛋白质表达(蛋白质组学)。

梁教授解释说,由于这些“组学”数据集非常复杂,如果没有专门的分析方法,回答特定的生物学问题会很有挑战性。这些分析通常使用用各种编程语言编写的计算机脚本来完成,这需要对编程和生物信息学有一定的了解。

生物信息学家可以帮助导航和处理这些复杂的数据集,但这项工作可能很耗时。因此,研究团队开发了DrBioRight,使研究人员能够更轻松地通过用户友好的自然语言交互聊天界面对自己的数据进行常规分析。乐动体育LDsports中国

梁解释说,面向自然语言的程序允许用户像自然说话一样问程序问题,而不是用复杂的程序语言。

学术研究人员可以免费获得bioright博士。乐动体育LDsports中国最初,该项目有一些现成的模块来处理最常见的生物信息学问题,包括一些最常用的公共癌症数据集,如癌症基因组图谱和癌症细胞系百科全书。

作为对该方法的确认,研究人员利用DrBioRight复制了一篇经典癌症基因组学乐动体育LDsports中国论文的分析,发现该分析准确地再现了先前发表的结果。

由于该程序是由人工智能驱动的,因此它还能够从每次查询中学习并改进分析,随着时间的推移,它将成为一个更有用的工具。今后,研究人员希望改进DrBioRight,使用户能够分析自己的数据集,并允许开放式开发新模块。乐动体育LDsports中国

“在我们努力改进这个项目的同时,我们也想让其他生物信息学家贡献他们的算法并教授bioright博士,”梁说。“整个研究界的参与将有助于创造一种工具,更有效地回答复杂的乐动体育LDsports中国研究问题。”

这项研究得乐动体育LDsports中国到了美国国立卫生研究院(U24CA209851、U01CA217842、P50CA221703和P30CA016672)、医学博士安德森学院学者奖和洛林戴尔癌症医学个性化生物信息学项目的支持。

其他合作者包括:李军博士、胡晨博士、王玉萌博士。陈美菊博士,生物信息学和计算生物学专业。H.Chen和Y.Wang也是德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生项目的成员。全文中可以找到作者披露的完整列表在这里.