生物信息学和计算生物学系

>公共数据集>克伦威尔数据

蛋白质组学

为了分析蛋白质组数据,我们目前使用


使用克伦威尔、库姆斯等人2005年进行的示例分析

为了展示如何使用克伦威尔(我们当前的分析软件包之一),我们创建了一个使用血清质量控制(QC)数据的示例,这些数据来自Pusztai等人2004年的数据集。克伦威尔的一揽子计划在Coombes等人,蛋白质组学2005年

这个例子不是完全自包含的。它需要MATLAB和水稻小波工具箱.克伦威尔包在Coombes等人的《蛋白质组学2005》中有描述。

此时,我们提供的MATLAB脚本处理的文本文件只包含XML文件中的样本数据。我们提供了一个简单的Perl脚本xml2text.pl,用于从XML文件中剥离所需的数据。Perl脚本和处理脚本都采用了相当特定的目录结构,因此必须更改硬编码名称以进行调整。

可供下载的文件:


乳头吸引液蛋白质组学的质量控制研究

克伦威尔一揽子政策的发展Coombes等人,蛋白质组学2005年使用一组24个SELDI光谱,这些光谱是从乳腺癌患者和健康对照者的乳头抽吸液混合(质量控制)样本中收集的。

在报纸上库姆斯等。,我们描述了用于处理质谱数据的克伦威尔包。在那篇论文中,我们用一组来自乳腺癌研究的24个质控谱来说明该方法。处理过程中使用的这些原始光谱和其他脚本可在此处获得:

更多关于乳腺癌研究的细节,可以从QC谱中找到:

飞行时间质谱显示健康女性与乳腺癌患者乳头抽吸液蛋白表达存在显著差异
Pawlik TM、Fritsche H、Coombes KR、Xiao L、Krishnamurthy S、Hunt KK、Pusztai L、Chen JN、Clarke CH、Arun B、Hung MC、Kuerer HM。
乳腺癌可以治疗。2005年1月;89(2):149-57.

乳腺癌患者导管液蛋白质组表达谱与淋巴结转移的关系
库勒·HM、库姆斯·KR、陈·JN、肖·L、克拉克·C、弗里奇·H、克里希那穆尔西S、马西S、洪MC、亨特·KK。
手术。2004年11月;136(5):1061-9.

乳头吸液表面增强激光解吸和电离收集的蛋白质组学数据的质量控制和峰值发现
库姆斯·克鲁、小弗里奇·哈、克拉克·C、陈·JN、巴格利·卡、莫里斯·JS、肖·LC、洪·MC、库勒·HM。
临床化学。2003年10月;49(10):1615-23.


用于方法开发和比较的模拟蛋白质组学光谱,Morris等人。

在我们关于使用平均光谱进行峰发现和定量的论文中,我们模拟了数百个蛋白质组学数据集。我们使用模拟数据来比较两种不同处理算法的结果。数据集在这里是可用的,因此其他人可以在标准数据集上比较他们的算法和我们的算法,在标准数据集上,每个光谱中的峰值的真相是已知的。

额外蛋白质组学资源

每个zip文件包含25个数据集。每个数据集解压到自己的目录Dataset_X中,其中X是1到100之间的数字。

每个数据集目录包含两个子目录:“'RawSpectra'”和“'truePeaks'”。

“RawSpectra”子目录包含100个文本文件。每个文本文件代表一个带有两列数据的光谱,一列是质量,一列是强度。

“truePeaks”子目录还包含100个文本文件,表示数据中的真实峰值列表。事实也在两列中给出,第一列包含质量,第二列包含模拟中该质量的离子数量。

最后,Dataset_X目录包含一个名为“true_peaks.txt”的文件。这是一个以逗号分隔的UNIX文本文件,有4列,包含生成100个虚拟光谱的虚拟人口的描述。每个峰值有一行,由其质量、其普适性(其出现在单个光谱中的概率)、其平均对数强度和对数强度的标准偏差来描述。

基于平均光谱的生物医学质谱特征提取与量化
莫里斯JS,库姆斯KR,库门J,巴格利卡,小林尊R。
生物信息学。2005; 21:1764-75.