Biotechnology Frontier April 2015, Volume 4, Issue 1, PP.26-33
Predicting the Subcellular Location of Apoptosis Proteins Based on Multi-features Fusion Yan Jiang, Yingli Chen# School of Physical Science and Technology, Inner Mongolia University, Hohhot 010021, Chian #
Email: stchenyl@imu.edu.cn
Abstract Apoptosis proteins are crucial for regulating the balance between cell death and renewal. The biological functions of an apoptosis protein are closely related to its subcellular location in a cell. So, predicting the subcellular location of apoptosis proteins will help us understand the biological functions of the apoptosis proteins better. Several biological features, protein blocks composition, average chemical shifts composition, amino acid n-peptide composition information and the hydropathy distribution along protein sequence, were effectively applied to predict the subcellular location of apoptosis protein by using support vector machine (SVM) algorithm. The overall prediction accuracies of the jack knife tests based on the fused feature information is 80.2%, which is higher than another feature. The results show that the approach by multi-features fusion is pretty useful for predicting apoptosis protein's subcellular location. Keywords: Apoptosis Proteins; Protein Blocks; Chemical Shift; Support Vector Machine
基于多类特征融合方法预测细胞凋亡蛋白质的亚 *1 细胞位置 姜燕,陈颖丽# 内蒙古大学 物理科学与技术学院,内蒙古 呼和浩特 010021 摘
要:细胞凋亡蛋白质在调控细胞死亡与增殖间的平衡方面起着至关重要的作用,而其生物学功能与亚细胞位置有着
紧密的联系,因此对凋亡蛋白质亚细胞定位的研究有助于对其功能做进一步的了解。文中利用了蛋白质骨架信息、平均 化学位移信息、氨基酸 n 肽组分和序列亲疏水分布等信息,并基于多类特征融合的方法,采用支持向量机(SVM)算法对我 们新构建的细胞凋亡蛋白质亚细胞定位数据集进行了分类预测,在 Jackknife 检验下,总的预测成功率达到了 80.2%,均 高于单个特征信息得到的总体预测成功率,这一结论说明特征融合的方法可以有效地应用到细胞凋亡蛋白质亚细胞位置 预测的研究中。 关键词:凋亡蛋白;蛋白质骨架;化学位移;支持向量机
引言 细胞凋亡,这一概念是由英国Kerr教授等人在1972年首次提出的, 是细胞生命的最后一阶段,是细胞的 调控性解体,是目前研究较多的一种程序性细胞死亡形式[1]。凋亡蛋白质在调控生物体的生长发育和维持内 稳态过程中发挥着重要的作用[2],这些蛋白质对于我们了解细胞程序性死亡的机制非常重要。细胞凋亡失调 会引发许多人类疾病,例如:癌症,自身免疫病以及一些神经退行性疾病[3]。蛋白质的功能与其亚细胞定位 密切相关[4],因此,为了了解凋亡机制和多种凋亡蛋白质的功能,凋亡蛋白质亚细胞定位作为一种研究手段 *
基金项目:国家自然科学基金(No.61361015),教育部科学技术研究重点项目(No.212023),教育部第 46 批留学回国人员科研启 动基金,内蒙古自治区自然科学基金(No.2012MS0104) - 26 http://www.ivypub.org/bf
显得尤为重要。传统的实验方法能直接获得蛋白质亚细胞位置,但由于蛋白质序列数据迅速增加,仅仅依靠 实验的方法已经不能满足研究的需要,所以,寻找一种有效的生物信息学方法进行凋亡蛋白质亚细胞定位预 测是十分必要和迫切的。 在工作中,我们构建了一个包含八个亚细胞位置的细胞凋亡蛋白质数据集,通过分析氨基酸序列信息以 及蛋白质结构信息,提取了氨基酸 n 肽组分信息、氨基酸亲疏水分布信息、蛋白质骨架信息和平均化学位移 等信息。同时通过分析氨基酸的物理化学特性,提取了氨基酸亲疏水性分布信息。最后通过选取最佳的特征 信息融合,采用支持向量机(SVM)算法,在Jackknife检验下,取得了较好的预测结果。
1 材料和方法 1.1 数据集 数据集的质量会直接影响最后的预测结果,文中所用数据均来自UniProt数据库(Universal Protein) (http://www.uniprot.org),其合并了三大数据库Swiss-Prot、TrEMBL和PIR的数据,提供了具有注释信息和功能 信息的大量蛋白质序列 [5] 。新建数据集里的全部蛋白质严格按照以下标准挑选得到: (1)从UniProtKB/ Swiss-Prot (release 2013_03)数据库搜索到具有关键字“apoptosis”的所有蛋白质,(2)去掉“Subcellular Location” 这一注释中包含“Potential”、“Probable”或者“By similarity”的序列,(3)去掉氨基酸序列中含有字母“UOBZJX” 的序列,去掉片段序列、多定位序列和序列长度小于60aa的序列。最终得到1219条蛋白质序列,分为八个亚 细胞位置,具体见表1所示。 在构建蛋白质数据集时,数据集中的序列同源性会对预测结果有一定的影响,但由于目前实验已知的亚 细胞位置的细胞凋亡蛋白质数目非常有限,去同源后,有一些亚细胞位置剩下的蛋白质数目就非常少了,因 此在本文中我们给出了采用了PISCES[6]在线软件对数据集进行的相似性分析,具体分布情况见表2。
1.2 特征参数 1.2.1
氨基酸 n 肽组分信息 大量研究表明,基于序列信息的预测方法在信号肽预测[7]、蛋白质亚细胞定位和蛋白质结构类预测[8]等
研究方面得到了有效的利用。氨基酸组分信息是最基本的特征信息,对于给定的含有 L 个残基的蛋白质序列 P ,氨基酸组分离散模型可表为: P R1R2 R3 R4 R5 R6 R7 ...RL
(1)
R1 表示序列 P 中的第一个残基, R2 表示第二个残基,依次类推。按照以上模型,可用一个20维的特征向量
表示蛋白质序列 P : P [ f1 f 2 ... fi ... f 20 ]T ( i 1...20 )
(2)
i 表示20种氨基酸中的任意一种; fi 表示20种标准氨基酸在序列 P 中出现的频率; T 表示矩阵转置。
基于氨基酸组分信息是最简单易行的亚细胞定位预测方法,但却丢失了氨基酸顺序信息,为了解决这一 问题,chou[9]提出了伪氨基组分的概念,不同的氨基酸特性对应不同的伪氨基酸组分模型。工作中我们考虑 到了氨基酸字母顺序和关联信息,提取了氨基酸 n 肽组分信息,当 n =1时, n 肽组分信息就是氨基酸组分信 息,当 n =2时,这时的 n 肽组分信息就为二肽组分信息,这时考虑了氨基酸的顺序排列;随着 n 的增大,虽 然可以提供更多的序列信息,但当n≥3以后,特征向量维数增大,引入噪声,噪声可能掩盖有用的信息,因 而我们选择n≤2的情形,当 n =2时,就可以用一个400维的特征向量来表示蛋白质序列:
xk,1 [ xk,1 , xk,2 ,..., xk,i ,..., xk,400 ]T ,(i 1, 2,..., 400; 1, 2,..., ; k 1, 2,..., m)
- 27 http://www.ivypub.org/bf
(3)
其中, xk, j 表示第 类蛋白质第 k 条蛋白质序列中第 i 种紧邻氨基酸残基对出现的次数; i 表示某类氨基酸残 基对; T 表示矩阵转置。 表 1 数据集中各亚细胞位置的蛋白质数目 Subcellular location
Number of sequences
Cytoplasmic
240
Endoplasmic reticulum
41
Golgi apparatus
16
Membrane
169
Mitochondria
120
Nuclear
435
Secreted
162
Virion membrane
36 表 2 序列相似性分布
Sequence identity(%)
cy
en
go
me
mi
nu
se
vi
overall
240
41
16
169
120
435
162
36
≤90
215
35
13
145
81
270
127
23
≤80
197
32
11
131
68
248
107
16
≤70
187
31
11
123
65
242
95
14
≤60
182
31
11
115
64
235
82
14
≤50
177
30
11
107
63
218
78
14
≤40
171
28
10
103
61
208
69
11
≤30
137
28
10
88
59
108
66
11
≤25
126
25
10
76
59
157
62
11
cy: cytoplasmicen: endoplasmic reticulumgo: golgi apparatus me: membrane mi: mitochondrianu: nuclear se: secretedvi: virion membrane 表 3 氨基酸的分类
1.2.2
Classification
Group
Amino acids
Strongly hydrophilic
Q
R, D, E, N, Q, K, H
Strongly hydrophobic Weakly hydrophilic or weaklyhydrophobic Proline
S
L, I, V, A,M, F
A
S, T, Y, W
P
P
Glycine
G
G
Cysteine
C
C
氨基酸序列的亲疏水性分布
在氨基酸的多种物理化学特性中,其亲疏水性在进化过程中极为保守[10]。根据氨基酸这一特性, 我们 将20种氨基酸分为六类[11],每类分别用一个字母来表示。如表2所示,强亲水或极性类,包括R,D,E,N,Q,K,H 用Q表示;强疏水类,包括L,I,V,A,M,F用S表示;弱亲水或弱疏水类,包括S,T,Y,W用A表示;脯氨酸(P);甘 氨酸(G);半胱氨酸(C)。这样就可以把用20个字母表示的氨基酸序列用6个字母来表示,以便于对氨基酸序列 信息提取。然后分别统计Q、S、A、P、G、C在每条蛋白质序列中出现的次数。 这样就可将一条蛋白质序列用一个 6 维的向量表示为:
xk [ xk ,1 , xk , 2 , xk ,3 , xk , 4 , xk ,5 , xk ,6 ]T - 28 http://www.ivypub.org/bf
(4)
式中 k 表示第 类蛋白质中的第 k 条蛋白质, T 表示矩阵转置。同样我们也考虑了字母顺序和关联信息,提 取了氨基酸亲疏水二肽组分信息,这时就将蛋白质序列转化为一个 36 维的向量来表示:
xk [ xk ,1 , xk , 2 ,..., xk ,i ,..., xk ,36 ]T 1.2.3
(5)
蛋白质骨架
在亚细胞定位的研究中,能找到一种有效的方法从蛋白质中提取出一系列有用的特征也是研究中最重要 的工作之一。通常都是从一级序列中提取特征间接的表示蛋白质,伪氨基酸组分信息的方法是从氨基酸序列 中提取特征最常用的方法,与间接提取特征的方法对应的是直接从蛋白质空间结构的分析中提取特征。 Alexandre G. de Brevern[12]提出了一种叫做蛋白质骨架(Protein Bolcks)的局域结构信息,是由 16 个平均长度为 5 个碱基的蛋白质片段组成。按照蛋白质骨架结构特征,将其约化分类[13],如表 4 所示。同时,蛋白质骨架 不同大小的 n 肽组分信息也被用于我们的亚细胞定位预测研究中,不同大小的 n 肽组分特征及向量维数在表 5 中给出。 1.2.4
化学位移
化学位移的起因是核磁环境的变化,而核周电子密度的变化是基本原因。化学位移是核磁共振光谱中的 一个重要参数[14],它反映了磁核周围的磁环境和电子分布情况,因而可以反映化学结构,Wishar[15]研究小组 的研究表明骨架质子( H , N H )的化学位移与二级结构存在一定的规律。 对于任意的一条蛋白质 P,首先由二级结构预测服务器 Porter(http://distill.ucd.ie/porter/)获得蛋白质序列的 三种二级结构信息,然后用 Fan and Li[16]所建立的平均化学位移服务网站: http://wlxy.imu.edu.cn/college/biostation/fuwu/PseACS/index.asp 得到每条蛋白质上的每个氨基酸的四类骨干原 子( 15 N , 13C , 1H , 1H N )的平均化学位移: ACS ik ( j )
1 N
w ( j) k i
(6)
其中, i 15 N , 13C , 1H , 1H N , j 表示 20 种氨基酸, k H , E, C 表示三种二级结构类型, N 是具有 k 种二级 机构类型、 i 种骨架原子的 j 种氨基酸总数, wki ( j ) 是具有 k 种二级结构的 j 种氨基酸的 i 种骨架原子的化学 位移。然后氨基酸序列就可以用其相应的平均化学位移替换,则蛋白质 P 就可表示为: P= [S1i , S2i ...Sli ...SLi ] (i 15 N , 13C , 1H , 1HN ) 利用公式(8)计算 l 和 l 处的氨基酸的化学位移的自相关: 1 L i i ( ) [Sl S(il ) ]2 (i 15 N , 13C , 1H , 1H N ;0 L) L l
(7)
(8)
序列中每个氨基酸都替换为 i ,则蛋白质 P 表示为: PacACS [ i (0), i (1), i (2), i (3),..., i ( )](i 15 N , 13C , 1H , 1H N ;0 L)
(9)
式中 i 是序列中第 l 个氨基酸和第 l 个氨基酸的化学位移的自相关,特别的当 0 时 i 0 替换为第 l 个氨基酸的平均化学位移 Sli 。 是相关长度, i 是骨架原子,根据具体问题可以有不同骨架原子组合,选
取不同的相关系数 ,得到最佳参数。
2 预测方法 2.1
支持向量机算法 支持向量机(support vector machine, SVM)是 20 世纪 90 年代一种基于统计学习理论基础发展起来的新型 - 29 http://www.ivypub.org/bf
机器学习方法,1995 年 Vapnik[17]等人提出了完整的统计学理论。该算法以结构风险(经验风险与置信风险的 和)最小化为原则,利用最大间隔的思想降低分类器的 VC 维(即降低置信风险) ,表现出很好的泛化能力, 因此被广泛地应用于生物信息学领域中。在研究中,我们采用了 Chang 和 Lin 开发的 LIBSVM 软件,可以通 过访问 http://www.csie.ntu.edu.tw/~cjlin/libsvm/免费下载。 表 4 蛋白质骨架约化分类 SizeThe distribution of protein blocks 20 13 11 9 8 5
G-I-V-F-Y-W-A-L-M-E-Q-R-K-P-N-D-H-S-T-C G-IV-FYW-A-L-M-E-QRK-P-ND-HS-T-C G-IV-FYW-A-LM-EQRK-P-ND-HS-T-C G-IV-FYW-ALM-EQRK-P-ND-HS-TC G-IV-FYW-ALM-EQRK-P-ND-HSTC G-IVFYW-ALMEQRK-P-NDHSTC 表 5 蛋白质骨架不同大小的 n 肽组分特征向量维数
n-peptide
2.2
The dimension (d) with different PB sizes (S) S=13
S=11
S=9
S=8
S=5
n =1
13
11
9
8
5
n =2
169
121
81
64
25
算法评价 在完成蛋白质亚细胞定位预测后,都要对预测系统性能进行评估。常用的检验方法主要有三种:独立检
验(independent dataset test)、k-fold 交叉检验(k-fold cross-validation)和 Jackknife 检验(Jackknife test)。其中, Jackknife 检验被认为是最严格和客观的检验方法之一[18]。在 Jackknife 检验中,具有 N 个蛋白质的数据集中 的每一条蛋白质都将被依次取出作为测试,其余 N-1 个蛋白质作为训练集,循环 N 次,但每次抽取的样本都 要放回数据集。 对于预测性能的评价指标,我们采用了生物信息学这一领域中常用的指标:敏感性(Sensitivity, Sn)、特异 性(Specificity, Sp)、总体预测成功率(Accuracy, Ac)和Matthews相关系数(Matthew’s correlation coefficient, MCC)。 在以上指标中,敏感性指标是指每类亚细胞位置中被预测正确的比例,特异性指标是指被预测为第 i 类的样 本中真正属于第 i 类的比例,总体预测成功率是被正确预测样本占总体的比例,Matthew相关系数反映了预测 结果与真实数据间的相关性,分别定义如下: Sin TPi / (TPi FNi ) Sip TPi / (TPi FPi ) Ac
MCCi
TPi i
(10) (11) (12)
N
TPi TNi FPi FN i TPi FPi TNi FN i TPi FN i TNi FPi
(13)
其中, TPi 表示第 i 类亚细胞位置中被预测正确的序列数, FNi 表示第 i 类亚细胞位置中没有被预测正确的序 列数,FPi 表示非第 i 类亚细胞位置但被预测为第 i 类亚细胞位置的序列数,TNi 表示被正确预测的非第 i 类亚 细胞位置的序列数,N表示蛋白质序列总数, i 表示亚细胞位置类别数。
3 结果与讨论 3.1
化学位移关联信息对预测结果的影响 在化学位移关联信息的计算中,首先需要确定两个参数:骨架原子的组合选择和相关长度的选择。我们 - 30 http://www.ivypub.org/bf
先选择骨架原子的组合,对于 15 N , 13C , 1H , 1H N 四种骨架原子一共有15种组合,工作中,为了更有效地利用 15 13 1 1 化学位移信息,我们选取了 N , C , H , H N 这一组合。然后对 进行选取,将 从1取到50,计算后我们
发现 在10~21这一区间时结果较好,当 =20时,结果最好,预测成功率达到了70.14%,因此,在以下的分 15 13 1 1 析中都采用这一组合( N , C , H , H N , =20),如图1所示。此时,化学位移信息参数表示为:
PacACS [10 ,11 ,...,120 ,20 ,21 ,..., 220 , 30 , 31 ,..., 320 , 40 , 41 ,..., 420 ]
(14)
size 图 1 不同相关长度对预测结果的影响
3.2
图 2 蛋白质骨架不同大小的 n 肽组分预测成功率
蛋白质骨架信息对预测结果的影响 对于蛋白质骨架,按照其特征将其约化分为5类,并计算每一类的 n 肽组分信息,经计算,我们得到
S 11(n 2) 时效果最好,预测成功率达到了73.6%,以下的分析中均采用 S 11(n 2) 的这一结果,如图2所示。 图2显示了对于任何一种蛋白质骨架分类,其二肽组分信息得到的成功率都要高于单肽组分信息的成功 率,且不同的分类方式得到的预测成功率也不同,这一结果说明了特征向量的维数也会影响预测结果。 表 6 不同信息参数和融合信息参数在 Jackknife 检验下的预测结果 DC
HDC
PB
ASC
Hybrid
S n/% S p /% MCC
S n/% S p /% MCC
S n/% S p /% MCC
S n/% S p /% MCC
S n/% S p /% MCC
cy
63.8
89.5
0.52
62.5
88.9
0.50
61.7
90.2
0.52
60.0
88.5
0.47
69.6
91.1
0.59
en
51.2
99.7
0.65
41.5
98.7
0.45
48.8
99.3
0.58
53.7
99.4
0.63
53.7
99.6
0.65
go
56.3
99.9
0.71
31.3
99.5
0.37
43.8
99.9
0.62
56.3
99.8
0.68
56.3
99.9
0.71
me
88.8
98.4
0.88
65.7
95.9
0.64
68.6
98.0
0.73
66.3
95.6
0.64
87.0
99.0
0.88
mi
69.2
97.4
0.69
55.8
96.1
0.54
65.9
97.4
0.66
60.8
97.3
0.62
72.5
98.6
0.77
nu
85.5
87.5
0.72
81.8
84.8
0.66
88.1
83.7
0.70
81.2
86.0
0.66
89.9
86.9
0.75
se
75.9
97.4
0.76
66.1
96.4
0.66
71.6
96.8
0.71
71.6
95.0
0.65
77.2
98.3
0.80
vi 75.0 99.9 0.85 77.8 99.6 0.80 77.8 99.6 0.81 72.2 99.8 0.80 83.3 99.9 Ac 78.0 69.0 73.6 70.1 80.2 (%) cy: cytoplasmic en: endoplasmic reticulum go: golgi apparatus me: membrane mi: mitochondria nu: nuclearse: secretedvi: virion membraneLoc: Location
0.90
Loc
3.3
-
特征信息融合对预测结果的影响 通过最优特征参数筛选后,最终我们选取了以下特征参数对凋亡蛋白亚细胞位置进行预测:氨基酸二肽
组分信息(DC)构成的400维向量、亲疏水二肽组分信息(HDC)构成的36维向量、蛋白质骨架(PB)二肽组分信息 ( S 11, n 2 )构成的121维向量、平均化学位移(acASC)信息( 15 N ,13C ,1H ,1H N , =20)构成的84维向量。 在结合实际问题进行研究的过程中,将多类特征参数融合后再进行预测通常能取得较好的结果。所以本文也 - 31 http://www.ivypub.org/bf
采取了特征融合的方法,基于支持向量机(SVM)算法,在Jackknife检验下,在采用以上四种单特征信息参数 进行预测的同时也将四种特征信息参数融合后对凋亡蛋白质亚细胞位置进行预测,在表6中列出了四种单特 征信息以及四种特征融合后得到的每类亚细胞位置的总体预测成功率、MCC值、敏感性、特异性。 从表6中我们可以发现,将四种特征信息融合后的预测成功率比任何一种单特征信息得到的预测成功率 都要高,达到了80.2%,并且敏感性、特异性、MCC值也都很高,分别达到了83.3%、99.9%、0.90。特别是 和单特征信息亲疏水二肽相比较,预测成功率提高了11.2个百分点,并且在融合模式下特异性和MCC都较高, en、go、me和vi类的凋亡蛋白的特异性都在99%以上。cy、nu和se类的特异性也分别达到了91%、86.9%和98.3%。 MCC值最高的是vi类凋亡蛋白达到了0.90,说明了特征融合的方法能有效地预测凋亡蛋白亚细胞位置。
4 结论 本文建立了一个新的细胞凋亡蛋白质数据集,包含了更多的凋亡蛋白质序列,为以后的研究工作提供了 一个更加完善的数据集。分别从蛋白质序列和结构上提取了不同的特征参数:氨基酸二肽组分信息、亲疏水 二肽组分信息、蛋白质骨架信息、化学位移信息,将以上特征信息融合后进行预测取得了较好的结果,总体 预测成功率、敏感性、特异性和MCC值达到了80.2%、83.3%、99.9%和0.90,说明了特征融合对于凋亡蛋白 质亚细胞位置的预测是一个有效的方法。对于特征参数的筛选也是特征提取过程中较为关键的一步,这一点 在蛋白质骨架信息以及化学位移信息参数优选上都有所体现,结合实际问题选择最优的蛋白质骨架分类和最 优相关长度 ,也能有效地提高预测精度。
REFERENCES [1]
Wu HG. Advances in Study of Cell Apoptosis[J]. Journal of Anhui University, 2001, 25(4): 102-106
[2]
Chen YL, Li QZ, Yan KL, et al. Predicting Subcellular Location of Apoptosis Proteins Using the Algorithm of the Increment of Diversity Combined with Support Vector Machines[J]. Acta Biophysica Sinica, 2007, 23(3): 192-198
[3]
Zhou GP, Doctor K. Subcellular Location Prediction of Apoptosis Proteins. Proteins: Struct. Funct, Genet, 2003, 50: 44–48
[4]
Yang HF, Chen YM, Zhang SW, et al. Prediction of Protein Subcellular Localization Using a Novel Feature Extraction Method: Sequence-segmented Pseudo Amino Acid Composition[J]. Acta Biophysica Sinica, 2008, 24(3): 232-238
[5]
Apweiler R, Bairoch A, etc. UniProt: The Universal Protein Knowledgebase [J]. Nucleic AcidsResearch, 2004, 32(Database issue): D115-D119
[6]
Guoli Wang, Roland L. Dunbrack Jr. PISCES: a protein sequence culling server. Bioinformatics, 2003, 19(12): 1589-1591
[7]
Chou KC, Shen HB. Signal-CF: A Subsite-coupled and Window-fusing Approach for Predicting Signal Peptides. Biochem Biophys Res Comm, 2007, 357: 633-640
[8]
Chou KC, Shen HB. Review: Recent Progresses in Protein Subcellular Location Prediction. Anal Biochem, 2007, 370:1-16
[9]
Chou KC. Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Composition. Proteins: Structure, Function, and Genetics, 2001, 43: 246-255
[10] Jian GQ, Zhang YS, Qian PP. Prediction of subcellular localization for Apoptosis protein: Approached with a Novel Representation and Support Vector Machine. MATCH Commun. Math, Comput. Chem, 2012, 67: 867-878 [11] Chen YL, Li QZ. Prediction of the Subcellular Location of Apoptosis Proteins [J]. Journal of Theoretical Biology, 2007, 245(4): 775-783 [12] de Brevern AG, Etchebest C, Hazout S. Bayesian Probabilistic Approach for Prediction Backbone Structures in Terms of Protein Blocks [J]. Proteins: Structure Function Genetics, 2000, 41(3): 271-287 [13] Chen YL, Li QZ, Zhang LQ. Using Increment of Diversity to Predict Mitochondrial Proteins of Malaria Parasite: Integrating Pseudo-amino Acid Composition and Structural Alphabet [J]. Amino Acids, 2012, 42(4): 1309-1316 [14] Shi W, et al. Characterization of Metalloproteins by High-throughput X-ray Absorption Spectroscopy [J]. Genome Res. 2011, 21(6): 898-907 - 32 http://www.ivypub.org/bf
[15] WishartDS, SykesBD, RichardsFM. Relationship Between Nuclear Magnetic Resonance Chemical Shift and Protein Secondary Structure[J]. J Mol Biol, 1991, 222(2): 311-333 [16] Fan GL, Li QZ. Predict Mycobacterial Proteins Subcellular Locations by Incorporating Pseudo-average Chemical Shift into the General form of Chou’s Pseudo Amino Acid Composition [J]. Journal of Theoretical Biology, 2012, 304: 88-95 [17] Vapik V. The Nature of Statistical Learning Theory. New York: springer, 1995, 1-188 [18] Chou KC, Zhang CT. Prediction of protein structural classes [J]. Crit Rev. Biochem. Mol. Biol. 1995, 30(4): 275-349
【作者简介】 姜燕(1986-) ,女,汉,硕士,主要研究
陈颖丽, (1974-) ,女,蒙古族,博士,副
方向为理论生物物理学。
教授,主要从事理论生物物理、生物信息
Email: jiangyan291227@163.com
学方向的研究。 Email: stchenyl@imu.edu.cn
- 33 http://www.ivypub.org/bf