abinitio软件 Rosetta从头预测蛋白结构的方法学研究

更新时间：2023-06-10 09:48:58作者：xiaoliu

近年来，随着计算机技术的发展和人们对生物学的深入探究，预测蛋白质结构的方法也得到了快速的发展。其中基于abinitio软件的Rosetta从头预测蛋白结构的方法备受研究者的关注。该方法利用物理化学原理和大量的统计学习方法，通过蛋白质的氨基酸序列预测蛋白质的三维结构，实现了从蛋白质序列到蛋白质结构的全覆盖预测。本文将围绕该方法展开研究，探索其具体的算法原理和应用价值，并对其未来的发展进行展望。

Rosetta从头预测蛋白结构的方法学研究

一、概述简单说就是：仅根据蛋白质的氨基酸序列预测其3D结构的应用（实际上仍然要依赖于片段库）。关于两个术语：“Ab initio prediction”和“De novo prediction”中文意思都是“从头预测”，严格意义上前者是真正的从头预测，而后者是基于fragments的预测。但在rosetta的“字典”里，二者是同一个protocol——基于fragments的从头预测。二、算法原理

总的来说，AbinitioRelax应用程序包括两个主要步骤：第一步，使用基于知识的“质心”评分函数（Abinitio）对构象空间进行粗粒度片段搜索；第二步（可选），使用Rosetta全原子力场（Relax）进行全原子细化。

三、AbinitioRelax用法【demos/public/abinitio/】

1、输入文件（所有文件【input_files/】路径均有提供）

2、参数介绍（通过 -help 查看所有可接受的参数）

-in:file:native ./input_files/1elw.pdb              Native structure (optional)
(or -in:file:fasta ./input_files/1elwA.fasta)       Protein sequence in fasta format (required if native structure is not provided)
-in:file:frag3 ./input_files/aa1elwA03_05.200_v1_3  3-residue fragments (fragments file)
-in:file:frag9 ./input_files/aa1elwA09_05.200_v1_3  9-residue fragments (fragments file)
-database path/to/rosetta/main/database             Path to rosetta database
-abinitio:relax                                     Do a relax after abinitio ("abrelax" protocol), default=false.

-nstruct 1                                          Number of output structures
-out:file:silent 1elwA_silent.out                   Use silent file output, use filename after this flag, default=default.out
(or -out:pdb)                                       Use PDB file output, default=false
-out:path /my/path                                  Path where PDB output files will be written to, default '.'

-nstruct 的建议值

-abinitio::rg_reweight 0.5 以下翻译可能有误

-abinitio::rsd_wt_helix 0.5 以下翻译可能有误

-abinitio::rsd_wt_loop 0.5 以下翻译可能有误

-use_filters true                               启用回转半径（RG）、接触顺序和折叠片过滤器。这个参数通过在筛选器失败时停止优化来节省计算。对于某些序列，
                                                可能会有很大一部分模型无法通过筛选。无法通过筛选的模型的名称以F_开头。
-psipred_ss2 ./input_files/1elwA.psipred_ss2    psipred_ss2 二级结构预测文件，当使用了 -use_filters 时为必填。
-abinitio::increase_cycles 10                   从头计算时每阶段所增加的循环次数。
-abinitio::rg_reweight 0.5                      使用此值作为 RG 的权重重新计算。
-abinitio::rsd_wt_helix 0.5                     对于“helix”中的残基，使用此值作为 env,pair,cb 的权重。
-abinitio::rsd_wt_loop 0.5                      对于“loop”中的残基，使用此值作为 env,pair,cb 的权重。
-relax::fast                                    使用性能无显著损失的快速relax算法。
-kill_hairpins ./input_files/1elwA.psipred_ss2  由于β或α-β蛋白会频繁采样到发夹结构，通过这个参数可以 kill 发夹。

-constant_seed 以下翻译可能有误

-constant_seed                                  使用一个常量“1111111”作为随机种子
-jran 1234567                                   指定一个随机种子，对于所有job应该具有唯一性。(要求指定 -constant_seed)
-seed_offset 10                                 这个值将被加到随机种子上。当使用时间作为种子的集群计算时会非常有用。如果
                                                使用Condor作为调度器，则参数值也可以填写为“$(Process)”

$ROSETTA/bin/AbinitioRelax.linuxgccrelease \
        -database /path/to/rosetta/main/database \
        -in:file:fasta ./input_files/1elwA.fasta \
        -in:file:native ./input_files/1elw.pdb \
        -in:file:frag3 ./input_files/aa1elwA03_05.200_v1_3 \
        -in:file:frag9 ./input_files/aa1elwA09_05.200_v1_3 \
        -abinitio:relax \
        -relax:fast \
        -abinitio::increase_cycles 10 \
        -abinitio::rg_reweight 0.5 \
        -abinitio::rsd_wt_helix 0.5 \
        -abinitio::rsd_wt_loop 0.5 \
        -use_filters true \
        -psipred_ss2 ./input_files/1elwA.psipred_ss2 \
        -kill_hairpins ./input_files/1elwA.psipred_ss2 \
    -out:file:silent 1elwA_silent.out \
        -nstruct 10

3、输出结果的处理

生成的主要文件有以下几种

output_files/S_00000001.pdb,
output_files/score.fsc, 
output_files/default.out(silent output file).

3.1、从silent中解出pdb（若输入参数未指明 -out:pdb，则最终输出的是一个 silent 文件）

生成的silent文件后缀为“.out”，里面包含了生成的pdb模型，以及打分数据。使用打分应用 score.linuxgccrelease 可以从 silent 解析出pdb文件。

3.2、使用聚类程序对结果进行聚类

cluster.linuxgccrelease 可对silent或pdb格式的模型进行聚类。当结构集过大时，建议使用优化过的聚类程序——Calibur（参考 http://www.biomedcentral.com/1471-2105/11/25和http://sourceforge.net/projects/calibur/）。

四、一些注意事项或技巧

1、AbinitioRelax的第二步（Relax）花费的时间略长，对于demo（117个残基），普通计算机运行大约需要8分钟。

2、由于全原子能量函数对原子间相互作用力非常敏感，加之理论上给定序列的蛋白质构象空间巨大。因此应尽可能多的提高采样点才更有可能覆盖到天然态构象，受算力的约束，一般正式预测时，需要生成50000到100000个模型，才能达到较为理想的结果。

3、AbinitioRelax能够很好地预测长度小于100个残基的小单体蛋白，也有一定几率精准预测达到150个残基的蛋白质，但更大的蛋白质因构象空间骤增，需要更多的算力。以下参考资料提供了与采样问题相关的信息：

Bradley P, Misura KM, Baker D (2005). Toward high-resolution de novo structure prediction for small proteins. Science 309, 1868-71.
Kim DE, Blum B, Bradley P, Baker D (2009). Sampling bottlenecks in de novo protein structure prediction. J Mol Biol 393, 249-60.

4、Rosetta可以很好地利用你的实验数据进行约束性预测，为此你需要提供参数 -cst_file 和 -cst_weight 所需的文件，文件说明可参考 contraint files。

5、使用同源序列运行AbinitioRelax是很有用的，例如可通过PSI-BLAST搜索（NCBI nr数据库）或Pfam获取同源序列。使用类似Jaliew的序列比对查看器可以帮助选择要运行的最佳同源序列集，还可以帮助选择模型。

6、为了增加采样到正确拓扑的机会，也可以运行一组非同源序列，因为选一组同源序列一定程度上意味着选了一个较窄的采样域，因此降低了收敛到天然态的概率。通常我们寻找一组不同的同源序列（最多10个），它们在保守位置和缺失上存在差异，这些序列可能代表一个截断环或无序区域（truncated loop or disordered region）。

7、使用诸如Disopred或metaPrDOS之类的公共程序（publicly available programs）识别和修剪无序的端序列（disordered termini）也很重要。

8、信号序列也应该使用像SignalP这样的公共程序来识别和裁剪。该方案不适用于膜蛋白。如果使用TMHMM等程序预测跨膜螺旋，请参阅Membrane ab initio 程序。

五、其他建议

官方建议生成20000到30000个目标序列模型和多至10个同系物模型，然后使用聚类应用程序或Calibur来识别最常采样的构象（most frequently sampled conformations）。在一般情况下，按大小排列的前5-10个集群中，至少有一个存在RMSD最低的模型（相对本征结构）。

在理想的情况下，你的序列应该是由一些同源序列识别搜索工具得到，如PSI-BLAST。序列比对在模型选择中非常有用。例如，保守的疏水位置很可能代表蛋白质的核心，因此在这些位置暴露有侧链的模型可能被丢弃。同样的逻辑也适用于最有可能出现在表面的保守的极性位点（conserved polar positions）。此外，保守的半胱氨酸对可能代表二硫化物。具有序列比对功能的Jalview和模型可视化的PyMOL等工具对模型选择非常有用。

分数-RMSD散点图（plots）可能有助于识别目标序列和同源序列向本征结构的收敛性。例如，当使用score.linuxgccrelease打分程序重新排序模型时，最低评分模型可作为 -in:file:native 的值。从得到的score文件画出的score-RMSD图可能会呈现出一个朝向最低得分模型的收敛（能量漏斗）。如果存在能量漏斗，得分最低的模型有更大的机会接近本征结构。有关创建分数-RMSD散点图（Score vs RMSD plots）的讨论，请参见https://m.rosettacommons.org/node/3813 和 https://m.rosettacommons.org/content/how-make-benchmark。PyRosetta工具包GUI也可以用于Score-RMSD输出，并在运行期间发现最低能量结构集。

集群中的得分最低的模型以及在PDB中表示拓扑的模型也更有可能是正确的。可以用结构-结构比对工具，如Dali或Mammoth，来搜索PDB数据库。

　　综上所述，基于Abinitio软件Rosetta从头预测蛋白结构的方法学是一项非常重要的研究工作，可以帮助我们更深入地了解蛋白质的结构及其功能。通过不断地优化算法和模型，这一方法将在未来的生物医学研究中发挥越来越重要的作用。