可以导入的外部文件格式后缀包括:
ATOMS格式:
ATOMS是一个生成晶体结构图片的程序,有USA的Shape Sofrware出品。
ATOMS拥有一个随版本改变的专有文本格式。以下为ATOMS的两种不同的文本格式:第一次显示时,程序会显示一个单胞;Transform > Set Range命令扩展原子范围。 ATOMS,version 5.0
ATOMS,version 4.9
9
CCL格式:
CCL格式是一种灵活的格式,用于控制晶体结构最小二乘拟合。
“A”(原子)、“S”(对称性)和“C”(单胞参数)卡片。其他卡片会被忽略。 Chem3D Cartesian格式:
Chem3D是一种用在不同电脑系统中的分子模型包裹。它的Cartesian文件格式是一种基本的正交坐标格式。
10
第一行是读取原子的总数。随后的行包含了元字符号、原子数和正交坐标。 Cif格式:
cif是指晶体学信息文件(Crystallographic Information File),是国际晶体学联合会制定的一种晶体结构标准文件格式。cif文件第一行是晶体介绍,以data_开始,后面跟自己想写的东西。从第二行开始,基本上是以变量(也可以叫数据名称,以下划线_开始),后面跟对应的值(包括数字和字符串等各种量),如下例: loop_
_atom_site_label
_atom_site_type_symbol _atom_site_fract_x _atom_site_fract_y _atom_site_fract_z
_atom_site_U_iso_or_equiv _atom_site_adp_type
_atom_site_occupancy #以上是变量
Ti Ti 0.00000 0.00000 0.00000 0.00000 Uiso 1.00 #数据行 O O 0.00000 0.00000 0.20800 0.00000 Uiso 1.00 #数据行
如果有很多重复的变量取不同的值,可以用loop_简化表示,在loop_ 以下有多少变量,每一数据行对应就有多少列。当出现新的变量名时,上一个loop_自动结束。 cif文件里的变量可以自己定义,但是有一些标准化的变量集,称为词典(dictionary)。使用时一般参照标准词典里的常用变量就可以了。 CSSR格式:
这些文件是由Daresbury 实验室的晶体学数据系统所生成。它们拥有一个非常简单的格式,其包括了单胞常数、空间群符号、数据库信息以及非对称基元中的原子位置坐标。
Cambridge FDAT格式: 剑桥结构数据库 Gsas 格式:
晶体结构精修类型,可以对x射线和中子粉末衍射的数据进行处理。 ICSD格式:
ICSD无机晶体数据库(inoganic crystal structure database)文件类型,几乎囊括了所有无机晶体的结构信息,上万条数据记录。 Macmolecule 1.x格式:
Crystalmaker 1.x版本文件 MDL molfile格式:
MDL MolFile (*.mol)(分子设计)文件格式。 MDL SDfile格式:
MDL SDfile(Structure-Data File)分子结构数据文件 PDB格式:
11
PDB(protein database)蛋白质数据库格式文件对大部分做模拟和计算的人来说都很熟悉,但其中各个参数的意义很多人并不是很了解。下面对PDB文件中各个参数的意义做个解释:
REMARK
该记录用来记述结构优化的方法和相关统计数据。如用Refmac进行结构优化,该记录将自动插入输出的PDB。
CRYST1 (NMR除外)
该记录用来记述晶胞结构参数 (a, b, c, α, β, γ, 空间群) 以及 Z值 (单位结构中的聚和链数)。
SCALEn(n = 1, 2, 3) (NMR除外)
该记录介绍数据中直角坐标向部分晶体学坐标的转换。 ATOM
该记录记述标准氨基酸以及核酸的原子名,残基名,直角坐标,占有率,温度因子等信息。 HETATM
该记录记述了标准氨基酸以及核酸以外的化合物的原子名,残基名,直角坐标,占有率,温度因子等信息。 TER
该记录表示链的末端。在每个聚合链的末端都必须有TER记录,但是由于无序序列而造成的链的中断处不需要该记录。 MODEL
当一个PDB文件中包含多个结构时(例:NMR结构解析),该记录出现在各个模型的第一行。 MODEL记录行的第11-14列上记入模型序号。序号从1开始顺序记入,在11-14列中从右起写。比如说有30个模型,则第1至9号模型,该行的7-13列空白,在14列上记入1-9的数字;第10-30号模型,该行的7-12列空白,13-14列上记入 10-30的数字。
ENDMDL
与MODEL记录成对出现,记述在各模型的链末端的TER记录之后。 END
该记录标志PDB文件的结束,是必需的记录。 B-factoer
B因子是晶体学中的一个重要参数,晶体学中结构因子可以表达为坐标x,y,z与Bj因子的函数。物理学上对于Bj的表征有很多理论模型, 最成功的是由Debye和Waller提出的。将固体内振荡的量子本质计算在内后,他们将Bj 表征为绝对温度T和其他各基本参数的函数。由此可见,Bj与原子的质量等基本性质有关,也与实验温度有关。
B因子体现了晶体中原子电子密度的“模糊度”(diffusion),这个“模糊度”实际上反映了蛋白质分子在晶体中的构象状态。B因子越高,“模糊度”越大,相应部位的构象就越不稳定。在晶体学数据中, B因子一般是以原子为单位给出的,我们可以换算成相应残基的B 因子,从而分析残基的构象稳定性1)。另外,计算出的B因子中实际上包含了实验中的很多因素,如晶体结构测定的实验误差等,精度高的晶体结构数据提供较可靠的B因子数据。 此外,另外温度因子还和占有率相关,如果本身结构解析过程中占有率低,也会导致温度因子升高。这个时候只能说是X-ray收集数据的时候这个地方的信号比较弱,而和结构本身的构象如何,没有关系。
PDB 中的晶体学数据是以原子为单位的,它所给出的B因子是相对于每个原子的,统计中,首先将原子的B 因子换算成残基的B因子,即把每个残基所有原子的B因子取平均值。由于蛋白质分子表面残基的运动性比较大, B因子相对较高, 所以在统计中除去了这部分残
12