一般而言,生物化学性质相近的碱基之间的取代频率较高;在DNA中,四种转换(Aà G, Gà A, Cà T, Tà C)的频率比八种颠换(Aà C, Aà T, Cà G, Gà T,以及前四种的反向取代)的频率要高;这些偏向会影响两个序列之间的预计的分歧。
各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是4,对于氨基酸而言,行数和列数都是20(比如PAM方阵),对于密码子而言,行数和列数都是61(除去了中止密码子)。非对角线元素对应于一个碱基变为另一个碱基的相对代价,而对角线元素则代表不同序列拥有同一个碱基的代价。
这些代价值可以固定为先验的代价表,以确保建树方法在计分时对每一种取代都使用确定的代价值。固定的代价方阵是典型的静态权重方阵,MP建树方法(如图9.4)使用的就是这种方阵。如果使用这种权重,那么这个方法就会被称为“加权节约”。又如,ML建树方法,代价值是由即时的速率方阵得到的,这个方阵(如图9.5)代表了各种取代可能会发生的概率的ML估计值。MP权重方阵只涉及简单的算术,而应用距离和ML速率方阵则可以引入复杂的代数。为了避免盲目使用不适当的方法,建议大家熟悉其内部的基本原理(见Li, 1997, and / or Swofford et al., 1996a)。
实际上,“前进”和“反向”取代速率被认为是相同的;这个取代模型被称为是“时间可逆”;这个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的变化。在系统发育的特殊历史中,不同序列中的碱基频率不同表明,前进和反向速率实际上可能会不同;而传统的取代权重或者速率方阵不能包容这个“非静态”环境;本节的结尾将讨论一个基于非静态取代模型(“log�det”)的建树方法,这个方法将会提供一个可供选择的计算方法。
通常,特征符状态的权重方阵都会或多或少地通过观察进行过估值,当然也可以从速率矩阵衍生得到。比如,如果假定两个转化的其中一个,发生的频率是每个颠换的两倍,那么据此就可以确定一个权重方阵,比如,A�G的转换代价为1,而A�T的颠换代价为2(图9.4)。(节约方法规定对角线元素值,或者说是不同序列中拥有相同碱基的代价值为零。这是节约方法的一个缺点��详见下文)在随后的建树步骤中,这套假定会把颠换的总数降至最低值,而力求把那些主要差异是转换的序列集中在一起。
任何一种“时间可逆”的核苷酸取代模型都可以用图9.5所示的方阵刻画,只是其中一个速率和其它速率的差异;在任意组合中,最多可以达到只有六个参数,其中每一个速率参数都是独立的(Swofford et al., 1996a;Li, 1997)。如果平衡的碱基频率不相等,则需要额外的参数;如果平衡的碱基频率不相等,但是却假定这些频率相等,那么系统发育进化树的最终结果将会出错(Li, 1997)。
侧线(paralinear)(Lake, 1994)和“log�det”(Lockhart et al., 1994)做了一些修正(见Swofford et al., 1996a)来满足非静态环境的需要;这个方法只适用于距离进化树的建立;在这个方法中,对于每一个序列匹配,各种类型和变化方向的原始取代的数目都会计算在一个4×4的方阵中(如图9.6)。每个方阵都会有一个代数行列式,这个行列式的log值是评估序列差异性的一个要素,因此被称为“log�det”。对那些拥有各种各样的碱基频率的序列进行双重比较,就会得到各种各样的方阵,也就会得到各种各样的行列式值;因此,在评估序列两两之间的距离的时候,就要受到序列两两之间的行列式值的影响,而且序列两两之间的比较允许适用不同的取代模型,因此沿着系统发育进化树的不同树枝,将会产生多元化。Log�det尤其对位点之间的速率差异(见下文)敏感,因此,碱基频率的偏向可能只存在于那些承受变化的位点。