Quality Score = -10 log( P( true base | observed base ) ), true base != observed base
P( true base | observed base ) 是出错的概率,举个例子,observed base 是 A, 出错的概率就是 P( C | A ) + P( G | A ) + P( T | A ),意思是产生A的真实碱基{C,G,T}的概率。Green很巧妙的用了Bayes公式,
P( true base | observed base ) ~ p( observed base | true base ) p( true base )
哇,变成这个形式,就可以轻而易举的计算quality了。这个公式指出了一条明路,可以人为造出一堆序列(test fragment),然后送去测序,再把测出来的读段map回这堆序列,这样我们不但知道真实的序列,而且知道读段和真实序列的关系,就可以统计p( observed base | true base )了。这个称作测序仪的Error Model。