PEAKS SPIDER算法将de novo sequence tag和database protein进行匹配,发现序列之间存在显著性的相似,算法则通过从头测序错误和同源肽段序列突变来解释这个差异(Figure1)。更具体说是重建一个”real sequence”,使得正确序列和de novo结果之间的从头测序错误、正确序列和数据库蛋白序列的同源多肽突变,这二者的总和最小化。
为什么不用BLAST?
常规的同源搜索工具比如BLAST并不是搜索de novo sequence tags的好的选择。由于肽段的MS/MS谱中缺失一些片段离子导致可能发生从头测序错误的现象是很常见的。因此,对于合适的de novo tag的同源搜索,要有如(AT/TA)和 (N/GG) 这样的测序容错。而BLAST出于不同的考虑,会拒绝掉错误太多的情况,可能显著降低了搜索灵敏度。另外,BLAST也不会进行真实肽段序列的重建。