数据库搜索评分
基本原理
LDF评分
P值
-10logP
PEAKS DB中的评分计算如下图所示
PEAKS DB在内部使用 LDF评分(线性判别函数)来评判肽谱图的匹配质量。LDF评分不仅使用碎片离子与谱图中峰之间的匹配,还使用许多其他因素,例如de novo测序的肽和数据库肽之间的相似性。
LDF评分可以实现以下两个目标:
LDF 分数将转换为 P 值,以便更好地进行人工诠释。P值: 对于一个给定的评分x, 其相应的P值 是“一个错误匹配得到的分值>x”的概率。P值越小,肽-谱图匹配是随机匹配的概率就越小。下图更好地解释了 P 值的含义.
请注意,尽管许多软件包中都使用“P-value”,它们的含义可能各不相同。P值的另一个流行的定义是“随机肽与当前谱图匹配得分”>“x的概率”。 然而,在数据库搜索中,错误鉴定是数据库中许多随机肽的结果,而不仅仅是一个随机肽。因此,PEAKS DB中的P值定义对于控制结果的质量更加有用。
将P 值转换为 -10*log10(P 值),使其更加“人性化”。在PEAKS中,该值用-10lgP表示,因为lg是log10的ISO保留表示法。通过此转换,更显著的匹配将对应更高的 -10lgP 值。此外,P 值为 1% 时, 即-10lgP 为 20。
下图是PEAKS数据库搜索结果的屏幕截图。x 轴是 -10lgP 分数,y 轴是在该分数下的肽谱匹配数量。通常,大于 20 的分数具有相对较高的置信度(如图中所示有许多target匹配,但很少有decoy的匹配超过该阈值)。对于大型数据集,建议使用 FDR(错误发现率)来选择正确的 -10lgP 分数阈值(这在 PEAKS 中很容易)。但是,当数据集很小时(# 谱图“<”100 或蛋白质数据库仅包含少量蛋白质),直接选择择-10lgP=20是更合适的筛选方法。
联系我们