数据库搜索评分

基本原理

LDF评分

PEAKS DB中的评分计算如下图所示

PEAKS DB在内部使用 LDF评分(线性判别函数)来评判肽谱图的匹配质量。LDF评分不仅使用碎片离子与谱图中峰之间的匹配,还使用许多其他因素,例如de novo测序的肽和数据库肽之间的相似性。

LDF评分可以实现以下两个目标:

  1. 对于MS / MS数据集中的每个谱图,从数据库中找到最有可能正确的肽;
  2. 对于整个数据集,尽可能分出正确匹配与错误匹配。

P-Value

LDF 分数将转换为 P 值,以便更好地进行人工诠释。
P值: 对于一个给定的评分x, 其相应的P值 是“一个错误匹配得到的分值>x”的概率。
P值越小,肽-谱图匹配是随机匹配的概率就越小。下图更好地解释了 P 值的含义.

请注意,尽管许多软件包中都使用“P-value”,它们的含义可能各不相同。P值的另一个流行的定义是“随机肽与当前谱图匹配得分”>“x的概率”。 然而,在数据库搜索中,错误鉴定是数据库中许多随机肽的结果,而不仅仅是一个随机肽。因此,PEAKS DB中的P值定义对于控制结果的质量更加有用。


-10logP

将P 值转换为 -10*log10(P 值),使其更加“人性化”。在PEAKS中,该值用-10lgP表示,因为lg是log10的ISO保留表示法。通过此转换,更显著的匹配将对应更高的 -10lgP 值。此外,P 值为 1% 时, 即-10lgP 为 20。

下图是PEAKS数据库搜索结果的屏幕截图。x 轴是 -10lgP 分数,y 轴是在该分数下的肽谱匹配数量。通常,大于 20 的分数具有相对较高的置信度(如图中所示有许多target匹配,但很少有decoy的匹配超过该阈值)。对于大型数据集,建议使用 FDR(错误发现率)来选择正确的 -10lgP 分数阈值(这在 PEAKS 中很容易)。但是,当数据集很小时(# 谱图“<”100 或蛋白质数据库仅包含少量蛋白质),直接选择择-10lgP=20是更合适的筛选方法。