PEAKS DB | Protein Identification Scoring | Bioinformatics Solutions Inc.

数据库搜索评分

基本原理

LDF评分

P值

-10logP

LDF评分

PEAKS DB中的评分计算如下图所示

PEAKS DB在内部使用 LDF评分（线性判别函数）来评判肽谱图的匹配质量。LDF评分不仅使用碎片离子与谱图中峰之间的匹配，还使用许多其他因素，例如de novo测序的肽和数据库肽之间的相似性。

LDF评分可以实现以下两个目标：

对于MS / MS数据集中的每个谱图，从数据库中找到最有可能正确的肽；
对于整个数据集，尽可能分出正确匹配与错误匹配。

P-Value

LDF 分数将转换为 P 值，以便更好地进行人工诠释。
P值: 对于一个给定的评分x, 其相应的P值是“一个错误匹配得到的分值>x”的概率。
P值越小，肽-谱图匹配是随机匹配的概率就越小。下图更好地解释了 P 值的含义.

请注意，尽管许多软件包中都使用“P-value”，它们的含义可能各不相同。P值的另一个流行的定义是“随机肽与当前谱图匹配得分”>“x的概率”。然而，在数据库搜索中，错误鉴定是数据库中许多随机肽的结果，而不仅仅是一个随机肽。因此，PEAKS DB中的P值定义对于控制结果的质量更加有用。

-10logP

将P 值转换为 -10*log10（P 值），使其更加“人性化”。在PEAKS中，该值用-10lgP表示，因为lg是log10的ISO保留表示法。通过此转换，更显著的匹配将对应更高的 -10lgP 值。此外，P 值为 1% 时，即-10lgP 为 20。

下图是PEAKS数据库搜索结果的屏幕截图。x 轴是 -10lgP 分数，y 轴是在该分数下的肽谱匹配数量。通常，大于 20 的分数具有相对较高的置信度（如图中所示有许多target匹配，但很少有decoy的匹配超过该阈值）。对于大型数据集，建议使用 FDR（错误发现率）来选择正确的 -10lgP 分数阈值（这在 PEAKS 中很容易）。但是，当数据集很小时（# 谱图“<”100 或蛋白质数据库仅包含少量蛋白质），直接选择择-10lgP=20是更合适的筛选方法。

Tran NH, Qiao R, Xin L, Chen X, Liu C, Zhang X, Shan B, Ghodsi A, Li M. Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry. Nature Methods. 16(1), 63-66. 20/12/2018.
Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).