ΩOmicSolution蛋白质组学技术平台

技术关键词

FDR:把 DIA 的命中数变成可信证据

在 discovery DIA 中,FDR 不是一个孤立阈值,也不是报告里附带的小数字。它连接 target-decoy、q-value、对象层级、搜索空间、entrapment 验证和最终可交付结论。 当搜索空间被 Kuiper、PTM probing、non-canonical FASTA 和 peptidomics 进一步打开时, FDR 的设计与验证方式必须同步升级。

FDR / FDP / q-value Entrapment / eFDR Global precursor FDR Per-group precursor FDR Protein-level 风险更高 Spectronaut 20 升级亮点
6核心层级
2关键资料
3验证视角

全站检索

围绕 FDR 的站内跳转

如果你想继续追踪 FDR 在 Spectronaut 各页中的具体落点,可以直接进入全站检索查看章节节选,再自行点击进入对应模块。

定义

FDR、FDP 与 q-value 解决的是三个不同问题

FDR 负责描述一类结果集合的预期错误比例,FDP 负责描述一次具体分析中已经发生的实际错误比例, q-value 则是软件把对象排完序之后,为每个对象给出的最小 FDR 控制水平。把这三者混成一个数字, 会直接导致 discovery 结果被误读。

FDR 不是峰图质量评分

FDR 控制的是一组被保留下来的对象里,错误命中占比应维持在什么范围。它依赖 target-decoy 竞争、对象打分、排序和阈值截断,因此它从来不是“单个峰图看起来像不像”这么简单。

FDP 才是一次分析真正发生了多少错误

当某一次分析输出了一批 precursors、peptides 或 protein groups,FDP 描述的是这批结果中真实错误对象的比例。 FDR 是期望控制目标,FDP 才是这一轮结果最终落到了哪里。

从打分到交付的可信度链

图中把 target-decoy、q-value、claimed FDR、entrapment upper bound、global precursor FDR 与 eFDR 串成一条完整逻辑链。点击节点可跳转到对应章节。

这张图区分“软件宣称的控制水平”和“外部验证看到的实际表现”。

术语 它真正回答的问题 在 discovery 解释中的位置
FDR 如果按当前阈值保留结果,错误对象的期望比例应控制在什么水平 属于结果集合级控制,不是单个对象级评分
FDP 这一次分析最终保留下来的结果里,真实错误占了多少 对应单次分析的实际后果
q-value 某个对象被纳入结果时,对应的最小 FDR 控制水平是多少 是排序与阈值化后的对象级读数
claimed FDR 软件依据 target-decoy 与内部打分体系给出的控制声明 属于内部估计,仍需外部验证
eFDR 在 entrapment 实验中观察到的经验错误比例 对应 claimed FDR 是否过松或过保守的验证

Protein inference 与 single-hit protein 决定蛋白层交付边界

蛋白层风险之所以常高于 precursor 层,不只是因为对象更高层,还因为 protein inference 会把 shared peptides、grouping 规则和支持证据重新组织成 protein groups。只要 single-hit protein 的保留策略改变,蛋白层 eFDR、蛋白数和可报告边界就会一起变化。

因此 single-hit protein 不应被看成“多保留一点蛋白”的便利开关,而应被看成蛋白层风险控制策略的一部分。默认的 stratified single hit protein FDR 对应更保守的起点;如果项目确实需要放宽,则应同步回到 entrapment 框架做经验验证。

对象层级

q-value 必须和对象层级一起读

在 DIA 中,precursor、peptide 和 protein group 并不是同一层对象。相同的 1% 阈值落到不同层级时, 风险结构完全不同。蛋白层往往比 precursor 层更容易积累错误解释,因此把所有层级混读,是最常见的误判来源之一。

Precursor 层

这是 Spectronaut 在 DIA 中最直接的事件层。Spectronaut 20 引入 global precursor FDR 与 precursor FDR per group,本质上就是把可信度控制重新拉回 precursor 这一主战场。

Peptide 层

肽段层汇总时已经开始跨前体合并证据。若前体层打分、干扰控制或 search space 管理不稳,肽段层结果会把这种误差放大成“肽段已经被确认”的错觉。

Protein Group 层

蛋白层再叠加 protein inference、shared peptides 和 grouping 规则,风险进一步增加。 在复杂数据库、单细胞或开放搜索空间中,蛋白层往往是最需要谨慎解读的一层。

对象层级 Spectronaut 常见字段 解释重点
Precursor / EG EG.QvalueEG.CscoreEG.DeltaiRT 优先和峰形、iRT 偏移、fragment 干扰一起读
Peptide / PEP PEP.QuantityPEP.UsedForProteinGroupQuantity 确认这个肽是证据对象还是定量输入对象
Protein Group / PG PG.QvaluePG.RunEvidenceCount 注意蛋白层 q-value 不是单一峰图质量,也不等价于 precursor 层稳健性

实证验证

Entrapment 把“宣称的 FDR”变成“可验证的实际表现”

仅依赖 target-decoy 和内部 q-value,并不能说明某套 DIA 工作流在所有数据集、所有对象层级下都稳定控制住了错误比例。 Entrapment 的作用,就是引入一批理论上不应在样本中出现的序列,用外部证据直接验证实际错误比例是否偏离了软件的声明。

Lower bound 只能证明失败,不能证明成功

如果 lower bound 已经高于目标阈值,说明控制失败;但即便 lower bound 很低,也不能反向证明控制一定有效。 在 discovery 项目里,把 lower bound 当作“已经证明没问题”,会过度乐观。

Upper bound 更接近真实风险边界

Combined upper bound 给出较保守的风险上界,paired upper bound 则更紧。它们的价值在于告诉你: 某一批结果至多可能坏到什么程度,而不是只提供一个看起来安心的 lower number。

Entrapment 验证必须掌握的三点
  • Entrapment 不是替代 target-decoy,而是用外部已知错误空间验证 target-decoy 的控制结果是否站得住。
  • 在 DIA 中,precursor 层、peptide 层和 protein 层的控制表现可能显著不同,蛋白层通常更难稳定。
  • 半监督 reranking 虽然可能提高命中数,但也可能改变 decoy / entrapment 的行为模式,因此必须和经验验证一起读。
验证方式 能回答什么 不能回答什么
Lower bound 可判断控制是否已经明显失败 不能证明控制已经充分有效
Combined upper bound 给出更保守的实际风险上界 仍可能比真实风险更宽
Paired upper bound 在 entrapment 配对条件下给出更紧的上界 仍依赖 entrapment 设计本身是否无偏

Spectronaut 20

SP20 的 FDR 升级点,在搜索空间扩展之后尤其关键

Kuiper、PTM probing、immunopeptidomics、non-canonical FASTA 和 peptidomics 共同把搜索空间推得更开。 在这种背景下,global precursor FDR 与 precursor FDR per group 不是附加小改动,而是保持 discovery 结果仍然可交付的关键升级。

Global precursor FDR

当 precursor 成为 discovery DIA 的主要决策层时,global precursor FDR 让整批 precursor 在统一框架下排序和控制, 尤其对应 peptidomics、unspecific 搜索和开放搜索空间场景。

Precursor FDR per group

当数据库被拆成 canonical / non-canonical、目标组 / 背景组或不同来源子库时,按 group 计算 precursor FDR 可以降低强组别把弱组别“淹没”的风险,让复杂数据库场景的可信度判断更细。

20.0 升级的真正含义

SP20 不是单纯“命中更多”。它让搜索空间扩展与可信度控制同步推进,使 Kuiper、PTM probing 和复杂数据库分析不至于只留下漂亮的命中数而缺乏可信边界。

FDR 升级与 Kuiper、PTM probing 的对应关系
  • 当 unspecific directDIA、开放修饰和免疫肽分析打开更多候选空间时,错误命中的机会也同时增加。
  • 如果只看到 Kuiper 带来的鉴定数提升,却不同时关注 precursor 层 FDR 的改进,就会把“搜索空间扩张”误当成“结果天然更可靠”。
  • SP20 的价值正在于:搜索空间打开、FDR 粒度变细、报表和后分析仍能维持可解释的证据结构。

plexDIA

plexDIA 把 FDR 从对象层问题进一步推进到通道层问题

multiplex-DIA 的特殊之处在于:多个 channels 共享同一 elution group 与部分峰提取结构,但每个 channel 的真实可信度并不完全相同。 因此 plexDIA 不能只靠“整体通过”来解释结果,必须进一步判断每个通道是否具有独立的可报告证据。

普通 precursor FDR 的局限

当 light / medium / heavy channels 同时存在时,一个整体通过的 elution group 并不保证每个 channel 都足够可靠。强通道可能掩盖弱通道,导致表格看起来完整,但通道级 ratio 已经被拉偏。

channel-specific FDR 解决什么

它把整体识别与通道独立定量拆开判断。整体上先确认同一 precursor / elution group 真实存在,再对每个 channel 单独给出 q-value 或过滤结论,从而让低丰度或重轻差异明显的通道仍可被独立评估。

GroupQ、MinQ、MaxQ 与 ChannelQ 的取舍

图中展示 multiplex-DIA 中四种通道级过滤读法的覆盖度、保守程度与适用场景。点击节点可跳转到相关章节。

过滤读法 保留逻辑 对应读数
GroupQ 把同一组 channels 当作整体,只要整体通过就保留全部 channels 整体覆盖、初步浏览与全局 abundance 轮廓
MinQ 至少一个 channel 独立通过 q-value 阈值即可进入 ratio 计算 需要保留更多可定量对象、优先保证 sensitivity 时
MaxQ 样本中的全部 channels 都必须独立通过 q-value 阈值 追求最高 precision 与最保守通道级证据时
ChannelQ 每个 channel 单独过滤,弱通道不会因为强通道整体通过而被自动保留 turnover、time-course、通道级 QC 与定量报告
plexDIA 中同时要看的两层控制
  • 第一层是整体 precursor / elution group 是否真实成立,这一层仍然依赖 target-decoy、precursor q-value 和整体打分。
  • 第二层是每个 channel 是否具备足够稳定的 transitions、足够高的 minimum precursor quantity 和独立可报告的 channel-level q-value。
  • 如果项目目标是 protein turnover,而不是单纯 abundance,第二层往往比第一层更决定最终结论是否可靠。

Poster 验证

HUPO Poster 补足了设置层验证:默认设置更保守,但前提是 entrapment FASTA 无偏

在 entrapment 评估里,FASTA 本身是否存在偏置,直接决定 eFDR 是看起来过松还是过严。 当 entrapment FASTA 清理得足够干净时,Spectronaut 20.2 默认的 stratified single hit protein FDR 展现出更保守的经验错误控制;反之,如果 entrapment FASTA 有偏,eFDR 会被严重误导。

Entrapment FASTA 偏置与默认设置稳健性

柱形图展示不同 entrapment FASTA 的偏置风险,折线展示默认设置下经验控制的稳健程度。节点越偏,eFDR 越可能被误导。

EP1 代表明显偏置的 synthetic entrapment 场景;A1、EM1、EPS1 更接近可用的对照结构。

Poster 要点 对 Spectronaut 用户的直接含义
Entrapment FASTA 偏置会让 eFDR 过于乐观或过于悲观 验证 FDR 之前,先确认 entrapment 设计是否无偏,否则任何 eFDR 数字都可能失真
Natural species control 仍然重要 合成 entrapment FASTA 可更紧,但必须同时用自然物种对照检查是否引入了新偏置
Default stratified single hit protein FDR 更保守 在 protein 层交付里,默认设置通常比“保留 single hit proteins”更稳妥
Proper eFDR evaluation 允许比较设置优劣 FDR 设置不应只靠经验偏好,应放到 entrapment 框架下验证

情景判读

把 FDR 读回 Spectronaut 报告与项目决策

当结果开始进入 report、review 和项目交付阶段,FDR 不能只剩一句“我们用了 1% 阈值”。 需要明确对象层级、字段位置、搜索空间和经验验证是否互相匹配。

Report 字段层

EG.Qvalue 对应 precursor / elution group 层可信度阅读,PG.Qvalue 对应蛋白层结果交付。 两者必须与对象层级一起读,不能拿其中一个替代另一个。

Settings 层

FDR threshold、protein inference、single-hit protein 处理、non-canonical 分组与 FASTA 结构,都会共同决定最终 claimed FDR 的意义。

项目层

当 search space 从标准 tryptic proteome 扩展到 peptidomics、开放修饰或非经典数据库时, FDR 验证需要同步升级,否则结果规模扩大不代表结论可靠。

项目场景 进入解释前至少先固定什么 当前不能直接说什么 下一步最合理的动作
标准 canonical FASTA 大队列 DIA 对象层级、EG.QvaluePG.Qvalue 的读取位置、当前 protein inference 规则 “1% FDR 就说明各层级都同样稳” 先检查 histogram、completeness、CV,再进入蛋白层与差异解释
canonical + non-canonical FASTA 数据库分组结构、precursor FDR per group、non-canonical 条目来源 “新增蛋白就是稳定的新生物学发现” 先判断新增对象是否只在扩展数据库内成立,再决定是否进入蛋白层交付
保留 single-hit proteins single-hit protein 策略、经验验证方式、PG.RunEvidenceCount “蛋白层数量增加等于分析更好” 同步检查 eFDR 与蛋白层支持证据,再决定是否保留在最终报告中
开放搜索 / peptidomics / PTM probing search space 范围、对象层级、当前 FDR 粒度和过滤条件 “命中数提升就代表可信度同步提升” 先回到 precursor / peptide / site 层确认,再谨慎收敛到蛋白层表述
情景判读 1:只看到 PG.Qvalue = 0.006 时,还缺哪些上下文
  • 先确认这条结果所在的数据库结构,是标准 canonical FASTA,还是已经加入 non-canonical 条目、开放搜索空间或特殊 cleavage 规则。
  • 再确认 protein inferencesingle-hit protein 策略,因为蛋白层对象的定义会随这两项一起变化。
  • 继续确认支撑证据是否集中在少数 run,是否主要来自 shared peptides,是否与 precursor 层 EG.Qvalue 和峰图质量一致。
  • 只有这些条件都站稳后,PG.Qvalue 才能进入蛋白层结果解释;否则它更稳妥的定位仍是“需要继续复核的蛋白层候选对象”。
情景判读 2:non-canonical FASTA 场景里,什么时候可以进入蛋白层交付
  • 前提一是数据库结构已经固定,包括 canonical / non-canonical 的组别划分和条目来源,而不是临时拼接后直接运行。
  • 前提二是 precursor 层的控制方式已经同步更新,例如启用 global precursor FDRprecursor FDR per group,避免弱组别被强组别掩盖。
  • 前提三是蛋白层推断规则已经固定,并清楚说明 single-hit protein 是否保留、shared peptides 如何处理。
  • 满足这些条件后,non-canonical 蛋白层对象才可进入结果报告;否则更稳妥的交付方式是停留在 precursor / peptide discovery evidence 层。

参考资料

参考资料

下列资料可用于进一步核对 FDR 定义、验证框架与 Spectronaut 升级背景。

Assessment of false discovery rate control in tandem mass spectrometry analysis using entrapment

Nature Methods,2025。系统讨论 entrapment 下的 lower bound、upper bound 与 DIA FDR 控制边界。

打开本地 PDF

Systematic Assessment of Entrapment Approaches in DIA Proteomics FDR Validation

HUPO 2025 Poster。这里对应 Spectronaut 20.2 默认设置、entrapment FASTA 偏置与 eFDR 评估的关系。

打开本地 Poster