FDR 不是峰图质量评分
FDR 控制的是一组被保留下来的对象里,错误命中占比应维持在什么范围。它依赖 target-decoy 竞争、对象打分、排序和阈值截断,因此它从来不是“单个峰图看起来像不像”这么简单。
技术关键词
在 discovery DIA 中,FDR 不是一个孤立阈值,也不是报告里附带的小数字。它连接 target-decoy、q-value、对象层级、搜索空间、entrapment 验证和最终可交付结论。 当搜索空间被 Kuiper、PTM probing、non-canonical FASTA 和 peptidomics 进一步打开时, FDR 的设计与验证方式必须同步升级。
全站检索
如果你想继续追踪 FDR 在 Spectronaut 各页中的具体落点,可以直接进入全站检索查看章节节选,再自行点击进入对应模块。
定义
FDR 负责描述一类结果集合的预期错误比例,FDP 负责描述一次具体分析中已经发生的实际错误比例, q-value 则是软件把对象排完序之后,为每个对象给出的最小 FDR 控制水平。把这三者混成一个数字, 会直接导致 discovery 结果被误读。
FDR 控制的是一组被保留下来的对象里,错误命中占比应维持在什么范围。它依赖 target-decoy 竞争、对象打分、排序和阈值截断,因此它从来不是“单个峰图看起来像不像”这么简单。
当某一次分析输出了一批 precursors、peptides 或 protein groups,FDP 描述的是这批结果中真实错误对象的比例。 FDR 是期望控制目标,FDP 才是这一轮结果最终落到了哪里。
图中把 target-decoy、q-value、claimed FDR、entrapment upper bound、global precursor FDR 与 eFDR 串成一条完整逻辑链。点击节点可跳转到对应章节。
这张图区分“软件宣称的控制水平”和“外部验证看到的实际表现”。
| 术语 | 它真正回答的问题 | 在 discovery 解释中的位置 |
|---|---|---|
FDR |
如果按当前阈值保留结果,错误对象的期望比例应控制在什么水平 | 属于结果集合级控制,不是单个对象级评分 |
FDP |
这一次分析最终保留下来的结果里,真实错误占了多少 | 对应单次分析的实际后果 |
q-value |
某个对象被纳入结果时,对应的最小 FDR 控制水平是多少 | 是排序与阈值化后的对象级读数 |
claimed FDR |
软件依据 target-decoy 与内部打分体系给出的控制声明 | 属于内部估计,仍需外部验证 |
eFDR |
在 entrapment 实验中观察到的经验错误比例 | 对应 claimed FDR 是否过松或过保守的验证 |
蛋白层风险之所以常高于 precursor 层,不只是因为对象更高层,还因为 protein inference 会把 shared peptides、grouping 规则和支持证据重新组织成 protein groups。只要 single-hit protein 的保留策略改变,蛋白层 eFDR、蛋白数和可报告边界就会一起变化。
因此 single-hit protein 不应被看成“多保留一点蛋白”的便利开关,而应被看成蛋白层风险控制策略的一部分。默认的 stratified single hit protein FDR 对应更保守的起点;如果项目确实需要放宽,则应同步回到 entrapment 框架做经验验证。
对象层级
在 DIA 中,precursor、peptide 和 protein group 并不是同一层对象。相同的 1% 阈值落到不同层级时, 风险结构完全不同。蛋白层往往比 precursor 层更容易积累错误解释,因此把所有层级混读,是最常见的误判来源之一。
这是 Spectronaut 在 DIA 中最直接的事件层。Spectronaut 20 引入 global precursor FDR 与 precursor FDR per group,本质上就是把可信度控制重新拉回 precursor 这一主战场。
肽段层汇总时已经开始跨前体合并证据。若前体层打分、干扰控制或 search space 管理不稳,肽段层结果会把这种误差放大成“肽段已经被确认”的错觉。
蛋白层再叠加 protein inference、shared peptides 和 grouping 规则,风险进一步增加。 在复杂数据库、单细胞或开放搜索空间中,蛋白层往往是最需要谨慎解读的一层。
| 对象层级 | Spectronaut 常见字段 | 解释重点 |
|---|---|---|
| Precursor / EG | EG.Qvalue、EG.Cscore、EG.DeltaiRT |
优先和峰形、iRT 偏移、fragment 干扰一起读 |
| Peptide / PEP | PEP.Quantity、PEP.UsedForProteinGroupQuantity |
确认这个肽是证据对象还是定量输入对象 |
| Protein Group / PG | PG.Qvalue、PG.RunEvidenceCount |
注意蛋白层 q-value 不是单一峰图质量,也不等价于 precursor 层稳健性 |
实证验证
仅依赖 target-decoy 和内部 q-value,并不能说明某套 DIA 工作流在所有数据集、所有对象层级下都稳定控制住了错误比例。 Entrapment 的作用,就是引入一批理论上不应在样本中出现的序列,用外部证据直接验证实际错误比例是否偏离了软件的声明。
如果 lower bound 已经高于目标阈值,说明控制失败;但即便 lower bound 很低,也不能反向证明控制一定有效。 在 discovery 项目里,把 lower bound 当作“已经证明没问题”,会过度乐观。
Combined upper bound 给出较保守的风险上界,paired upper bound 则更紧。它们的价值在于告诉你: 某一批结果至多可能坏到什么程度,而不是只提供一个看起来安心的 lower number。
| 验证方式 | 能回答什么 | 不能回答什么 |
|---|---|---|
| Lower bound | 可判断控制是否已经明显失败 | 不能证明控制已经充分有效 |
| Combined upper bound | 给出更保守的实际风险上界 | 仍可能比真实风险更宽 |
| Paired upper bound | 在 entrapment 配对条件下给出更紧的上界 | 仍依赖 entrapment 设计本身是否无偏 |
Spectronaut 20
Kuiper、PTM probing、immunopeptidomics、non-canonical FASTA 和 peptidomics 共同把搜索空间推得更开。 在这种背景下,global precursor FDR 与 precursor FDR per group 不是附加小改动,而是保持 discovery 结果仍然可交付的关键升级。
当 precursor 成为 discovery DIA 的主要决策层时,global precursor FDR 让整批 precursor 在统一框架下排序和控制, 尤其对应 peptidomics、unspecific 搜索和开放搜索空间场景。
当数据库被拆成 canonical / non-canonical、目标组 / 背景组或不同来源子库时,按 group 计算 precursor FDR 可以降低强组别把弱组别“淹没”的风险,让复杂数据库场景的可信度判断更细。
SP20 不是单纯“命中更多”。它让搜索空间扩展与可信度控制同步推进,使 Kuiper、PTM probing 和复杂数据库分析不至于只留下漂亮的命中数而缺乏可信边界。
plexDIA
multiplex-DIA 的特殊之处在于:多个 channels 共享同一 elution group 与部分峰提取结构,但每个 channel 的真实可信度并不完全相同。 因此 plexDIA 不能只靠“整体通过”来解释结果,必须进一步判断每个通道是否具有独立的可报告证据。
当 light / medium / heavy channels 同时存在时,一个整体通过的 elution group 并不保证每个 channel 都足够可靠。强通道可能掩盖弱通道,导致表格看起来完整,但通道级 ratio 已经被拉偏。
它把整体识别与通道独立定量拆开判断。整体上先确认同一 precursor / elution group 真实存在,再对每个 channel 单独给出 q-value 或过滤结论,从而让低丰度或重轻差异明显的通道仍可被独立评估。
图中展示 multiplex-DIA 中四种通道级过滤读法的覆盖度、保守程度与适用场景。点击节点可跳转到相关章节。
| 过滤读法 | 保留逻辑 | 对应读数 |
|---|---|---|
GroupQ |
把同一组 channels 当作整体,只要整体通过就保留全部 channels | 整体覆盖、初步浏览与全局 abundance 轮廓 |
MinQ |
至少一个 channel 独立通过 q-value 阈值即可进入 ratio 计算 | 需要保留更多可定量对象、优先保证 sensitivity 时 |
MaxQ |
样本中的全部 channels 都必须独立通过 q-value 阈值 | 追求最高 precision 与最保守通道级证据时 |
ChannelQ |
每个 channel 单独过滤,弱通道不会因为强通道整体通过而被自动保留 | turnover、time-course、通道级 QC 与定量报告 |
Poster 验证
在 entrapment 评估里,FASTA 本身是否存在偏置,直接决定 eFDR 是看起来过松还是过严。 当 entrapment FASTA 清理得足够干净时,Spectronaut 20.2 默认的 stratified single hit protein FDR 展现出更保守的经验错误控制;反之,如果 entrapment FASTA 有偏,eFDR 会被严重误导。
柱形图展示不同 entrapment FASTA 的偏置风险,折线展示默认设置下经验控制的稳健程度。节点越偏,eFDR 越可能被误导。
EP1 代表明显偏置的 synthetic entrapment 场景;A1、EM1、EPS1 更接近可用的对照结构。
| Poster 要点 | 对 Spectronaut 用户的直接含义 |
|---|---|
| Entrapment FASTA 偏置会让 eFDR 过于乐观或过于悲观 | 验证 FDR 之前,先确认 entrapment 设计是否无偏,否则任何 eFDR 数字都可能失真 |
| Natural species control 仍然重要 | 合成 entrapment FASTA 可更紧,但必须同时用自然物种对照检查是否引入了新偏置 |
| Default stratified single hit protein FDR 更保守 | 在 protein 层交付里,默认设置通常比“保留 single hit proteins”更稳妥 |
| Proper eFDR evaluation 允许比较设置优劣 | FDR 设置不应只靠经验偏好,应放到 entrapment 框架下验证 |
情景判读
当结果开始进入 report、review 和项目交付阶段,FDR 不能只剩一句“我们用了 1% 阈值”。 需要明确对象层级、字段位置、搜索空间和经验验证是否互相匹配。
EG.Qvalue 对应 precursor / elution group 层可信度阅读,PG.Qvalue 对应蛋白层结果交付。
两者必须与对象层级一起读,不能拿其中一个替代另一个。
FDR threshold、protein inference、single-hit protein 处理、non-canonical 分组与 FASTA 结构,都会共同决定最终 claimed FDR 的意义。
当 search space 从标准 tryptic proteome 扩展到 peptidomics、开放修饰或非经典数据库时, FDR 验证需要同步升级,否则结果规模扩大不代表结论可靠。
| 项目场景 | 进入解释前至少先固定什么 | 当前不能直接说什么 | 下一步最合理的动作 |
|---|---|---|---|
| 标准 canonical FASTA 大队列 DIA | 对象层级、EG.Qvalue 与 PG.Qvalue 的读取位置、当前 protein inference 规则 |
“1% FDR 就说明各层级都同样稳” | 先检查 histogram、completeness、CV,再进入蛋白层与差异解释 |
| canonical + non-canonical FASTA | 数据库分组结构、precursor FDR per group、non-canonical 条目来源 |
“新增蛋白就是稳定的新生物学发现” | 先判断新增对象是否只在扩展数据库内成立,再决定是否进入蛋白层交付 |
| 保留 single-hit proteins | single-hit protein 策略、经验验证方式、PG.RunEvidenceCount |
“蛋白层数量增加等于分析更好” | 同步检查 eFDR 与蛋白层支持证据,再决定是否保留在最终报告中 |
| 开放搜索 / peptidomics / PTM probing | search space 范围、对象层级、当前 FDR 粒度和过滤条件 | “命中数提升就代表可信度同步提升” | 先回到 precursor / peptide / site 层确认,再谨慎收敛到蛋白层表述 |
protein inference 和 single-hit protein 策略,因为蛋白层对象的定义会随这两项一起变化。EG.Qvalue 和峰图质量一致。PG.Qvalue 才能进入蛋白层结果解释;否则它更稳妥的定位仍是“需要继续复核的蛋白层候选对象”。global precursor FDR 或 precursor FDR per group,避免弱组别被强组别掩盖。参考资料
下列资料可用于进一步核对 FDR 定义、验证框架与 Spectronaut 升级背景。
Nature Methods,2025。系统讨论 entrapment 下的 lower bound、upper bound 与 DIA FDR 控制边界。
HUPO 2025 Poster。这里对应 Spectronaut 20.2 默认设置、entrapment FASTA 偏置与 eFDR 评估的关系。