Spectronaut 结果解析

总述

结果解析与判断

结果解析部分覆盖 identification、quantification、differential abundance、hierarchical clustering、PCA、GO enrichment 与 PTM 位点结果，对应 discovery 项目从结果矩阵走向生物学解释的正式入口。

结果解析的作用

结果解析先处理矩阵质量、差异结构和候选筛选，再进入具体报告和结果交付。

与报表模块的关系

结果解析负责解释当前发生了什么，报表模块负责组织后续交付。如果前一层没有建立清楚，后一层就容易变成导出很多列却无法解释。

结果解析路线图

从矩阵质量、候选筛选到 GO / PTM 解释的主线结构。

总览

结果总览与打分分布

Overview 会展示 proteins / peptides identified and quantified、missed cleavages、library recovery，以及 identifications、data completeness、CV、normalization、detected modifications 等多种图。这意味着在看任何候选之前，我们就已经有足够的信息去判断这次实验是否稳定。

Data completeness plot — Appendix 图。Data completeness 应与 CV、normalization 一起联读，先判断矩阵质量，再进入差异解释。

总览的阅读顺序

最好的顺序是先看 identifications 与 quantified objects，再看 completeness、CV 和 normalization，最后再回头理解 detected modifications 和 peptide motif plots。这样你会先建立“矩阵质量观”，而不是直接跳到某个显著蛋白。

打分分布的意义

它不是一张内部算法图，而是直接显示 target / decoy 分布、Cscore、q-value 和 precursor-level sensitivity 的关系。这一层会直接影响“同一个 fold change，是否具备相同可信度”的判断。

Overview 中的图形判读顺序

这一节先给 experiment-wide summary，包括 identified / quantified proteins 与 peptides，再往后才是 completeness、CV、normalization 和 detected modifications。这里的判读顺序也应如此：先判断矩阵规模，再判断矩阵质量。
同时把 missed cleavages 与 library recovery 放进同一层，提醒你这不是单纯的“结果页面”，而是会回指样本制备和谱库文件质量。
在 specialized workflows 下，Overview 还会出现 digestion efficiency plot 和 LFQ benchmark studies 专用图。也就是说，Post Analysis 的第一层就已经因 workflow 类型而发生变化。
Scoring Histograms 用来理解 target / decoy separation、Cscore、q-value 和 sensitivity，不应该只当成算法内部图。它是把 identification confidence 可视化后的第一张“可信度地图”。

候选与 PCA

Candidates table 与 PCA

Candidates table 默认带有 q-value 和 fold change 过滤，而 PCA 用于观察样本是否按蛋白组轮廓分群。这两者一张偏“筛选与注释”，一张偏“全局结构”，应配合阅读。

Candidates table 最容易被忽略的细节

这里明确说明 q-value 和 log2 ratio 过滤会联动到 volcano plot；Column Chooser 允许你把 p-value 等字段加回来。也就是说，这张表不是静态输出，而是可交互的候选定义器。

PCA 的核心问题

PCA 不是为了找“显著蛋白”，而是为了确认样本是否按预期分群、是否存在批次异常、前几主成分解释了多少方差。它最直接的作用，是在深入解释之前先看清全局结构。

Candidates 和 PCA 的联读顺序

这一节先展示 Candidates list，并明确给出默认 filters 为 1.5-fold change 和 q-value 0.05。也就是说，候选集一开始就是被阈值定义过的，而不是全量结果自然冒出来的“显著分子”。
Candidates table 支持直接在表内改过滤条件、按列搜索、分组和导出；如果你改变阈值，后面的 volcano plot 会同步更新。因此它本质上是整个差异分析层的交互中心。
PCA 承担全局结构判断：看条件分组是否清晰、样本是否偏离、方差是否主要来自你关心的条件，而不是来自批次或异常 run。
最合理的判读顺序是：先用 PCA 判断“结构是否可信”，再用 Candidates table 决定“筛谁出来继续解释”。两者合起来，才算完成一轮 differential abundance 初筛。

GO 富集

GO 富集与 GO 聚类

第 71-74 页的重点不是“会跑 GO”，而是知道 background proteome、候选集、over / under representation、multiple testing correction 和 term similarity cutoff 各自意味着什么。否则 GO 图很容易变成“看起来很热闹、解释却很松散”的部分。

GO 富集的核心内容

必须先理解 background proteome 是全实验中识别到的蛋白，而不是整个 FASTA；再理解 Bonferroni 与 Benjamini-Hochberg 的差异；最后再看 enrichment table 怎么过滤、怎么重算。这样你才不会把 GO 看成一个黑箱按钮。

GO clustering 的作用

当 enrichment 结果很多时，就需要 clustering 来降低冗余。REVIGO 风格的语义相似度聚类，正是把“很多显著 GO term”压缩成“几个更可解释主题”的关键步骤。

GO 富集与 GO 聚类的判读顺序

第一步不是看富集条目，而是理解 background proteome 的定义。背景是全实验中识别到的蛋白，而不是整个 FASTA，也不是外部物种蛋白全集。
接下来解释 overrepresented / underrepresented 的统计意义，并明确给出 Bonferroni 与 Benjamini-Hochberg 两种多重校正。这里必须知道“富集显著”依赖哪一种校正。
如果你修改了 Candidates table，GO enrichment 必须重新计算。这说明 GO 结果和候选定义是紧耦合的，而不是一次跑完永久不变。
GO clustering 部分则进一步说明，可以手动勾选 enrichment terms，也可以按 namespace、representation type、term 数量、fold change 和 proteins per term 过滤后再聚类。
最后才进入 similarity cutoff 和 dispensability。如果启用 p-value 规则，聚类代表 term 不一定是语义最具体的 term，而可能是 p-value 更低的 term。这是解释 GO cluster 时很容易忽略的前提。

图形

Heatmap 与 Volcano

Heatmap 和 volcano 是最重要的 post-analysis plots。Heatmap 强调行列聚类与 matrix export，Volcano 强调候选集与阈值联动。这意味着它们都应该被理解成“和筛选逻辑紧密耦合的图”，而不是独立的可视化终点。

Volcano plot。这里对应阈值联动、annotations 和手工关注分子如何高亮。

Heatmap 与 Volcano 的解释分工

Heatmap 强调 row-wise 和 column-wise clustering，并指出数据矩阵可通过右键直接导出。这意味着它不是只给你一张颜色图，而是一个聚类可调、矩阵可回收的分析界面。
Heatmap 使用的是 confidently identified datapoints。也就是说，你看到的矩阵已经受 identification confidence 约束，不能把它当成完全原始的 abundance table。
Volcano plot 则是把 fold changes 与 significance level 一起显示，red candidates 会随着 Candidates table 的阈值修改而实时更新，同时也允许手工高亮自定义 proteins of interest。
因此这两张图不能只看表面，而是要回到阈值、候选定义、聚类设置和目标分子标注上，理解图与表如何联动。

PTM

PTM 结果

当启用 PTM workflow settings 时，Spectronaut 会在 modification site level 做差异分析，并提供 Modification Enrichment 与 PTM vs Protein Fold Changes。关键是区分“蛋白变了”与“位点调控变了”。

位点级 candidates 怎么读

这里说明 modification site object 的唯一标识在 Group 列里，这一点可直接用来解释“位点层对象”和“蛋白层对象”不是一回事。

PTM 两张关键图

Modification Enrichment 对应富集方向和位点类型分布，PTM vs Protein Fold Changes 则直接回答“位点变化能否脱离蛋白总量变化独立存在”。这是修饰组里非常核心的视角。

把 PTM workflow 和 PTM analysis 两段接起来读：位点结果是怎么来的

在 workflow 阶段，如果选择 input normalization，软件会先按 reference sample 的 protein quantity 对 PTM site quantity 做归一；进入 Post Analysis 后，差异分析就是基于 input-normalized PTM site quantities 进行的。
quantitative site collapse 的核心是：携带同一 modification site 的 parent peptides 会被折叠成 site object，而 multiplicity 不同的 parent peptides 会分开 collapse，例如 M1、M2 和 M3 分别处理。
如果启用 stoichiometry，软件还会在 precursor level 上寻找 modified / non-modified precursor 对，计算 flyability ratio，并用 q-value 与 fold change 过滤这些比值，以保证 stoichiometry 结果可靠。
进入 Post Analysis 结果层后，Candidates table 会在 Group 列给出 modification site object 的识别键，Modification Enrichment 则显示各实验 run 中携带该 modification 的 precursor 百分比，PTM vs Protein Fold Changes 则识别独立于蛋白总量变化的位点调控。