ΩOmicSolution蛋白质组学技术平台

SpectroDive Post Analysis

SpectroDive Post Analysis 模块

Post Analysis 承接 Reporting 体系中的结果解释部分,重点覆盖 Analysis OverviewScoring HistogramsDifferential AbundanceData CompletenessCoefficient of VariationNormalization。 先判断结果矩阵是否具备解释基础,再进入 report schema 和字段交付层。

Post Analysis 独立课程 Scoring Histograms 主课 Data Completeness / CV / Normalization 结果解释与复盘
4页核心范围
5解释模块
2关键 figure

方便你快速定位结果矩阵质量、scoring 和 post-analysis 图相关内容。

Orientation

Post Analysis 与结果判断

Post Analysis 被定义为 summary information、Scoring Histograms 和 Differential Abundance 的集合。这种结构天然对应三层判断:先看总体质量,再看识别评分,再看差异结果。

本课定位

因为很多团队会直接跳到 report schema 或字段解释,但如果不先判断 data completeness、CV、normalization 和 scoring 分布,后面导出的任何表都可能建立在一个并不稳定的矩阵上。

和 Reporting 的关系

Post Analysis 对应结果解释,Reporting 对应结果交付。两部分内容分别处理矩阵结构、字段组织和最终输出。

Post Analysis 路线图

从 overview、scoring、矩阵质量到差异结果解释的学习流。

后分析的三层结构

Post Analysis Perspective 会同时报告三类内容:一是 Analysis 的 summary information,二是 Scoring Histograms,三是 Differential Abundance 结果。这个顺序的含义是,SpectroDive 并不鼓励一进来就看候选表,而是先看 experiment-wide 的整体状态,再看识别分数分布,最后才看显著差异对象。

这也决定了后分析不是“统计展示区”,而是结果把关区。只有先从整体识别数、缺失值结构、CV 和 normalization 出发,才能判断某个差异结果究竟是生物学差异,还是矩阵本身不稳定造成的表观变化。

Overview

Analysis Overview

Overview 会展示 proteins / peptides identified、misscleavages、library recovery 等 experiment-wide 信息,并配套 identifications、data completeness、coefficient of variation 和 normalization 等图。这意味着 Post Analysis 的第一步不是挑候选,而是建立对实验整体状态的判断。

Overview 先于差异结果的原因
  • 这一节先把 Post Analysis 定义为 summary information、Scoring Histograms 和 Differential Abundance 的集合,而不是先扔一张候选表。这说明 targeted 软件同样强调“先看矩阵是否可信”。
  • Overview 会先展示 proteins / peptides identified、misscleavages、library recovery 等 experiment-wide 信息,然后才带出 identifications、data completeness、CV 和 normalization 图。
  • 这样的顺序要求先建立整体实验轮廓,再进入后续统计解释,而不是看到 fold change 就直接开始讲故事。
Overview 下各类图形对应的问题

Overview 下点名了四类图:identifications、data completeness、coefficient of variation、normalization。它们不是装饰性图表,而是四个连续判断。identifications 帮你确认不同条件下到底识别到了多少 proteins / peptides;data completeness 帮你判断缺失值结构是稀疏还是系统性;CV 告诉你重复间精密度是否足够;normalization 则用于观察系统偏差有没有被合理矫正。

这些图都支持右键修改设置,详细说明放在 Appendix 7 与 Box 1 中。这说明 SpectroDive 的图并不是“只能看”,而是可以切换 context、导出矩阵、调整展示方式的分析工具。每张图都需要结合右键选项一起阅读,形成“图和参数一起读”的习惯。

Scoring

Scoring Histograms

这里用 spike-in peptides 的 scoring histograms 作为示例,目的就是先把识别质量看懂。对 targeted 项目来说,这一步尤其重要,因为很多后续 refinement 决策都和识别质量直接相关。

spike-in 示例的作用

因为它能更直观地展示已知目标物在当前分析中的分数分布,让你更容易把“理论上应该看到什么”和“当前软件识别到了什么”联系起来。

先于报表的原因

因为分布结构如果异常,再漂亮的 report schema 也只能把问题包装得更整齐,而不会让结果更可信。

Scoring Histograms 在 targeted 项目里的角色
  • 它把“目标物本来应该长什么样”与“当前 analysis 里被认为可信的信号”联系起来,特别适合用来解释 target / decoy 区分度和识别分数的含义。
  • 对靶向验证来说,这一步尤其重要,因为很多后续 refinement 决策,都建立在“当前 transition 组合是不是让 score 足够稳”的判断上。
按 52 页顺序展开:Scoring Histograms 实际上在解释什么

这一节的核心定义非常直接:Scoring Histograms 展示的是 target 与 decoy distribution estimation 的行为,而这种行为定义了 precursor level 上的 discriminant scores、Cscores、q-values 和 sensitivity。也就是说,这里不是在看“一个好看的分布图”,而是在看软件如何区分真实目标与干扰、如何把这种区分转成识别分值和错误发现控制。

scoring histograms 会根据当前实验中存在的 workflow 分别展示。也就是说,label-free、labeled、spike-in 等 workflow 的 scoring 结构并不完全一样,这里更像“不同 workflow 在当前实验中的识别难度剖面图”,而不是统一模板图。

Matrix Quality

Data Completeness、CV 与 Normalization

identifications、data completeness、coefficient of variation 和 normalization 这些图并不是次要统计,而是用来判断 targeted 数据矩阵是否可稳定解释的核心依据。

Completeness 的当前重点

重点是先判断不同条件和不同目标物的稀疏程度,再判断是否存在系统性缺失。这样比直接进入差异分析更能建立“矩阵视角”。

CV 和 Normalization 怎么配合讲

CV 帮你看组内稳定性,Normalization 帮你看系统偏差是否被合理矫正。两者一起讲,比单独强调某一个数字更适合训练判断能力。

把正文与 Appendix 7 接起来读:Completeness 和 CV 到底该怎么解释
  • Appendix 7 对 Data Completeness 的解释非常具体:红条是 cumulative sparse profiles,蓝条是 cumulative full profiles,底部直方图还会告诉你 missing values 和 single-hit precursors 的分布。
  • CVs below X 则不是单纯给一个平均 CV,而是告诉你在不同条件下,有多少 precursors / peptides / proteins 落在 ≤10% 或 ≤20% CV 的区间中,更适合做平台级精密度判断。
  • 这两张图需要一起阅读:一张告诉你数据完整不完整,一张告诉你重复稳定不稳定。只有这两层都过关,差异结果才值得继续往下解释。
Normalization 放在 Overview 的原因

这其实是在强调 normalization 属于“判断实验状态”的步骤,而不是纯粹的报表加工步骤。只有先在后分析层确认 normalization 前后整体分布是否合理,后面导出的 quantities、fold changes 和候选列表才具备解释基础。换句话说,normalization 在 SpectroDive 里更像质控与解释的交界面,而不是一个隐藏在字段里的计算结果。

Differential Abundance

Differential Abundance

差异结果不应被看作“软件自动给出的最终答案”,而应被看作在质量检查之后进入的生物学解释起点。Differential Abundance 放在 Post Analysis 最后,也正是为了保持这个顺序。

差异结果的进入顺序

因为如果矩阵质量不过关,差异分析就很容易只是把噪音变成“显著”。把它放在最后讲,能帮助新人建立更好的判断节奏。

转入 Reporting 的衔接

因为一旦矩阵质量和差异结构被确认,接下来最自然的问题就是:哪些字段进入报告、哪些对象层级需要输出、哪些 QC 信息应一起保留。这就是 Reporting 课程的职责。

差异结果在 SpectroDive 里应该如何进入报告层
  • Differential Abundance 被放在 Post Analysis 后段,目的就是让它建立在 overview、completeness 和 CV 判定之后,而不是先于质量判断。
  • 因此这一部分的展开也应如此:先判断实验矩阵,再决定是否把差异对象推进到 report schema、QC 复盘和客户交付层。
按 52-54 页顺序展开:Candidates table、Heatmap 和 Volcano 的标准阅读路径

Candidates table 先于 Differential Abundance plots 出现,这个顺序非常关键。Candidates table 里每个 pair-wise comparison 会以颜色方向、颜色强度和圆点大小共同表示变化方向、变化比例和显著性水平;fold change 默认以平均重复的 AVG Log2 Ratio 表示;默认过滤条件是 multiple testing corrected q-value ≤ 0.05 且绝对 log2 ratio ≥ 0.58。这说明软件默认已经帮你建立了一套较保守的候选筛选门槛,但也明确允许按项目需要修改阈值。

这一节还有三个很实用的细节。第一,Candidates table 的过滤条件会自动同步到 Volcano Plot,所以学生要意识到表和图其实共用一套筛选逻辑。第二,可以通过 Column Chooser 增减列,例如把 p-value 加回来;底部的 Search 字段则适合快速定位某个蛋白或肽。第三,表格可以直接导出 Excel,Heatmap 的原始矩阵也能通过右键导出。这意味着 SpectroDive 的差异分析不是封闭黑箱,而是鼓励你在软件内筛选、在软件外复核。

Heatmap 和 Volcano 则分别承担结构化与显著性两种视角。Heatmap 会按照 Post Analysis settings 做行列聚类,更适合看条件间整体模式和聚类稳定性;Volcano Plot 把 fold change 与显著性同时放在一张图上,更适合快速定位候选。当条件超过两组时,还可以分别查看全条件分析和两两比较的 volcano,这一点在多条件设计项目里尤其重要。

Next Steps

后续模块

当你已经能读懂 scoring histograms、overview、data completeness、CV 和 differential abundance,下一步可进入 Reporting 课程,把这些结果组织成 report schema、QC 历史和字段字典;如果想进一步训练图谱与字段解释,则可进入 Appendix 课程。

Reporting 模块

继续学习 report schema、QC、Appendix 8 字段解释和绝对定量交付。

打开 Reporting 课程