ΩOmicSolution蛋白质组学技术平台

分析流程

Spectronaut 分析流程

Spectronaut Analysis 覆盖 library-based DIAdirectDIAdirectDIA+PTM probingMethod Evaluationconditionsreview / refinement,对应 Spectronaut 中最核心的分析、条件注释和复核部分。

Library-based DIA directDIA / directDIA+ PTM probing Conditions Review / Refinement

可直接定位 workflow、conditions、review、refinement 与 PTM 相关章节。

总述

Analysis 作为定量引擎

Library Perspective 决定你带什么知识进入分析,Post Analysis 决定你怎么解释结果,而 Analysis Perspective 正处在中间,负责把 raw file、FASTA、library、settings 和 conditions 组合成真正可比较的实验对象。

本章核心内容

Spectronaut 在这一层把“原始数据”组织成“可统计比较的条件矩阵”。如果条件注释、workflow 选择或 settings schema 选错,后面的 q-value、fold change 和 candidates 都会被带偏。

常见偏差

  • 把 directDIA 误解成“不需要定义输入”的简化模式
  • 把 Method Evaluation 用在正式定量项目上
  • 条件、分组、reference 和 pairwise 设置没理清就开始跑
  • 只看 protein 数量,不回到 review 和峰形层复核

分析流程图

从 raw、FASTA、library 到 workflow、conditions、review 和交付层的关系图。

工作流矩阵

五条 Analysis 路线

不同 workflow 并不是同一个按钮的不同皮肤,而是对输入、搜索空间、速度和解释方式的不同承诺。

路线 输入要求 适用场景 要避开的误用
Library-based DIA DIA raw + 高质量谱图库,可配 FASTA 与 GO 已有成熟建库体系、目标是稳定大队列分析 不要把过时或不匹配的 library 当成万能增益
directDIA DIA raw + FASTA,可配 GO 快速启动 discovery、没有现成谱库 不要以为省掉 library 就省掉了 settings 和 review
directDIA+ Fast / Deep 与 directDIA 相同 需要在速度、覆盖深度和 search space 之间做权衡 复杂 PTM search space 下不要只看 Fast 更快
PTM Probing DIA raw + FASTA + 明确的修饰探索目标 修饰不确定、希望开放探索 不要把开放探索结果直接当作最终机制结论
Method Evaluation directDIA workflow + 多种 DIA 方法条件 比较不同 acquisition methods 该模式不适合正式定量实验

FDR 在 Analysis 里首先体现为输入定义,而不是导出后再补的筛选条件

当 Analysis Settings Schema 被确定时,q-value 阈值、对象层级、protein inference 与 data filtering 就已经进入工作流主干。这一步定义的是本次实验以什么可信度结构进入后续统计。

进入更开放的 search space 后,FDR 不能只看成 settings 里的一个数字。它需要和 precursor 层控制、protein 层解释边界、entrapment 验证和后续报表字段一起联读。

Analysis 启动后的处理顺序
  • Analysis Perspective 的四个主任务分别是:建立 classic DIA 或 directDIA 分析、载入已有实验、在多层级浏览 plots / reports / filters,以及通过峰界和 fragment 选择去细化定量。
  • 真正开始计算后,Spectronaut 先在每个 run 上做基础线性 iRT calibration;随后再根据 settings 选择 stored endogenous iRT peptides 或 deep learning assisted iRT calibration 做更精细的 Precision iRT 校准。
  • 初始校准完成几秒后就可以开始浏览数据,不必等整次分析跑完。这意味着软件设计上默认“边分析边 review”。
  • 分析结束后,界面右下角会显示在当前 q-value cutoff 下识别到的 unique precursors、peptides 和 protein groups。也就是说,默认展示的是经过阈值筛过的结果,而不是原始命中总数。
  • Box 8 紧接着提醒 plots 是可交互的:可缩放、拖动、右键切换单位、保存数据和隐藏图例。学会右键菜单,本身就是 Analysis Perspective 的基本功。

Library-Based DIA

Library-based DIA 是知识注入最充分的路线

当你已经有稳定的 谱库文件时,这条路线往往能提供更高的覆盖和更稳定的后分析结构,但代价是你必须对 library 的来源、版本和适用性负责。

Library-based DIA 核心要点
  • 先确认 library 来自 Pulsar、外部搜索结果还是历史合库,这会决定字段一致性和 FDR 解释。
  • FASTA 和 GO 不应被忽视,它们直接影响 protein 注释和后分析解释层。
  • 如果团队已经积累了项目级 library,这条路线可直接作为平台标准生产线。
Library-based DIA 输入定义
  • 第 1 步先命名分析,并给整个 experiment 或单个 run 分配 spectral library。不同 library 可以分配给不同 runs,同一个 run 也可以分配多于一个 library。
  • 第 2 步选择 library 来源,可以从 Recently Used、From File 或 From Library Perspective 加载。也就是说,“从文件载入 library”本身就是一种 external library import,而不是特殊通道。
  • 第 3 步选择 DIA Analysis Settings Schema。这里定义 FDR thresholds、quantification preferences、data filtering 等核心逻辑,默认 BGS Factory Settings 是起点,但不是所有项目的终点。复杂数据库、开放修饰和 peptidomics 项目尤其要把这一层和 precursor 层 FDR 管理一起看。
  • 第 4 步可选 FASTA,用于 protein inference。这里直接点名 IDPicker protein grouping algorithm,提醒你蛋白层结果来自明确的 protein inference 规则。
  • 第 5 步定义 conditions、replicates,软件才能做 paired 或 unpaired Student's t-test 以及后续 Post Analysis。
  • 第 6 步选择 GO annotation file,用于 GO term enrichment 和 GO clustering。也就是说,GO 不是后面临时附加,而是在分析定义阶段就进入管线。
  • 第 7 步 summary page 会把所有输入资源重新汇总一遍。这就是最后一次检查实验定义的机会。

directDIA

directDIA 与 directDIA+

directDIA 被设计成显式向导,说明它并不是黑箱按钮。你依然需要定义 run、FASTA、GO、settings,并对最后的 summary page 负责。

向导式输入定义

这一流程要求依次设置 run files、FASTA、GO annotation 和 analysis settings,最后在 summary page 再次确认。directDIA 只是绕过外部谱图库,不是绕过实验定义。

Fast / Deep 不是谁更高级

Fast 对应常规非 PTM search space,Deep 更强调覆盖。复杂 PTM 搜索空间下,二者相对收益会发生变化。

directDIA、Hybrid Library 与 directDIA+
  • directDIA 是明确的 two-step process:先做 spectrum-centric analysis 生成项目特异 library,再用这套 library 对同一批 DIA runs 做 targeted analysis。最后交付的是 targeted analysis 结果,而不是中间搜索痕迹。
  • 同时可以在 Global Settings 的 Reporting 节点中选择保存生成的 Search Archive。这意味着 directDIA 的中间产物是可以复用和沉淀的,而不是一次性临时文件。
  • 当前 directDIA 正式支持 Thermo Orbitrap、SCIEX TripleTOF、Bruker timsTOF Pro 和 Waters Synapt 数据。这条路线必须同时结合“适用平台”来理解,而不是只记 workflow 名字。
  • 向导中除了 raw、FASTA、GO 和 settings,还允许附加 DDA / DIA runs 或 Search Archives 来创建 hybrid library。这说明 directDIA 不排斥 谱库文件,反而允许逐步把 library-free workflow 推向更深覆盖。
  • Method Evaluation 通过在 directDIA Workflow settings 中启用对应参数,对每个 condition 分别执行 Pulsar DIA search,用于比较 acquisition method。本章已经明确写出它不适合 quantitative experiments。
  • directDIA+ 则是覆盖深度与速度的分层选择:经典 directDIA 对 many-modification search spaces 仍有价值;Deep 追求所有场景下的最深覆盖;Fast 更适合 classical non-PTM search spaces,但在大型 PTM search spaces 下可能比 Deep 少鉴定。

PTM & Method Evaluation

PTM Probing 与 Method Evaluation

这两条路线直接改变搜索空间和结果解释方式,因此需要单独建立边界与使用顺序。

PTM Probing

Spectronaut 20 引入 Kuiper 后,可以把 variable modifications 拆成 KnownProbe 两层,实现开放 PTM 探索。重点不是能搜更多修饰,而是 search space 变大后结果筛查和解释难度同步上升。

Method Evaluation

这一模式用于比较不同 DIA 方法,并会按 condition 分别搜索。它用于 acquisition benchmark,不进入正式定量主线。

模式边界与使用顺序
  • PTM Probing Search Mode 的核心不是“加更多 variable modifications”,而是把原来的 Variable Modifications 拆成 Known 与 Probe 两层。重点是 search mode 的变化,而不是简单新增一个参数。
  • 由于 Probe modifications 会显著扩大搜索空间,必须同步回到 q-value、localization confidence 和人工复核层,否则很容易把开放搜索结果误读成确定机制。
  • Method Evaluation 的目标是同一 directDIA experiment 内直接比较不同 DIA methods,因此它天生依赖正确的 condition 组织。边界也很清楚:not suited for quantitative experiments。

Conditions

Condition Setup 与统计结构

condition、replicate、fraction、reference condition 与 correction factor 共同定义统计结构,并直接进入后续差异解释。

Conditions 核心要点
  • 默认情况下,软件会对所有条件进行 unpaired comparison,除非主动切换或关闭。
  • 如果 quantities 需要表达初始样本体积等外部归一化概念,可以使用 quantity correction factor。
  • File Name Parsing Strategy 是条件自动注释和批量处理的统一入口。
Condition Setup 结构与输入方式
  • Label 列首先服务 plotting,决定后续 Post Analysis 的颜色标记;Is Reference 决定 differential abundance 的参考条件;quantity correction factor 则允许把最终 quantities 映射到初始样本体积等外部尺度。
  • 除非主动改成 pairwise comparison 或在 Analysis Settings 里关闭,否则 Spectronaut 会对所有条件执行 unpaired comparison。默认行为不是只做 reference-vs-others。
  • 注释信息有三种正式写入方式:基于 file-name parsing schema 自动解析、直接编辑 Condition Setup table、从外部 text file 导入。更稳妥的做法是先导出默认 condition setup,再修改后导回。
  • Condition editor 对空格和大小写敏感。只要忽略这一点,后续条件聚类和比较就可能默默出错。
  • Box 9 还专门讨论 sample fractionation:总体不推荐把 fractionation 当成 DIA 提深度的主策略,因为它会引入额外变异;若确实使用,则必须在 Condition Setup 中正确标注 fractions,并注意 fraction-wise normalization 和 library targeting 逻辑。

Advanced Workflows

Labeled workflow、plexDIA 与 PTM workflow

Conditions 之后,分析结构开始从单通道 discovery 转入多通道定量、位点层定量和更复杂的对象层。这里最需要区分的,是 label-free、spike-in、plexDIA 与 PTM workflow 各自改变了哪一层证据结构。

普通 labeled workflow 与 plexDIA 的边界

普通 labeled workflow 解决的是 reference ratio 或多通道读数进入同一分析结构;plexDIA 进一步把多通道 DIA 的共享峰边界、通道级定量和条件矩阵组织成正式 discovery 设计。两通道时,峰提取与打分会覆盖所有 channels;多通道时则必须用 channel sets 固定每个通道在实验中的真实含义。

plexDIA 的关键不是通道数,而是通道级证据管理

Biognosys 在 Spectronaut 19 / 20 和 HUPO 2024 资料中反复强调,与 Yansheng Liu 团队合作推进的重点,是把 multiplex-DIA 用于 protein turnover 与 true abundance 的联合分析。要做到这一点,必须同时管理 channel sets、channel-specific FDR 和 heavy / light transition 选择。

PTM Workflow 的主线

PTM workflow 不只给位点列表。顺序是:先判断 modification occurrence,再给 localization confidence,再做 modification-site differential abundance;若启用 input normalization,则先按 reference sample 的 protein quantity 做归一;若启用 stoichiometry,则进一步计算 site stoichiometry。

结构层 plexDIA 需要固定什么 如果没有固定会怎样
Channel set 每个 light / medium / heavy 通道在每个 replicate 中对应什么生物学条件 后续 ratio matrix、pairwise comparison 和 turnover time course 会失去解释基础
过滤层 整体保留还是通道独立保留,是否启用 channel-specific FDR 弱通道被强通道掩盖,或者高覆盖结果被误当成稳定通道级证据
Transition 层 heavy / light 对应的 fragments 是否存在同位素 overlap 或干扰 定量看似完整,但真实 ratio 被 transition interference 拉偏
Labeled、plexDIA 与 PTM workflow
  • 多通道 DIA 不是简单多出几个列。Spectronaut 19 起支持对 individual channel quantities 做 regulation analysis,比较对象变成 run 与 channel-set condition 的组合,因此 channel set 设计本身就是统计设计。
  • 这里给出两个 plexDIA 条件示例:一种是每个 run 固定 light / medium / heavy 对应时间点;另一种是为避免 labeling bias,对不同 biological replicates 使用不同 label permutations。Condition Setup 里的 channel sets 对应的是实验设计语义,而不只是软件设置。
  • Biognosys 在 HUPO 2024 官方资料中把这条路线进一步压实为两个实现点:channel-specific FDR 用 light transitions 为每个 channel 生成 GroupQ、MinQ、MaxQ 或 ChannelQ;deep-learning assisted heavy / light transition selection 则用于在 multiplex 场景下提升 quantification 精度。
  • 当 multiplex-DIA 用于 pSILAC 或 turnover 时,最终目标不再只是保留更多 proteins,而是得到稳定的 channel-level abundance 与 turnover curves。因此 minimum log2 precursor quantity、channel-level filtering 和 report 结构必须一起固定。
  • PTM workflow 则按 input normalization、site collapse 和 differential abundance 三步前进。定量 site collapse 会按 modification multiplicity 分开处理,例如 singly 和 doubly phosphorylated parent peptides 分别 collapse,三重及以上统一记为 M3。
  • 如果启用 stoichiometry,软件会在 precursor level 计算 flyability ratios,并用最大 q-value 与最小 fold change 等条件过滤,确保 stoichiometry 不是在不可靠的 precursor 对上强行计算。
  • Box 10 说明 PTM localization 算法利用 fragment 全同位素模式、短时程 chromatograms、fragment mass accuracy 与 intensity information 共同完成 site localization,并系统性剔除干扰离子。

Review & Refinement

Review 与 Refinement

Grid View、Tree View、detached perspectives 和 rerun 能力,让 Analysis Perspective 不只是一次性执行器,而是一个可以回头修正实验定义和峰级判断的工作台。

什么时候该回头 review

当统计上有意义但峰型存疑,或某批 run 明显异常时,不该只看表格,应回到 XIC、峰界、iRT 偏移和 interference 层重新确认。

什么时候该 rerun

如果问题来自条件设置、reference 选择或 settings schema,就应该 rerun,而不是在导出的 Excel 里事后补救。

Grid、Tree、plots 与 filters
  • Grid View 是 protein-centric 视图,支持按 identified PGs、complete profiles、CV 和 candidates 过滤,并能显示 protein coverage、quantity profile 和 condition box plot。Grid View 不是“表格替代品”,而是 differential protein expression 的第一层浏览器。
  • Tree View 的默认层级是 Run → Protein Group → Elution Group → Precursor → Fragment ions。默认还带 identification filters,所以你看到的天然是通过 precursor PEP、precursor q-value 和 protein q-value 阈值的对象。
  • Tree 可以切换到 Not Identified 或 Not Filtered,这说明“看见未识别对象”本身就是正式 review 能力,而不是 debug 特权。
  • 右侧 plots 会随着所选层级变化,run-level 关注 calibration、TICC 和 cross-run performance,precursor / fragment-level 则关注 XIC、score-centric plots 和 cross-run profiles。更完整的图谱应回到 Appendix 5 继续学。
  • Tree Filtering 只影响 Analysis Perspective 的显示,不会改写 Post Analysis。review 失败时,首先应排查 filter 是否已经处于开启状态。
  • Experiment Tab Options 里最关键的几项是 Save / Save as、Group by 和 Settings。尤其保存时可选择带或不带 ion traces 的 .sne;不带 XIC 的文件更小,但重开时需要重新映射 runs。
会真实改写结果的人工修改
  • Spectronaut 的 peak picking 和 scoring 已经面向高通量,多数情况下并不期待逐峰人工 review。也正因为如此,真正需要手改时,应该知道改的是哪一层、会带来什么代价。
  • 可手动修改的核心动作包括:拖动 integration boundaries、在 XIC 中改选另一个 peak、右键手动 accept / reject elution group,以及把 fragment ion 标记为 interference 或重新用于 quantification。
  • 一旦做过这些动作,软件会把 precursor 标记为 user-modified 或 verified,并重新计算相应 q-value。也就是说,手动 review 不只是视觉注释,而是会进入对象状态。
  • Box 11 给出人工 review 提速方式:run files 尽量本地存储、优先转 HTRMS、若 .sne 不带 XIC 则先 re-extract XICs,并可按 precursor window 对 tree 分组以提高 UI 响应。
  • Library refinement 是更深一级能力。只有 assay 来自 Library Perspective 生成的 library,才能右键转入 Refine Fragment Selection。在这里可以移除受干扰 fragments、加入覆盖关键 modification sites 的 ions,甚至引入原 DDA 中未检测但在 DIA 中清晰可见的 theoretical fragments。
  • 这些 library changes 不会立刻生效,而要通过 Commit Library Changes… 批量提交,随后触发所有相关 peptides 的 re-extraction。同时要保留 library version control,因此 refinement 不是覆写历史,而是带版本的可回退修改。

directDIA JSON Settings

把 directDIA 工作流写成可审计的 JSON override

directDIA 项目进入命令行后,JSON settings 用于把 GUI 中的 workflow、识别阈值、定量策略、搜索空间和仪器容差明确写入文件。这样每一次批处理都有可复制、可审计、可回退的参数记录。

JSON 区块 控制内容 分析含义
DIA_Analysis → Identification Precursor / Protein 层 PEP 与 q-value、single-hit protein rule、run-level protein scoring 决定结果以什么可信度边界进入后分析和报告。
DIA_Analysis → Quantification proteotypicity filter、data filtering、cross-run normalization、imputation、IM peak picking、background noise removal 决定跨样本定量矩阵如何过滤、归一化和填补。
Pulsar_Search → Peptides 酶切规则、digest type、肽段长度、missed cleavages、N-terminal M 处理 决定 search space 的大小和半特异/非特异分析边界。
Pulsar_Search → Modifications 固定修饰、可变修饰、最大可变修饰数、closed search 或 PTM probing search 决定修饰空间和 PTM 探索压力。
Pulsar_Search → Identification PSM / peptide / protein group FDR、directdia_deep / directdia_fast / directdia、RT sampling reduction 决定 directDIA 搜索强度、速度和识别阈值。
Tolerances / MS2 dynamic / relative / static 质量容差、MS1/MS2 correction factor、b/y/a/c/x/z ion types 决定不同平台 raw data 的质量窗口和 fragment ion 证据层。

命令行覆盖顺序

-j 导入的 JSON 会覆盖默认设置或 -s 指定的 .prop 设置。推荐流程是先用 GUI 导出基准 JSON,再在版本控制中只改项目必须改变的字段。

相关专题

相关专题

Reporting 与 QC 用于承接字段、schema、pipeline 与 XIC 证据层。

报表与 QC

Report Schema、QC history、Pipeline 和 Appendix 8 / 9。

Reporting 与 QC