Spectronaut 分析流程

总述

Analysis 作为定量引擎

Library Perspective 决定你带什么知识进入分析，Post Analysis 决定你怎么解释结果，而 Analysis Perspective 正处在中间，负责把 raw file、FASTA、library、settings 和 conditions 组合成真正可比较的实验对象。

本章核心内容

Spectronaut 在这一层把“原始数据”组织成“可统计比较的条件矩阵”。如果条件注释、workflow 选择或 settings schema 选错，后面的 q-value、fold change 和 candidates 都会被带偏。

常见偏差

把 directDIA 误解成“不需要定义输入”的简化模式
把 Method Evaluation 用在正式定量项目上
条件、分组、reference 和 pairwise 设置没理清就开始跑
只看 protein 数量，不回到 review 和峰形层复核

分析流程图

从 raw、FASTA、library 到 workflow、conditions、review 和交付层的关系图。

工作流矩阵

五条 Analysis 路线

不同 workflow 并不是同一个按钮的不同皮肤，而是对输入、搜索空间、速度和解释方式的不同承诺。

路线	输入要求	适用场景	要避开的误用
Library-based DIA	DIA raw + 高质量谱图库，可配 FASTA 与 GO	已有成熟建库体系、目标是稳定大队列分析	不要把过时或不匹配的 library 当成万能增益
directDIA	DIA raw + FASTA，可配 GO	快速启动 discovery、没有现成谱库	不要以为省掉 library 就省掉了 settings 和 review
directDIA+ Fast / Deep	与 directDIA 相同	需要在速度、覆盖深度和 search space 之间做权衡	复杂 PTM search space 下不要只看 Fast 更快
PTM Probing	DIA raw + FASTA + 明确的修饰探索目标	修饰不确定、希望开放探索	不要把开放探索结果直接当作最终机制结论
Method Evaluation	directDIA workflow + 多种 DIA 方法条件	比较不同 acquisition methods	该模式不适合正式定量实验

FDR 在 Analysis 里首先体现为输入定义，而不是导出后再补的筛选条件

当 Analysis Settings Schema 被确定时，q-value 阈值、对象层级、protein inference 与 data filtering 就已经进入工作流主干。这一步定义的是本次实验以什么可信度结构进入后续统计。

进入更开放的 search space 后，FDR 不能只看成 settings 里的一个数字。它需要和 precursor 层控制、protein 层解释边界、entrapment 验证和后续报表字段一起联读。

FDR 技术专题 SP20 的 FDR 升级点

Analysis 启动后的处理顺序

Analysis Perspective 的四个主任务分别是：建立 classic DIA 或 directDIA 分析、载入已有实验、在多层级浏览 plots / reports / filters，以及通过峰界和 fragment 选择去细化定量。
真正开始计算后，Spectronaut 先在每个 run 上做基础线性 iRT calibration；随后再根据 settings 选择 stored endogenous iRT peptides 或 deep learning assisted iRT calibration 做更精细的 Precision iRT 校准。
初始校准完成几秒后就可以开始浏览数据，不必等整次分析跑完。这意味着软件设计上默认“边分析边 review”。
分析结束后，界面右下角会显示在当前 q-value cutoff 下识别到的 unique precursors、peptides 和 protein groups。也就是说，默认展示的是经过阈值筛过的结果，而不是原始命中总数。
Box 8 紧接着提醒 plots 是可交互的：可缩放、拖动、右键切换单位、保存数据和隐藏图例。学会右键菜单，本身就是 Analysis Perspective 的基本功。

Library-Based DIA

Library-based DIA 是知识注入最充分的路线

当你已经有稳定的谱库文件时，这条路线往往能提供更高的覆盖和更稳定的后分析结构，但代价是你必须对 library 的来源、版本和适用性负责。

Library based setup — Library-based DIA 入口。library、FASTA、GO 和 settings 在此共同定义分析对象。

Library-based DIA 核心要点

先确认 library 来自 Pulsar、外部搜索结果还是历史合库，这会决定字段一致性和 FDR 解释。
FASTA 和 GO 不应被忽视，它们直接影响 protein 注释和后分析解释层。
如果团队已经积累了项目级 library，这条路线可直接作为平台标准生产线。

Library-based DIA 输入定义

第 1 步先命名分析，并给整个 experiment 或单个 run 分配 spectral library。不同 library 可以分配给不同 runs，同一个 run 也可以分配多于一个 library。
第 2 步选择 library 来源，可以从 Recently Used、From File 或 From Library Perspective 加载。也就是说，“从文件载入 library”本身就是一种 external library import，而不是特殊通道。
第 3 步选择 DIA Analysis Settings Schema。这里定义 FDR thresholds、quantification preferences、data filtering 等核心逻辑，默认 BGS Factory Settings 是起点，但不是所有项目的终点。复杂数据库、开放修饰和 peptidomics 项目尤其要把这一层和 precursor 层 FDR 管理一起看。
第 4 步可选 FASTA，用于 protein inference。这里直接点名 IDPicker protein grouping algorithm，提醒你蛋白层结果来自明确的 protein inference 规则。
第 5 步定义 conditions、replicates，软件才能做 paired 或 unpaired Student's t-test 以及后续 Post Analysis。
第 6 步选择 GO annotation file，用于 GO term enrichment 和 GO clustering。也就是说，GO 不是后面临时附加，而是在分析定义阶段就进入管线。
第 7 步 summary page 会把所有输入资源重新汇总一遍。这就是最后一次检查实验定义的机会。

directDIA

directDIA 与 directDIA+

directDIA 被设计成显式向导，说明它并不是黑箱按钮。你依然需要定义 run、FASTA、GO、settings，并对最后的 summary page 负责。

directDIA wizard — directDIA 向导。raw、FASTA、GO 与 settings 在此共同进入项目内建库流程。

directDIA plus fast or deep — directDIA+ 工作流选项。Fast 强调速度，Deep 强调覆盖。

向导式输入定义

这一流程要求依次设置 run files、FASTA、GO annotation 和 analysis settings，最后在 summary page 再次确认。directDIA 只是绕过外部谱图库，不是绕过实验定义。

Fast / Deep 不是谁更高级

Fast 对应常规非 PTM search space，Deep 更强调覆盖。复杂 PTM 搜索空间下，二者相对收益会发生变化。

directDIA、Hybrid Library 与 directDIA+

directDIA 是明确的 two-step process：先做 spectrum-centric analysis 生成项目特异 library，再用这套 library 对同一批 DIA runs 做 targeted analysis。最后交付的是 targeted analysis 结果，而不是中间搜索痕迹。
同时可以在 Global Settings 的 Reporting 节点中选择保存生成的 Search Archive。这意味着 directDIA 的中间产物是可以复用和沉淀的，而不是一次性临时文件。
当前 directDIA 正式支持 Thermo Orbitrap、SCIEX TripleTOF、Bruker timsTOF Pro 和 Waters Synapt 数据。这条路线必须同时结合“适用平台”来理解，而不是只记 workflow 名字。
向导中除了 raw、FASTA、GO 和 settings，还允许附加 DDA / DIA runs 或 Search Archives 来创建 hybrid library。这说明 directDIA 不排斥谱库文件，反而允许逐步把 library-free workflow 推向更深覆盖。
Method Evaluation 通过在 directDIA Workflow settings 中启用对应参数，对每个 condition 分别执行 Pulsar DIA search，用于比较 acquisition method。本章已经明确写出它不适合 quantitative experiments。
directDIA+ 则是覆盖深度与速度的分层选择：经典 directDIA 对 many-modification search spaces 仍有价值；Deep 追求所有场景下的最深覆盖；Fast 更适合 classical non-PTM search spaces，但在大型 PTM search spaces 下可能比 Deep 少鉴定。

PTM & Method Evaluation

PTM Probing 与 Method Evaluation

这两条路线直接改变搜索空间和结果解释方式，因此需要单独建立边界与使用顺序。

PTM Probing

Spectronaut 20 引入 Kuiper 后，可以把 variable modifications 拆成 Known 与 Probe 两层，实现开放 PTM 探索。重点不是能搜更多修饰，而是 search space 变大后结果筛查和解释难度同步上升。

Method Evaluation

这一模式用于比较不同 DIA 方法，并会按 condition 分别搜索。它用于 acquisition benchmark，不进入正式定量主线。

模式边界与使用顺序

PTM Probing Search Mode 的核心不是“加更多 variable modifications”，而是把原来的 Variable Modifications 拆成 Known 与 Probe 两层。重点是 search mode 的变化，而不是简单新增一个参数。
由于 Probe modifications 会显著扩大搜索空间，必须同步回到 q-value、localization confidence 和人工复核层，否则很容易把开放搜索结果误读成确定机制。
Method Evaluation 的目标是同一 directDIA experiment 内直接比较不同 DIA methods，因此它天生依赖正确的 condition 组织。边界也很清楚：not suited for quantitative experiments。

Conditions

Condition Setup 与统计结构

condition、replicate、fraction、reference condition 与 correction factor 共同定义统计结构，并直接进入后续差异解释。

Condition setup overview — Condition。颜色、reference、replicate 与 fraction 在这里被正式定义。

Condition setup panel — Condition Setup 面板。可手动编辑，也可通过 parsing 或 text file 导入。

Conditions 核心要点

默认情况下，软件会对所有条件进行 unpaired comparison，除非主动切换或关闭。
如果 quantities 需要表达初始样本体积等外部归一化概念，可以使用 quantity correction factor。
File Name Parsing Strategy 是条件自动注释和批量处理的统一入口。

Condition Setup 结构与输入方式

Label 列首先服务 plotting，决定后续 Post Analysis 的颜色标记；Is Reference 决定 differential abundance 的参考条件；quantity correction factor 则允许把最终 quantities 映射到初始样本体积等外部尺度。
除非主动改成 pairwise comparison 或在 Analysis Settings 里关闭，否则 Spectronaut 会对所有条件执行 unpaired comparison。默认行为不是只做 reference-vs-others。
注释信息有三种正式写入方式：基于 file-name parsing schema 自动解析、直接编辑 Condition Setup table、从外部 text file 导入。更稳妥的做法是先导出默认 condition setup，再修改后导回。
Condition editor 对空格和大小写敏感。只要忽略这一点，后续条件聚类和比较就可能默默出错。
Box 9 还专门讨论 sample fractionation：总体不推荐把 fractionation 当成 DIA 提深度的主策略，因为它会引入额外变异；若确实使用，则必须在 Condition Setup 中正确标注 fractions，并注意 fraction-wise normalization 和 library targeting 逻辑。

Advanced Workflows

Labeled workflow、plexDIA 与 PTM workflow

Conditions 之后，分析结构开始从单通道 discovery 转入多通道定量、位点层定量和更复杂的对象层。这里最需要区分的，是 label-free、spike-in、plexDIA 与 PTM workflow 各自改变了哪一层证据结构。

Condition setup panel during DIA Analysis set-up — Condition Setup 把 labeled workflow 的 run、replicate、channel sets 与 reference 结构固定下来，plexDIA 的统计语义也从这一层开始。

Single channel set example — 固定通道语义的设计对应每个 run 保持 light / medium / heavy 对应固定时间点或处理组，重点是让同一 channel 在整个队列里始终承担同一生物学含义。

Multiple channel set example — 多组 channel sets 对应 label permutation 设计，把不同 biological replicate 中的标签语义互换，用于抵消系统性 labeling bias。

Channel set condition detail — 同一 biological replicate 内部的各 channel 在共享峰边界的同时保持独立定量，这正是后续 channel-specific FDR 与 turnover 计算能够成立的前提。

普通 labeled workflow 与 plexDIA 的边界

普通 labeled workflow 解决的是 reference ratio 或多通道读数进入同一分析结构；plexDIA 进一步把多通道 DIA 的共享峰边界、通道级定量和条件矩阵组织成正式 discovery 设计。两通道时，峰提取与打分会覆盖所有 channels；多通道时则必须用 channel sets 固定每个通道在实验中的真实含义。

plexDIA 的关键不是通道数，而是通道级证据管理

Biognosys 在 Spectronaut 19 / 20 和 HUPO 2024 资料中反复强调，与 Yansheng Liu 团队合作推进的重点，是把 multiplex-DIA 用于 protein turnover 与 true abundance 的联合分析。要做到这一点，必须同时管理 channel sets、channel-specific FDR 和 heavy / light transition 选择。

PTM Workflow 的主线

PTM workflow 不只给位点列表。顺序是：先判断 modification occurrence，再给 localization confidence，再做 modification-site differential abundance；若启用 input normalization，则先按 reference sample 的 protein quantity 做归一；若启用 stoichiometry，则进一步计算 site stoichiometry。

结构层	plexDIA 需要固定什么	如果没有固定会怎样
Channel set	每个 light / medium / heavy 通道在每个 replicate 中对应什么生物学条件	后续 ratio matrix、pairwise comparison 和 turnover time course 会失去解释基础
过滤层	整体保留还是通道独立保留，是否启用 channel-specific FDR	弱通道被强通道掩盖，或者高覆盖结果被误当成稳定通道级证据
Transition 层	heavy / light 对应的 fragments 是否存在同位素 overlap 或干扰	定量看似完整，但真实 ratio 被 transition interference 拉偏

Labeled、plexDIA 与 PTM workflow

多通道 DIA 不是简单多出几个列。Spectronaut 19 起支持对 individual channel quantities 做 regulation analysis，比较对象变成 run 与 channel-set condition 的组合，因此 channel set 设计本身就是统计设计。
这里给出两个 plexDIA 条件示例：一种是每个 run 固定 light / medium / heavy 对应时间点；另一种是为避免 labeling bias，对不同 biological replicates 使用不同 label permutations。Condition Setup 里的 channel sets 对应的是实验设计语义，而不只是软件设置。
Biognosys 在 HUPO 2024 官方资料中把这条路线进一步压实为两个实现点：channel-specific FDR 用 light transitions 为每个 channel 生成 GroupQ、MinQ、MaxQ 或 ChannelQ；deep-learning assisted heavy / light transition selection 则用于在 multiplex 场景下提升 quantification 精度。
当 multiplex-DIA 用于 pSILAC 或 turnover 时，最终目标不再只是保留更多 proteins，而是得到稳定的 channel-level abundance 与 turnover curves。因此 minimum log2 precursor quantity、channel-level filtering 和 report 结构必须一起固定。
PTM workflow 则按 input normalization、site collapse 和 differential abundance 三步前进。定量 site collapse 会按 modification multiplicity 分开处理，例如 singly 和 doubly phosphorylated parent peptides 分别 collapse，三重及以上统一记为 M3。
如果启用 stoichiometry，软件会在 precursor level 计算 flyability ratios，并用最大 q-value 与最小 fold change 等条件过滤，确保 stoichiometry 不是在不可靠的 precursor 对上强行计算。
Box 10 说明 PTM localization 算法利用 fragment 全同位素模式、短时程 chromatograms、fragment mass accuracy 与 intensity information 共同完成 site localization，并系统性剔除干扰离子。

plexDIA 技术专题 plexDIA 的 FDR 控制

Review & Refinement

Review 与 Refinement

Grid View、Tree View、detached perspectives 和 rerun 能力，让 Analysis Perspective 不只是一次性执行器，而是一个可以回头修正实验定义和峰级判断的工作台。

Analysis grid view — Grid View。用于浏览 quantified objects、候选概览与 run 级统计。

什么时候该回头 review

当统计上有意义但峰型存疑，或某批 run 明显异常时，不该只看表格，应回到 XIC、峰界、iRT 偏移和 interference 层重新确认。

什么时候该 rerun

如果问题来自条件设置、reference 选择或 settings schema，就应该 rerun，而不是在导出的 Excel 里事后补救。

Grid、Tree、plots 与 filters

Grid View 是 protein-centric 视图，支持按 identified PGs、complete profiles、CV 和 candidates 过滤，并能显示 protein coverage、quantity profile 和 condition box plot。Grid View 不是“表格替代品”，而是 differential protein expression 的第一层浏览器。
Tree View 的默认层级是 Run → Protein Group → Elution Group → Precursor → Fragment ions。默认还带 identification filters，所以你看到的天然是通过 precursor PEP、precursor q-value 和 protein q-value 阈值的对象。
Tree 可以切换到 Not Identified 或 Not Filtered，这说明“看见未识别对象”本身就是正式 review 能力，而不是 debug 特权。
右侧 plots 会随着所选层级变化，run-level 关注 calibration、TICC 和 cross-run performance，precursor / fragment-level 则关注 XIC、score-centric plots 和 cross-run profiles。更完整的图谱应回到 Appendix 5 继续学。
Tree Filtering 只影响 Analysis Perspective 的显示，不会改写 Post Analysis。review 失败时，首先应排查 filter 是否已经处于开启状态。
Experiment Tab Options 里最关键的几项是 Save / Save as、Group by 和 Settings。尤其保存时可选择带或不带 ion traces 的 .sne；不带 XIC 的文件更小，但重开时需要重新映射 runs。

会真实改写结果的人工修改

Spectronaut 的 peak picking 和 scoring 已经面向高通量，多数情况下并不期待逐峰人工 review。也正因为如此，真正需要手改时，应该知道改的是哪一层、会带来什么代价。
可手动修改的核心动作包括：拖动 integration boundaries、在 XIC 中改选另一个 peak、右键手动 accept / reject elution group，以及把 fragment ion 标记为 interference 或重新用于 quantification。
一旦做过这些动作，软件会把 precursor 标记为 user-modified 或 verified，并重新计算相应 q-value。也就是说，手动 review 不只是视觉注释，而是会进入对象状态。
Box 11 给出人工 review 提速方式：run files 尽量本地存储、优先转 HTRMS、若 .sne 不带 XIC 则先 re-extract XICs，并可按 precursor window 对 tree 分组以提高 UI 响应。
Library refinement 是更深一级能力。只有 assay 来自 Library Perspective 生成的 library，才能右键转入 Refine Fragment Selection。在这里可以移除受干扰 fragments、加入覆盖关键 modification sites 的 ions，甚至引入原 DDA 中未检测但在 DIA 中清晰可见的 theoretical fragments。
这些 library changes 不会立刻生效，而要通过 Commit Library Changes… 批量提交，随后触发所有相关 peptides 的 re-extraction。同时要保留 library version control，因此 refinement 不是覆写历史，而是带版本的可回退修改。

directDIA JSON Settings

把 directDIA 工作流写成可审计的 JSON override

directDIA 项目进入命令行后，JSON settings 用于把 GUI 中的 workflow、识别阈值、定量策略、搜索空间和仪器容差明确写入文件。这样每一次批处理都有可复制、可审计、可回退的参数记录。

JSON 区块	控制内容	分析含义
`DIA_Analysis → Identification`	Precursor / Protein 层 PEP 与 q-value、single-hit protein rule、run-level protein scoring	决定结果以什么可信度边界进入后分析和报告。
`DIA_Analysis → Quantification`	proteotypicity filter、data filtering、cross-run normalization、imputation、IM peak picking、background noise removal	决定跨样本定量矩阵如何过滤、归一化和填补。
`Pulsar_Search → Peptides`	酶切规则、digest type、肽段长度、missed cleavages、N-terminal M 处理	决定 search space 的大小和半特异/非特异分析边界。
`Pulsar_Search → Modifications`	固定修饰、可变修饰、最大可变修饰数、closed search 或 PTM probing search	决定修饰空间和 PTM 探索压力。
`Pulsar_Search → Identification`	PSM / peptide / protein group FDR、directdia_deep / directdia_fast / directdia、RT sampling reduction	决定 directDIA 搜索强度、速度和识别阈值。
`Tolerances / MS2`	dynamic / relative / static 质量容差、MS1/MS2 correction factor、b/y/a/c/x/z ion types	决定不同平台 raw data 的质量窗口和 fragment ion 证据层。

命令行覆盖顺序

-j 导入的 JSON 会覆盖默认设置或 -s 指定的 .prop 设置。推荐流程是先用 GUI 导出基准 JSON，再在版本控制中只改项目必须改变的字段。

上线前校验

上线前必须检查 JSON 是否可解析、数值是否在允许范围、枚举值是否拼写一致、数组字段是否仍为数组，以及 DirectDIA_Workflow 是否明确。

在线校验 directDIA JSON 下载 JSON settings PDF