ΩOmicSolution蛋白质组学技术平台

Search Archive

Search Archive:搜索结果复用与合库

Search Archive 的核心价值,是让已经完成的搜索可以在不重新从 raw 开始搜索的前提下,被安全地重新组合进新的 library。 它保存的是可再次进入 library generation 的搜索记录,而不是一次性中间文件。

reuse searched runs library-wide FDR one source per archive source-specific iRT CLI compatible

Definition

Search Archive 保存的是 FDR 过滤之前的搜索信息

这正是 Search Archive 能安全复用的原因。它保留的是 Pulsar 搜索结果在 FDR 过滤之前的状态,因此多个 archive 与新的 run files 可以在 library generation 阶段重新进入统一的 library-wide FDR 控制,而不是把不同来源结果硬拼在一起。

Search Archive 的定位

缓存只是为了快;Search Archive 同时承担了复用、合库和统一 FDR 管理。只要没有把这一层理解清楚,就很容易把 archive 当成可以随意复制粘贴的中间文件。

它解决的痛点是什么

已经搜索过的 run files 如果还想进入新库或合库,传统做法往往需要重新从 raw 开始搜索。Search Archive 把这部分时间和算力直接保留下来。

Search Archive 的生命周期

一次 Pulsar 搜索的结果先被保存为 archive,再被拉回新的 library generation,在统一 FDR 下与其他 runs 或 archive 共同生成新库。

Library-wide FDR

Search Archive 的关键不是重用本身,而是重用时仍然保持 library-wide FDR

做法 会发生什么
直接拼接已经过滤后的结果 很难重新建立统一、可解释的 FDR 边界
用 Search Archive 进入新的 library generation 能在新的组合里重新获得 proper, library-wide control of the FDR

Source-specific iRT

Search Archive 还会影响 source-specific iRT 的来源划分

当 Spectronaut 建立 source-specific iRT 时,不同 acquisition methods、different calibration types、以及不同 Search Archives 都可能成为独立 iRT source。也就是说,archive 不只影响“搜索结果复用”,还影响 retention coordinate 的来源管理。

archive 与 iRT source 的对应关系

因为它往往代表了一组具有共同搜索来源、共同色谱条件或共同校准方式的数据。保留这种差异,比强行压成单一中位数更能保住 iRT 精度。

hybrid library 中的作用

只要 public DDA、project-specific DIA 和 directDIA archive 被一起合并,单一 iRT 坐标就可能失真。source-specific iRT 正是处理这种异质性的关键。

CLI

Search Archive 也是命令行和目录规划的一部分

在命令行模式里,archive 可以通过单文件或整目录方式加入 library generation;如果不显式指定输出位置,Search Archive 会写入默认目录。 这意味着目录规划与自动化脚本需要一起设计,而不是只在 GUI 里点几下。

平台化使用 Search Archive 的 4 条规则
  • Search Archive 目录必须放在本地可控位置,不与系统盘或临时测试目录混用。
  • 合库时优先使用 archive 进入新的 library generation,而不是复制旧结果表。
  • archive 与 source-specific iRT 一起考虑,尤其是 hybrid library 与多来源 directDIA archive。
  • CLI 与 GUI 必须共用同一套目录规范,否则后续自动化脚本和人工复盘会脱节。

Integration

相关专题