资源压力主要由 precursor 数与 run 数共同放大
图中用不同 precursor 规模对比 run 数增加时的 RAM 压力趋势,把配置表直接转换为项目容量判断。
Infrastructure
软件能不能跑通,只是最低要求。正式 discovery 项目真正要解决的是:当前机器是否能承受 library 与 run 数,临时目录和本地目录如何规划, 以及如何避免网络盘、虚拟机和 CPU 争用把分析流程拖垮。这一页把系统配置、目录规划和运行边界整理成一套可直接执行的环境基线。
Capacity
Spectronaut 的资源压力不是随机产生的,而是主要由 precursor 数、run 数、梯度长度、本地临时空间和 vendor 数据结构共同决定。 正式环境的起点不是“能打开软件”,而是能对当前项目的 RAM 与磁盘压力做出基本判断。
| 资源项 | 最低要求 | 正式项目基线 |
|---|---|---|
| RAM | 16 GB | 128 GB 或更高;大型队列建议作为默认起点 |
| 本地磁盘 | 200 GB 可用空间 | 2 TB 以上,并预留接近数据集 2 倍的 temporary space |
| CPU | 4 cores | 16-24 cores 常见于 Pulsar 搜索与大队列分析 |
| 操作系统 | Windows / Ubuntu | 本地图形界面多用 Windows,自动化与命令行可进入 Linux |
图中用不同 precursor 规模对比 run 数增加时的 RAM 压力趋势,把配置表直接转换为项目容量判断。
1000 个 2 小时 DIA raw files,配合 200,000 个 precursors 的库,可以在 128 GB RAM 系统上完成分析。 128 GB 因此属于典型大队列 discovery 的正式工作线,而不是豪华配置。
临时空间不仅承接原始数据,还承接 library、intermediate indexing、搜索与提取过程中的中间文件。数据集越大、library 越大、run 越多, 临时空间越不应继续挂在默认的系统盘。
Directories
默认安装后,Spectronaut 会把目录放在 C:\。对真实项目来说,最先要改的往往不是任何分析设置,而是
Temporary Directory 与 Local Search Archives 的位置。
这是高频读写目录,应优先放在本地高速 SSD。若留在系统盘,容量和 I/O 更容易成为瓶颈。
它不是缓存垃圾桶,而是可复用的搜索结果目录。只要放在不稳定网络盘上,复用、建库和后续 library 管理都会一起受影响。
一旦网络连接中断,第三方库依赖就可能使分析直接中止。对大队列项目来说,这不是偶发 inconvenience,而是流程级风险。
虚拟机在演示和轻量测试里可行,但在大规模搜索、library generation 和高并发 I/O 场景中,稳定性与磁盘表现都更难保证。
| 目录/环境 | 放置位置 | 原因 |
|---|---|---|
Temporary Directory |
本地高速 SSD | 高频读写,最容易放大 I/O 瓶颈 |
Local Search Archives |
本地大容量磁盘 | 保存长期复用的搜索结果与谱库,不应放在不稳定共享盘 |
| raw files | 本地优先 | 避免远程 I/O 和中途中断使分析中止 |
| network drive / VM | 不建议作为正式环境 | 稳定性和性能风险同时上升 |
Compute
Spectronaut 默认会充分占用可用 CPU。对于共享服务器、多用户工作站或同时运行多个大型任务的环境,CPU affinity 不是高级技巧,而是必须提前规划的资源边界。
当一台机器同时承担多位用户的分析、前处理自动化软件、同步上传或其他本地 heavy jobs 时,就应该把 CPU 使用边界提前固定。
CPU affinity 能保护共享环境的可用性,但会延长分析时间。它是把“单任务最快”换成“整个平台更稳”的取舍。
Boundaries
第一章的环境部分真正要建立的是一个习惯:在开始任何大项目前,先做容量估算、目录规划和资源隔离,再进入具体工作流。
Integration