UniProt 2026_02 蛋白组更新教程

Release overview

四个数据库清晰分工

UniProt 2026_02 的核心不是简单删库，而是把 UniProtKB、Proteomes、UniParc 和 UniRef 的职责重新分清。

-43%

UniProtKB 条目压缩

UniProtKB accession 数量减少 43%。知识库现在主要由参考蛋白组条目，以及实验或生物学重要的补充条目组成。

+36%

参考蛋白组扩展

reference proteome 数量增加 36%。变化来自新的 MMseqs2 工作流和病毒参考蛋白组与 ICTV exemplar genome 的对齐。

+34%

参考蛋白组物种覆盖

有 reference proteome 的物种数增加 34%。新的目标是让每个物种至少有一个可代表主要 protein space 的参考蛋白组。

26K

ProtNLM2 注释试点

约 26,000 个 TrEMBL 条目可查看 ProtNLM2 AI 注释；预测内容包含名称、功能、定位、关键词和 GO 术语。

Release 2025_04 新的 reference proteome workflow 引入，proteome 分类开始调整。

Release 2026_01 为用户适配 2026_02 变更保留缓冲，未做大规模结构变更。

Release 2026_02 移除剩余非参考蛋白组蛋白条目；UniProtKB 进入 reference-proteome-first 结构。

Statistics trend

UniProtKB 统计趋势

UniProtKB 统计页的历史数据能把本次更新放回长期背景中理解：TrEMBL 推动条目数量快速增长，reference proteome 重组让知识库从“尽量容纳”转向“优先代表”。

UniProtKB 条目数量趋势 — 统计趋势精简图：2015_01 到 2025_03 UniProtKB 总条目从约 90.0M 增长到 253.6M；2025_04 和 2026_02 是两个压缩拐点，2026_02 当前合计为 149,810,139 条。

版本	发布时间	Swiss-Prot	TrEMBL	UniProtKB 合计	读数
2015_01	2015-01-07	547,357	89,451,166	89,998,523	TrEMBL 已成为条目规模增长的主体。
2023_01	2023-02-22	569,213	245,822,275	246,391,488	公共组装和预测蛋白持续扩大 UniProtKB。
2025_03	2025-06-18	573,661	253,061,697	253,635,358	reference proteome 重组前的近端高位。
2025_04	2025-10-15	573,661	199,006,240	199,579,901	新 workflow 开始显著压缩非参考冗余。
2026_02	2026-06-10	575,503	149,234,636	149,810,139	剩余非参考蛋白组条目移除完成，当前规模接近 150M。

Concept map

Proteome 概念边界

同一条蛋白序列在不同资源中的角色不同。选择 FASTA、查 accession、做物种比较时，要先确认当前问题属于哪一层。

Proteome

Proteome 定义

proteome 与 genome assembly 相关。一个物种可以有多个 proteome，例如不同菌株、不同组装版本或不同研究项目提交的数据。

Reference proteome

Reference Proteome 定义

reference proteome 不等于唯一正确基因组，而是在数据质量、完整度、代表性和稳定性之间取得平衡的默认参考集合。

Non-reference proteome

Non-reference Proteome 定位

非参考蛋白组可以帮助理解株系、组装差异或局部多样性，但它们的蛋白条目不再默认保留在 UniProtKB 活跃条目集中。

Excluded proteome

Excluded Proteome 定义

排除原因包括污染、嵌合、低质量、错误分类、过大/过小基因组、metagenome、混合培养和过度代表等。

蛋白组多样性

蛋白组多样性定义

蛋白组多样性按蛋白簇选择代表序列，并提供 PF 值和矩阵，适合研究核心蛋白、可变蛋白和物种内部多样性。

Proteome similarity

Proteome Similarity Score 定义

similarity score 来自 MMseqs2 聚类，表示一个 proteome 中有多少蛋白能与 reference proteome 的蛋白对齐。

Reference proteome workflow

Reference Proteome 选择流程

新的工作流把自动聚类和人工复核结合起来。自动部分负责规模化、可重复；curator 复核负责质量、分类和生物学边界。

候选物种和候选蛋白组

物种层级	taxonomy 必须明确到 species，不能只停留在 genus 或不完整物种名。
质量边界	被 UniProt 或 RefSeq 标记为质量问题的 proteome 不能进入候选集合。
来源边界	新导入的 metagenome assembly、pathogen surveillance project 和 Candidatus 物种暂不参与自动晋升。
单一蛋白组	如果该物种只有一个合格 proteome，它会自动成为 reference proteome。

MMseqs2 相似性计算与 Proteome Priority Score

蛋白聚类	先把同一物种不同 proteomes 中相似蛋白聚成 protein clusters，观察每个 proteome 覆盖多少簇。
蛋白组聚类	再根据 proteome 之间共享的 protein clusters 估算蛋白组层面的相似性。
蛋白组优先级评分	Proteome Priority Score 综合手动参考标记、历史参考标记、BUSCO 完整度和代表性分数。
稳定性	蛋白组优先级评分会偏向保留上一轮 reference proteome，只有质量和代表性明显更好的候选才会推动切换。

关键技术背景：为什么不用“尽量保留所有 proteomes”

公共基因组组装数量持续增长，直接把所有 translated proteins 都保留在 UniProtKB 会带来冗余、低质量条目和长期可维护性问题。新方法的目标是让每个物种至少有一个代表性蛋白组，同时避免让污染、错误分类、重复提交和低质量组装扩大知识库噪声。

预印本中的核心结果显示，新的 workflow 使用 MMseqs2 后可以把参考蛋白组选择从约两周缩短到约一天；在保持物种覆盖扩大的同时，UniProtKB 整体蛋白条目减少 43%，reference proteome 数量增加 36%，有 reference proteome 的物种增加 34%。

蛋白组多样性

蛋白组多样性内部差异视图

reference proteome 解决“默认用哪套蛋白组”；蛋白组多样性解决“同一物种多个蛋白组共同呈现什么蛋白空间”。

蛋白组多样性工作流 — 蛋白组多样性通过 MMseqs2 对同一物种多个合格 proteomes 的蛋白进行聚类，每个簇选择一条代表序列，并输出 FASTA、矩阵和统计文件。

步骤	判断标准	实际含义
物种合格性	至少 3 个 eligible proteomes，taxonomy 明确到 species。	蛋白组多样性不适合只有少量或分类不确定 proteome 的物种。
proteome 排除	排除 excluded proteome、低蛋白数量、仅非核组分、监测项目和 Candidatus。	先清理输入质量，再谈核心蛋白和可变蛋白。
MMseqs2 聚类	序列 identity 至少 90%，alignment coverage 至少 50%，双向覆盖要求参与判断。	聚类结果定义后续代表序列、PF 值和矩阵统计。
singleton 处理	物种有超过 10 个 proteomes 时过滤 singleton clusters，但 reference proteome 贡献的 singleton 保留。	减少组装噪声，同时保护参考蛋白组中的稀有但可信序列。
代表序列选择	UniProtKB 优先于 UniParc-only；reference 优先于 non-reference；Swiss-Prot 优先于 TrEMBL。	每个簇输出一条更适合作为公共代表的序列。

FASTA

pp<taxid>.fasta.gz

每个 protein cluster 一条代表序列，FASTA header 中包含 Protein Frequency。适合快速获得物种蛋白组多样性的代表序列集合。

Matrix

pp<taxid>_matrix.tsv.gz

cluster-by-proteome count matrix。适合判断某个蛋白簇在哪些 proteomes 中出现，以及出现次数是否一致。

Stats

pp<taxid>_stats.json

记录物种统计、release 标识和方法版本信息。做可复现分析时应和 FASTA 一起保存。

Proteome similarity score

Proteome Similarity Score 计算口径

当同一物种有多个 proteomes 时，similarity score 帮助判断某个 proteome 与 reference proteome 的蛋白空间接近程度。

计算逻辑

score = 该 proteome 中能与 reference proteome 蛋白对齐的蛋白数 / 该 proteome 的蛋白总数。

由于对齐关系是有方向的，A 相对 B 的 score 和 B 相对 A 的 score 可以不同。

官方示例

Proteome A 有 5 条蛋白，Proteome B 有 8 条蛋白，MMseqs2 形成 4 个 protein clusters。

A 与 B 比较时为 80%；B 与 A 比较时为 25%。这说明 A 的蛋白空间更容易被 B 覆盖，但 B 有更多 A 不覆盖的蛋白。

使用场景

选择 FASTA、比较同物种组装、判断非参考蛋白组是否接近参考蛋白组，以及解释 accession 在不同 proteome 中的去向。

Proteome exclusion

Proteome 排除原因

excluded proteome 中的序列仍可在 UniParc 找到，但不应直接作为默认 FASTA 或参考蛋白组来源。

类别	排除原因	判断重点
污染与混合	Contaminated、Mixed culture、Chimeric、Hybrid	序列来源可能混入其他生物、载体、接头、引物或不同物种片段。
组装异常	Misassembled、Sequence duplications、Genome length too large / too small、Low quality sequence	基因组长度、重复、低复杂度或比对证据提示组装质量不可靠。
注释和蛋白组质量	Low gene count、Low quality proteome	预测基因数量明显偏低，或 UniProt 质量控制未通过。
来源边界	Metagenome、Derived from metagenome、From large multi-isolate project	来源不是纯培养或属于大型多 isolate 监测项目，常见于病原监测数据。
分类与代表性	Unverified source organism、Over-represented proteome	物种分类可能错误，或该物种已经被其他 proteome 更好地代表。

Data access

数据入口变化

UniProtKB、Proteomes、UniParc 和 UniRef 需要分工使用。做项目复核时，不要把“UniProtKB 查不到”直接等同于“序列不存在”。

UniProt 2026_02 后的数据入口 — 2026_02 后的数据入口：活跃知识库以 reference proteome 为主；被移除的非参考条目仍可从 UniParc 找到序列与部分自动注释信息。

资源	2026_02 相关变化	用户应该怎么用
UniProtKB	主要保留 reference proteome 条目和额外精选的重要条目；本轮约移除 57M 剩余非参考蛋白组条目。	常规 FASTA、蛋白功能、GO、cross-reference 和软件数据库优先从 UniProtKB active entries 开始。
Proteomes	新增 reference workflow、蛋白组多样性工作流、similarity score；Redundant proteomes 废弃，Other proteome 改名为 Non-reference proteome。	选择物种 FASTA 前先看 proteome status、reference 标记、similarity score 和 exclusion reason。
UniParc	作为被移除 TrEMBL 条目和外部数据库 active entries 的序列归档入口；新增 sequence annotation pages。	旧 accession 在 UniProtKB 查不到时，检查 UniParc 页面和 history，确认序列是否仍可追溯。
UniRef	优化用于聚类的 UniParc 序列；优先高质量 RefSeq 条目；UniRef100/90/50 cluster 数减少但 UniRef90/50 覆盖保持。	做同源聚类、去冗余和跨物种序列背景时，记录 UniRef release 与 cluster level。
API / XML	UniParc 中 proteomeId 和 component 被 proteomes 列表替代；XML 使用 proteomeid_component；查询使用 id:component。	维护脚本时把旧字段映射更新为 proteomes[].id / proteomes[].component，搜索字段使用 proteomecomponent。

Module updates

蛋白质组相关模块更新

Proteome 是主线，但本次 release 同时改变了 UniProtKB、UniParc、UniRef 和 AI 注释入口。

Human proteome

人类参考蛋白组扩展

UP000005640 增加约 121,000 个新的 protein-coding transcripts，来源于基于 long-read RNA-seq 的 GRCh38 TAGENE 更新。

ProtNLM2

ProtNLM2 注释字段

ProtNLM2 预测蛋白名称、功能、亚细胞定位、关键词和 GO。预测不会直接混入主条目正文，而是在页面中以 AI annotation toggle 查看。

Evidence

Evidencer 证据查看

ProtNLM2 使用字符串/子串匹配、InterPro/Pfam/GO/EC、phmmer 序列相似和 TM-align 结构相似来提供支持证据。

Cross-references

AbasyAtlas 与 NDEx

UniProtKB 新增 AbasyAtlas 和 NDEx 交叉引用，便于把蛋白条目连接到调控网络、功能模块和细胞图谱网络。

Proteomics practice

UniProt 2026_02 项目使用路径

FASTA 数据库、Spectronaut/SpectroDive 搜索库、报告复核和云端交付都需要把 UniProt release 与 proteome status 记录清楚。

场景	推荐判断	记录内容
常规人/模式生物 DIA	优先使用该物种 reference proteome 的 UniProtKB FASTA，并固定 release 版本。	release 号、proteome ID、FASTA 下载日期、是否包含 isoform、decoy 生成方式。
菌株或非模式生物	先看该 species 的 reference proteome、non-reference proteome similarity score 和 exclusion reason。	所选 proteome 是否 reference、similarity score、是否使用蛋白组多样性或定制 FASTA。
旧项目复核	旧 accession 在 UniProtKB 查不到时，到 UniParc 查序列和 history，不要直接删除结果。	旧 accession、新 UniParc 入口、序列是否一致、报告中是否需要说明数据库版本差异。
蛋白组多样性研究	用 PF 值区分核心蛋白和可变蛋白，结合 matrix 判断蛋白簇在哪些 proteomes 中出现。	PF 过滤阈值、matrix 文件、stats.json、使用的 taxid 和 release。
AI 注释引用	ProtNLM2 预测可作为线索，不能替代人工复核、实验文献或保守结构域证据。	model score、Evidencer 类型、是否有序列/结构/数据库支持。

Spectronaut FASTA 检查

FASTA header 是否保持 UniProt accession、entry name、gene、organism 和 protein existence 信息。
数据库版本是否与项目报告、search archive 和后续复算一致。
如果使用 non-reference 或定制 strain FASTA，报告中应说明选择原因和 proteome 状态。

客户报告解释

“UniProtKB 条目减少”不代表蛋白生物学证据消失，而是活动知识库更偏向参考蛋白组。
旧 accession 可通过 UniParc 追溯，功能解释仍需回到 UniProtKB、文献、结构域和 GO 证据。
跨版本比较时，数据库版本差异可能影响 protein group、peptide uniqueness 和注释映射。

Training exercises

项目实操练习

练习目标是掌握选择、解释和复核，而不是记住公告数字。

练习 1

细菌物种 FASTA 选择

查看该 species 是否有 reference proteome；如果有多个 non-reference proteomes，比较 similarity score 与 exclusion reason，再决定是否需要 strain-specific FASTA。

练习 2

旧 Accession 检索解释

先在 UniProtKB 搜索旧 accession；若跳转到 UniParc，记录序列归档与 history；再判断报告中是否需要保留旧 ID 或映射新注释。

练习 3

蛋白组多样性核心蛋白识别

下载 pp<taxid>.fasta.gz、matrix 和 stats；根据 PF 过滤核心蛋白集合，并用 matrix 确认每个簇在哪些 proteomes 中出现。

Sources

延伸阅读与官方入口

以下入口用于复核 release、帮助页、下载文件和预印本方法学。

主题	入口
Release 2026_02	UniProt release notes
UniProtKB statistics	UniProtKB statistics page / statistics history endpoint
Reference proteome 选择	Reference proteomes workflow
Proteome 变更摘要	Quick summary of proteome changes
蛋白组多样性	蛋白组多样性工作流
Similarity score	Proteome similarity score
Proteome exclusion	Exclusion reasons
ProtNLM2	Automatic annotation using ProtNLM
预印本方法学	A novel method to select Reference Proteomes in UniProt

UniProt 2026_02 蛋白组数据更新与参考蛋白组工作流