UniProtKB 条目压缩
UniProtKB accession 数量减少 43%。知识库现在主要由参考蛋白组条目,以及实验或生物学重要的补充条目组成。
UniProt release 2026_02
蛋白组资源更新
2026_02 版本把 UniProtKB 的蛋白空间重组推到新的默认模式:以 reference proteome 为主保留活跃蛋白条目, 非参考蛋白组条目主要回到 UniParc 归档,同时新增蛋白组多样性、proteome similarity score、排除原因和 ProtNLM2 注释入口。
Release overview
UniProt 2026_02 的核心不是简单删库,而是把 UniProtKB、Proteomes、UniParc 和 UniRef 的职责重新分清。
UniProtKB accession 数量减少 43%。知识库现在主要由参考蛋白组条目,以及实验或生物学重要的补充条目组成。
reference proteome 数量增加 36%。变化来自新的 MMseqs2 工作流和病毒参考蛋白组与 ICTV exemplar genome 的对齐。
有 reference proteome 的物种数增加 34%。新的目标是让每个物种至少有一个可代表主要 protein space 的参考蛋白组。
约 26,000 个 TrEMBL 条目可查看 ProtNLM2 AI 注释;预测内容包含名称、功能、定位、关键词和 GO 术语。
Statistics trend
UniProtKB 统计页的历史数据能把本次更新放回长期背景中理解:TrEMBL 推动条目数量快速增长,reference proteome 重组让知识库从“尽量容纳”转向“优先代表”。
| 版本 | 发布时间 | Swiss-Prot | TrEMBL | UniProtKB 合计 | 读数 |
|---|---|---|---|---|---|
| 2015_01 | 2015-01-07 | 547,357 | 89,451,166 | 89,998,523 | TrEMBL 已成为条目规模增长的主体。 |
| 2023_01 | 2023-02-22 | 569,213 | 245,822,275 | 246,391,488 | 公共组装和预测蛋白持续扩大 UniProtKB。 |
| 2025_03 | 2025-06-18 | 573,661 | 253,061,697 | 253,635,358 | reference proteome 重组前的近端高位。 |
| 2025_04 | 2025-10-15 | 573,661 | 199,006,240 | 199,579,901 | 新 workflow 开始显著压缩非参考冗余。 |
| 2026_02 | 2026-06-10 | 575,503 | 149,234,636 | 149,810,139 | 剩余非参考蛋白组条目移除完成,当前规模接近 150M。 |
Concept map
同一条蛋白序列在不同资源中的角色不同。选择 FASTA、查 accession、做物种比较时,要先确认当前问题属于哪一层。
Proteome
proteome 与 genome assembly 相关。一个物种可以有多个 proteome,例如不同菌株、不同组装版本或不同研究项目提交的数据。
Reference proteome
reference proteome 不等于唯一正确基因组,而是在数据质量、完整度、代表性和稳定性之间取得平衡的默认参考集合。
Non-reference proteome
非参考蛋白组可以帮助理解株系、组装差异或局部多样性,但它们的蛋白条目不再默认保留在 UniProtKB 活跃条目集中。
Excluded proteome
排除原因包括污染、嵌合、低质量、错误分类、过大/过小基因组、metagenome、混合培养和过度代表等。
蛋白组多样性
蛋白组多样性按蛋白簇选择代表序列,并提供 PF 值和矩阵,适合研究核心蛋白、可变蛋白和物种内部多样性。
Proteome similarity
similarity score 来自 MMseqs2 聚类,表示一个 proteome 中有多少蛋白能与 reference proteome 的蛋白对齐。
Reference proteome workflow
新的工作流把自动聚类和人工复核结合起来。自动部分负责规模化、可重复;curator 复核负责质量、分类和生物学边界。
| 物种层级 | taxonomy 必须明确到 species,不能只停留在 genus 或不完整物种名。 |
| 质量边界 | 被 UniProt 或 RefSeq 标记为质量问题的 proteome 不能进入候选集合。 |
| 来源边界 | 新导入的 metagenome assembly、pathogen surveillance project 和 Candidatus 物种暂不参与自动晋升。 |
| 单一蛋白组 | 如果该物种只有一个合格 proteome,它会自动成为 reference proteome。 |
| 蛋白聚类 | 先把同一物种不同 proteomes 中相似蛋白聚成 protein clusters,观察每个 proteome 覆盖多少簇。 |
| 蛋白组聚类 | 再根据 proteome 之间共享的 protein clusters 估算蛋白组层面的相似性。 |
| 蛋白组优先级评分 | Proteome Priority Score 综合手动参考标记、历史参考标记、BUSCO 完整度和代表性分数。 |
| 稳定性 | 蛋白组优先级评分会偏向保留上一轮 reference proteome,只有质量和代表性明显更好的候选才会推动切换。 |
公共基因组组装数量持续增长,直接把所有 translated proteins 都保留在 UniProtKB 会带来冗余、低质量条目和长期可维护性问题。 新方法的目标是让每个物种至少有一个代表性蛋白组,同时避免让污染、错误分类、重复提交和低质量组装扩大知识库噪声。
预印本中的核心结果显示,新的 workflow 使用 MMseqs2 后可以把参考蛋白组选择从约两周缩短到约一天; 在保持物种覆盖扩大的同时,UniProtKB 整体蛋白条目减少 43%,reference proteome 数量增加 36%,有 reference proteome 的物种增加 34%。
蛋白组多样性
reference proteome 解决“默认用哪套蛋白组”;蛋白组多样性解决“同一物种多个蛋白组共同呈现什么蛋白空间”。
| 步骤 | 判断标准 | 实际含义 |
|---|---|---|
| 物种合格性 | 至少 3 个 eligible proteomes,taxonomy 明确到 species。 | 蛋白组多样性不适合只有少量或分类不确定 proteome 的物种。 |
| proteome 排除 | 排除 excluded proteome、低蛋白数量、仅非核组分、监测项目和 Candidatus。 | 先清理输入质量,再谈核心蛋白和可变蛋白。 |
| MMseqs2 聚类 | 序列 identity 至少 90%,alignment coverage 至少 50%,双向覆盖要求参与判断。 | 聚类结果定义后续代表序列、PF 值和矩阵统计。 |
| singleton 处理 | 物种有超过 10 个 proteomes 时过滤 singleton clusters,但 reference proteome 贡献的 singleton 保留。 | 减少组装噪声,同时保护参考蛋白组中的稀有但可信序列。 |
| 代表序列选择 | UniProtKB 优先于 UniParc-only;reference 优先于 non-reference;Swiss-Prot 优先于 TrEMBL。 | 每个簇输出一条更适合作为公共代表的序列。 |
FASTA
每个 protein cluster 一条代表序列,FASTA header 中包含 Protein Frequency。适合快速获得物种蛋白组多样性的代表序列集合。
Matrix
cluster-by-proteome count matrix。适合判断某个蛋白簇在哪些 proteomes 中出现,以及出现次数是否一致。
Stats
记录物种统计、release 标识和方法版本信息。做可复现分析时应和 FASTA 一起保存。
Proteome similarity score
当同一物种有多个 proteomes 时,similarity score 帮助判断某个 proteome 与 reference proteome 的蛋白空间接近程度。
score = 该 proteome 中能与 reference proteome 蛋白对齐的蛋白数 / 该 proteome 的蛋白总数。
由于对齐关系是有方向的,A 相对 B 的 score 和 B 相对 A 的 score 可以不同。
Proteome A 有 5 条蛋白,Proteome B 有 8 条蛋白,MMseqs2 形成 4 个 protein clusters。
A 与 B 比较时为 80%;B 与 A 比较时为 25%。这说明 A 的蛋白空间更容易被 B 覆盖,但 B 有更多 A 不覆盖的蛋白。
选择 FASTA、比较同物种组装、判断非参考蛋白组是否接近参考蛋白组,以及解释 accession 在不同 proteome 中的去向。
Proteome exclusion
excluded proteome 中的序列仍可在 UniParc 找到,但不应直接作为默认 FASTA 或参考蛋白组来源。
| 类别 | 排除原因 | 判断重点 |
|---|---|---|
| 污染与混合 | Contaminated、Mixed culture、Chimeric、Hybrid | 序列来源可能混入其他生物、载体、接头、引物或不同物种片段。 |
| 组装异常 | Misassembled、Sequence duplications、Genome length too large / too small、Low quality sequence | 基因组长度、重复、低复杂度或比对证据提示组装质量不可靠。 |
| 注释和蛋白组质量 | Low gene count、Low quality proteome | 预测基因数量明显偏低,或 UniProt 质量控制未通过。 |
| 来源边界 | Metagenome、Derived from metagenome、From large multi-isolate project | 来源不是纯培养或属于大型多 isolate 监测项目,常见于病原监测数据。 |
| 分类与代表性 | Unverified source organism、Over-represented proteome | 物种分类可能错误,或该物种已经被其他 proteome 更好地代表。 |
Data access
UniProtKB、Proteomes、UniParc 和 UniRef 需要分工使用。做项目复核时,不要把“UniProtKB 查不到”直接等同于“序列不存在”。
| 资源 | 2026_02 相关变化 | 用户应该怎么用 |
|---|---|---|
| UniProtKB | 主要保留 reference proteome 条目和额外精选的重要条目;本轮约移除 57M 剩余非参考蛋白组条目。 | 常规 FASTA、蛋白功能、GO、cross-reference 和软件数据库优先从 UniProtKB active entries 开始。 |
| Proteomes | 新增 reference workflow、蛋白组多样性工作流、similarity score;Redundant proteomes 废弃,Other proteome 改名为 Non-reference proteome。 | 选择物种 FASTA 前先看 proteome status、reference 标记、similarity score 和 exclusion reason。 |
| UniParc | 作为被移除 TrEMBL 条目和外部数据库 active entries 的序列归档入口;新增 sequence annotation pages。 | 旧 accession 在 UniProtKB 查不到时,检查 UniParc 页面和 history,确认序列是否仍可追溯。 |
| UniRef | 优化用于聚类的 UniParc 序列;优先高质量 RefSeq 条目;UniRef100/90/50 cluster 数减少但 UniRef90/50 覆盖保持。 | 做同源聚类、去冗余和跨物种序列背景时,记录 UniRef release 与 cluster level。 |
| API / XML | UniParc 中 proteomeId 和 component 被 proteomes 列表替代;XML 使用 proteomeid_component;查询使用 id:component。 | 维护脚本时把旧字段映射更新为 proteomes[].id / proteomes[].component,搜索字段使用 proteomecomponent。 |
Module updates
Proteome 是主线,但本次 release 同时改变了 UniProtKB、UniParc、UniRef 和 AI 注释入口。
Human proteome
UP000005640 增加约 121,000 个新的 protein-coding transcripts,来源于基于 long-read RNA-seq 的 GRCh38 TAGENE 更新。
ProtNLM2
ProtNLM2 预测蛋白名称、功能、亚细胞定位、关键词和 GO。预测不会直接混入主条目正文,而是在页面中以 AI annotation toggle 查看。
Evidence
ProtNLM2 使用字符串/子串匹配、InterPro/Pfam/GO/EC、phmmer 序列相似和 TM-align 结构相似来提供支持证据。
Cross-references
UniProtKB 新增 AbasyAtlas 和 NDEx 交叉引用,便于把蛋白条目连接到调控网络、功能模块和细胞图谱网络。
Proteomics practice
FASTA 数据库、Spectronaut/SpectroDive 搜索库、报告复核和云端交付都需要把 UniProt release 与 proteome status 记录清楚。
| 场景 | 推荐判断 | 记录内容 |
|---|---|---|
| 常规人/模式生物 DIA | 优先使用该物种 reference proteome 的 UniProtKB FASTA,并固定 release 版本。 | release 号、proteome ID、FASTA 下载日期、是否包含 isoform、decoy 生成方式。 |
| 菌株或非模式生物 | 先看该 species 的 reference proteome、non-reference proteome similarity score 和 exclusion reason。 | 所选 proteome 是否 reference、similarity score、是否使用蛋白组多样性或定制 FASTA。 |
| 旧项目复核 | 旧 accession 在 UniProtKB 查不到时,到 UniParc 查序列和 history,不要直接删除结果。 | 旧 accession、新 UniParc 入口、序列是否一致、报告中是否需要说明数据库版本差异。 |
| 蛋白组多样性研究 | 用 PF 值区分核心蛋白和可变蛋白,结合 matrix 判断蛋白簇在哪些 proteomes 中出现。 | PF 过滤阈值、matrix 文件、stats.json、使用的 taxid 和 release。 |
| AI 注释引用 | ProtNLM2 预测可作为线索,不能替代人工复核、实验文献或保守结构域证据。 | model score、Evidencer 类型、是否有序列/结构/数据库支持。 |
Training exercises
练习目标是掌握选择、解释和复核,而不是记住公告数字。
练习 1
查看该 species 是否有 reference proteome;如果有多个 non-reference proteomes,比较 similarity score 与 exclusion reason,再决定是否需要 strain-specific FASTA。
练习 2
先在 UniProtKB 搜索旧 accession;若跳转到 UniParc,记录序列归档与 history;再判断报告中是否需要保留旧 ID 或映射新注释。
练习 3
下载 pp<taxid>.fasta.gz、matrix 和 stats;根据 PF 过滤核心蛋白集合,并用 matrix 确认每个簇在哪些 proteomes 中出现。
Sources
以下入口用于复核 release、帮助页、下载文件和预印本方法学。
| 主题 | 入口 |
|---|---|
| Release 2026_02 | UniProt release notes |
| UniProtKB statistics | UniProtKB statistics page / statistics history endpoint |
| Reference proteome 选择 | Reference proteomes workflow |
| Proteome 变更摘要 | Quick summary of proteome changes |
| 蛋白组多样性 | 蛋白组多样性工作流 |
| Similarity score | Proteome similarity score |
| Proteome exclusion | Exclusion reasons |
| ProtNLM2 | Automatic annotation using ProtNLM |
| 预印本方法学 | A novel method to select Reference Proteomes in UniProt |