蛋白质关键序列片段预测分析

本流程适用于任何蛋白质家族，对多物种 FASTA 序列执行 MSA → 共识序列 → 关键片段识别 → 氨基酸组成统计 → 功能预测的完整分析链路。

核心文件

- 主分析脚本：scripts/protein_key_fragment_analysis.py（完整分析流程）
批量运行入口：scripts/run_full_analysis.py（多物种批量 + 大样本采样）
方法细节：INLINECODE2
功能域参考：references/functional_domains.md（分析新蛋白家族时，在此补充对应 Pfam 保守域）

快速运行

CODEBLOCK0

分析流程

Step 1：序列读取

- 解析标准 FASTA 格式，统计序列数量和长度分布
大样本处理：序列数超过阈值时随机采样（seed=42，保证可复现）

Step 2：多序列比对（MSA）

- 工具：ClustalOmega（apt install clustalo 或 conda install clustalo）
单序列物种跳过 MSA，直接使用原始序列

Step 3：共识序列提取

- 各位点最高频氨基酸占比 ≥ 阈值（默认 0.5）则写入，否则标 X
去除 gap（-）后得到连续共识序列

共识序列生成原理：
CODEBLOCK1

关键参数：

- 共识序列提取阈值：50%（默认）
关键片段识别阈值：90%（推荐，见下文调整阈值部分）

Step 4：关键片段识别（三维度并行）

1. 已知功能块匹配：在共识序列中搜索目标蛋白家族的 Pfam 保守域特征序列（需在 functional_domains.md 中预先配置）
高保守连续区检测：保守率 ≥ 90%、长度 ≥ 6aa 的连续区段
保守 Cys 检测：统计共识序列中 Cys 数量（潜在二硫键网络）

分析新蛋白家族时，在 KNOWN_MOTIFS 和 CONSERVED_BLOCKS 中补充对应的 Pfam 特征序列（来源：Pfam / InterPro / UniProt）。

Step 4.5：片段氨基酸组成与理化性质分析

对每个关键片段统计各功能类别氨基酸的出现频率：

类别	氨基酸
Hydrophobic（疏水性）	V, L, I, M
Nucleophilic（亲核性）

S, T, C |
| Aromatic（芳香性） | F, Y, W |
| Amide（酰胺类） | N, Q |
| Acidic（酸性） | D, E |
| Cationic（阳离子性） | H, K, R |
| 排除不统计 | X, A, G, P |

⚠️ 此分类体系与 aa-pair-analysis 完全一致，A/G/P 排除不统计。

- 主导类别判定：某类别占比 ≥ 35% 则为该类主导，否则判定为 Mixed（混合型）
结果写入 composition 字段（含各类别计数、比例、主导类别、理化性质描述）

Step 5：基于氨基酸组成的功能预测

根据各类别比例按优先级推断主要功能，结果写入 function_prediction 字段：

优先级	判断条件	功能预测
1	Pfam 已知功能块命中	🔴 已知功能位点——高度保守催化/结合区域
2

Step 6：生成报告

- 每物种：_分析报告.md + _key_fragments.json（含 composition 和 function_prediction 字段）
全物种：INLINECODE17

输出文件结构

旧版结构（已弃用）

CODEBLOCK3

自定义配置

添加新蛋白家族的功能域

编辑 scripts/protein_key_fragment_analysis.py：

CODEBLOCK4

调整保守性阈值

关键片段识别阈值（推荐）：
CODEBLOCK5

实践建议：

- 研究核心功能位点 → 使用 90%阈值
初步筛选保守区域 → 使用 50%阈值
不同阈值会导致完全不同的生物学解释，需根据研究目的选择

命令行调整：

python3 protein_key_fragment_analysis.py <物种> <fasta> --threshold 0.9

依赖安装

CODEBLOCK7

数据独立性检查清单

⚠️ 重要：多分类分析时必须验证数据独立性

当对同一批数据的不同分类（如阳离子-pi、贻贝粘附蛋白）进行分析时：

- [ ] 每个分类使用独立的FASTA源文件
[ ] MSA缓存目录分开（shared_alignments_分类名）
[ ] 物种列表无重叠（除非确实为同物种）
[ ] 配方数据无重复
[ ] 共识序列和关键片段分别提取

常见问题：
不同分类错误地共享了相同的氨基酸对分析CSV数据，导致结果不可靠。

验证方法：

# 检查MSA缓存独立性
ls shared_alignments_分类A/
ls shared_alignments_分类B/
# 应无相同文件名（同物种名除外）

# 检查配方独立性
# 对比不同分类的 species_formulations.csv
# 同物种的配方应不同（若数据来源不同）

与 aa-pair-analysis 的关系

维度	aa-pair-analysis	protein-key-fragment-analysis（本工具）
关注点	氨基酸类别组合统计规律	具体序列片段的结构/功能
输出

联合分析推荐流程：

# 1. 先用 aa-pair-analysis 进行统计筛选
# 2. 再用本工具进行详细功能片段分析
python3 run_combined_analysis.py <任务名> <FASTA目录>

# 3. 生成物种综合分析报告（包含完整共识序列）
python3 integrate_species_results.py

物种综合分析报告

报告内容

每个物种生成 物种综合分析报告.md，包含：

1. 氨基酸对频率分析

- 总对数、配方 - 各类别φ值分布 - Top 5氨基酸对详情

2. 共识序列（Consensus Sequence）

- 完整FASTA格式序列 - 每行60个氨基酸 - 氨基酸组成统计

3. 关键功能片段预测

- 高保守片段列表（90%阈值） - 每个片段的序列、位置、保守率 - 保守半胱氨酸位置

生成命令

CODEBLOCK10

蛋白质关键序列片段预测分析

本流程适用于任何蛋白质家族，对多物种 FASTA 序列执行 MSA → 共识序列 → 关键片段识别 → 氨基酸组成统计 → 功能预测的完整分析链路。

核心文件

- 主分析脚本：scripts/proteinkeyfragmentanalysis.py（完整分析流程）
批量运行入口：scripts/runfullanalysis.py（多物种批量 + 大样本采样）
方法细节：references/method.md
功能域参考：references/functionaldomains.md（分析新蛋白家族时，在此补充对应 Pfam 保守域）

快速运行

bash

单物种分析

python3 proteinkeyfragment_analysis.py <物种名>

多物种批量分析（推荐）

1. 将各物种 .fasta 文件放入 input_clean/ 目录

2. 运行批量脚本

python3 runfullanalysis.py

分析流程

Step 1：序列读取

- 解析标准 FASTA 格式，统计序列数量和长度分布
大样本处理：序列数超过阈值时随机采样（seed=42，保证可复现）

Step 2：多序列比对（MSA）

- 工具：ClustalOmega（apt install clustalo 或 conda install clustalo）
单序列物种跳过 MSA，直接使用原始序列

Step 3：共识序列提取

- 各位点最高频氨基酸占比 ≥ 阈值（默认 0.5）则写入，否则标 X
去除 gap（-）后得到连续共识序列

共识序列生成原理：

MSA比对结果（多序列对齐）
位置: 1 2 3 4 5 ...
Seq1: M K H L P ...
Seq2: M K H L P ...
Seq3: M K H L A ...
↓ 统计频率
位置1: M(100%) → 写入 M
位置5: P(67%), A(33%) → 写入 P（若阈值≤67%）或 X（若阈值>67%）

关键参数：

- 共识序列提取阈值：50%（默认）
关键片段识别阈值：90%（推荐，见下文调整阈值部分）

Step 4：关键片段识别（三维度并行）

1. 已知功能块匹配：在共识序列中搜索目标蛋白家族的 Pfam 保守域特征序列（需在 functional_domains.md 中预先配置）
高保守连续区检测：保守率 ≥ 90%、长度 ≥ 6aa 的连续区段
保守 Cys 检测：统计共识序列中 Cys 数量（潜在二硫键网络）

分析新蛋白家族时，在 KNOWNMOTIFS 和 CONSERVEDBLOCKS 中补充对应的 Pfam 特征序列（来源：Pfam / InterPro / UniProt）。

Step 4.5：片段氨基酸组成与理化性质分析

对每个关键片段统计各功能类别氨基酸的出现频率：

类别	氨基酸
Hydrophobic（疏水性）	V, L, I, M
Nucleophilic（亲核性）

S, T, C |
| Aromatic（芳香性） | F, Y, W |
| Amide（酰胺类） | N, Q |
| Acidic（酸性） | D, E |
| Cationic（阳离子性） | H, K, R |
| 排除不统计 | X, A, G, P |

⚠️ 此分类体系与 aa-pair-analysis 完全一致，A/G/P 排除不统计。

- 主导类别判定：某类别占比 ≥ 35% 则为该类主导，否则判定为 Mixed（混合型）
结果写入 composition 字段（含各类别计数、比例、主导类别、理化性质描述）

Step 5：基于氨基酸组成的功能预测

根据各类别比例按优先级推断主要功能，结果写入 function_prediction 字段：

优先级	判断条件	功能预测
1	Pfam 已知功能块命中	🔴 已知功能位点——高度保守催化/结合区域
2

Step 6：生成报告

- 每物种：分析报告.md + keyfragments.json（含 composition 和 functionprediction 字段）
全物种：汇总分析报告_含功能预测.md

输出文件结构

旧版结构（已弃用）

results/
├── Species_A/
│ ├── SpeciesAaligned.fasta
│ ├── SpeciesAconsensus.fasta
│ ├── SpeciesAkey_fragments.json
│ └── SpeciesA分析报告.md
└── ...

自定义配置

添加新蛋白家族的功能域

编辑 scripts/proteinkeyfragment_analysis.py：

python
KNOWN_MOTIFS = {
# 你的蛋白家族特征序列
你的功能域名称: {
pattern: [序列模式],
context_note: 描述,
function: 功能说明,
criticality: 重要性级别
}
}

调整保守性阈值

关键片段识别阈值（推荐）：
python

严格模式（推荐用于核心功能位点识别）

连续区域保守率 ≥ 90%，长度 ≥ 6aa

结果更精细，片段更短但保守性更高

宽松模式（默认）

连续区域保守率 ≥ 50%，长度 ≥ 6aa

结果片段更长，但可能包含保守性较低的区域

实践建议：

- 研究核心功能位点 → 使用 90%阈值
初步筛选保守区域 → 使用 50%阈值
不同阈值会导致完全不同的生物学解释，需根据研究目的选择

命令行调整：
python
python3 proteinkeyfragment_analysis.py <物种> --threshold 0.9

protein-key-fragment-analysis蛋白质关键片段分析

protein-key-fragment-analysis

蛋白质关键序列片段预测分析

核心文件

快速运行

分析流程

Step 1：序列读取

Step 2：多序列比对（MSA）

Step 3：共识序列提取

Step 4：关键片段识别（三维度并行）

Step 4.5：片段氨基酸组成与理化性质分析

Step 5：基于氨基酸组成的功能预测

Step 6：生成报告

输出文件结构

推荐目录结构（按物种整合模式）

旧版结构（已弃用）

自定义配置

添加新蛋白家族的功能域

调整保守性阈值

依赖安装

数据独立性检查清单

与 aa-pair-analysis 的关系

物种综合分析报告

报告内容

生成命令

蛋白质关键序列片段预测分析

核心文件

快速运行

单物种分析

多物种批量分析（推荐）

1. 将各物种 .fasta 文件放入 input_clean/ 目录

2. 运行批量脚本

分析流程

Step 1：序列读取

Step 2：多序列比对（MSA）

Step 3：共识序列提取

Step 4：关键片段识别（三维度并行）

Step 4.5：片段氨基酸组成与理化性质分析

Step 5：基于氨基酸组成的功能预测

Step 6：生成报告

输出文件结构

推荐目录结构（按物种整合模式）

旧版结构（已弃用）

自定义配置

添加新蛋白家族的功能域

调整保守性阈值

严格模式（推荐用于核心功能位点识别）

连续区域保守率 ≥ 90%，长度 ≥ 6aa

结果更精细，片段更短但保守性更高

宽松模式（默认）

连续区域保守率 ≥ 50%，长度 ≥ 6aa

结果片段更长，但可能包含保守性较低的区域

依赖安装

Ubuntu/Debian

或 cond

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement