總基因體學小辭典 (Glossary of Metagenomics)

為了規範今後寫文章的用詞,我將陸續整理總基因體學常用的詞彙。

Alignment 比對

比較序列之異同。

Amplicon 擴增子

核酸序列經 PCR 增幅的產物。

Amlicon sequence variants (ASVs) 擴增子序列變異型

擴增子當中存在的序列類型。擴增子各序列的差異來源可分為生物性(例如:基因多型性、遺傳多樣性或群落多樣性)或是非生物性(定序錯誤、增幅錯誤或人工序列等),資料處理的目的便是從原始資料中取得具有生物含意的 ASVs。

Community 群落/群集

存在相同時地的族群 (population) 集合。

Coverage 覆蓋率

映對至參考序列的讀數。Depth of coverage(覆蓋深度,簡稱 depth)是映對至局部參考序列(包含單獨的鹼基)的讀數,即參考序列片段被定序的次數;breadth of coverage(覆蓋廣度)是參考序列被讀段所映對的鹼基數,即參考序列被定序的完整程度。若某序列的一鹼基被定序了一萬次,則該鹼基的覆蓋深度為 10000;若該序列的所有的鹼基皆至少被一個讀段映對,則這些讀段的覆蓋廣度為 100 %。

註:有些文章會以 depth 或 coverage 取代 depth of coverage,也有些文章會以 coverage 取代breadth of coverage。鑒於這些歧義的存在,需要視語境解讀 coverage 的意義。

Library (文)庫

備用物質的集合,例如 sequencing libraries (定序庫,要送諸定序的核酸片段)。

Mapping 映對

比對 (align) 讀段與參考序列,獲取讀段所屬的參考序列及所在的段落。Mapping 和 alignment 的差異在於:mapping 是 reference-based & supervised;alignment 則是 reference-free & unsupervised。

Mapping rate 映對率

成功映對至參考序列的讀數比率。Mapping rate 和 coverage 之各項指標的差異在於衡量基準,雖然皆指「應對至參考序列的讀數」,但 mapping rate 的比較基準是既有的讀數;coverage 指標的比較基準是參考序列。

Microbiome 微生物體

(1) Micro-biome:環境與其中的微生物相 (microbiota)。

(2) Microbi-ome:環境微生物的基因體集合 (microbial metagenome)。

Metagenomics 總基因體學

研究個體的特定基因是遺傳學 (genetics),研究個體的全數基因是基因體學 (genomics),研究群集的基因集合是總基因體學 (metagenomics)。

註:除了總(體)基因體學,metagenomics 還依據譯者對 meta- 的詮釋,譯作元基因體學、多源基因體學和宏基因組學。我認為多源基因體學意思最貼切,只是跟 meta- 的關聯不大;元基因體學取 about 的意思則詞不達意;而宏基因組學不是台灣常用的譯名。簡言之,metagenomics 的 meta 是 meta-analysis 的 meta。

Microbiota 微生物相

特定環境的微生物群集 (microbial communities) 以及其狀態 (composition, phase, condition, ...)。

Operational taxonomy units (OTUs) 操作分類單元

在以核酸為基礎的標的基因分析中,OTUs 定義為彼此相似度達特定閾值(例如 97%)的序列集合,其含義則因研究目的而定。以資料處理為例,OTUs 為樣本內具有生物意義的正確序列的子集。

Population 族群

存在相同時地且同屬一物種的個體集合。

Population size 族群規模

族群的個體數量。

Read 讀段

單輪定序獲得的結果,例如:ATCGTACA (DNA)。讀段與序列 (sequences) 的區別在於,讀段是定序儀器輸出的數據,而序列還有物質含義。

Read depth 讀深

又稱 sequencing depth(定序深度),即參考序列之片段被定序的次數。

Read length 讀長

讀段的長度。

Read number 讀數

讀段的數量。在擴增子總基因體分析 (metagenomics) 中,因為參考序列與擴增子讀段往往呈一對一關係,所以讀深 (read depth) 的涵義通常與讀數一致

Reference sequence 參考序列

欲將讀段與之比對的序列。回貼讀段、移除汙染、註解物種或建立 OTUs 皆需要參考序列。

Sequences 序列

(1) 核酸、去氧核酸、蛋白質等由單體組成的長鏈。

(2) 同 reads。定序儀器的原始輸出,例如:ATCGTACA (DNA)。


沒有留言:

張貼留言

Back to top