2020年4月15日 星期三

全基因體關聯分析簡介(Genome-wide association studies)

全基因體關聯分析 (Genome-wide association studies, GWAS) 是透過比較性狀組和控制組的基因差異來揭示性狀與基因的關係。具體的方式是從遍布基因體的分子標記(例如:SNPs、RFLPs、STR)中篩選出與疾病高度相關者,基於其與致病基因的連鎖不平衡,獲得可能涵蓋致病基因的基因片段供後續分析。

1. GWAS 簡介


已知基因和性狀息息相關,所以 GWAS 的用途是調查特定性狀與基因的關係,其作法是比較性狀組與控制組的基因差異,然而同種生物之間的基因組成相似,不需比對所有基因,僅需比對差異的部分。已知的差異有 RFLP、SSLP、AFLP、RAPD、VNTR、SSR、SNP、STR、SFP、DArT、RAD 等,研究前並不知道決定該性狀的基因是位於哪種差異中,但仍有幾個挑選原則:
  • 基因體上分佈範圍廣,如此一來不會遺漏掉可能致病的變異
  • 分析簡單
  • 世代變異低

2. 以 SNP 執行 GWAS


而 SNP 即符合此要求,故流行的 GWAS 研究便是揪出 SNP 位點與疾病相關。若能從 SNP 直接找到致病基因最好,但是實際上並不容易,很多時候 SNP 座落在非編碼區難以看出其生物功能。不過遍布基因體的 SNP 標記可能和致病基因連鎖,所以可以計算 SNP 周邊高度連鎖的 DNA 長度,界定出連鎖區塊,研究者再從這些區域中更仔細搜索先前未標記的 SNP 即有機會找到致病基因。至於致病基因為何和無關的 SNP 連鎖遺傳可能是因為致病基因跟生存攸關,故經天擇保留,而SNP因距離接近故隨之倖存沒有被篩選掉。

由於多數疾病的致病基因效力不高,故需要大量樣本,以至於檢測所有 SNP 的成本很高。妥協的方式是採用部分 SNP 標記,輔以 haplotype,但此舉會忽略罕見疾病的致病基因。

3. 連鎖不平衡在 GWAS 的角色


連鎖不平衡 (linkage disequilibrium) 在 GWAS 中扮演三個角色

  • 致病基因與分子標記連鎖,故可以從分子標記推估致病基因可能範圍。(也因此要盡可能選用遍佈全基因體的SNP,不然會遺漏掉致病基因。)
  • SNP 與其他 SNP 連鎖形成 haplotype,檢驗當中的 tagSNP 即可得知同 haplotype 中的其他 SNP,節省取樣費用。
  • Haplotype 內的致病基因和外部的SNP連鎖導致誤報。

4. GWAS 的限制


GWAS 用以定位與性狀相干之基因,故其效力受限於性狀與基因的關聯。雖然GWAS能有效鑑定由少數基因主導的性狀,但常見且微效基因的影響卻容易因樣本數不足忽略。此外,近期研究亦指出消化道微生物廣泛影響人體健康,意味著 GWAS的結果無法獨立詮釋受潛在因素共同左右的性狀。  

除了性狀的遺傳結構,族群特性也局限 GWAS 的應用範圍。因為 GWAS 透過性狀基因與顯著分子標記間的連鎖不平衡界定含有性狀基因之備選區段,所以仰賴廣布的標記和較短的連鎖長度以確保結果精準,需要較大、較均勻的族群以迴避遺傳漂變、遷移或突變等影響,然而大樣本又衍生了組內差異的問題。

即使選定妥當的性狀和檢驗族群,由於 GWAS 沒有直接定位性狀基因,呈高度相關的分子標記可能是位於非編碼區的基因或是和性狀基因連鎖但無關的基因,前者欠缺功能資訊,後者則是誤報(假陽性),皆無法反映導致性狀的生物學因素,因此不易推論基因與性狀的因果關係。

5. 參考資料


Bush and Moore (2012). Chapter 11: Genome-wide association studies. PLoS Comput Biol.

Dickson et al. (2010). Rare variants create synthetic genome-wide associations. PLoS Biol.

Gibson (2012). Rare and common variants: twenty arguments. Nat Rev Genet.



沒有留言:

張貼留言