怎麼處理 16S rRNA 標的基因分析中長度不一的序列?

在標識基因分析中,會以引子 (primer) 鎖定目標基因兩端的保守區,以截獲其中可提供分類資訊的變異區。例如由 Caporaso et al (2012) 設計,常用於研究人體腸道微生物的 515F/806R 引子,便能擴增 16S rRNA 的 V4 變異區,獲得長度約為 253 bp 的序列(順向擴增起點座標 - 逆向擴增起點座標 +1 - 順向引子長度 - 逆向引子長度 (806 - 515 + 1 - 19 -20 = 253 bp) )。

僅憑印象判斷,可能會以為16S rRNA V4 區域兩端的保守區間距變化不大,所以引子擴增出的序列應具有相似長度,但實際上並非如此。下圖為 DIABIMMUNE 計畫,嬰兒腸道微生物 16S rRNA V4 區域的擴增結果。雖然多數的序列集中在 253 bp,但周圍仍有長度從 37 bp 到 258 bp 的序列。

這張圖中呈現的資料已經事先經過許多處理,所以不是原始資料的長度分布。但我想以此圖說明,即使是從保守區擴增出來的片段,也不會只有一種長度。

這些長度不一的序列可能是具有生物含義的正確序列,也可能是定序和建庫過程中產生的偽序列,亦或是資料處理時引進的誤差。由於長度不一有許多成因,所以資料處理的方式也因成因而異。

此外,不同的標的基因分析流程對於序列有不同的要求,所以處理這些序列的方式也因研究議題和採用的工具而異。例如,使用 Deblur(將序列降噪為 ASVs 的工具)和 UPARSE(將序列聚類為 OTUs 的工具)等要求輸入序列長度一致的演算法時,便得在資料前處理階段統一裁切樣本中的序列;但使用 DADA2(另一種將序列降噪為 ASVs 的工具)則可省略此步。

然而,無論採取何種方法,由於多數序列的長度集中在特定範圍,序列長度在 16S rRNA 分析中可以作為判斷序列可信度的依據,透過移除極端長度者能排除偽序列或汙染序列的影響。


行天宮獎學金線上面試心得

由於疫情的關係,今年改用 Cisco Webex Meetings 視訊面試。線上面試的內容其實跟現場面試類似,只不過面試者得自己安排場地,排除可能出現的技術障礙。(這次申請我採取了新的策略,但結果還沒出來,所以本文先著重在線上面試時遭遇的問題和從中學到的教訓。)

為什麼 Illumina 平台的定序品質在序列前端和末端較差?

下圖是 Miseq 平台的定序品質報告結果,本文簡介為什麼品質平均分數呈現中間高且兩端低的分布模式。

各鹼基的平均品質分數在最初月十五個鹼基長處驟升,之後隨長度遞減


行天宮獎學金面試猜題

大學的寫作課老師曾提醒我們,不要把考試和學習混為一談。學習時碰上問題要追根究柢,但考試時面對問題不要鑽牛角尖。考場上決勝負的關鍵不是思維能力,而是辨識題型、回憶題庫、組織答覆的反應力。這項能力仰賴平時積累,只有在赴考前磨練過各種題目,才有機會在考場上當機立斷。

這份清單整理了他人分享的求職、獎學金和升學面試題目,還有我想質問自己的問題。我想,除了準備面試,這些問題也能讓我好好思考自己究竟離目標有多遠。

以梯度圖實踐三項連續變數的資料視覺化

本文簡介怎麼用 ggplot2 套件以下圖的方式表示三項連續變數關係。

Jiao 利用這三張圖展示了林木周圍不同深度和半徑的土壤微生物多樣性變化。左:細菌,中:古菌,右:真菌。Jiao et al. (2017). Soil microbiomes with distinct assemblies through vertical soil profiles drive the cycling of multiple nutrients in reforested ecosystems. Microbiome.

Single nucleotide polymorphism (SNPs)

Single nucleotide polymorphism (SNP) 是族群中,DNA上某個位置核甘酸的多樣性。以古典遺傳學的概念解釋的話,SNPs 就相當於 locus 落在單一核甘酸上,且只有 ATCG 四種表現型的等位基因。 (A site in the genome where individual members of a species differ in a single base pair)

點突變和SNP的差異


點突變(point mutaion)導致族群基因歧異,經演化篩選後仍保留至今就成了 SNPs。所以點突變是分子生物概念,SNPs 則是族群遺傳學概念:點突變是偶發現象,SNPs 則是穩定的現象。若點突變的結果沒有在族群中擴散以致滅絕,那麼此變異僅是偶發現象,不足稱為SNPs。應用時多半採取該突變於族群中的比率區分 SNPs 和點突變。

SNPs 的特性

  • DNA序列差異(長序列差異、短序列差異、單核甘酸差異)中最普遍者。
  • 世代間變異率低,相對穩定
  • 表現型簡單,利於篩選分類

Haplotype


染色體上能穩定不變並代代遺傳的一批 SNPs。其應用價值在於,如果能界定出基因上 haplotype 的區段,研究者就不須檢驗所有 SNPs,只要檢驗當中代表性的 tag SNPs 即可得知其餘在同一 haplotype 的 SNPs,能降低研究成本。 (Haplotypes are combinations of gene variants, or SNPs, that are likely to be inherited together within the same chromosomal region.)

HapMap (國際人類基因體型圖譜)


Hapmap 是在五個國家的國際合作下,進行染色體的單體型圖譜製作計畫,計畫於 2002 年 10 月於美國華盛頓舉行討論會,決定由各國共同分擔,其中有日、美、英、加、中五國,計有十一個研究中心參與計畫。
  • 選取的歐洲白人、日本人與漢族之間的等位基因有相當的差異,但日本人與漢族相當相似。
  • 因 DNA 修復、複製……等的演化讓基因高度保守,種族之間有很少的差異。但如人體免疫系統基因……等,及受環境因素、感染症等密切影響的基因多型性,在種族之間有較大的差異。
  • 在人類基因體裡發生的同源染色體重組,並不是均勻分布的,我們明確的知道,有易發生重組的熱點 (hot spot) 存在,90% 全基因體中僅發生重組的約 25%。
  • 如果要分析整個基因體,全基因體(約 95%)的覆蓋所需要的 SNPs 數量:亞洲、西方人約 25 萬個,非洲人約 50 萬個
  • 單體型 (haplotype block) 的大小,亞洲人平均約 13kb,西方人約 16kb,非洲人約 7kb
  • 發現了許多超過200萬鹼基對的大型單體型的存在,這些是以多數個存在。
  • 種族之間有許多頻率顯著不同的 SNPs。其中之一是決定耳垢類型的基因。這是由於存在於特定基因區域裡的選擇壓力。
  • 更廣泛地確認出缺失、重複等的結構多型性。
  • 存在基因的區域與不存在基因的區域相比,存在基因的區域重組率較低。

全基因體關聯分析簡介(Genome-wide association studies)

全基因體關聯分析 (Genome-wide association studies, GWAS) 是透過比較性狀組和控制組的基因差異來揭示性狀與基因的關係。具體的方式是從遍布基因體的分子標記(例如:SNPs、RFLPs、STR)中篩選出與疾病高度相關者,基於其與致病基因的連鎖不平衡,獲得可能涵蓋致病基因的基因片段供後續分析。

Nat Rev Microbiol.:生態學理論在微生物生態學扮演的角色



微生物生態學需要用理論統整新科技產生的海量資訊,建立取代經驗(empiricism and intuition)的預測模型,以發揮其應用價值。

科技進步是雙面刃,雖然 16s rRNA 擴增定序、全基因體分析、全轉錄體分析等高通量手法能補足以培養為基礎的方法之不足,然而得出的大量數據有時反而迷惑了研究者。因此作者認為目前阻礙微生物生態學進步的關鍵不在於科技瓶頸,而是缺乏理論框架解讀資料。

作者說明借鑑既有的動植物生態學理論是最佳且可行的方式,一方面可以用以統整資料,另一方面也能在微生物界檢驗既有理論,甚至能從快速生長、大生物量、無性繁殖的獨特群集屬性中發展出新的理論。建立理論後,決策者就能減少依賴應用範圍侷限的經驗和直覺,可以利用理論預測現象並提出解決辦法。

此文一方面論證應用既有生態理論的必要,另一方面也指出可能的研究方向和困難。可以用於答辯「為何要應用生態理論」或是思考研究題目。文中所提的可應用生態學理論的研究方向可分為三種:
  • 群集生態學:群集組成內容、群集多樣性與環境、能量、時間的關聯
  • 行為生態學:物種生殖策略、競爭策略
  • 時間關聯:活動力變化、空間分布
美中不足是沒有提到生態交互作用網路,需要其他文獻補充。


Curr Opin Biotechnol.:整合微型化全細胞活菌感測器於可實際運用的自動化裝置

雖然是針對偵測環境汙染的生物感測器,但實際上是在說明任何生物感測器都該注意的地方。


全細胞生物感測器(biosensor)是以微生物偵測分子,轉換為電子元件可接收的訊號後,再由電子元件分析以及統整供使用者查閱的裝置。在環境污染的情境下有兩種發展方向,首先是定期定點蒐集並分析樣本,因為採用更龐大複雜的器械,所以可以取得較精準的資料。然而因為取樣分析的手續較繁複,因此不易得到即時的資訊。另一方面,可以壓縮分析的時間和範圍,濃縮生物感測器的體積到容許裝載在可攜式平台,即時監測周遭環境。作者回顧可攜式平台的現況、發展與限制。

生物感測器的先天性限制是對於各類目標分子的偵測專一性不一,有些反應迴路僅能監測特定種類分子而非特定分子,所以偵測結果要和已知結果校正;而且生物感測器必須解決背景雜訊問題,這些問題都要在不影響感測器應用範圍的條件下解決(例如最好不要增加體積或是操作手續)。

要解決訊號的問題又有兩種策略,第一種是增加訊號強度,第二種是降低背景值。增加訊號強度可以藉由調整反應類型或是增加反應時間辦到,然而如果增加反應時間就會降低生物感測器的即時監測能力。其中一項解決辦法就是改變生物反應類型,目前生物感測器多半採取基因迴路控制來反應外界變化,然而這需要等候基因作用,於是研究者提出了替代方案,以偵測化學反應取代偵測基因表現,例如偵測細胞運動、細胞內胞器位置差異、離子濃度等方式。

降低背景值可以安裝校正參照組解決,不過這也會增加體積,或是可以發展連續測試以解決此問題。


分析到最後還是不能只靠 QIIME2

目前, QIIME2 和 mothur 等終端工具能支持16S rRNA 基因分析的許多步驟,例如原始序列處理和多樣性分析;而 MicrobiomeAnalyst 和 MG-RAST 等線上分析平台甚至不需要程式功底,只要依照指示輸入資料,便能產出附帶統計檢定的美化圖表。

我剛開始學微生物分析的時候認為,解決研究問題比排除技術障礙重要,與其陷入程式與演算法的泥沼,不如先用套裝軟體得到初步結果,等到有新想法時再用其他語言實踐。然而在嘗試各種套裝軟體之後發現,分析到最後還是得靠 R 或 Python 等語言才能滿足多變的分析需求。

以 QIIME2 為例,它的特性是整合了標的基因分析的資料前處理步驟,並納入多樣的分析模組供使用者挑選。這些功能對採取標準作業流程的定序公司,或是能產出數據的實驗團隊應該足夠,但不適合基於公開資料庫的純生物資訊研究,原因如下:
  1. 由於 QIIME2 提供的多樣性分析、排序分析和差異豐度分析是總基因體學分析的基本要素(參考:一文讀懂宏基因組分析套路),所以公開數據的提供者通常已在自己的文章中紀錄這些分析的結果。是以,只用 QIIME2 提供的功能可能沒辦法從公開數據中找到足供發表的新發現。
  1. 為了實踐分析模組化和研究重複性,QIIME2 犧牲了操作的彈性,例如把所有分析檔案封裝在特有的「.qza/.qzv」檔,也限制了輸出入的文件格式。然而在探索階段,常要測試不同分組與特定生態指標的關係,但 QIIME2 沒有資料清理的套件,所以每次分析都要重複「修改實驗設計表、修改指令、執行 QIIME2 套件、輸出視覺化檔案、上傳 QIIME2 VIEW 察看結果」等繁瑣的步驟。即使用腳本整合各個環節,分析過程中產出的大量檔案也很讓人頭痛。
  1. 此外,QIIME2 可用的圖表有限而且無法修改美學映射和視覺屬性,所以即使內建圖表很精緻,還是得在 R 或 Python 尋找替代方案。
綜上所述,我認為這類套裝軟體適合處理標準化的分析流程 ,但不適合探索式資料分析。換句話說,如果覺得跑一遍分析就足以取得可供發表的結果,那便適合使用套裝軟體。反之,如果得多方嘗試各種分析手段才有機會找到有價值的資訊,那麼使用套裝軟體不僅費時費工,還可能沒有斬獲。

Back to top