硅藻是一類重要的單細(xì)胞光合真核生物, 分布廣泛, 提供了地球上約20%的初級(jí)生產(chǎn)力,對整個(gè)地球生物圈意義重大,三角褐指藻?(Phaeodactylum tricornutum)?是海洋硅藻的模式生物,其基因組序列于2008年公布,但目前基因組的注釋仍很不完善。
?蛋白基因組學(xué)?(Proteogenomics)?是利用蛋白質(zhì)組學(xué)數(shù)據(jù),尤其是高精度的串聯(lián)質(zhì)譜數(shù)據(jù), 結(jié)合基因組和轉(zhuǎn)錄組數(shù)據(jù)對基因組進(jìn)行深度注釋。中國科學(xué)院水生生物研究所葛峰課題組采用蛋白基因組學(xué)的研究策略和方法,完成了模式藍(lán)細(xì)菌的基因組深度解析?(PNAS,2014,111(52):E5633-E5642)?并開發(fā)了針對原核生物的蛋白基因組學(xué)專業(yè)分析軟件GAPP(Molecular & Cellular Proteomics,?2016; 15 (11): 3529-3539)。
在上述工作基礎(chǔ)上,葛峰課題組對真核模式硅藻三角褐指藻的基因組進(jìn)行了深度解析并構(gòu)建了蛋白質(zhì)組精細(xì)圖譜,相關(guān)成果以“Genome annotation of a model diatom Phaeodactylum tricornutum using an integrated proteogenomic pipeline”為題于近日發(fā)表在Molecular Plant雜志上。
葛峰課題組通過整合基因組、轉(zhuǎn)錄組、ESTs序列等多組學(xué)數(shù)據(jù),并對數(shù)據(jù)庫進(jìn)行了縮減,得到去冗余的三角褐指藻蛋白基因組學(xué)數(shù)據(jù)庫;通過整合基于蛋白和肽段的樣品預(yù)分離、雙酶切和高分辨質(zhì)譜分析技術(shù),獲得高質(zhì)量的質(zhì)譜數(shù)據(jù);質(zhì)譜數(shù)據(jù)的鑒定整合了多種搜索引擎的結(jié)果,提高了蛋白鑒定的深度與覆蓋度;并采用更為嚴(yán)格的肽段假陽性控制策略,從而提高鑒定結(jié)果的可信度;通過開發(fā)新的算法,實(shí)現(xiàn)了真核生物中新的可變剪切體的發(fā)現(xiàn)與點(diǎn)突變基因的鑒定。
本研究精準(zhǔn)鑒定到6628個(gè)已注釋的編碼基因;對未鑒定到的已注釋基因的深入分析發(fā)現(xiàn),有1895個(gè)基因可能并不編碼蛋白;發(fā)現(xiàn)了606個(gè)新的蛋白編碼基因并校正了506個(gè)已注釋的編碼基因,其中有56個(gè)新發(fā)現(xiàn)的蛋白編碼基因,在之前的研究中被錯(cuò)誤預(yù)測為長鏈非編碼RNA(LncRNA);鑒定到 268個(gè)可能具有重要功能的微小短肽(micropeptides),21個(gè)新的可變剪切體,并修正了73個(gè)已注釋基因的可變剪切位點(diǎn)以及58個(gè)發(fā)生氨基酸突變的基因;通過將開放式與限定式檢索相結(jié)合的策略,對三角褐指藻中的翻譯后修飾進(jìn)行系統(tǒng)鑒定,發(fā)現(xiàn)了20多種不同種類的蛋白質(zhì)翻譯后修飾,這些修飾可能參與調(diào)控細(xì)胞內(nèi)眾多的生物學(xué)過程并在細(xì)胞的逆境適應(yīng)中起著重要作用。通過以上工作的完成,實(shí)現(xiàn)了三角褐指藻基因組的深度注釋和蛋白質(zhì)組精細(xì)圖譜的構(gòu)建。
此外,在以上工作的基礎(chǔ)上,本研究還建立了完整的構(gòu)建真核模式生物的蛋白質(zhì)組精細(xì)圖譜的實(shí)驗(yàn)技術(shù)和分析流程,可適用于各種已經(jīng)測序的真核生物,成為解讀真核生物基因組及其功能分析的重要工具。
該論文的第一作者是水生所楊明坤高級(jí)實(shí)驗(yàn)師,通訊作者是葛峰研究員,該研究得到了國家重點(diǎn)研發(fā)計(jì)劃 (2016YFA0501304)的資助。
轉(zhuǎn)自:BioArt植物