差異表達(dá)(differentially expressed,DE)基因的檢測(cè)和評(píng)估一直是單細(xì)胞 scRNA-seq 數(shù)據(jù)分析中關(guān)鍵的一步,準(zhǔn)確可靠的 DE 基因結(jié)果對(duì)下游分析具有深遠(yuǎn)影響。scCODE 算法提出全新的單細(xì)胞 scRNA-seq 數(shù)據(jù)一站式個(gè)性化 DE 基因分析系統(tǒng),通過對(duì)單細(xì)胞數(shù)據(jù)多次建模分析,自動(dòng)評(píng)估優(yōu)化分析結(jié)果,為科研人員深入解析單細(xì)胞數(shù)據(jù)提供準(zhǔn)確高效的新工具。

2022 年 5 月 23 日, 復(fù)旦大學(xué)郝潔 / 鄒欣團(tuán)隊(duì)與辰山植物園陳可 組在 Briefings in Bioinformatics(計(jì)算生物學(xué)一區(qū),IF=11.6)上發(fā)表了題為:”scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data”的研究論文。該研究評(píng)估 40 余種 DE 分析策略,基于自主研發(fā)的,無需先驗(yàn)信息的兩個(gè)新的評(píng)估參數(shù),開發(fā)了 scRNA-seq 數(shù)據(jù)個(gè)性化 DE 基因篩選系統(tǒng)平臺(tái)——scCODE(圖 1)。
圖 1:Evaluation of DE gene detection performance and schematic of scCODE.
在以往的研究中,過濾低表達(dá)的基因被認(rèn)為有助于 DE 分析,但其真正影響尚未得知,基因過濾也無統(tǒng)一標(biāo)準(zhǔn)。本研究第一部分從 FPR、TPR 和 AUROC 等評(píng)估標(biāo)準(zhǔn)分析了不同基因過濾方法對(duì) DE 結(jié)果的影響。結(jié)果發(fā)現(xiàn),恰當(dāng)?shù)幕蜻^濾和 DE 方法的組合可以得到更好的 DE 結(jié)果,而不恰當(dāng)?shù)慕M合卻會(huì)起到相反的效果。當(dāng) DE 分析策略所推測(cè)的 DE 基因表達(dá)分布與實(shí)際的基因表達(dá)分布更接近時(shí),才能得到更準(zhǔn)確的 DE 基因結(jié)果(圖 2)。
圖 2:Investigation of DE gene distribution detected by different combinations of methods, based on simulated-EMTAB8077_heart_kidney.
實(shí)際應(yīng)用中,探索未知領(lǐng)域的 scRNA-seq 樣本,其概率分布不同,且缺乏先驗(yàn)知識(shí),無法通過已有的評(píng)估標(biāo)準(zhǔn)如 AUROC 去挑選好的分析方法。在本研究中,研究者設(shè)計(jì)了新的評(píng)估參數(shù) CDO 和 AUCC,可以在無需先驗(yàn)知識(shí)的創(chuàng)新性研究中,獲得針對(duì)不同數(shù)據(jù)的分析策略,更高的真正例率(TPR)和很低的假陽(yáng)性率(FPR)。
在對(duì)小鼠肺癌發(fā)育 CD4+ T 細(xì)胞分析時(shí),好的分析策略檢測(cè)到的 DE 基因可以清楚地區(qū)分兩組細(xì)胞,并且隨著使用更多基因,細(xì)胞聚類的更加清晰。然而,差的分析策略的結(jié)果并非如此,未激活的 CD4+ T 細(xì)胞仍與活化的 CD4+ T 細(xì)胞聚集在一起(圖 3)。同時(shí)在小鼠心臟和腎臟內(nèi)皮細(xì)胞以及人類肺癌 macrophage m1 m2 數(shù)據(jù)分析中也得到了類似的結(jié)果。
圖 3:scCODE validated on real scRNA-seq data comparing activated CD4+ T cells with na?ve cells.
該平臺(tái)已經(jīng)發(fā)布于 GitHub(https://github.com/XZouProjects/scCODE)。目前已收到多個(gè)用戶反饋良好。論文的通訊作者為復(fù)旦大學(xué)附屬中山醫(yī)院郝潔研究員,復(fù)旦大學(xué)附屬金山醫(yī)院鄒欣副研究員和辰山植物園陳可副研究員。上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院 2019 級(jí)碩士鄒佳偉為論文第一作者。
該研究得到了國(guó)家自然科學(xué)基金(82170045,31800253),上海交通大學(xué)醫(yī)學(xué)院高水平地方高校創(chuàng)新團(tuán)隊(duì) (SSMU-ZLCX20180502) 上海市綠化和市容管理局科研專項(xiàng)(G222410)等項(xiàng)目支持。
全文鏈接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac180/6590434