在癌癥中,癌細(xì)胞會(huì)失去控制,它們快速增殖并轉(zhuǎn)移到身體的其他組織,破壞器官,最終讓人失去生命。這種不受控制的生長(zhǎng)通常是由癌基因中的DNA突變累積所致,例如控制細(xì)胞發(fā)育的這些基因中的突變。但是有些癌癥中只有很少的突變基因,這意味著在這些情況下,還有其他原因?qū)е掳┌Y的出現(xiàn)一種新的算法可以預(yù)測(cè)哪些基因會(huì)導(dǎo)致癌癥,即使它們的DNA序列沒(méi)有改變也是如此。研究團(tuán)隊(duì)結(jié)合了多種數(shù)據(jù),并使用人工智能(AI)對(duì)其進(jìn)行了分析,成功鑒定出165個(gè)新型癌基因。 為個(gè)性化醫(yī)學(xué)中靶向癌癥治療和開(kāi)發(fā)生物標(biāo)記物開(kāi)辟了新的前景。
研究團(tuán)開(kāi)發(fā)了一種基于人工智能(AI)的名為“EMOGI”的新算法,成功識(shí)別了165個(gè)先前未知的癌基因,這些基因并不一定要發(fā)生突變才致癌,有些是通過(guò)表達(dá)失調(diào)致癌。所有這些新發(fā)現(xiàn)的癌基因都與已知的著名癌基因有緊密相互作用。而且細(xì)胞實(shí)驗(yàn)證實(shí)它們對(duì)腫瘤細(xì)胞的生存至關(guān)重要。 研究團(tuán)隊(duì)開(kāi)發(fā)了一款基于圖卷積網(wǎng)絡(luò)(GCN)的機(jī)器學(xué)習(xí)算法——EMOGI(Explainable Multiomics Graph Integration)。該算法集成了從患者樣本中生成的數(shù)以萬(wàn)計(jì)的數(shù)據(jù)集,這些數(shù)據(jù)集包括突變的DNA序列數(shù)據(jù)、DNA甲基化、單個(gè)基因活性以及細(xì)胞通路中蛋白質(zhì)相互作用信息。在這些數(shù)據(jù)中,深度學(xué)習(xí)算法可檢測(cè)導(dǎo)致癌癥發(fā)展的模式和分子原理。
與傳統(tǒng)的癌癥治療方法(例如化療、放療)不同,個(gè)性化治療方法可根據(jù)癌癥類型精確調(diào)整治療方法和藥物,目的是為每位患者選擇最佳療法,即副作用最少的最有效療法。此外,還能根據(jù)患者的分子特征在早期階段識(shí)別出癌癥。只有知道了導(dǎo)致疾病的原因,才能夠有效地消滅或糾正它們。這也是為什么我們要盡可能多的確定誘發(fā)癌癥的機(jī)制。
到目前為止,大多數(shù)癌癥研究都集中在基因序列突變上,實(shí)際上,近幾年來(lái)的研究表明,表觀遺傳或基因表達(dá)失調(diào)也可能導(dǎo)致癌癥。
這也是為什么研究團(tuán)隊(duì)將基因突變序列數(shù)據(jù)和DNA甲基化、基因表達(dá)活性、蛋白相互作用等信息整合整合到一起的原因,首先,研究團(tuán)隊(duì)證實(shí)突變或基因組片段的倍增確實(shí)是癌癥的主要驅(qū)動(dòng)力。然后,研究團(tuán)隊(duì)進(jìn)一步找出與癌癥驅(qū)動(dòng)基因不直接相關(guān)的候選基因。
蛋白質(zhì)和基因的相互作用可以映射成一個(gè)數(shù)學(xué)網(wǎng)絡(luò),也就是一個(gè)圖形。可以將其想像成一個(gè)鐵路網(wǎng)絡(luò)。每個(gè)站點(diǎn)對(duì)應(yīng)一個(gè)蛋白質(zhì)或基因,它們之間的每個(gè)相互作用就像是火車路線。
研究團(tuán)隊(duì)借助人工智能算法,分析了16種不同癌癥類型的成千上萬(wàn)種不同的相互作用網(wǎng)絡(luò)圖。
通過(guò)這一算法,研究團(tuán)隊(duì)找到了那些在癌癥中并沒(méi)有發(fā)生突變的基因,但是它們能夠調(diào)控能量供應(yīng),因此與癌癥發(fā)展密切相關(guān)。這些基因受到甲基化等方式的影響而表達(dá)失調(diào),從而影響癌癥發(fā)展。
這些基因是有潛力的癌癥治療靶標(biāo),但是由于它們隱藏很深,只有借助生物信息學(xué)和最新的人工智能算法,才能發(fā)現(xiàn)它們。研究團(tuán)隊(duì)還發(fā)現(xiàn),數(shù)據(jù)中隱藏了許多有趣的細(xì)節(jié)。我們看到的模式取決于特定的癌癥和組織,研究團(tuán)隊(duì)認(rèn)為這是腫瘤由不同器官中的不同分子機(jī)制觸發(fā)的證據(jù)。
最后,研究團(tuán)隊(duì)強(qiáng)調(diào),EMOGI算法不僅能夠用于癌癥研究。從理論上講,它可以用來(lái)整合各種生物數(shù)據(jù)集并從中找到模式,因此可用于其他基因發(fā)揮重要作用的復(fù)雜疾病,例如糖尿病等代謝性疾病等。