《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模拟设计 > 设计应用 > 一种基于Yarn云平台的基因启发式多序列比对算法
一种基于Yarn云平台的基因启发式多序列比对算法
电子技术应用
杨波1,徐胜超1,周继鹏2,王志坚1
1.广州华商学院 人工智能学院;2.暨南大学 信息科学技术学院
摘要: 提出一种基于Yarn云平台的基因启发式多序列比对算法。建立核酸替换等价矩阵作为基因启发式数学模型,构建Yarn云平台逻辑架构,通过对基因数据预处理、基因数据存储、基因序列比对、基因数据管理、基因数据分析等步骤,对数据分类保存,划分错误率较高的长序列,得到多个较短的基因片段。对不同片段实施定位,将其中的变长种子生成,进行骨架构建和孔隙填补,可以实现基因启发式多序列比对。结果表明,设计的算法在不同数据集下处理时间缩短,多序列比对SP(Sum of Pairs)的分值较高,实验验证了该多序列比对方法具有很好的应用价值。
中圖分類號(hào):TP393.4 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245448
中文引用格式: 楊波,徐勝超,周繼鵬,等. 一種基于Yarn云平臺(tái)的基因啟發(fā)式多序列比對(duì)算法[J]. 電子技術(shù)應(yīng)用,2024,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,Zhou Jipeng,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,50(11):16-22.
Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform
Yang Bo1,Xu Shengchao1,Zhou Jipeng2,Wang Zhijian1
1.School of Artificial Intelligent, Guangzhou Huashang College; 2.School of Information Science and Technology, Jinan University
Abstract: This paper proposes a gene heuristic multi sequence alignment algorithm based on the Yarn cloud platform. Establish a nucleic acid replacement equivalence matrix as a genetic heuristic mathematical model, construct the Yarn cloud platform logical architecture, and classify and save the data through steps such as gene data preprocessing, gene data storage, gene data alignment, gene data management, and gene data analysis. Divide long sequences with high error rates, and obtain multiple shorter gene fragments. Implementing localization on different fragments, generating variable length seeds, constructing skeletons and filling gaps, can achieve gene heuristic multi sequence alignment. The results show that the designed algorithm reduces processing time on different datasets, and the sum of pairs (SP) score for multi sequence alignment is higher. This experiment verifies the practicality of the multi sequence alignment method.
Key words : biological data;parallel computing;distributed computing architecture;distributed database system;big data processing platform

引言

生物序列對(duì)比是生物信息學(xué)領(lǐng)域的核心內(nèi)容。由于不同物種的基因序列長度不同,大量的重復(fù)序列高頻率出現(xiàn)在每個(gè)物種的基因組中,因此每個(gè)物種都有一個(gè)多序列比對(duì)問題。最重要的工作是建立基因數(shù)據(jù)庫,在基因數(shù)據(jù)庫的建立過程中,對(duì)于基因啟發(fā)式的多序列比對(duì)研究是重中之重。在比對(duì)的過程中,通過比較不同物種或同一物種不同基因的DNA序列,基因啟發(fā)式多序列比對(duì)算法有助于理解基因的進(jìn)化歷史、功能和結(jié)構(gòu),通過比對(duì)多個(gè)基因序列的相似性和差異性,可以推斷出這些物種之間的進(jìn)化關(guān)系,從而了解物種之間是否有親緣關(guān)系和演化到目前為止的歷程。基因啟發(fā)式多序列比對(duì)算法可以找出多個(gè)基因序列之間的共同結(jié)構(gòu)和功能區(qū)域,這有助于預(yù)測新的基因功能,為藥物設(shè)計(jì)和疾病治療提供重要信息??傊?,基因啟發(fā)式多序列對(duì)比算法可以揭示基因的多種特點(diǎn)和規(guī)律,為生物學(xué)、醫(yī)學(xué)和農(nóng)業(yè)等領(lǐng)域的研究提供重要支持。

國內(nèi)外眾多學(xué)者都對(duì)基因比對(duì)算法有著深入研究。文獻(xiàn)[1]提出了一種基于序列長度的高效多序列比對(duì)算法,該算法首先根據(jù)基因序列的長度將其劃分為若干段,然后對(duì)每個(gè)分段排序,并與原始序列比對(duì)。文獻(xiàn)[2]介紹了一種基于時(shí)間窗的DNA序列分段方法,該方法的核心步驟是將DNA序列依據(jù)其長度切割成多個(gè)區(qū)間,并對(duì)這些區(qū)間逐一比較分析。而文獻(xiàn)[3]則側(cè)重于基因序列比對(duì)原理的探討,通過引入Logistic映射對(duì)混沌遺傳算法的優(yōu)化,有效提升了算法的收斂速度。在算法設(shè)計(jì)中,它明確了基因序列的遺傳編碼方式,并計(jì)算了相應(yīng)的適應(yīng)度值,同時(shí)考慮了堿基缺失情況的影響。此外,文中還設(shè)計(jì)了混沌遺傳算子,實(shí)施了混沌變異操作,從而實(shí)現(xiàn)了基因序列的比對(duì)。文獻(xiàn)[4]則提出了一種基于啟發(fā)式策略的多序列比對(duì)算法。該算法首先利用啟發(fā)式策略對(duì)多個(gè)基因排序,然后將所有排序后的結(jié)果比對(duì)。然而,DNA序列比對(duì)算法在實(shí)踐中也面臨一些挑戰(zhàn)。由于DNA序列通常較長且序列間重疊率高,傳統(tǒng)的比對(duì)算法往往耗時(shí)較長。同時(shí),由于DNA序列的穩(wěn)定性以及比對(duì)結(jié)果的單一性,基因數(shù)據(jù)信息在比對(duì)過程中損失較大,這在一定程度上影響了比對(duì)的準(zhǔn)確性。因此,如何快速且準(zhǔn)確地完成多個(gè)基因的比對(duì),成為當(dāng)前亟待解決的問題[5-8]。

云平臺(tái)能夠共享龐大的計(jì)算資源,并以服務(wù)的形式提供給用戶,讓用戶能夠按需靈活使用。Yarn云平臺(tái)是云計(jì)算Apache Hadoop2.0生態(tài)系統(tǒng)中的一個(gè)關(guān)鍵組件,是用于資源管理和作業(yè)調(diào)度的分布式計(jì)算框架。利用Yarn在云環(huán)境中提供資源分配、作業(yè)調(diào)度和容錯(cuò)能力,使用戶能夠高效地利用云計(jì)算提供的計(jì)算能力。本文提出了一種基于Yarn云平臺(tái)的基因啟發(fā)式多序列比對(duì)算法,旨在提高比對(duì)效率和準(zhǔn)確性。結(jié)合生物知識(shí)建立基因啟發(fā)式數(shù)學(xué)模型,構(gòu)建Yarn云平臺(tái)邏輯架構(gòu),針對(duì)處理后的數(shù)據(jù)并行計(jì)算,提高處理效率,利用HBase數(shù)據(jù)庫和基因段編碼模塊對(duì)數(shù)據(jù)的存儲(chǔ)和處理,將序列比對(duì)的結(jié)果展示在數(shù)據(jù)庫中。通過實(shí)驗(yàn)結(jié)果可知,本文的方法運(yùn)行時(shí)間較短且SP分值高于0.9,具有良好的應(yīng)用性能。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.ihrv.cn/resource/share/2000006204


作者信息:

楊波1,徐勝超1,周繼鵬2,王志堅(jiān)1

(1.廣州華商學(xué)院 人工智能學(xué)院, 廣東  廣州511300;

2.暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院, 廣東 廣州510632)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。