《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 基于云计算的蛋白质折叠空间结构预测
基于云计算的蛋白质折叠空间结构预测
电子技术应用
徐胜超,杨波,王宏杰,毛明扬,蒋金陵,蒋大锐
广州华商学院 数据科学学院
摘要: 构建基于云计算的蛋白质折叠空间结构预测框架,通过数据云存储设备获取蛋白质序列原始数据,采用HDFS(Hadoop Distributed File System)分布式存储方式保存于云端。资源和队列管理器RQM(Resource Queue Management)开启云端虚拟机后,以之作为扫描节点(Sensor Node, SN),SN基于二维AB非格点模型建立最小蛋白质分子能量优化函数,采用局部搜索机制改进的量子遗传算法对其作优化求解。利用云端GPU设备处理模型训练数据,即可实现蛋白质折叠空间结构的自动化预测。实验结果表明:蛋白质序列能量势函数计算结果更小、执行效率更高、GDT-TS(Geothermal Development and Testing Tool Suite)评价指标值更大。
中圖分類號:TP393.4 文獻標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.244973
中文引用格式: 徐勝超,楊波,王宏杰,等. 基于云計算的蛋白質(zhì)折疊空間結(jié)構(gòu)預(yù)測[J]. 電子技術(shù)應(yīng)用,2024,50(8):10-16.
英文引用格式: Xu Shengchao,Yang Bo,Wang Hongjie,et al. Cloud computing based spatial structure prediction of protein folding[J]. Application of Electronic Technique,2024,50(8):10-16.
Cloud computing based spatial structure prediction of protein folding
Xu Shengchao,Yang Bo,Wang Hongjie,Mao Mingyang,Jiang Jinling,Jiang Darui
School of Data Science, Guangzhou Huashang College
Abstract: A prediction framework for the spatial structure of protein folding based on cloud computing is proposed and implemented. The original data of protein sequence is obtained through the data cloud storage unit and stored in the cloud using the HDFS distributed storage mode. After the resource and queue manager RQM (Requirements Quality Management) starts the cloud virtual machine, it is used as the Sensor Node which establishes the minimum protein molecular energy optimization function based on two-dimensional AB non-lattice model. The quantum genetic algorithm is adopted for local search mechanism to optimize its solution. The cloud GPU equipment is used to process the model training data to complete the automatic prediction of the spatial structure of protein folding. The experimental results show that the proposed approach can achieve the smaller calculation result of protein sequence energy potential function, the higher execution efficiency, and the higher GDT-TS (Geothermal Development and Testing Tool Suite) evaluation index value.
Key words : cloud computing;protein folding;spatial structure prediction;HDFS distributed storage;local search mechanism;quantum genetic algorithm

引言

蛋白質(zhì)定義為由共價鍵實現(xiàn)若干種氨基酸相連的多肽鏈,是生命活動不可缺少的重要物質(zhì)[1-2],因其高度參與,方使生命體具有活性[3]。分析蛋白質(zhì)結(jié)構(gòu)與功能對揭秘生物生命奧秘具有極其顯著的研究意義[4-6]。

蛋白質(zhì)分子具有較高的復(fù)雜度,直接通過能量函數(shù)確定蛋白質(zhì)分子能量與結(jié)構(gòu)的關(guān)系描述難以實現(xiàn)[7],因此,各種優(yōu)化算法應(yīng)運而生。謝騰宇等人[8]為了準確確定蛋白質(zhì)折疊空間結(jié)構(gòu),設(shè)計了兩步構(gòu)象空間搜索框架,該方法雖具有較好的局部搜索性能,但數(shù)據(jù)處理量很高,難以取得突出的數(shù)據(jù)處理效率。包晨等人[9]構(gòu)建的多尺度卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測模型能夠充分捕獲氨基酸序列局部以及長程特征信息,將其作為多層雙向長短期記憶網(wǎng)絡(luò)的輸入,實現(xiàn)蛋白質(zhì)折疊空間結(jié)構(gòu)的確定。徐勝超[10]提出基于云計算的蛋白質(zhì)折疊模擬計算,研究了PERM算法的運行流程和面向MapReduce的子任務(wù)劃分方式。上述方法在蛋白質(zhì)折疊空間結(jié)構(gòu)預(yù)測上是可行的,但受優(yōu)化算法以及網(wǎng)絡(luò)訓(xùn)練參數(shù)量的影響,使得蛋白質(zhì)折疊空間結(jié)構(gòu)預(yù)測計算量較高,面對龐大規(guī)模的數(shù)據(jù)處理量,如何提高算法執(zhí)行效率成為當(dāng)下急需解決的問題。

云計算技術(shù)采用虛擬化技術(shù),能高效地聚集多個物理節(jié)點并行化方式實現(xiàn)大規(guī)模數(shù)據(jù)的高效處理,在高性能科學(xué)計算領(lǐng)域得到了廣泛的認可[11-12]。因此,本文提出基于云計算的蛋白質(zhì)折疊空間結(jié)構(gòu)預(yù)測方法,本文云計算平臺的軟件在版本上比文獻[10]已經(jīng)提高了很多,在精準獲取蛋白質(zhì)構(gòu)象的同時提高算法的運行效率。


本文詳細內(nèi)容請下載:

http://www.ihrv.cn/resource/share/2000006114


作者信息:

徐勝超,楊波,王宏杰,毛明揚,蔣金陵,蔣大銳

(廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容