本方案适用于二代、三代平台得到的测序数据分析;

目前主流三代测序技术平台:
pacbio测序
牛津纳米孔测序
GeneCare测序

二代主流测序技术:
Illumina solexa合成测序;
Roche454焦磷酸测序平台
ABI SOLiD连续发测序;
BGI纳米球测序(即华大基因公司测序技术平台)

自从三代测序广泛应用于市场,作为新生代生物学大行业的一员,不懂一点点生物信息学如何能在圈内混下去??

测序公司提供的结果很多,我们最关心的可能包括:

1)微生物群落种类及其比例(可能需要二次计算)信息;

2)样品中测序得到的所有可及的基因序列信息(提供的往往是序列组 XXXX.fa格式)及其功能注释表

        这其中,每个样本得到的序列数量,少则几万条,多则上百万条;几十万条是很常见的;注释表一般是XXXX.xls格式;

3)与“2)”对应的氨基酸序列(即多肽、蛋白序列),编号与核酸序列的对应关系(因为去重等分析,不一定是连续编号;有时候也可能不能相互对应);

那么,我们如何区挖掘对我们来说有用的序列,也就是我们的 靶标序列??

这也许是困扰很多人的共性问题。

我在这提供一个基于个人经验的方案仅供参考:

第一种方案,基于原始功能注释的特定功能基因挖掘:

        特点:所有人通用,皆可使用;缺点:没有细分,对酶功能的注释可能不太准确,(不要求也便无所谓);

1)基于CARD、CAZy、eggNOG、KEGG分析得到一个数据列范围,比如甘露聚糖酶【本人近期在挖掘的一个基因,当前是在功能分析阶段】

        那么这些注释是否准确可信?是否唯一(是否具有创新性?)?在序列上发表的特定功能基因有多大差别?

        这些问题将决定着我们选择的基因或蛋白序列,是否能够具有相应的功能,是否可以具有创新性而不是简单重复他人的步子;

2)怎么做?怎么分析,怎么筛选怎么排除?

工具准备:

1)最好是有一个高配电脑、服务器级别的更好,能够借用企业、省市级的计算中心进行运算更好;

2)软件平台:Excel(或WPS)基本的吧,Emeditor基本的吧;

        为了方便数据的处理,一个纯Linux系统或Linux子系统(如WSL),这算是基本的吧;
WSL,即 windows subsystem Linux;安装方法不做介绍,大家万仙过海,各显神通吧;

3)如果仅仅使用Excel也能做一点工作,前提是你可以打开CARD、CAZy、eggNOG、KEGG结果中准备的大型.xls格式文件(完整打开,不是截取,也不是部分打开哈);完了做筛选(功能基因初筛);不同注释的结果文件之间可以进行数据匹配——可借助excel中的vlookup函数【这个就有点小小高级了哈】,小数据量时很好用(当数据量巨大时,可能载入和计算会成为问题);

        这时候,emeditor就能大显神威了,可方便地进行千万条序列级别、数据之间的筛选操作(能不能相互匹配这个,我还没研究出来);用它筛选出来了特定功能的序列编号之后,就可以进行不同注释结果之间的比较了。

        这样,就能够得到一个共同的交集;也即,符合你的特定需求的一个子序列库;

        这一波操作下来,拿着这样一个小型的序列库,进行下游分析,就方便多了;

4)序列提取

        对于XXX.fa文件,动则几百MB大小,Excel提取是有些吃不消的;

        借助emeditor等专业软件是可以的,只是单纯的emeditor提取,可能会比较费事;这种情况下,可能就需要结合一些编程工具,或是正则表达式,python,java之类;大家各显神通吧;

        个人提取过程,是结合了CLC genomics trial version 【至于如何trial and trial again,这里默认大家都懂的哈】和一个键盘记录程序(由于CLC本身并不支持特定序列表文件、或是具备特定功能的序列提取功能),以便批量从宏基因组测序//三代测序的巨大序列文件中,提取得到特定编号、或是具备特定功能、特定结构域的序列;

        比如你要从100万条的序列文件中提取其中符合你要求的20 000条序列,用大概2018年左右的高配电脑,在下班前设置好,大概到第二天早上上班时,就能够得到需要的结果;导出,保存即可。

        万物皆可淘宝/咸鱼,能人异士很多,在万千的ID中,去伪存真,找到那个阑珊处的the right one,还是要好好发掘,能够节省很多时间;

////||||\\\\某鱼         “ Interpro Pfam蛋白功能重批注、注释 ”
////||||\\\\某鱼        “ 蛋白表达亚细胞定位分析;全流程 ”
////||||\\\\某鱼         “病毒蛋白亚细胞定位 ”
////||||\\\\某鱼         “Enzyme function prediciton using constrative learning 可开发P ”
||||\\\\某鱼         “signalp6 分泌信号肽预测 可开发P ”
////||||\\\\某鱼         “全基因组间序列比对,找差异表达序列 ”
////||||\\\\某鱼         “ 序列进化树作图,系统进化树作图; ”
////||||\\\\某鱼          “ pacbio测序数据分析,功能酶挖掘,可开发P ”
////||||\\\\某鱼        CataPro蛋白酶活性预测 可批量;
////||||\\\\ ProtComp 细菌、真菌蛋白亚细胞定位分析
        --- 可批量操作基因组级,细菌基因组大约含有3000条序列,真菌大约4000多条,部分含有质粒的可能更多;
        ---- 对于数量大于1 0000 条序列的分析,需单独协商,毕竟,这并不仅仅是数量的增加,分析过程;处理数据的过程;难度增加,并不是线性关系;


————————————————

                            

第二种方案,基于蛋白序列的功能基因挖掘(核酸——蛋白,对应着,用哪个都行对吧?)

        这个需要一定的技术基础;

大致就是,对于第一方案得到的初筛结果,或者是妥妥的纯原始蛋白序列,挑选处对应的蛋白序列,挑选思路更上面是一样的。

        得到序列之后,批量进行Interpro Pfam蛋白功能重批注、signalP6信号肽预测、blastp、CLEAN蛋白酶功能分析等等;

        这一波操作下来,对于大部分人来说,你需要的target序列,已经是呼之欲出了;至少是有了一个小范围的序列子库;接下来,是进行序列库再分析,还是二次、三次筛选,还是直接实验验证,就都是小case了;

简单解释一下:

1)Interpro Pfam蛋白功能批注,应是根据蛋白序列的功能域相似性做的工具;有在线版,大家可以尝试(但往往在线版会有一些限制,比如提交的序列数不能超过多少条,比如分析时间过了多少分钟会 超时失败之类)请大家根据需求自行尝试;

https://ftp.ebi.ac.uk/pub/databases/Pfam/releases/
https://github.com/aziele/pfam_scan

        Pfam domain search,需要Linux环境,WSL就可以,各位可以在windows系统下进行安装,过程国内网站很多了;

        这个是pfam库,当前2025.01.再次测试时,发现v37版本的Pfam批注库已经上线,同时相关接口API的软件也可线下下载使用;批注结果与线上批注结果一致;

2) 分泌信号肽预测

        分泌信号肽预测工具,网上资源很多了;个人是比较熟悉和推荐DTU health tech提供的信号肽分析服务(因为他们总是在更新嘛,目前是到了signalP6),应当是当前学界最新最准确的版本了吧??

https://services.healthtech.dtu.dk/services/SignalP-6.0/

        怎么得到预测结果,我相信大家都可以无师自通哈;

        全基因组级的预测分析也可以找我的哈000000

3)blastp,即对应NCBI网站上面的 protein-protein blast,原理推测应该是结合蛋白序列相似性

        对于几千条、几万条序列,还是可以轻松拿捏的;

        我总觉得,除了关键结构域序列比对、motif特征匹配之外,这个蛋白序列的直接比对,是预测自己手里蛋白序列可能存在功能最靠靠的手段之一……;

4)CLEAN酶功能注释——这个是2023年science发表文章发布的工具,也是自评为当前最准确的工具;其对蛋白酶功能预测的准确度达到80%~100%,这不就完美了嘛?

https://github.com/tttianhao/CLEAN

        提示一点哈,这个工具比较占用硬盘空间,也需要高配电脑的支持,比如原作者提到平台运行内存需要>12 G;而个人安装后wsl占用空间足足增加了12G-13G,这个对于现在的大家来说,应该都不是太大问题;随便一台4K以上的笔记本,基本上都可以满足这样的需求;当然如果你要分析巨量数据的话,个人建议最好还是在台式机上面跑;毕竟台式机较之笔记本,还是会皮实很多,至少在散热方面,台式机有其天然优势;

        对于2万以内的序列数,个人的经验和建议是,为了挖掘特定的酶功能序列(编号),这些工具都走一遍,这样就可以对序列注释有一个清醒的认识;基本能够确定那些功能有挖掘必要,那些没有;那些序列他人已经发觉过了,那些还没有;那些序列编码的产物大概率可溶,那些基本没有机会;

        上述经验对于酶基因的挖掘尤其适用;

        比如您想要挖掘小分子,如抗菌肽/细菌素;更小分子如胰岛素基因、抗生素编码相关基因,上面这些可能还仅仅只是基础、却远远不够;

        不过,还是有不少可以替代的工具,比如:
DNAMAN (V9.0)、
MAFFT (https://github.com/Schaudge/MAFFT)
MUMmer(https://github.com/mummer4/mummer
        等多种软件,就提供了多种可能性;
这就方便了大家很多了;

        比如知道一个一致靶标序列,长度为25-30的话,通过挑选特定长度的序列,如氨基酸序列长度25-30的,与你自己的靶标序列进行比对,就能够挖掘出来序列相似度很高的 “潜在基因、潜在蛋白”序列;

        以上,先这么多吧;毕竟是免费分享,大家时间都是有限不是?

        以后心情好了,时间宽裕了再来分享 以挖掘部分功能基因,表达产物功能验证的情况。

        大家有特殊需求的,也可私信联系交流。

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐