模体发现问题

2019-04-13 12:58发布

1.模体发现问题     DNA或蛋白质中具有特定功能且保守的序列片段称为 模体(也是结合位点)。     由于突变存在,不一定完全保守, 故 实际片段 称为 模体实例。     这里研究自动模体发现问题:从一组相关的DNA序列集合中将模体和每个序列中的模体实例找出。 2.问题描述      给定一组含有tDNA序列的集合S={sl,s2, …,st},每序列的长度为n,每条序列si都包含有长度为l的模体m的模体实例m’,在此前提下,寻找出模体m和模体实例集M 3.模体表示方法     位置权重矩阵(Weight Matrix)方法;     使用一个用概率表示权重的矩阵描述DNA序列中模体,大小为4×l。 一致(同源)序列(Consensus Sequence)方法。 将序列中每列出现最多的字符提取出来,构成碱基序列 4.植入(l,d)模体问题   l为模体长度,d为模体与模体实例最大海明距离。(假设每条序列都有且仅有一条模体实例)   定义l-mer为一个序列的 l长度子串 5.模体发现算法     基于对模体的表示,模体发现算法分为两类:枚举方法(基于一致序列)和统计方法(基于位置权重矩阵),统计方法如GibbsSample,AlignACE,MEME等,但这些算法通常收敛在一个局部最优解,而不是全局最优解(真正模体),枚举方法会穷尽所有可能模体,然后将最保守的假定模体输出,虽然总能找到模体,但是确实指数级的。