模体发现问题
2019-04-13 12:58发布
生成海报
1.模体发现问题
DNA或蛋白质中具有特定功能且保守的序列片段称为 模体(也是结合位点)。
由于突变存在,不一定完全保守, 故 实际片段 称为 模体实例。
这里研究自动模体发现问题:从一组相关的DNA序列集合中将模体和每个序列中的模体实例找出。
2.问题描述
给定一组含有t条DNA序列的集合S={sl,s2,
…,st},每序列的长度为n,每条序列si都包含有长度为l的模体m的模体实例m’,在此前提下,寻找出模体m和模体实例集M。
3.模体表示方法
位置权重矩阵(Weight Matrix)方法;
使用一个用概率表示权重的矩阵描述DNA序列中模体,大小为4×l。
一致(同源)序列(Consensus Sequence)方法。
将序列中每列出现最多的字符提取出来,构成碱基序列
4.植入(l,d)模体问题
l为模体长度,d为模体与模体实例最大海明距离。(假设每条序列都有且仅有一条模体实例)
定义l-mer为一个序列的 l长度子串
5.模体发现算法
基于对模体的表示,模体发现算法分为两类:枚举方法(基于一致序列)和统计方法(基于位置权重矩阵),统计方法如GibbsSample,AlignACE,MEME等,但这些算法通常收敛在一个局部最优解,而不是全局最优解(真正模体),枚举方法会穷尽所有可能模体,然后将最保守的假定模体输出,虽然总能找到模体,但是确实指数级的。
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮