从学习方法角度进行划分
参数模型 vs 非参数模型:全局普适性 vs 局部适用性
❶ 参数模型
“新闻总是抄袭历史,模式在深处等待发掘。“
当我们对问题有认知,有了「定性」的判断,然后我们便可以用「定量」的方式将它们刻画出来。所谓“参数模型”。
优点:简单,只需付出较小的计算代价就可以从假设空间中习得一个较好的模型
缺点:其可用性却严重依赖于先验知识的可信度,但若先验分布错误,则无法学出好的结果。
❷ 非参数模型
“知之为知之,不知为不知,是知也。”
当我们对问题知之甚少,最好的办法反而是避免对潜在模型做出过多的假设,所谓“非参数模型。”
优点:当训练数据趋于无穷多时,非参数模型可以逼近任意复杂的真实模型。
缺点:和参数相比,非参数模型的时空复杂度都会比参数模型大得多。
误区:“非参数模型”不是“无参数模型”,恰恰相反,非参数模型意味着模型参数的数目是不固定的,并且极有可能是无穷大,这决定了非参数模型不可能像参数模型那样用固定且有限数目的参数来完全刻画。
❸ 参数模型 vs 非参数模型
例子: 假定一个训练集中有 99 个数据,其均值为 100,方差为 1。那么对于第 100 个数据来说,它会以 99% 的概率小于哪一个数值呢?
核心区别:数据分布特征的整体性与局部性。
参数模型具有全局的特性,所有数据都满足统一的全局分布,如履至尊而制六合得到的扁平化结构。
非参数模型是种局部模型,每个局部都有支配特性的参数,如战国时代每个诸侯国都有自己的国君一样。
数据模型 vs 算法模型:可解释性 vs 精确性
❹ 数据模型
代表:线性回归
优点:可解释性强
缺点:简单模型有时不能充分体现出复杂作用机制
❺ 算法模型
代表:随机森林
优点:可描绘复杂的数据,精确度高
缺点:可解释性弱
从学习对象角度进行划分
❻ 生成模型 vs 判别模型:联合分布 vs 条件分布
生成模型(generative model)学习的对象是输入 x 和输出 y 的联合分布 p(x,y)
判别模型学习的则是已知输入 x 的条件下,输出 y 的条件分布 p(y|x)
区分的例子:以判断某种语言是什么?前者输出学完所有语言。后者是学会不同语言的区别。
参数模型是主流,大数据出现后,非参数模型的应用前景如何?
有没有参数,并不是参数模型和非参数模型的区别。其区别主要在于总体的分布形式是否已知。而为何强调“参数”与“非参数”,主要原因在于参数模型的分布可以有参数直接确定。
参数模型:线形回归
非参模型:决策树 -> 随机森林;核SVM;
半参数模型:神经网络(层数和神经元 → 参数模型) /(深度学习中dropout → 非参数)
非参数应用挺广泛,如Kaggle火热模型,XGBOOST,效果就十分好。