浙江民建久违回归——浅谈监督学习-硬糖生活札记

久违回归——浅谈监督学习-硬糖生活札记
点击蓝字关注，居然能神奇地变幸福

最近病了一周多，期间就是躺着睡，刚开始几天还有点小窃喜，能偷个懒，时间长了，真的想学习都想哭了~~~好了，好久不见，开聊吧颜事龙！05CHAPTERFIVE
人工智能的背后，是一群算法工程师在用巨大的数据喂养着机器，机器虽说挺贪婪，不过吃多了干得也不错，在各类应用中的准确率、精确率甚至都超过了人类，我不禁发出一声“哇塞”！
《统计学习方法》
作者信息：
李航偷窥镜，日本京都大学电气工程系毕业，日本东京大学计算机科学博士，现任华为诺亚方舟实验室首席科学家，研究方向包括信息检索、自然语言处理、数据挖掘以及统计机器学习。
人工智能太火热了，作为其中浑水摸鱼的一员，还是掌握了一丢丢理论算法，这不，课程都开到这里来了。没有太专业的吧啦吧啦，自己在回顾知识点的同时也给大家呱呱呱几声吧。
一期第五辑，我们来讲《统计学习方法》第一章。
《统计学习方法》，虽说是“统计”，但其实这是一本关于“机器学习”的系统理论梳理教材。
统计学习——计算机运用数据及统计学方法提高系统性能的机器学习，所以将统计学习和机器学习划上“=”是没什么毛病的杨智伟。
统计学习又分为监督学习、半监督学习、非监督学习、强化学习，由于如今监督学习在学界较为火爆，所以我们从监督学习入手木南晴夏，大概地认识一下统计学习。
1

监督学习，顾名思义，就是老师知道什么是对的电鲶，什么是错的，所以他先教你怎么做，然后你再自己做隋永清，做得好不好得看老师从什么角度来评判，还得看你自己学得怎么样了北秀蓝湾。
在理论中，老师是训练数据(他做的事是样本，他掌握的对错是样本的标签)，而你就是模型，你做的事就是测试数据(你所做事的对错是不知道的冰霜女王爷，等着老师来评判)。
给定训练数据，输入模型，模型在一次次训练中被完善，之后给定测试数据，我们再去评判一下，这个模型在测试数据上的效果怎么样。
所以说，监督学习最终的目的是为了尽可能准确地得到测试数据对应的标签，也即结果。

从第一个角度来看，监督学习可分为生成模型和判别模型。
生成模型形如：

由P(X,Y)和P(X)推出P(Y|X)库洛纳斯，这里P(Y|X)就是知道了样本X，来推断出其标签Y。
判别模型形如：

直接推出P(Y|X)或f(X)。这里P(Y|X)是条件概率分布，f(X)是决策函数，P(Y|X)产生多个输出，在哪个输出上的概率更大，样本就属于哪个标签，f(X)产生一个输出虎式自行火炮，直接输出标签。
2

从第二个角度来看，监督学习又可分为分类、标注、回归耀一法师。
分类，就是通常意义下的分类，给你一堆西瓜，让你去区分熟了的、半熟的、生的。
标注，举个例子，比如将一句话中的词语、成语、短句标注出来广玉兰课文，这样就能更好地理解这句话了。
回归，也可理解为分类，只不过分类中类别数是有限的，而回归中类别数是无限的。
3

监督学习有三要素，即模型、策略、算法，在解决实际问题的时候，明确三要素中的每一点，问题也就能解决了。
1
模型
模型，分为概率分布模型和决策函数模型，其表达形式分别为

以概率分布模型为例，参数空间中的参数，对应着不同的模型，不同的模型构成了概率分布模型空间，我们要做的就是在这个空间中找到我们想要的那个模型。
怎么找呢
选择模型主要从两方面入手，即正则化和交叉检验。
正则化就是要考虑参数的复杂性，越简单越好，也就是要越小越好，其中表示参数的复杂性在总成本中所占的比重。
交叉检验分为简单交叉检验、s折交叉检验、留一交叉检验。
简单交叉检验就是把数据分为两份，训练和测试；s折交叉检验是把数据分为s份，s-1份训练，剩余的一份测试，每一份数据轮流作为测试数据；留一交叉检验类似于s折交叉检验，只不过s等于样本数。
同时，给定了模型，我们也需要做评估，从训练误差和测试误差这两方面来看，学得好不重要，用得好才是真本事，所以测试误差的参考价值更大，测试误差越小越好。
2
策略
模型确定了以后，就要确定策略、选算法，最终求解问题。
总的来说，我们要实现的是风险最小化，可以参考的函数形式主要有损失函数、风险函数、经验风险、经验风险最小化、结构风险最小化，从简单到复杂，从片面到全面，当然，也可以根据具体问题的形式进行相应的调整。
仔细记

3
算法
因为我们是通过风险最小化来确定最终的参数也即模型，所以问题也就转变为优化问题了，简单优化、智能优化等各种优化算法也就可以灵活使用了。
写在最后：
生病期间脑袋晕到爆炸马妍婷，什么也做不了，终于回归规律的生活了，还是行动起来比较舒畅啊。
今天在健身房骑了个单车，感觉全身死了的细胞又复活了，真是“够畅快”！
三天一更，还是这个约定奥。浙江民建
4
2018年7月日一二三四五六12345678910111213141516171819202122232425262728293031
下一站再见
see you at the next stop

长按识别，刘钰佳粉丝圈见
5扫一扫我在等你
分享的文字才是生活，让你爱的人看到

码字很辛苦，转载请注明来自鞠婧袆的《浙江民建久违回归——浅谈监督学习-硬糖生活札记》

2016-08-31 全部文章

浙江民建久违回归——浅谈监督学习-硬糖生活札记

文章归档