微博秀UID
鞠婧袆

浙江民建久违回归——浅谈监督学习-硬糖生活札记

久违回归——浅谈监督学习-硬糖生活札记
点击蓝字关注,居然能神奇地变幸福

最近病了一周多,期间就是躺着睡,刚开始几天还有点小窃喜,能偷个懒,时间长了,真的想学习都想哭了~~~好了,好久不见,开聊吧颜事龙!05CHAPTERFIVE
人工智能的背后,是一群算法工程师在用巨大的数据喂养着机器,机器虽说挺贪婪,不过吃多了干得也不错,在各类应用中的准确率、精确率甚至都超过了人类,我不禁发出一声“哇塞”!
《统计学习方法》
作者信息:
李航 偷窥镜,日本京都大学电气工程系毕业,日本东京大学计算机科学博士,现任华为诺亚方舟实验室首席科学家,研究方向包括信息检索、自然语言处理、数据挖掘以及统计机器学习。
人工智能太火热了,作为其中浑水摸鱼的一员,还是掌握了一丢丢理论算法,这不,课程都开到这里来了。没有太专业的吧啦吧啦,自己在回顾知识点的同时也给大家呱呱呱几声吧。
一期第五辑,我们来讲《统计学习方法》第一章。
《统计学习方法》,虽说是“统计”,但其实这是一本关于“机器学习”的系统理论梳理教材。
统计学习——计算机运用数据及统计学方法提高系统性能的机器学习,所以将统计学习和机器学习划上“=”是没什么毛病的杨智伟。
统计学习又分为监督学习、半监督学习、非监督学习、强化学习,由于如今监督学习在学界较为火爆,所以我们从监督学习入手木南晴夏,大概地认识一下统计学习。
1

监督学习,顾名思义,就是老师知道什么是对的电鲶,什么是错的,所以他先教你怎么做,然后你再自己做隋永清,做得好不好得看老师从什么角度来评判,还得看你自己学得怎么样了北秀蓝湾 。
在理论中,老师是训练数据(他做的事是样本,他掌握的对错是样本的标签),而你就是模型,你做的事就是测试数据(你所做事的对错是不知道的冰霜女王爷,等着老师来评判)。
给定训练数据,输入模型,模型在一次次训练中被完善,之后给定测试数据,我们再去评判一下,这个模型在测试数据上的效果怎么样。
所以说,监督学习最终的目的是为了尽可能准确地得到测试数据对应的标签,也即结果。

从第一个角度来看,监督学习可分为生成模型和判别模型。
生成模型形如:

由P(X,Y)和P(X)推出P(Y|X)库洛纳斯,这里P(Y|X)就是知道了样本X,来推断出其标签Y。
判别模型形如:

直接推出P(Y|X)或f(X)。这里P(Y|X)是条件概率分布,f(X)是决策函数,P(Y|X)产生多个输出,在哪个输出上的概率更大,样本就属于哪个标签,f(X)产生一个输出虎式自行火炮,直接输出标签。
2


从第二个角度来看,监督学习又可分为分类、标注、回归耀一法师。
分类,就是通常意义下的分类,给你一堆西瓜,让你去区分熟了的、半熟的、生的。
标注,举个例子,比如将一句话中的词语、成语、短句标注出来广玉兰课文,这样就能更好地理解这句话了。
回归,也可理解为分类,只不过分类中类别数是有限的,而回归中类别数是无限的。
3

监督学习有三要素,即模型、策略、算法,在解决实际问题的时候,明确三要素中的每一点,问题也就能解决了。
1
模型
模型,分为概率分布模型和决策函数模型,其表达形式分别为

以概率分布模型为例,参数空间中的参数,对应着不同的模型,不同的模型构成了概率分布模型空间,我们要做的就是在这个空间中找到我们想要的那个模型。
怎么找呢
选择模型主要从两方面入手,即正则化和交叉检验。
正则化就是要考虑参数的复杂性,越简单越好,也就是要越小越好,其中表示参数的复杂性在总成本中所占的比重。
交叉检验分为简单交叉检验、s折交叉检验、留一交叉检验。
简单交叉检验就是把数据分为两份,训练和测试;s折交叉检验是把数据分为s份,s-1份训练,剩余的一份测试,每一份数据轮流作为测试数据;留一交叉检验类似于s折交叉检验,只不过s等于样本数。
同时,给定了模型,我们也需要做评估,从训练误差和测试误差这两方面来看,学得好不重要,用得好才是真本事,所以测试误差的参考价值更大,测试误差越小越好。
2
策略
模型确定了以后,就要确定策略、选算法,最终求解问题。
总的来说,我们要实现的是风险最小化,可以参考的函数形式主要有损失函数、风险函数、经验风险、经验风险最小化、结构风险最小化,从简单到复杂,从片面到全面,当然,也可以根据具体问题的形式进行相应的调整。
仔细记

3
算法
因为我们是通过风险最小化来确定最终的参数也即模型,所以问题也就转变为优化问题了,简单优化、智能优化等各种优化算法也就可以灵活使用了。
写在最后:
生病期间脑袋晕到爆炸马妍婷,什么也做不了,终于回归规律的生活了,还是行动起来比较舒畅啊。
今天在健身房骑了个单车,感觉全身死了的细胞又复活了,真是“够畅快”!
三天一更,还是这个约定奥。浙江民建
4
2018年7月日一二三四五六12345678910111213141516171819202122232425262728293031
下一站再见
see you at the next stop

长按识别,刘钰佳粉丝圈见
5扫一扫我在等你
分享的文字才是生活,让你爱的人看到
码字很辛苦,转载请注明来自鞠婧袆《浙江民建久违回归——浅谈监督学习-硬糖生活札记》