Machine Learning

机器学习笔记-Logistic Regression

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

  上一篇比较深入地去理解了线性回归的思想和算法。分类和回归是机器学习中很重要的两大内容。而本篇要讲的Logistic Regression,名字上看是回归,但实际上却又和分类有关。

  之前提过的二元分类器如PLA,其目标函数为, $f(x)=sign(w^Tx)\in{-1,+1}$,输出要么是-1要么是+1,是一个“硬”的分类器。而Logistic Regression是一个“软”的分类器,它的输出是$y=+1$的概率,因此Logistic Regression的目标函数是 $\color{purple}{f}(x)=\color{orange}{P(+1|x)}\in [0,1]$。

机器学习笔记-Noise and Error

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

  这篇笔记是阐述“为什么机器能够学习”这个话题的最后一篇,林老师用了4周时间在告诉我们什么时候机器可以学习以及机器为什么能够学习,对比Ng的那门课,第4周已经在讲类神经网络了。为什么要花这么大的篇幅来搞清楚这些那么理论的东西呢?原因很简单,Ng那门课教的是剑法招式,而林帮主这门课教的是内功。郭靖当年跟着江南七怪习武10多年,进步缓慢,难有所成,但跟着马钰只学了个呼吸吐纳之术,武功却不自觉突飞猛进,原来难以完成的动作突然可以轻松完成了。想要修得真功夫,欲速则不达,林帮主的良苦用心,不知各位同学能否体会。

机器学习笔记-VC Dimension, Part III

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

  上一篇讲到了VC Dimension以及VC Bound。VC Bound所描述的是在给定数据量N以及给定的Hypothesis Set的条件下,遇到坏事情的概率的上界,即$E_{in}$与$E_{out}$差很远的概率,最多是多少。VC Bound用公式表示就是:

机器学习笔记-VC Dimension, Part II

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

  上一篇用成长函数$m_{\mathcal{H}}(N)$来衡量Hypotheses Set $\mathcal{H}$中有效的方程的数量(Effective Number of Hypotheses),以取代Hoeffding’s Inequality中的大$M$,并用一种间接的方式 —- break point,来寻找$m_{\mathcal{H}}(N)$的上界,从而避免了直接研究$\mathcal{H}$的成长函数的困难。

机器学习笔记-VC Dimension, Part I

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

  上一篇讲到,learning的时候如果遇上bad sample,如果遇上bad sample我们就无法保证$E_{in}$和$E_{out}$很接近。我们用了一个不等式来衡量遇上bad sample的概率:

$$\mathbb{P}_\mathcal{D}[BAD\ D]\leq 2Mexp(-2\epsilon ^2N)$$

机器学习笔记-机器为何能够学习?

笔记整理自台大林轩田老师的开放课程-机器学习基石,笔记中所有图片来自于课堂讲义。

机器学习的基础架构 (Learning From Data)

  银行在决定是否要通过贷款申请人的授信请求前,会根据申请人的资料对其进行风险评估,(通常银行会为其计算信用评分),申请人状况符合银行要求时,银行通过其申请,反之则婉拒。那么银行凭借什么来判断申请人将来是否会违约呢?通过银行之前的信用贷款记录,这些记录中,有些客户发生了违约行为,其他则表现良好,银行从这些违约与非违约的记录中learning到了一些规律,然后利用这些规律,来对新申请人的违约风险进行估计。因此信用评估模型就是一个learning的问题,那么我们该如何使用历史数据做好learning呢?

  下面这张图描述了learning的基础架构: