第27章 机器学习 学习笔记(一)(2 / 2)

【这些都很自然,也很好理解,对数据进行规律化数据化,所列举的数据可以用二维数组表示】

若想预测是否为好瓜前面的数据不够,还需要“结果”信息。例如:

((色泽=青绿;根蒂=蜷缩;鼓声=浊响),好瓜)

这里关于示例结果的信息,“好瓜”,称为“标记”(bel),拥有标记信息的示例,则称为“样例”(exale)

一般地,用(xi,yi)表示第i个样例,xi是d维向量,其中yi∈Υ是示例xi的标记,Υ是所有标记的集合,亦称“标记空间”(belspace)或“输出空间”

【线代的矩阵和增广矩阵】

若欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(cssification)

若是连续值,例如西瓜成熟度095、037,称为“回归”(regression)

对只涉及两个类别的“二分类”(binarycssification)任务,通常一个称“正类”(positivecss),另一个称“反类”(negativecss)

涉及多个类别,称“多分类”(lticsscssification)任务

一般地,预测任务是建立一个从输入空间到输出空间的映射

“测试”(testing)

【千里之行始于足下,虽然这里介绍都还是简单的知识,但也有新的感悟。毕竟人类是擅长吃冷饭的。】

我们还可以对西瓜做“聚类”,即将训练集中的西瓜分成若干组,每组称为一个“簇”;

这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”

这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础

需说明的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息

【这里我有一些不明白的地方,如何分组?】

根据有无标记信息,学习任务可大致分为“监督学习”(supervisedlearning)和“无监督学习”(unsupervisedlearning)

分类和回归是前者的代表,聚类是后者的代表

学得模型适用于新样本的能力称为“泛化”(generalization)能力

13假设空间

归纳(induction)与演绎(deduction)是科学推理两大基本手段。“从样例中学习”显然是一个归纳过程,因此亦称“归纳学习”(inductivelearning)

归纳学习有狭义与广义之分,广义大体相当于从样例中学习,狭义则要求从训练数据中学得概念(ncept),因此亦称“概念学习”或“概念形成”

目前研究、应用都比较少,好的太困难。现实常用技术大多是产生“黑箱”模型

概念学习中最基本的是布尔概念学习。

hoyc,pepynedlsileexpnationofthenofreelunchtheorenditsilications[j]journalofoptizationtheory&lications,2002,1159570

nofreelunchtheore没有免费的午餐”定理。nfl定理。

【y了,睡下午觉了。】