第一章绪论
11引言
机器学习所研究的主要内容:关于在计算机上从数据中产生“模型”(del)的算法,即“学习算法”(learningalgorith
【学习算法:通过处理数据产生模型的算法】
有了学习算法,我们给它经验数据,它就能基于这些数据产生模型;在面对新情况时(例如看到一个没剖开的西瓜),模型会提供一个相应的判断(例如好瓜)
如果说计算机科学研究关于“算法”的学问,那么机器学习就是研究关于“学习算法”的学问。
本书“模型”泛指从数据中学得的结果
12基本术语
要进行机器学习,先要有数据假定我们收集了一批关于西瓜的数据。如下:
,
,
每对括号内是一条记录,“=”意思是“取值为”
这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”
反映事件或对象在某方面的表现或性质的事项,例如“色泽’“根蒂”“敲声”,称为“属性”或“特征”;属性上的取值,例如“青绿”“乌黑”,称为“属性值”
属性张成的空间称为“属性空间”、“样本空间”或“输入空间”
例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为个“特征向量”
【这部分很容易理解,数学中有相关的基础】
一般地,令d={x₁,x₂,…,x,表示包含示例的数据集,
每个示例由d个属性描述,
则每个示例xi=(xi₁;xi₂;…;xid)是d维样本空间x中的一个向量,
xi∈x,其中xij是xi在第j个属性上的取值,
d称为样本xi的“维数”
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成,
训练过程中使用的数据称为“训练数据”,
其中每个样本称为一个“训练样本”,
训练样本组成的集合称为“训练集”
学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”;
这种潜在规律自身,则称为“真相”或“真实”,学习过程就是为了找出或逼近真相
本书有时将模型称为“学习器””,可看作学习算法在给定数据和参数空间上的实例化