• 她是从事什么运动的?
    • 答案
    • 测试数据

    她是从事什么运动的?

    让我们来为之后的几章做一个预热,先看一个较为简单的例子——根据女运动员的身高和体重来判断她们是从事什么运动项目的。

    下表是原始数据:

    她是从事什么运动的? - 图1

    这里列出的是2008和2012奥运会上排名靠前的二十位女运动员。

    篮球运动员参加了WNBA;田径运动员则完成了2012年奥运会的马拉松赛。虽然数据量很小,但我们仍可以对其应用一些数据挖掘算法。

    你可以看到上表中列出了运动员的年龄,光凭这一信息就能进行一些预测了。

    比如,以下运动员会是哪个项目的呢?

    她是从事什么运动的? - 图2

    答案

    Candace Parker是篮球运动员,McKayla Maroney是美国女子体操队的一员,Olivera Jevtic是塞尔维亚的一名长跑运动员,Lisa Jane Weightman则是澳大利亚的长跑运动员。

    看,我们刚刚就进行了一次分类——通过运动员的年龄特征来识别她们参与的体育项目。

    头脑风暴

    假设我想通过运动员的身高和体重来预测她所从事的运动,数据集只有两人:Nakia Sanford是篮球运动员,身高6尺4寸(76英寸,1.93米),体重200磅(90公斤);Sarah Beale是橄榄球运动员,身高5尺10寸(70英寸,1.78米),体重190磅(86公斤)。

    我想知道Catherine Spencer是从事哪项运动的,她的身高是5尺10寸,重200磅,如何预测呢?

    如果你认为她是橄榄球运动员,那么你猜对了。但是,如果用曼哈顿距离来进行计算,Catherine和Nakia的距离是6,和Sarah的距离是10,那应该预测她是篮球运动员才对。

    我们之前是否学过一个方法,能让距离计算更为准确呢?

    没错,就是修正的标准分!

    测试数据

    下表是我们需要进行预测的运动员列表,一起来做分类器吧!

    她是从事什么运动的? - 图3