使用真实数据

学习机器学习时，最好使用真实数据，而不是人工数据集。幸运的是，有上千个开源数据集可以进行选择，涵盖多个领域。以下是一些可以查找的数据的地方：

流行的开源数据仓库：
- UC Irvine Machine Learning Repository
- Kaggle datasets
- Amazon’s AWS datasets
准入口（提供开源数据列表）
- http://dataportals.org/
- http://opendatamonitor.eu/
- http://quandl.com/
其它列出流行开源数据仓库的网页：
- Wikipedia’s list of Machine Learning datasets
- Quora.com question
- Datasets subreddit

本章，我们选择的是 StatLib 的加州房产价格数据集（见图 2-1）。这个数据集是基于 1990 年加州普查的数据。数据已经有点老（1990 年还能买一个湾区不错的房子），但是它有许多优点，利于学习，所以假设这个数据为最近的。为了便于教学，我们添加了一个类别属性，并除去了一些。

使用真实数据 - 图1

图 2-1 加州房产价格