关于Keras公用数据集的获取和使用

Keras是Tensorflow2.0的核心高阶API，其内置了一些常用的公共数据集，给开发者使用。

以波士顿房价数据集为例，其涵盖了麻省波士顿的506个不同郊区的房屋数据。有404条训练数据集和102条测试数据集。

每条数据有14个字段，包含13个属性和一个房价数据

获取波士顿房价数据集：

1 import tensorflow as tf
2 boston_housing = tf.keras.datasets.boston_housing  #在线加载数据集
3 
4 (train_x,train_y),(test_x,test_y) = boston_housing.load_data() #获取训练集和测试机

程序会首先Keras官网下载数据集，然后保存在默认的路径下面（C:\Users\Administrator.SG-20151030VCPR\.keras\datasets），这个路径最好不要改，反正数据也不大。

数据拿到了，就顺便看看各个属性和房价之前的关系吧，这里对每个属性和房价的关系进行可视化：

 1 import tensorflow as tf
 2 import matplotlib.pyplot as plt
 3 boston_housing = tf.keras.datasets.boston_housing  #在线加载数据集
 4 
 5 (train_x,train_y),(_,_) = boston_housing.load_data(test_split=0) #获取训练集
 6 
 7 title = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS',
 8         'RAD', 'TAX', 'PTRATIO', 'B-1000', 'LSTAT']
 9 plt.figure(figsize = (12,12))                #设置画布大小为12*12英寸
10 
11 for i in range(len(title)):
12     plt.subplot(4,4,i+1)                    #绘制 4*4 子图
13     plt.scatter(train_x[:,i], train_y)      #绘制散点图
14     
15     plt.xlabel(title[i])                         #X轴标签
16     plt.ylabel("Price($1000)'s")                 #Y轴标签
17     plt.title(str(i+1)+'.'+title[i]+' - Price')  #设置子图标题
18     
19 plt.tight_layout()#使标题坐标轴不重叠
20 plt.suptitle('各个属性与房价的关系', x=0.5, y=1.02, fontsize=20)  #全局标题
21 plt.show()

来看看结果：

然后就可以使用这些数据来进行后续的数据清洗、模型训练和结果评价了。

原文地址：https://www.cnblogs.com/GouQ/p/12559755.html