TensorFlow 深度学习笔记 逻辑回归 实践篇
时间:2022-04-21
本文章向大家介绍TensorFlow 深度学习笔记 逻辑回归 实践篇,主要内容包括Practical Aspects of Learning、Install TensorFlow、notMNIST、Todo、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
Practical Aspects of Learning
Install Ipython NoteBook
可以参考这个教程
- 可以直接安装anaconda,里面包含了各种库,也包含了ipython;
- 推荐使用python2的版本,因为很多lib只支持python2,而且python3在升级中,支持3.4还是3.5是个很纠结的问题。
- 安装anaconda后直接在终端输入 ipython notebook,则会运行一个ipython的server端,同时在你的浏览器中打开基于你终端目录的一个页面:
- 点开ipynb文件即可进入文件编辑页面
上图即为practical部分的教程,可以在github下载
官方推荐使用docker来进行这部分教程,但简单起见我们先用ipython notebook
Install TensorFlow
安装教程就在TensorFlow的github页上>>>点击查看
按照官方的流程装就好了,这里讲一下几种方式的特点:
- pip: 安装在全局的python解释器中,简单
- Third party: Virtualenv, Anaconda and Docker:都能创建tensorflow独立的编译环境,但就是多了一份包
- Source: 能够适应不同的python版本(比如编译一个3.5版的),但源码编译可能有许多坑
- ubuntu安装时,需要注意自己的python - pip - tensorflow版本是否对应(比如是否都是2.7),
- 使用sudo命令时,注意自己的环境变量是否变化(会导致pip或python命令对应的版本变化)
- 具体讲一下ubuntu安装tensorflow流程:
- 安装anaconda2
- 确定自己终端的pip和python版本:
$ pip -V && python -V
确认使用的是否都来自anaconda,如果不是,则应该使用类似这样的命令运行对应的pip:$ /home/cwh/anaconda2/bin/pip -V
使用sudo命令时最好也看一下版本 - 使用anaconda创建一个tensorflow虚拟环境:
$ conda create -n tensorflow python=2.7
- 切换到tensorflow环境下(实际上是更换了环境变量里的pip和python),下载安装tensorflow,需要sudo权限 ``` $ source activate tensorflow (tensorflow)$ sudo pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.8.0rc0-cp27-none-linux_x86_64.wh $ source deactivate ```
注意如果安装的是gpu版本,还需要按照官网说明安装cuda和cudaCNN
- 安装成功后就可以在tensorflow的python环境下,执行import tensorflow看看了。
notMNIST
修改的MNIST,不够干净,更接近真实数据,比MNIST任务更困难。
Todo
我将官方教程的一个文件拆成了多个(以文件持久化为边界),然后在schedule.py里统一调用,在各个文件里可以执行各个部分的功能测试。
- 下载
- 使用urlretrieve来获取数据集notMNIST_large.tar.gz和notMNIST_small.tar.gz
代码示例:load_data.py
- 解压
- 使用tarfile模块来解压刚刚下载的压缩包
代码示例:extract.py
- 读图 - 展示 - 序列化
- 用ndimage读取一部分图片,用pickle将读取到的对象(ndarray对象的list)序列化存储到磁盘
- 用matplotlib.plot.imshow实现图片显示,可以展示任意的numpy.ndarray,详见show_imgs(dataset)
- 这里展示的是二值化图片,可以设置显示为灰度图
- 将每个class对应的图像数据集序列化到磁盘
代码示例:img_pickle.py
- 整理数据集
- 用pickle读取pickle文件,
- 从train_folder中为10个class分别获取10000个valid_dataset和20000个train_dataset,
- 其中对每个class读取到的数据,用random.shuffle将数据乱序化
- 将各个class及其对应的label序列化到磁盘,分别为训练器和校验集
- 从test_folder中为10个class分别获取10000个test_dataset,
- 其中对每个class读取到的数据,用random.shuffle将数据乱序化
- 将各个class及其对应的label序列化到磁盘,作为测试集
代码示例merge_prune.py
- 去除重复数据
- load_pickle,加载dataset
- 先将valid_dataset中与test_dataset重复部分剔除,再将train_dataset中与valid_dataset重复部分剔除
- 每个dataset都是一个二维浮点数组的list,也可以理解为三维浮点数组,
- 比较list中的每个图,也就是将list1中每个二维浮点数组与list2中每个二维浮点数组比较
- 示例代码即为clean_overlap.py中的imgs_idx_except
- 我们在拿list1中的一个元素跟list2中的一个元素比较时,总共需要比较len(list1) * len(list2) * image_size * image_size次,速度极慢
- 实际上这是有重复的计算的,就在于,list2中的每个元素,都被遍历了len(list1)次
- 因此有这样的一个优化,我们遍历每个图,用图中的灰度值,仿照BKDRHash,得到每个图都不同的hash值,比较hash值来比较图像
- 示例代码即为clean_overlap.py中的imgs_idx_hash_except
- 这样每个图都只需要访问一次,计算hash的时间变为(len(list1) + len(list2)) * image_size * image_size
- 比较的次数是len(list1) * len(list2)
- 由于我们的数据中,list1和list2的长度是大数,所以节省的时间是相当可观的
- 在我的机器上,比较完valid_dataset和test_dataset需要的时间分别是25000秒(10000次比较,每次2-3秒)和60秒
- 然后再将清理后的数据序列化到磁盘即可
代码示例: clean_overlap.py
- 训练一个logistics 模型
- 将train_dataset作为输入,用valid_dataset进行验证(预测成功率82.5%)
- 为了重复利用训练后的分类器,将其序列化到磁盘 代码示例: logistic_train.py
- Measure Performance
- 分类器会尝试去记住训练集
- 遇到训练集中没有的数据时,分类器可能就没辙了
- 所以我们应该measure的是,分类器如何产生新数据(生成能力(推导能力)越大,说明它应对新数据能力越强)
- 仅measure分类器记忆数据集的能力并不能应对新数据(没有学到规律),所以不应该拿旧数据去measure
- 因此measure的方式应该是拿新数据去看分类器的预测准确度(never see, can't memorize)
- 但是在measure的过程中,我们会根据测试数据去重新调整分类器,使其对所有测试数据都生效
- 也就是说测试数据变成了训练集的一部分,因此这部分数据我们只能作为valid_dataset,而不能用于衡量最后的performance
- 解决方法之一即,最终进行performance measure的数据集,必须是调整分类器的过程中没有使用过的
- 即坚持一个原则,测试数据不用于训练
在机器学习比赛Kaggle中,有public data,validate data,并有用于测试(选手未知)的private data,只有在训练时自己的分类器时,预先取一部分数据作为test data, 才能不会在train和valid的过程中被已有数据所蒙蔽
- Validation dataset
- 验证集越大,验证的可信度越大
- 统计学上,调整分类器后,当30个以上预测结果的正确性发生变化的话,这种变化是可信的,值得注意的,小于30是噪音
- 因此Validation dataset通常数据要大于30000个,在准确率变化高于0.1%时,认为分类器的performance变化
- 但这样需要的数据往往偏多,所以可以尝试交叉验证(cross validation),交叉验证有个缺点是速度慢
觉得我的文章对您有帮助的话,就给个star吧 (程序员一定要有一个Github账号啊!)
- 软件测试人员必须掌握的Linux基本命令
- 【机器学习笔记之五】用ARIMA模型做需求预测用ARIMA模型做需求预测
- Capturing Packets in Linux at a Speed of Millions of PPS
- 【机器学习笔记之四】Adaboost 算法
- 【Java学习笔记之十九】super在Java继承中的用法小结
- 【Java学习笔记之二十一】抽象类在Java继承中的用法小结
- 【Java学习笔记之二十】final关键字在Java继承中的用法小结
- 基于Windows下python环境变量配置
- 【机器学习笔记之七】PCA 的数学原理和可视化效果
- 2017"百度之星"程序设计大赛 - 复赛1005&&HDU 6148 Valley Numer【数位dp】
- 【专知-关关的刷题日记20】Leetcode 119. Pascal's Triangle II
- 2017"百度之星"程序设计大赛 - 复赛1003&&HDU 6146 Pokémon GO【数学,递推,dp】
- 2017"百度之星"程序设计大赛 - 复赛1001&&HDU 6144 Arithmetic of Bomb【java大模拟】
- Java面向对象抽象类实例练习
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 谷歌浏览器油猴插件安装教程,让你的浏览器更加强大
- zabbix模块配置学习
- Windows下安装及使用NVM
- U盘上安装多个Linux发行版和PE
- ubuntu18.04部署python3、nginx项目
- CentOS8.x系统配置记录
- js根据经纬度换算行驶里程
- ubuntu18.04 安装docker
- COBBLER无人值守批量安装系统.md
- 使用VSCode 打包你的第一个flutter应用(安卓篇)
- KICKSTART无人值守批量安装系统.md
- Centos7-Firewall防火墙基础讲解
- 优酷iOS插件化页面架构方法
- 处理一次k8s、calico无法分配podIP的心路历程
- 小视频源码,按返回键两次退出