python实现将两个文件夹合并至另一个文件夹(制作数据集)
时间:2022-07-28
本文章向大家介绍python实现将两个文件夹合并至另一个文件夹(制作数据集),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
此操作目的是为了制作自己的数据集,深度学习框架进行数据准备,此操作步骤包括对文件夹进行操作,将两个文件夹合并至另一个文件夹
该实例为一个煤矿工人脸识别的案例;首先原始数据集(简化版的数据集旨在说明数据准备过程)如下图所示:
该数据集只有三个人的数据,A01代表工人甲的煤矿下的照片,B01代表工人甲下矿前的照片,同理A02、B02代表工人乙的矿下、矿上的照片数据。。。
如下图所示
矿下
矿上
开始制作数据集:
首先建立训练集(0.7)和测试集(0.3),即建立一个空白文件夹
将该文件夹分为四个小文件夹(空),train代表训练集,val代表测试集,valb代表矿井下的测试集,vall代表矿井上的测试集,注:后边两个测试集可有可无
最终制作的数据集如下所示:
下面为所有的程序详解
#导入一些进行该操作需要的库
import numpy as np
import os
import random
import shutil
path=r'C:UsersAdministrator.SKY-20180518VHYDesktoprxore'#原始数据集的路径
data=os.listdir(path)
#listdir该操作([添加链接描述](https://www.zalou.cn/article/184106.htm))在我的上篇文章中有所介绍,此操作能读取的内容为A01、A02、A03、B01、B02、B03这些文件夹
#print(data)
root=path#复制原始数据路径path
读取文件夹 A01、A02、A03、存入c列表中B01、B02、B03,将其存入d列表中
c=[]
d=[]#创建两个空列表
for i in range(len(data)):
a=data[i][0]
if (a=='A'):
c.append(data[i])
else:
d.append(data[i])
#print(d)
导入路径四个空文件夹的路径
train_root='C:UsersAdministrator.SKY-20180518VHYDesktopmyselftrain'
val_root='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfval'
vall_root='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfvalb'
valb_root='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfvall'
for i in range(len(c)):
qqq=os.path.exists(train_root+'/'+c[i][1:])
if (not qqq):
os.mkdir(train_root+'/'+c[i][1:])
qq=os.path.exists(val_root+'/'+c[i][1:])
if (not qq):
os.mkdir(val_root+'/'+c[i][1:])
qq=os.path.exists(vall_root+'/'+c[i][1:])
if (not qq):
os.mkdir(vall_root+'/'+c[i][1:])
qq=os.path.exists(valb_root+'/'+c[i][1:])
if (not qq):
os.mkdir(valb_root+'/'+c[i][1:])
#f=[]
#g=[]
aq='C:UsersAdministrator.SKY-20180518VHYDesktoprxore'
train_root1='C:UsersAdministrator.SKY-20180518VHYDesktopmyselftrain'
val_root1='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfval'
vall_root1='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfvalb'
valb_root1='C:UsersAdministrator.SKY-20180518VHYDesktopmyselfvall'
for i in range(len(c)):
a=c[i]
data_0=os.listdir(aq+a)
# f.append(data_0)
# g.append(aq+a)
#print(f)
#print(g)
random.shuffle(data_0)#打乱A中数据
for j in range(len(d)):
b=d[j]
if(a[1:]==b[1:]):
data_1=os.listdir(aq+b)
#print(aq+b);
random.shuffle(data_1)
#print(data_1)
#print(data_0,data_1)
for z in range(len(data_0)):
#print(z)
pic_path=aq+a+'/'+data_0[z]
if z<int(len(data_0)*0.7):
obj_path=train_root1+a[1:]+'/'+data_0[z]
else:
obj_path=val_root1+a[1:]+'/'+data_0[z]
obl_path=vall_root1+a[1:]+'/'+data_0[z]
shutil.copyfile(pic_path,obl_path)
#print(len(data_0),len(data_0)*0.7)
#if (os.path.exists(pic_path)):
shutil.copyfile(pic_path,obj_path)
for z in range(len(data_1)):
pic_path=aq+b+'/'+data_1[z]
if z<int(len(data_1)*0.7):
obj_path=train_root1+b[1:]+'/'+data_1[z]
else:
obj_path=val_root1+b[1:]+'/'+data_1[z]
obl_path=valb_root1+a[1:]+'/'+data_1[z]
shutil.copyfile(pic_path,obl_path)
#if (os.path.exists(pic_path)):
shutil.copyfile(pic_path,obj_path)#shutil.copyfile( src, dst)
从源src复制到dst中去。当然前提是目标地址是具备可写权限。抛出的异常信息为IOException. 如果当前的dst已存在的话就会被覆盖掉
将数据送入pytorch中,对数据进行迭代
from __future__ import print_function, division
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
import math
import torch.nn.functional as F
D=299
data_transforms = {
'train': transforms.Compose([
# transforms.RandomResizedCrop(D),
transforms.Resize(D),
transforms.RandomCrop(D),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
'val': transforms.Compose([
transforms.Resize(D),
transforms.CenterCrop(D),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
}
data_dir = r'C:UsersAdministrator.SKY-20180518VHYDesktopmyself'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
data_transforms[x])
for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=200,
shuffle=True, num_workers=4)
for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
#print(image_datasets['train'][0])
img, label = image_datasets['val'][11]
print(label)#输出为2即第三类
以上这篇python实现将两个文件夹合并至另一个文件夹(制作数据集)就是小编分享给大家的全部内容了,希望能给大家一个参考。
- PHP获取URL地址的一些坑
- 使用ResourceBundle读取配置文件
- 关于exp statistics的问题和简单测试(82天)
- laravel访问路由在nginx服务器上无法处理
- How Tomcat Works, A Guide to Developing Your Own Java Servlet Container
- 【开发指南】如何为nexus 5编译固件
- 支持向量机(SVM)入门详解(续)与python实现
- 数据库
- 关于Bom头的一些坑
- 使用shell脚本查看数据库负载情况(81天)
- 无法连接远程mysql数据库解决方案
- 归档问题导致的数据库无法启动 (80天)
- ubuntu上安装php7.0+nginx+mysql
- spring mvc 时间日期转换(@DateTimeFormat 注解)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- python Turtle 画出“精美碎花小清新树”快来拿代码!
- SpringDataJPA 系列之 JPA 简介
- Leetcode 264. 丑数 II (数论,三指针,类dp)
- Leetcode 628. 三个数的最大乘积 (数学)
- Vue 组件化开发
- Spring Boot 基础配置
- 读懂 Java 单例模式
- 数值分析第一次实习题报告
- Leetcode 409. 最长回文串 (Hash)
- Vue 前后端交互基础
- Spring Boot 入门
- Nginx 负载均衡
- Leetcode 289. 生命游戏(元胞自动机模拟)
- Nginx 简介
- 详解 Vue 目录及配置文件之 package.json