往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的,只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!
时间:2022-05-11
本文章向大家介绍往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的,只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
先讲个相关的故事:匿名黑客的"复仇行动"
2010年12月10日,黑客组织匿名者发布了一条消息,解释了他们发起最近一次代号为”复仇行动”的攻击的大致动机(Prefect,2010)。由于被那些放弃支持维基解密网站的公司所激怒,匿名者组织号召要通过对涉及的一些机构进行分布式拒绝服务攻击(DDoS)以实现报复。这个稿子上既没有签名,也没有标注消息来源,只是以PDF(Portable Document Format,便携式文档格式)文件的形式被发布出来。
这是当时的文件,为了满足好奇心,被我刨出来了...
PDF原文件第一页
PDF原文件第二页
虽然没有署名,但用脚本很快查到了文档的元数据(这里演示的ANONOPS_The_Press_Release.pdf就是真实的原文件,文件的元数据还被保留着...)
查看元数据
几天后,希腊警方逮捕Alex Tapanaris 先生...
Alex Tapanaris 先生的"复仇行动"提前结束了
这个例子告诉我们,就算技术不好,也不要让别人知道,是你做的种子...
在当下,敏感元数据,在国内资源网站依然大量存在
以博主从国内各大资源网站下载到的技术类书籍资源为例:
(不要问我资源是哪里来的,作为程序员,对于获取资源的套路还是懂一些的...)
为避免小伙伴们在 "某度文库" 发"资源"赚积分的时候成为第二个Alex Tapanaris先生,下面放出博主刚完成的批量清除pdf元数据的脚本,以及使用方法:
快速清除PDF元数据
快速清除PDF元数据
清除后的效果
清除后的效果
批量获取文档元数据(查别人):
import PyPDF2
from PyPDF2 import PdfFileReader
import sys
import os
import re
#获取目录下所有的pdf文件目录
def getFiles():
files = os.listdir()
# 如果输入了单个pdf文件,则只输出单个pdf元数据
try:
if sys.argv[1]:
files = [sys.argv[1]]
except:
pass
pdf_files = list()
for file_name in files:
try:
result = re.match(r".*.pdf$", file_name)
if result:
pdf_files.append(file_name)
except Exception as e:
pass
return pdf_files
# 打印文件的元信息
def printMeta(files):
for filename in files:
try:
pdfFile= PdfFileReader(open(filename, "rb"))
docInfo = pdfFile.getDocumentInfo()
print ("===文件%s的元信息为:"%filename)
for metaItem in docInfo:
print(metaItem,":",docInfo[metaItem])
except Exception as e:
print("---文件%s元数据无法读取,已经跳过!"%filename)
if __name__ == "__main__":
filenames = getFiles()
printMeta(filenames)
清除源信息(藏自己):
import sys
import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter
#获取目录下所有的pdf文件
def getFiles():
files = os.listdir()
pdf_files = list()
for file_name in files:
try:
result = re.match(r".*.pdf$", file_name)
if result:
pdf_files.append(file_name)
except Exception as e:
pass
return pdf_files
def get_page_num(file_name):
#获取一个pdfFileReader对象
my_pdf = PdfFileReader(open(file_name,"rb"))
# 获取页数
page_num = my_pdf.getNumPages()
print("PDF文件%s的页数为%s"%(file_name, page_num))
return page_num
def create_new_pdf(file_names):
try:
os.mkdir("./pure")
except Exception as e:
pass
for file_name in file_names:
try:
# 获取原pdf的信息
my_pdf = PdfFileReader(open(file_name,"rb"))
# 创建一个PdfFileWriter对象
new_pdf = PdfFileWriter()
for i in range(0, get_page_num(file_name)):
page_info = my_pdf.getPage(i)
new_pdf.addPage(page_info)
new_pdf.write(open("./pure/%s"%file_name, "wb"))
print("文件%s已清除元数据!"%file_name)
except Exception as e:
print("文件%s编码有问题,已自动跳过!"%file_name)
if __name__ == "__main__":
create_new_pdf(getFiles());
想到一句好玩的话:知道是你干的,只是懒得抓你!
如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!
- mysql主从同步(3)-percona-toolkit工具(数据一致性监测、延迟监控)使用梳理
- 网站压力测试软件WebBench以及压测Jexus
- Gershon Dublon & Nan Zhao:用传感器网络感知世界
- 即日起珠海可用微信乘公交,腾讯乘车码助力智慧城市建设
- 利用mk-table-checksum监测Mysql主从数据一致性操作记录
- mysql主从同步(4)-Slave延迟状态监控
- 浏览器窗口尺寸改变时的图片自动重新定位
- Mongodb主从复制/ 副本集/分片集群介绍
- Paul-Adrien Menez:互联网与抵制食物浪费的故事
- DRBD详细解说及配置过程记录
- Servant:基于Web的IIS管理工具
- Web前端知识体系精简——CSS 篇
- 几种异步操作方式
- 今天的面试小记
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 问题 linux下执行.sh 文件出现 no such file or directoryile
- 问题:ssm关于mybatis没有找到配置问题(not found)
- 设计模式-享元模式
- 设计模式-代理模式
- win10 x64下从0开始搭建YApi可视化接口管理平台
- dubbo(一)SPI机制与实现路径
- Go 使用三方 Redis 包操作 Redis
- 干货|这可能是最全的高并发、高性能、高可用解决方案总结
- 群晖多人协作开发
- 分享 Druid 连接池参数优化实战
- 使用 Eureka 简单实现服务健康监控日志分析
- Flask 入门系列教程(一)
- Flask 入门系列教程(二)
- CVE-2020-1472
- 盘点提高国内访问 GitHub 的速度的 9 种方案