GO语言利用K近邻算法实现小说鉴黄
时间:2022-05-05
本文章向大家介绍GO语言利用K近邻算法实现小说鉴黄,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
关键是向量点的选择和阈值的判定 样本数据来自国家新闻出版总署发布通知公布的《40部淫秽色情网络小说名单》
package main
import (
"bufio"
"flag"
"fmt"
"io"
"log"
"math"
"os"
"path"
"path/filepath"
)
var debug bool = false
var data_dir string = "./moyan" //文件存放目录
var limen float64 = 0.1159203888322267 //阈值
const (
MIN_HANZI rune = 0x3400
MAX_HANZI rune = 0x9fbb
)
var labels []rune = []rune{
0x817f, 0x80f8, 0x4e73, 0x81c0,
0x5c41, 0x80a1, 0x88f8, 0x6deb,
}
func errHandle(err error) {
if err != nil {
log.Fatal(err)
}
}
func load(name string) (m map[rune]int, err error) {
f, err := os.Open(name)
if err != nil {
return nil, err
}
defer f.Close()
buf := bufio.NewReader(f)
m = make(map[rune]int)
var r rune
for {
r, _, err = buf.ReadRune()
if err != nil {
if err == io.EOF {
break
}
return nil, err
}
if r >= MIN_HANZI && r <= MAX_HANZI {
m[r] += 1
}
}
return m, nil
}
func classify(m map[rune]int) (idv []float64, dis float64) {
len_m := len(m)
for i, v := range labels {
if debug {
fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
}
idv = append(idv, float64(m[v])/float64(len_m))
}
for _, v := range idv {
dis += math.Pow(v, 2)
}
dis = math.Sqrt(dis)
return
}
func check(fp string, dis float64) {
switch {
case dis >= limen:
fmt.Println(fp, dis, "涉黄")
case dis == 1.0:
fmt.Println(fp, dis, "你在作弊吗")
case dis == 0:
fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
default:
fmt.Println(fp, dis, "正常")
}
}
func walkFunc(fp string, info os.FileInfo, err error) error {
if path.Ext(fp) == ".txt" {
m, err := load(fp)
errHandle(err)
_, dis := classify(m)
check(fp, dis)
}
return err
}
var file string
func init() {
_, err := os.Stat(data_dir)
if err != nil {
err = os.Mkdir(data_dir, os.ModePerm)
errHandle(err)
}
flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+
"it will create a data dictionary,just pust your files in it")
}
func main() {
flag.Parse()
if file == "" {
filepath.Walk(data_dir, walkFunc)
return
}
m, err := load(file)
errHandle(err)
_, dis := classify(m)
check(file, dis)
}
- SpringBoot开发案例之整合日志管理
- SpringBoot开发案例之奇技淫巧
- SpringBoot开发案例之整合Spring-data-jpa
- SpringBoot开发案例之整合定时任务(Scheduled)
- SpringBoot开发案例之整合mail发送服务
- SpringBoot开发案例之整合mongoDB
- Docker学习之CentOS 7安装配置
- Docker学习之搭建JavaWeb环境
- Docker学习之搭建JavaWeb环境进阶篇
- Docker学习之网络模式配置
- Docker学习之SSH连接docker容器
- Docker学习之搭建Nginx容器服务
- Docker学习之搭建MySql容器服务
- 初识Python
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- keras CNN卷积核可视化,热度图教程
- 解决tensorflow读取本地MNITS_data失败的原因
- 浅谈keras中Dropout在预测过程中是否仍要起作用
- 浅谈keras中loss与val_loss的关系
- python中tkinter窗口位置坐标大小等实现示例
- python os模块在系统管理中的应用
- Laravel路由研究之domain解决多域名问题的方法示例
- python GUI模拟实现计算器
- 详解php命令注入攻击
- PHP设计模式之策略模式原理与用法实例分析
- python使用QQ邮箱实现自动发送邮件
- php使用lua+redis实现限流,计数器模式,令牌桶模式
- PHP whois查询类定义与用法示例
- Laravel多域名下字段验证的方法
- ThinkPHP框架整合微信支付之Native 扫码支付模式二图文详解