Go语言中使用正则提取匹配的字符串
本文为原创文章,转载注明出处,欢迎扫码关注公众号
flysnow_org
或者网站http://www.flysnow.org/,第一时间看后续精彩文章。觉得好的话,顺手分享到朋友圈吧,感谢支持。
我们在做爬虫的过程中,需要对爬取到的内容处理,比如说提取出我们需要的内容和文本,比如城市信息、人员信息等等,除了字符串查找外,使用正则匹配是比较优雅和方便的方案。
这篇文章,主要以提取URL中的日期和文章名为例,来举例说明如何使用正则提取字符串。
比如这个URL http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html
,这是前段时间写的一篇关于goquery的使用教程。从这个URL我们可以看到有年月日的日期信息,还有最后面的文章的名称信息,这样一个URL,我们如何从中得到这些信息呢?这就要用到正则表达式的分组了。
正则表达式的分组,以括号()
表示,每一对括号就是我们匹配到的一个文本,可以把他们提取出来。
通过上面URl的分析,我们定义正则表达式如下:
^http://www.flysnow.org/([d]{4})/([d]{2})/([d]{2})/([w-]+).html$
^$
分别表示匹配的开始和结束,界定我们正则表达式的范围。
[d]{4}
表示我们要正好匹配4位数字,因为年份是4位,所以我们定义为匹配4位。后面的月份和天是2位,所以定义为2位。
[w-]
匹配字符串和中杠,加号(+)表示匹配1个或者多个。
然后他们都加了括号()
,意味着我们要提取这些字符串。
下面看下完整的源代码。
flysnowRegexp := regexp.MustCompile(`^http://www.flysnow.org/([d]{4})/([d]{2})/([d]{2})/([w-]+).html$`)
params := flysnowRegexp.FindStringSubmatch("http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html")
for _,param :=range params {
fmt.Println(param)
}
运行打印输出:
http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html
2018
01
20
golang-goquery-examples-selector
FindStringSubmatch
方法是提取出匹配的字符串,然后通过[]string
返回。我们可以看到,第1个匹配到的是这个字符串本身,从第2个开始,才是我们想要的字符串。
fmt.Println("年份为:"+params[1])
fmt.Println("月份为:"+params[2])
fmt.Println("天数为:"+params[3])
fmt.Println("文章名为:"+params[4])
这样我们需要的这篇文章的信息就被提取出来了。
正则对于处理文章很好用,关于更多Golang正则的使用,可以参考官方的这篇正则表达式的介绍。https://github.com/google/re2/wiki/Syntax
本文为原创文章,转载注明出处,欢迎扫码关注公众号
flysnow_org
或者网站http://www.flysnow.org/,第一时间看后续精彩文章。觉得好的话,顺手分享到朋友圈吧,感谢支持。
- spring cloud:Edgware.RELEASE版本hystrix超时新坑
- JS魔法堂:再识ASCII实体、符号实体和字符实体
- MyBatis之传入参数——parameterType
- 被解放的姜戈07 马不停蹄
- 机器学习笔记(6):多类逻辑回归-使用gluon
- JS魔法堂:被玩坏的innerHTML、innerText、textContent和value属性
- JavaWeb(四)EL表达式
- eclipse SWT Designer 插件
- 身份证号码验证算法
- JS读书心得:《JavaScript框架设计》——第12章 异步处理
- 被解放的姜戈04 各取所需
- PLT:说说Evaluation strategy
- 被解放的姜戈06 假作真时
- idea 创建的maven+spring+mybatis项目整合 报错无法创建bean
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 1.String类型字符串拼接2.IDEA清除缓存、热部署3.File的用法 4.Dubbo查询服务状态
- 1.Dubbo 常见错误及解决方法
- SpringBoot学习一:创建工程、pom文件
- SpringBoot学习二:基础配置
- Spring Boot 学习三:静态资源、整合 Thymeleaf 页面模板、@RestControllerAdvice
- SpringBoot学习四:日志框架、SpringBoot自动化配置
- SpringBoot学习五:错误处理、跨域支持
- Spring Security安全
- SpringBoot定时任务
- MySQL优化以及索引的使用
- 前端表单提交String类型数据后端转日期数据
- Java - CentOS下JDK的安装与配置
- yum安装与配置 Tomcat
- org.apache.ibatis.ognl.OgnlException: source is null for getProperty(null, “xxxx“)] with root cause
- UnsatisfiedDependencyException