编程神器来了!写代码、搜问题,全部都在「终端」完成!是时候入手了
贾浩楠 发自 凹非寺 本文转载自:量子位(QbitAI)
无论你是编程小白还是老司机,coding过程中总会遇到不懂的问题。
最常见的方法是去论坛询问、谷歌搜索,需要反复在网页和编译器页面切换,即使有两个很大的分屏,生产力也会受到影响。
但是现在这个问题有希望解决了,一个便捷编程Q&A工具codequestion可以帮到你。
直接在终端输入「你要问的问题」,用普通的自然语言就行,和你去谷歌搜索没什么两样。
然后马上就能返回详细操作教程,实现了直接在终端用对话形式来查询操作手册。
这么好用的工具安装起来也不复杂。
安装教程
安装codequestion最简单的方法是通过pip或PyPI:
pip install codequestion
当然,你也可以克隆Github上的项目到本地:
pip install git+https://github.com/neuml/codequestion
安装codequestion需要Python 3.6版本以上。
对于Linux系统来说,可以直接运行项目,但是Windows和Mac需要安装额外项。
Windows需要安装C++ Build Tools,地址如下:
https://visualstudio.microsoft.com/visual-cpp-build-tools/
PyTorch Windows的二进制文件不在PyPI上,安装时必须添加以下url链接:
pip install txtai -f https://download.pytorch.org/whl/torch_stable.html
对于Mac来说,安装前需要运行这个命令:
brew install libomp
安装步骤已经完成了,接下来看看实例测试吧
AI驱动的问答机制
codequestion下载完成以后,还需要安装一个模型。
python -m codequestion.download
这个模型的核心就是作者David Mezzetti之前开发的AI算法txtai。
txtai支持构建文本索引,执行相似性搜索,并创建基于提取式问题回答的系统。
作者还提供了预训练的模型:
unzip cqmodel.zip ~/.codequestion
codequestion是可以定制的,可以针对自定义的问答库运行。目前,只支持Stack Exchange库中的问题帮助,未来会有更多的支持选项。
完成模型安装后,可以通过以下命令运行测试:
mkdir -p ~/.codequestion/test/stackexchange
wget https://raw.githubusercontent.com/neuml/codequestion/master/test/stackexchange/query.txt -P ~/.codequestion/test/stackexchange
wget http://ixa2.si.ehu.es/stswiki/images/4/48/Stsbenchmark.tar.gz
tar -C ~/.codequestion/test -xvzf Stsbenchmark.tar.gz
python -m codequestion.evaluate -s test
代码中包含将测试数据下载到〜/ .codequestion / test中。
下面的表格显示了各种词向量/评分组合的测试结果。
SE 300d单词向量与BM25评分在这个数据集中表现最好。即使减少了词汇量的Stack Exchange问题,SE 300d - BM25在STS基准测试中的表现也相当不错。
之前,量子位也介绍过一个相似的Linux命令行查询工具,也是直接在终端输入问题,返回答案。
不同的是,当时的工具howdoi是在在线技术论坛上搜索已有答案,范围比较有限。
那么这次介绍的codequestion的AI驱动机制,有什么先进之处呢?
基本原理
第一步:原始数据转储处理
来自Stack Exchange库的原始7z XML转储通过一系列步骤进行处理。
只有高分的问题和答案才会被检索到,并存储在模型中。
问题和答案被整合到一个名为questions.db的单一SQLite文件中。questions.db 的模式如下:
Id INTEGER PRIMARY KEY
Source TEXT
SourceId INTEGER
Date DATETIME
Tags TEXT
Question TEXT
QuestionUser TEXT
Answer TEXT
AnswerUser TEXT
Reference TEXT
第二步:检索
codequestion工具为questions.db建立了一个句子嵌入索引。
questions.db模式中的每个问题都会被标记,并解析为单词嵌入。
词嵌入模型是建立在questions.db上的自定义fastText模型。一旦某个token被转换为单词嵌入,就会创建一个加权的句子嵌入。
词嵌入使用BM25索引对资源库中的所有token进行加权。但有一个重要的修改:标签被用来提升标签标记的权重。
一旦question.db被转换为句子嵌入的集合,它们就会被归一化并存储在Faiss中,从而可以进行快速的相似性搜索。
第三步:查询
codequestion使用与索引相同的方法对每个查询进行标记。这些标记被用来建立一个句子嵌入。根据Faiss索引对该嵌入句进行查询,以找到最相似的问题。
离线开发好帮手
可以看出,这个codequestion工具的优势在于灵活的搜索匹配问题,并且能够根据问题回答的质量优先推选好的回答。
这一点是类似工具使用关键词匹配搜索答案无法比拟的。
目前codequestion的局限在于只支持Stack Exchange中的问题,但是,作者承诺后期会加入更多的库。
不少网友都反应,这个工具十分实用,尤其是它支持本地库中的问答机制,对于有离线开发需求的码农来说,帮助颇巨。
怎么样?如果这个工具对你有用,那就赶快上手操作吧~
参考链接&传送门:
Github地址: https://github.com/neuml/codequestion
C++ Build Tools安装地址: https://visualstudio.microsoft.com/visual-cpp-build-tools/
量子位之前介绍过的Linux命令行查询工具: https://mp.weixin.qq.com/s/5vfQRsAZ4zEKOJnUNT8Ebg
- WCF技术剖析之二十一:WCF基本异常处理模式[下篇]
- AngularJS in Action读书笔记5(实战篇)——在directive中引入D3饼状图显示
- WCF中并发(Concurrency)与限流(Throttling)体系深入解析系列[共7篇]
- AngularJS in Action读书笔记6(实战篇)——bug hunting
- FreeMarker模板开发指南知识点梳理
- WCF技术剖析之二十: 服务在WCF体系中是如何被描述的?
- WCF如何克服HTTP传输协议的局限提供对不同消息传输模式的实现
- H5手游大事件:腾讯上线“微信小游戏”!支持群分享与内购
- 我所理解的Remoting(2):远程对象生命周期的管理[上篇]
- 谈谈分布式事务(Distributed Transaction)[共5篇]
- SQLXML初体验:用XML代替T-SQL来操作数据库
- 自己动手写可视化软件(代码已开源)
- 探秘Tomcat——连接篇
- 微信小游戏正式上线,H5游戏迎新机遇
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 设计模式~原始模型模式(二)
- 面向对象的7种设计原则(6)-迪米特原则
- LeetCode 刷题记录 1-5
- 你掉的是这个免费服务器,还是这个 Docker 实验平台
- 我能赢吗
- 最长公共子串/序列问题
- 个性化终端 | zsh bash oh-my-zsh
- VirtualBox无限嵌套方法 | 虚拟机套娃
- Win10 LTSC 激活方法 | Win10专业版(永久激活)长期服务版 LTSC 2019密钥
- Nginx代理以及面向未来的HTTP
- git的基本使用
- 一、玩转Git三剑客-Git基础
- Docker和k8s的故障排除和监控利器 Weave-Scope服务
- docker 配置Consul+registrator实时服务发现
- 使用Docker搭建Zookeeper集群