把照片唱给你听 :腾讯 AI Lab 国际领先技术邀你「趣」体验
感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。
2017年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。
微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:http://cocodataset.org/#captions-leaderboard
团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。
上传吃喝玩乐国庆美图时,AI唱出来是这样的
上传不太正常的图片时,AI可能会被被网友的脑洞玩坏 -_-||
现在,我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景,或图片视频制作经验,将有机会优先体验。请留下评论,回复您的姓名+邮箱+所属公司+职业,如:王小明+wxm@qq.com+腾讯+设计,我们将稍后通知测试方法。
Demo 第 一 步:让 机 器 看 图 写 词
详 解 图 像 描 述 生 成 技 术
Demo中机器「写」出的歌词,其实是给图片配上一句话说明,也被称为图像描述生成。这是一个跨模态(Cross-modality)研究方向,机器不仅要理解图像内容,还要学习和组织语句,给出通顺并符合人类语义习惯的表述。
图像描述生成是一个让机器学会深度理解图片内容的技术。以前,机器只能识别图片里出现的是一只狗,而不是猫;现在,机器不仅识别出狗,说出它的颜色甚至种类,甚至能理解它所处的环境和与其他物体的关系,这体现了机器「视觉能力」的进步。
从简单的图片分类到生成复杂的文字描述,机器用了30多年
在一个三岁儿童的眼里,这可能是个很简单的任务。但机器走到这一步,花费了几十年的时间。尽管如此,机器在理解更复杂的图像内容时,恐怕依旧赶不上三岁小孩。但我们相信,机器前进的每一小步,都体现出人类智慧的一大步。
Demo中使用的是我们全新设计的图像描述模型,采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来:给定一张图片,用卷积神经网络(CNN)为图片编码,得到全局或局部的图片表示;用长短时记忆模型(LSTM)解码上述的图片表示,转换为一句话的文字说明。解码过程中创新采用了注意力模型(Multistage Attention Model),捕捉到了每个单词生成时,不同局部信息的贡献程度,通过引入不同级(stage)注意力模型,更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献;而整个深度网络模型得到了强化学习的充分训练,从而产生更加流畅的自然语句描述图像内容。
Demo采用的全新图像描述模型
在研究上,这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上,它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在,仅以腾讯产品为例,从微信朋友圈、QQ空间图片到天天快报的新闻,都是图像与文本强相关的素材,这之间的深度关系挖掘,能促进更强的内容理解,进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述,可进一步提升图片的分类、搜索和推荐质量;用于图像文本对话系统中,可为图片生成更相关的评论,或直接做「斗图」这样的趣味图像对话;与语音技术结合时,能帮助幼儿或视觉障碍人群更好地理解图像内容。
Demo 第 二 步:让 机 器 看 字 说 话
聊 聊 文 本 转 语 音 技 术 TTS
机器「唱」给你听的,正是将文字转为语音的合成声音。语音合成(Speech Synthesis)或文本转语音(TTS)技术,是Siri这类语音助手不可或缺的一部分,也被广泛应用到游戏、读书及娱乐等领域。
我们使用了商业产品中最常见的参数合成技术,提供了清晰可理解、自然流畅的语音。这背后是大量的工作,第一步是录制专业播音人才近20小时语料;因为不可能录制人的每一句话,第二步里机器要将语音切片成音素,最后使用深度学习对音素的的声学特征与时长建模。
目前我们还在进一步研究语料库较小、低占用的参数合成技术,并考虑将单元选择的高品质和参数合成的灵活性优势结合。
让 内 容 与 AI 做 加 法
机 器 对 文 字、图 像 与 视 频 施 魔 法
结合腾讯内容产品上的独特优势,针对图像、视频、新闻与文学等领域的「内容AI」一直是腾讯AI Lab的四大应用方向之一。
针对图像、视频和文本等多媒体内容AI,我们不断进行探索与尝试,并在基础图像识别领域,如人脸检测、人脸识别及OCR方面有很大突破,更多细节将在11月8日在成都举办的腾讯全球合作伙伴大会(点链接)上分享,敬请期待。
原文来自:腾讯AI实验室 公众号
- go语言的sql包原理与用法分析
- WordPress免插件生成完整站点地图(sitemap.xml)的php代码
- Go语言常用字符串处理方法实例汇总
- 硬盘故障时如何强制关机:Input/output error
- 举例讲解Go语言中函数的闭包使用
- 实现WordPress提交评论的时删除该页面的WP-Super-Cache缓存的方法
- php自动生成百度开放适配PC页-手机页pattern对应关系sitemap.xml
- Linux系统最大文件打开数优化,解决Too many open files报错
- 【Dev Club 分享】安卓单元测试:What, Why and How
- WordPress记住评论用户信息的js版本,直接操作cookie无视缓存
- 禁止百度转码和百度快照缓存的META声明
- 单机MySQL数据库优化推荐的编译安装参数
- Linux网络实时流量监测工具iftop的安装使用
- Golang学习--GroupCache的使用
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Centreon+Nagios实战第九篇——利用nrpe插件监控本机
- 第四篇 CentOs7下安装Zabbix
- 第十三篇 zabbix创建Item
- 第十四篇 zabbix创建自定义Item
- 【性能】688- 前端性能优化——从 10 多秒到 1.05 秒
- 第十六篇 zabbix创建Trigger
- 如何通过程序(java代码)提高你的博客访问量
- zabbix_get [12429]: Check access restrictions in Zabbix agent configuration
- 【设计模式】689- TypeScript 设计模式之观察者模式
- Found a swap file by the name ".jsidInspector.py.swp"
- CentOs7下部署tomcat文件服务器
- 【拓展】未来的JavaScript记录与元组
- 【Vuejs】690- Vue新特性:CSS 中使用 JS 变量
- Zabbix监控之从Kafka中获取消费进度和lag
- 将UTC(字符串包含TZ的时间)时间转换成本地时间 python