把照片唱给你听：腾讯 AI Lab 国际领先技术邀你「趣」体验

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展，并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月，在图像描述生成技术这一计算机视觉与NLP交叉研究领域，腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一，超过了微软、谷歌、IBM等参赛公司，体现了在这一前沿领域的技术优势。

微软MS COCO也称常见物体图像识别数据集，对图像的标注信息包括类别、位置和图像语义文本描述等，该数据集的开源使近两三年来图像分割语义理解取得了巨大进展，几乎成为图像语义理解算法性能评价的「标准」数据集。链接：http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo，将图像描述生成技术与文本转语音（Text to Speech，简称TTS）两大AI技术结合，希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后，AI会生成相关的文字描述并匹配韵脚歌词，再通过合成语音配合旋律Rap出来。

视频内容

上传吃喝玩乐国庆美图时，AI唱出来是这样的

视频内容

上传不太正常的图片时，AI可能会被被网友的脑洞玩坏 -_-||

现在，我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景，或图片视频制作经验，将有机会优先体验。请留下评论，回复您的姓名+邮箱+所属公司+职业，如：王小明+wxm@qq.com+腾讯+设计，我们将稍后通知测试方法。

Demo 第一步：让机器看图写词

详解图像描述生成技术

Demo中机器「写」出的歌词，其实是给图片配上一句话说明，也被称为图像描述生成。这是一个跨模态（Cross-modality）研究方向，机器不仅要理解图像内容，还要学习和组织语句，给出通顺并符合人类语义习惯的表述。

图像描述生成是一个让机器学会深度理解图片内容的技术。以前，机器只能识别图片里出现的是一只狗，而不是猫；现在，机器不仅识别出狗，说出它的颜色甚至种类，甚至能理解它所处的环境和与其他物体的关系，这体现了机器「视觉能力」的进步。

从简单的图片分类到生成复杂的文字描述，机器用了30多年

在一个三岁儿童的眼里，这可能是个很简单的任务。但机器走到这一步，花费了几十年的时间。尽管如此，机器在理解更复杂的图像内容时，恐怕依旧赶不上三岁小孩。但我们相信，机器前进的每一小步，都体现出人类智慧的一大步。

Demo中使用的是我们全新设计的图像描述模型，采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来：给定一张图片，用卷积神经网络（CNN）为图片编码，得到全局或局部的图片表示；用长短时记忆模型（LSTM）解码上述的图片表示，转换为一句话的文字说明。解码过程中创新采用了注意力模型（Multistage Attention Model）,捕捉到了每个单词生成时，不同局部信息的贡献程度，通过引入不同级（stage）注意力模型，更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献；而整个深度网络模型得到了强化学习的充分训练，从而产生更加流畅的自然语句描述图像内容。

Demo采用的全新图像描述模型

在研究上，这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上，它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在，仅以腾讯产品为例，从微信朋友圈、QQ空间图片到天天快报的新闻，都是图像与文本强相关的素材，这之间的深度关系挖掘，能促进更强的内容理解，进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述，可进一步提升图片的分类、搜索和推荐质量；用于图像文本对话系统中，可为图片生成更相关的评论，或直接做「斗图」这样的趣味图像对话；与语音技术结合时，能帮助幼儿或视觉障碍人群更好地理解图像内容。

Demo 第二步：让机器看字说话

聊聊文本转语音技术 TTS

机器「唱」给你听的，正是将文字转为语音的合成声音。语音合成（Speech Synthesis）或文本转语音（TTS）技术，是Siri这类语音助手不可或缺的一部分，也被广泛应用到游戏、读书及娱乐等领域。

我们使用了商业产品中最常见的参数合成技术，提供了清晰可理解、自然流畅的语音。这背后是大量的工作，第一步是录制专业播音人才近20小时语料；因为不可能录制人的每一句话，第二步里机器要将语音切片成音素，最后使用深度学习对音素的的声学特征与时长建模。

目前我们还在进一步研究语料库较小、低占用的参数合成技术，并考虑将单元选择的高品质和参数合成的灵活性优势结合。

让内容与 AI 做加法

机器对文字、图像与视频施魔法

结合腾讯内容产品上的独特优势，针对图像、视频、新闻与文学等领域的「内容AI」一直是腾讯AI Lab的四大应用方向之一。

针对图像、视频和文本等多媒体内容AI，我们不断进行探索与尝试，并在基础图像识别领域，如人脸检测、人脸识别及OCR方面有很大突破，更多细节将在11月8日在成都举办的腾讯全球合作伙伴大会（点链接）上分享，敬请期待。

原文来自：腾讯AI实验室公众号

把照片唱给你听 ：腾讯 AI Lab 国际领先技术邀你「趣」体验

Demo 第 一 步：让 机 器 看 图 写 词

详 解 图 像 描 述 生 成 技 术

Demo 第 二 步：让 机 器 看 字 说 话

聊 聊 文 本 转 语 音 技 术 TTS

让 内 容 与 AI 做 加 法

机 器 对 文 字、图 像 与 视 频 施 魔 法