能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

前沿科技 4年前 (2022) 虚像

9 0 0

逼近人类水平的语音识别系统来了？

没错，OpenAI 新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性！

不仅如此，对于不同口音、专业术语的识别效果也是杠杠的！

一经发布就在推特上收获4800+ 点赞，1000+ 转发。

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

网友们纷纷对它意料之外的强大功能表示惊讶。

不仅是英文，有人用法国诗人波德莱尔的《恶之花》进行了语音测试，得到的文本几乎与原文一致。

OpenAI 联合创始人 & 首席科学家 Ilya Sutskever 就表示：

终于有一个靠谱的语音识别系统能听懂我的口音了。

前任特斯拉人工智能总监 Andrej Karpathy 甚至转发评论：OpenAI 正处于最好的状态中。

话不多说，让我们看看这个被 " 好评如潮 " 的语音系统究竟是怎么回事。

逼近人类水平的语音识别系统

首先，Whisper 最大特点是它使用的超大规模训练集：

它使用从网络上收集的68 万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化，涵盖了许多不同环境、不同录音设备下、不同语言的音频。

具体而言，65% ( 438218 小时 ) 是英语音频和匹配的英语文本，大约 18% ( 125739 小时 ) 是非英语音频和英语文本，而最后 17% ( 117113 小时 ) 则是非英语音频和相应的文本。

其中，非英语部分共包含98 种不同语言。

不过，虽然音频质量的多样性可以帮助提高训练模型的鲁棒性，但转录文本质量的多样性并不是同样有益的。

初步检查显示，原始数据集中有大量不合格的、现有自动语音识别 ( ASR ) 系统生成的转录文本。

而以往的研究表明，在人工和机器混合生成的数据集上进行训练，会显著损害翻译系统的性能。

为了解决这个问题，研究团队开发了几种自动过滤方法来识别和删除低质量的数据源。

但值得一提的是，没有说话内容的片段会被留下，作为语音活动检测的训练数据。

其次，Whisper 体系结构是一种简单的端到端方法，具体来说就是 Transformer 的编码器 - 解码器格式。

输入音频被分成 30 秒的片段，再转换成 log-Mel 谱图，然后传入编码器。

解码器被训练来预测相应的文本标题，并混合特殊标记，指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

除此之外，研究人员还为 Whisper 设置了5 种不同的型号，以下是各模型大致的内存需求和相对速度，使用者可以自行选择。

但需要注意的是，只有 "large" 型号支持多语言，前 4 个模型都只支持英语。

不过不需要担心，与其他模型相比，英文语音识别正是 Whisper 的核心竞争力。

实验结果证明，Whisper 在 Librispeech test-clean 测试的错误率达到 2.7%。

虽然这一数值与 Wav2vec 2.0 一样，但在零样本性能上，Whisper 明显更稳健，平均误差减少了 55%。

甚至零样本 Whisper 模型还缩小了与人类鲁棒性之间的差距。

可以看出，与人类 Alec 相比，LibriSpeech 模型的错误率大约是人类的两倍，而 Whisper 模型的鲁棒性边界则包括 Alec95% 的置信区间。

研究团队

Whisper 的研究团队来自 OpenAI，共同一作有两位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI 的机器学习研究员，也是 indico.io 的联合创始人。

Jong Wook Kim，在纽约大学获得了音乐技术专业的博士学位，研究方向包括多模态深度学习和音乐理解，目前是 OpenAI 的研究人员。

值得一提的是，研究团队指出，虽然目前 Whisper 还没有实时功能，但它的运行速度和内存大小表明，在这一基础上搭建实时语音识别和翻译功能是可行的。

他们希望 Whisper 的高精度和易用性，将允许开发人员将语音接口添加到更广泛的应用程序中。

原文地址：http://www.myzaker.com/article/632f4619b15ec04ad862541b

创始人翻译英语语音识别音乐

版权声明：虚像发表于 2022年9月25日 pm5:04。
转载请注明：能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类 | 快导航网

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

Google、微软工程师花几十万把腿弄断，这件事在硅谷越来越流行

运营商调侃“家庭FTTR不普及是因为房子不够大”，你怎么看？

相关文章

热门文章

最新资讯

热门网址

热门标签

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

Google、微软工程师花几十万把腿弄断，这件事在硅谷越来越流行

运营商调侃“家庭FTTR不普及是因为房子不够大”，你怎么看？

相关文章

热门文章

最新资讯

热门网址

热门标签

运营相关

软件下载

跨境电商

购物网站

设计相关

行业企业

自媒体相关

网络科技

编程帮手

综合其他

站长助手

知识充能

电商运营

生活服务

榜单排名

服务生活

日常生活

新闻媒体

教育文化

政府组织

探索发现

影视工具

影视基地

工具大全

学术资源

学习教育

娱乐生活

发现资源

医疗健康

兴趣爱好

元宇宙

体育健身

休闲娱乐

交通旅游

NFT概念

ACG