智能音箱如何识别方言?
导读:尽管机器学习使语音识别技术的音箱发展突飞猛进,如今这些语音识别系统还是何识不够完美,最严重的别方问题就是有地域歧视性。
自从IBM的音箱Shoebox和Worlds of Wonder的玩具娃娃Julie doll发布以来,语音识别技术一直在不断地发展。何识到2018年底,别方Google Assistant支持超过30种不同的音箱语言。
高通也开发了一款可以识别单词和短语的何识语音识别系统,其准确率高达95%。别方此外,音箱微软的何识智能语音客服比人工呼叫服务更加准确高效。
然而,别方尽管机器学习使语音识别技术的音箱发展突飞猛进,如今这些语音识别系统还是何识不够完美,最严重的别方问题就是有地域歧视性。
华盛顿邮报最近进行的一项研究结果显示,谷歌和亚马逊研发的流行智能语音助手识别非美国本地口音的准确率要比美国本地口音低30%。
像IBM和微软这样的公司都会通过Switchboard语料库来降低语音助手的出错率。但是事实证明,语料库也无法彻底解决语音助手的口音识别问题。
“数据是混乱的,因为数据反映了人性,”埃森哲的全球责任AI监理Rumman Chowdhury说,“这就是算法最擅长之处:寻求人类行为模式。”
算法偏差表示机器学习模型对数据或者设计产生偏见的程度。很多新闻报道都对面部识别系统(尤其是亚马逊网络服务的图像识别Rekognition)产生了不小的偏见。

而且,算法偏差还会出现在其他方面,比如预测被告是否会在未来犯罪的自动化系统以及谷歌新闻等app背后的内容推荐算法。
微软以及包括IBM、高通和Facebook在内的AI行业领导者已经开发出自动化工具,用于检测并减少AI算法中产生的偏差,但很少有人能够提出口音识别问题的具体解决方案。
真正提出解决方案的只有两家公司。一个是Speechmatics,另一个便是Nuance。
解决口音差距问题
Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司,它于12年前就开始实施了一项雄心勃勃的计划,旨在开发比市场上任何产品更准确全面的语言识别系统。
该公司最初是研究统计语言建模和循环神经网络。它开发了一种可以处理内存输出序列的机器学习模型。2014年,它利用一个十亿字节的语料库加速其统计语言建模的发展,从此迈出了第一步。
到了2017年,它又迈向了另一个里程碑:与卡塔尔计算研究所(QCRI)合作开发了阿拉伯语言文字转换服务。
“我们已经发现我们需要开发一款语音识别系统,只需一种模式便能适用于所有语言,不再有口音问题,并且它识别澳大利亚口音的准确度和转录苏格兰口音一样高。”Speechmatics首席执行官Benedikt vonThüngen说。
他们在今年七月成功研发了一款这样的语音识别系统Global English。它拥有40多个国家的数千小时的语音数据和数百亿单词,支持所有英语口音的语音文本转换功能。
此外,Global English的建立还离不开Speechmatic的Automatic Linguist,这是一种人工智能框架,通过利用已知语言中识别的模式来学习新语言的语言基础。
“假设你一边要和美国人交谈,另一边还要和澳大利亚人交流,而且这个美国人曾经住在加拿大,所以有加拿大口音,这时大多数的语音识别系统都会很难识别这种带有不同口音的语言,但是我们的语音识别系统就完全不用担心这个问题。”Speechmatics公司产品副总裁Ian Firth在一次采访中说。
在测试中,Global English在识别特定的口音方面表现的比谷歌的Cloud Speech API和IBM的Cloud还要出色。Thüngen表示,在高端领域中,它的准确率比其他产品还要高23%到55%。
Speechmatics并不是唯一一家想要解决口音识别问题的公司。
总部位于马萨诸塞州柏林顿的Nuance表示,它将采用多种方法,确保其语音识别系统能够识别将近80种语言,并且准确率都一样高。
在其英国语言模型中,它收集了20个特定方言区域的语音和文本数据,包括每种方言独有的单词(比如使用单词“cob”特指面包卷)及其发音。因此,这款Nuance的语音识别系统便能识别出“Heathrow”的52种不同表达方式。
如今,Nuance语音识别系统又有了新的发展。更新版本的Dragon是Nuance研发的定制语音文本转换软件组合,其机器学习模型可根据用户的口音在几种不同的方言中自动切换。
与没有方言自动切换功能的旧版本相比,新版本的语音识别系统识别带有西班牙口音的英语的准确率要高22.5%,识别美国南部方言的准确率要高16.5%,识别东南亚英语的准确率要高17.4%。
数据越多越好
归根结底,语音识别的口音问题是由于数据不足产生的。语料库的质量越高,语言模型越多种多样,那么至少从理论上来说语音识别系统的准确率越高。
在华盛顿邮报的研究中,Google Home智能语音助手识别美国南部语言的准确率要比识别美国西部语言的准确率低3%。而亚马逊的Echo识别美国中西部语言的准确率要低2%.
亚马逊的一位发言人告诉华盛顿邮报,随着更多的用户用不同的口音说话,Alexa的语音识别能力会不断提高。并且,谷歌在一份声明中表示,他们将通过扩大自己的数据库,不断改进Google Assistant的语音识别技术。
随着使用语音识别系统的用户越来越多,它们的功能会进一步提升。根据市场研究公司Canalys数据显示,到2019年之前,将近1亿智能语音系统在全球销售。并且,在2022年之前,大约55%的美国家庭都会拥有一个智能语音系统。
不要指望有彻底解决口音问题的方案。“按现在的技术发展,你不可能研发出准确率最高并且适用于全世界用户的语音识别系统,”Faith说。“你能做的最好的事情便是保证这些语音识别系统能够准确识别那些正在使用它们的用户的口音。”
自从IBM的音箱Shoebox和Worlds of Wonder的玩具娃娃Julie doll发布以来,语音识别技术一直在不断地发展。何识到2018年底,别方Google Assistant支持超过30种不同的音箱语言。
高通也开发了一款可以识别单词和短语的何识语音识别系统,其准确率高达95%。别方此外,音箱微软的何识智能语音客服比人工呼叫服务更加准确高效。
然而,别方尽管机器学习使语音识别技术的音箱发展突飞猛进,如今这些语音识别系统还是何识不够完美,最严重的别方问题就是有地域歧视性。
华盛顿邮报最近进行的一项研究结果显示,谷歌和亚马逊研发的流行智能语音助手识别非美国本地口音的准确率要比美国本地口音低30%。
像IBM和微软这样的公司都会通过Switchboard语料库来降低语音助手的出错率。但是事实证明,语料库也无法彻底解决语音助手的口音识别问题。
“数据是混乱的,因为数据反映了人性,”埃森哲的全球责任AI监理Rumman Chowdhury说,“这就是算法最擅长之处:寻求人类行为模式。”
算法偏差表示机器学习模型对数据或者设计产生偏见的程度。很多新闻报道都对面部识别系统(尤其是亚马逊网络服务的图像识别Rekognition)产生了不小的偏见。

而且,算法偏差还会出现在其他方面,比如预测被告是否会在未来犯罪的自动化系统以及谷歌新闻等app背后的内容推荐算法。
微软以及包括IBM、高通和Facebook在内的AI行业领导者已经开发出自动化工具,用于检测并减少AI算法中产生的偏差,但很少有人能够提出口音识别问题的具体解决方案。
真正提出解决方案的只有两家公司。一个是Speechmatics,另一个便是Nuance。
解决口音差距问题
Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司,它于12年前就开始实施了一项雄心勃勃的计划,旨在开发比市场上任何产品更准确全面的语言识别系统。
该公司最初是研究统计语言建模和循环神经网络。它开发了一种可以处理内存输出序列的机器学习模型。2014年,它利用一个十亿字节的语料库加速其统计语言建模的发展,从此迈出了第一步。
到了2017年,它又迈向了另一个里程碑:与卡塔尔计算研究所(QCRI)合作开发了阿拉伯语言文字转换服务。
“我们已经发现我们需要开发一款语音识别系统,只需一种模式便能适用于所有语言,不再有口音问题,并且它识别澳大利亚口音的准确度和转录苏格兰口音一样高。”Speechmatics首席执行官Benedikt vonThüngen说。
他们在今年七月成功研发了一款这样的语音识别系统Global English。它拥有40多个国家的数千小时的语音数据和数百亿单词,支持所有英语口音的语音文本转换功能。
此外,Global English的建立还离不开Speechmatic的Automatic Linguist,这是一种人工智能框架,通过利用已知语言中识别的模式来学习新语言的语言基础。
“假设你一边要和美国人交谈,另一边还要和澳大利亚人交流,而且这个美国人曾经住在加拿大,所以有加拿大口音,这时大多数的语音识别系统都会很难识别这种带有不同口音的语言,但是我们的语音识别系统就完全不用担心这个问题。”Speechmatics公司产品副总裁Ian Firth在一次采访中说。
在测试中,Global English在识别特定的口音方面表现的比谷歌的Cloud Speech API和IBM的Cloud还要出色。Thüngen表示,在高端领域中,它的准确率比其他产品还要高23%到55%。
Speechmatics并不是唯一一家想要解决口音识别问题的公司。
总部位于马萨诸塞州柏林顿的Nuance表示,它将采用多种方法,确保其语音识别系统能够识别将近80种语言,并且准确率都一样高。
在其英国语言模型中,它收集了20个特定方言区域的语音和文本数据,包括每种方言独有的单词(比如使用单词“cob”特指面包卷)及其发音。因此,这款Nuance的语音识别系统便能识别出“Heathrow”的52种不同表达方式。
如今,Nuance语音识别系统又有了新的发展。更新版本的Dragon是Nuance研发的定制语音文本转换软件组合,其机器学习模型可根据用户的口音在几种不同的方言中自动切换。
与没有方言自动切换功能的旧版本相比,新版本的语音识别系统识别带有西班牙口音的英语的准确率要高22.5%,识别美国南部方言的准确率要高16.5%,识别东南亚英语的准确率要高17.4%。
数据越多越好
归根结底,语音识别的口音问题是由于数据不足产生的。语料库的质量越高,语言模型越多种多样,那么至少从理论上来说语音识别系统的准确率越高。
在华盛顿邮报的研究中,Google Home智能语音助手识别美国南部语言的准确率要比识别美国西部语言的准确率低3%。而亚马逊的Echo识别美国中西部语言的准确率要低2%.
亚马逊的一位发言人告诉华盛顿邮报,随着更多的用户用不同的口音说话,Alexa的语音识别能力会不断提高。并且,谷歌在一份声明中表示,他们将通过扩大自己的数据库,不断改进Google Assistant的语音识别技术。
随着使用语音识别系统的用户越来越多,它们的功能会进一步提升。根据市场研究公司Canalys数据显示,到2019年之前,将近1亿智能语音系统在全球销售。并且,在2022年之前,大约55%的美国家庭都会拥有一个智能语音系统。
不要指望有彻底解决口音问题的方案。“按现在的技术发展,你不可能研发出准确率最高并且适用于全世界用户的语音识别系统,”Faith说。“你能做的最好的事情便是保证这些语音识别系统能够准确识别那些正在使用它们的用户的口音。”
(责任编辑:百科)
推荐文章
-
QQ飞车手游是由端游QQ飞车原班人马打造,高度还原端由的手游,QQ飞车手游一上线就引起火爆,以及占领手游下载排行榜第一,虽然才刚一天,但也是非常不错的,因为刚刚上线不久,所以大多数玩家是游戏小白,今天 ...[详细]
-
3月30日,财产链给出最新动静称,郑州富士康已正在大年夜范围量产华为圆才公布的P30系列了,而那款足机将会正在4月11日于海内公布,古晨吸应的预定工做已开端,正式收货会正在4月20日前后。华为P30国 ...[详细]
-
本日索僧互动文娱很温馨天颁布收表他们正正在闭服统统《驾驶俱乐部》游戏,同时也将正在PS商乡中停卖那些游戏。详细去讲,您讲您将正在2020年3月31日启闭《驾驶俱乐部》、《驾驶俱乐部VR》战《驾驶俱乐部 ...[详细]
-
ATLUS现在又开了一个域名为“P5S.JP”的新网站,那个传讲中的 P5S 事真是甚么呢?古晨看去念要晓得更多疑息只需比及4月25日了。非常风趣的是,该网站的源代码中仿佛躲了一些没有仄常的东西,那是 ...[详细]
-
古墓丽影:暗影是系列最新游戏作品,前不久官方表示游戏已经开始压盘了,也就说明在9月中旬大家能够正式体验这款游戏,最近游戏新预告视频放出,下面介绍大家可以了解一下。在这段30秒多一点的视频中,我们可以更 ...[详细]
-
BioWare的《圣歌》自出售以去,玩家们对游戏中的战利品题目一背很有牢骚。固然颠终更新“改进了”战利品的词缀题目,30级以后没有再掉降率bai ?拆战绿拆,但比去的更新借是出有完整处理战利品掉降降题 ...[详细]
-
日本一3月28日来日诰日公开了旗下齐新悬疑推理冒险游戏《杀人侦察:开膛足杰克》的尾弹预报,本做预定4月25日正在日本出售,登岸PS4战Switch仄台,卖价6980日元420人仄易远币)。《杀人侦察: ...[详细]
-
《神界:豪杰再临》做为备受好评《神界》系列绝做,也带去了系列的特性体系——那便是游戏中物理、化教元素的充分畅通收悟战应用。正在充谦了毒、油、血等液体的战役园天上,玩家能够操纵足中的邪术战动做指令去创做 ...[详细]
-
迷你毁灭战士2最近公布了游戏上线的消息,这款游戏也给玩家们提供了免费的下载服务,作为系列续作,新作带来了17个新关卡和2个新boss,到底怎么样,看看下面介绍吧。《毁灭战士》代表着一代PC射击游戏玩家 ...[详细]
-
SEGA 营运中的足机游戏,以旗下着名家用主机游戏改编的 龙が如く ONLINE《如龙Online》透过大年夜型更新,正式将系列做代表人物「桐逝世一马」将进游戏当中,并且同步停止 1 天 1 次免费转 ...[详细]
热点阅读