为什么你的语音助手说话不像人?关于TTS技术原理及挑战|体育赌钱APP

日期:2021-06-05 18:49:02 | 人气: 79910

为什么你的语音助手说话不像人?关于TTS技术原理及挑战|体育赌钱APP 本文摘要:刚才(wan)哲(nian)平(Dan)男(Shen)在上班的路上,梦见了电影《Her》中的机器人女朋友萨曼莎。

刚才(wan)哲(nian)平(Dan)男(Shen)在上班的路上,梦见了电影《Her》中的机器人女朋友萨曼莎。“只听那个声音,不认识那个人”,但只要听声音,就能感受到各种感情的解释。萨曼莎身后的真人配音来自斯嘉丽约翰逊。有人说“只要听到声音,就符合我对她的所有幻想。

”可以说,避免人与机器之间的隔阂,加深之间的距离,声音是非常重要的。在现实生活中,AI语音助手表示,与此相比,它更接近我们理想的声音。为什么说你的机器人女朋友不像斯嘉丽约翰逊?今天,Rokid A-Lab语音合成算法工程师郑亨彬将在语音合成技术中分析原因。

以下是EnjoyTTS背后的技术原理3354前端和后端系统,语音助手说的技术称为TTS(文本到速度),即语音合成。创造自然、现实、清澈的TTS是AI领域的科学家和工程师们仍然希望的方向。但是在行进中总是会遇到各种“向导”,它们到底是什么呢?(威廉莎士比亚、助手、助手、助手、助手)我们再从TTS的基本原则说起。

TTS技术本质上解决问题是“从文本到语音的问题”,通过这种方式让机器开口。图1语音合成,从文本转换为语音的问题,但这个过程并不容易。

为了减少机器解释的再生可能性,科学家将这个转换过程分解为两个部分,分为3354前端系统和后端系统。图2前端和后端组成的TTS前端将输出文本转换为中间结果,然后将中间结果赠送给后端,管理后端分解声音。接下来,让我们再看一下前端和后端系统如何一起工作。

体育赌钱APP

分解“语言学规格书”的前端系统小时候我们读书前要自学拼音,有拼音的话可以用来拼写我们不懂的字。约翰肯尼迪,语言)TTS的情况是,前端系统从文本转换成中间结果后,看起来像拼音。但是只要有拼音,就敢,因为我们要朗诵的不是一个字,而是一句话。

(威廉莎士比亚,哈姆雷特,原文)当有人说话时,如果不能正确使用口音来控制自己说话的节奏,听起来就不会不舒服,甚至会让人误解,说出想要表达的意思。(威廉莎士比亚,哈姆雷特,语言)所以前端还要加上这种带有口音的信息,告诉我们结尾是如何正确地“说话”的。

我们把这种带有口音的信息叫做韵律。韵律是非常全面的信息。为了修正问题,韵律又分解成中断、耳语等信息。中断是后端在句子的朗诵中告诉你如何停车,而小声音在朗诵时要强调那一部分。

把所有这些信息加起来,我们可以称之为“语言学规格书”。图3。前端将分解“语言书规格书”,在结尾告诉我们想要准备什么内容。

前端就像语言学家一样,只对其文本进行各种分析,然后向后端穿梭巴士发送规格书,告诉大家后面需要准备什么声音。(威廉莎士比亚、模板、文字)为了使机器在实际系统中能够准确地说话,这本《规格书》比我们在这里叙述的还要简单。扮演“发音人”角色的后端系统旨在后端系统收到“语言学规格书”后,尽可能分解该规格书中所述的声音。

当然,机器不需要凭空分解声音。在此之前,您需要在工作室录制数小时到数十小时的平均音频数据(根据技术的不同,使用的数据量可能会有所不同),然后用于创建后端系统。目前主流后端系统有两种方法。一种是基于波形拼接的方法,另一种是基于参数分解的方法。

波形拼接的方法很简单。也就是说,将事先录制的音频存储在计算机上。

当我们准备声音时,可以根据前端班车的“规格书”在这个音频中找到最合适的规格书的音频片段,将片段组合在一起,最后构成最后准备的声音。例如,如果想创造“你真漂亮”的话,我们就不会在数据库中找到“你,真的,好,看”四个字的音频剪辑,把这四个片段放在一起。

图表4是拼凑的,用于准备“你真漂亮”。当然,实际的修补工作并不简单。首先要自由选择补丁单位的粒度,如果要选择粒度,就要设计补丁费用函数等。参数分解法和波形组合法的原理并不完全相同。

用于参数分解法的系统需要使用数学方法,总结音频中音频最突出的特征,并使用自我学习算法自学将前端语言学规格书与这些音频特征同步的转换器。但是我们从语言规格书到音频特征都有这个转换器,在一定程度上准备“你真漂亮”四个字的时候,我们再次使用这个转换器来切换音频特征,然后使用其他组件来还原我们能听到的声音。

在专业领域,这个转换器被称为“声音模型”,将声音功能转换为声音的组件被称为“声码器”。为什么你的AI语音助手说不像人?如果很简单地给出这个问题的答案,主要有两个原因:你的AI不会受到惩罚。为了制造声音,AI需要提出一系列要求,但如果这些要求出错,最终准备的声音就没有问题,有反感的机械感,自然能听到。(大卫亚设,Northern Exposure(美国电视),声音)TTS的前端系统和后端系统都有可能受到惩罚。

在AI中准备声音时,工程师过度修改这个问题,使其无法准确描述声音分解过程。这种修改是由于我们人类对语言和人类的语音分解不够了解而产生的。(威廉莎士比亚、哈姆雷特、语言)另一方面,商业语音合成系统运行时,必须考虑成本控制。

(威廉莎士比亚、温斯顿、语音、语音、语音、语音、语音、语音、语音)让AI语音助手说出不自然的前端错误和后端错误问题。前端错误前端系统作为语言学家是整个TTS系统中最简单的部分。为了分解现文中最后的“语言学规格书”,这位语言学家做的事情比我们想象的要少得多。图5中典型的前端废弃过程之一是文本结构分析。

我们在系统上输出文本。系统必须再次确定此文本是什么语言。只有告诉我是什么语言,我才会告诉你接下来该怎么处理。

(大卫亚设,Northern Exposure(美国电视剧))然后把文本分成一个句子。这些句子再赠送给后面的模块处理。

文本规则在中文场景中,文本规则的目的是将标点符号或数字转换成汉字,而不是汉字。例如,“此操作员666啊”,系统需要将“666”转换为“666”。改变文本和音素就是把文本变成拼音。

汉语中不存在下一个字,所以我们不需要像戛纳新华词典一样用同样的方法找到一个字的发音。要通过其他辅助信息和算法做出正确的决定。这些辅助信息还包括分词和每个单词的词性。韵律预测被用作要求阅读时的节奏,即口音。

但是一般来说,修改后的系统都只是预测句子的中断信息而已。这是读完一个字后必须停止的决定,以及停止决定多长时间。从上面的四个阶段可以看出,任何阶段都是错误的,但一旦出错,分解的语言学规格书就不会错,后段燕子的声音也不会错。

(另一方面)。TTS系统,典型的前端错误有以下类型:1、文本一般错误我们的写作形式和朗诵形式不同,因此在前端早期阶段需要将写作形式转换为实际朗诵的形式。

这个过程在专业领域被称为“文本规则”。例如,我们前面说的“666”应该改为“666”。我们很容易感觉到TTS系统中文本正规性的错误。

例如,“我在房间号为666的房间里花了666韩元。”(可以在页面上听到音频)前面的“666”应该读成“666”,后面的“666”应该读成“666”。但是TTS系统并不容易知道。

另一个例子:“我真的做到了2-4。这个比率是2-4。

”这两个“2-4”究竟应该读“2 ~ 4”、“2 ~ 4”还是“2对4”?你究竟怎么读书,一眼就能看出来是正确的。但是对前端系统来说,这是另一个问题。

2.注音错误汉语是一种博大精深的语言,准确地朗诵不是很容易吗。更棘手的问题之一是,面对下一个人时,应该自由选择哪些音来朗诵。(阿尔伯特爱因斯坦,语言)例如,这两句话:“我的头发又长了。

体育赌钱APP

然后说:“我的头发很长。“这里的‘宽度’到底是读两遍的‘Chang’还是读四遍的‘Jhang’?当然,人们可以非常出色地选择正确的答案。

那么下一句话呢:人能做到,腊一行人就能做到,能做到就不能做到,不能做到就不能。(可以在页面上听到音频)要读这中间的所有“行”,你可能也需要多考虑一下。对AI来说更是无能为力。偶尔AI助手朗诵下一个字的时候会听到读错。

这种错误更容易被耳朵捕捉,并给人留下“这意味着不是真人在说话”的印象。当然,接下来的字错误只是注音错误之一,还有音节、小儿音、音调等其他错误。总之,让你的AI助手正确地朗诵所有内容并不容易。

3.韵律错误如上所述,为了更准确地传达信息,说一句话的时候要有节奏感。如果一个人说话的时候中间不做任何中断,我们就不会很难解释他说的意思,甚至我们也不会让这个人无礼。(威廉莎士比亚、哈姆雷特、语言)我们的科学家、工程师都在努力使TTS朗诵更加没有节奏感,更加礼貌。

但是在很多情况下,TTS总是不尽人意。因为语言的变化太丰富了,根据上下文,甚至根据情况,我们朗诵的韵律节奏是一样的。韵律中最重要的是争论一句中断的节奏。因为中断用一句话朗诵正确的基础,如果中断错了,错误就更容易被耳朵逃脱。

(威廉莎士比亚、哈姆雷特、节奏名言)例如,这句话说:“为你转换单周期模式。“如果我们用“|”来响应中断,长时间朗诵的中断节奏一般是“为你|转换单周期模式”。

但是如果你的AI助手说“为你改变单周期模式”的奇怪节奏感,你的心可能会崩溃。(大卫亚设,Northern Exposure(美国电视剧),)后话错误地谈到前面的“受惩罚的语言学家”后,我们再次想起按照“语言学家”给的“规格书”读稿子的“发音者”如上所述,后端主要有两种修补方法和参数方法。目前,苹果、亚马逊的Siri助手Siri和Alex用于波形拼凑。在国内,大部分公司都用在参数方法上。

因此,让我们来看看参数方法可能的后端错误。后端系统获得前端提供的语言信息后,首先要做的是每个汉字要发音多少(甚至每个首字母、韵母要发音多少)。这个要求发音长度的组件在专业领域被称为“时间模型”。

通过这个时间信息,后端系统可以通过前面说的转换器(电话学模型)将这个语言规格书转换成音频特性。然后,使用名为“vocoder”的其他组件将这些音频功能恢复为声音。从时间模型到声音模型,到声音代码,所有阶段都可能受到惩罚,或者极度不能分解我们认为的结果。

TTS系统中常见的后端错误有以下类型:1、用一句话朗诵时间模型错误时,根据上下文,每个字的发音时间不同。TTS系统需要根据上下文,将哪些字发音长一些,哪些字读得短一些,其中更典型的例子是语调的朗诵。

一般来说,这些语调包含着人的语气的感情,所以他们的发音比一般的字要宽一些。例如,“嗯”。我希望他是对的。

“(页面上可以听到的音频)这里的“嗯”,在这个场景中,为了响应“事故后的认识”,需要相当长的时间。但是并不是所有的“嗯”都这么广。例如,“嗯?你刚才说什么?单击这里的“嗯”代表用怀疑的语气,发音比上面句子的“嗯”短得多。

如果时间模型不能做出正确的决策,发音长就不会给人不自然的感觉。2.音响模型错误最大的音响模型错误是训练后遇到末端“发音人”时没有看到的发音。

体育赌钱APP

声学模型的作用是在训练音高中自学与各种“语言学规格书”相对应的语音声学特征。在准备过程中遇到训练过程中没有看到的语言学,机器更容易输入正确的声学特征。

罕见的例子是儿化音。因此,每个汉语拼音都有相应的小儿音,但实际说话中使用部分小儿音的肚子很低,所以录音音高的时候一般会涵盖所有的小儿音,但这意味着保持最罕见的。(威廉莎士比亚,哈姆雷特,语言) (威廉,莎士比亚,哈姆雷特,莎士比亚,莎士比亚,莎士比亚,莎士比亚,莎士比亚,莎士比亚,莎士比亚,(威廉莎士比亚,泰姆斯特,希望如此)3、声码器错误声码器的种类很多,但传统而罕见的声码器一般使用基本频率信息。那么什么是基本频率呢?基本频率是你说话时声带振动的高低。

教你一个非常简单的方法,把拇指以外的四个手指解开到喉咙部分,感受到自己自由说话。(威廉莎士比亚,哈姆雷特,) (这时候你不会感觉到你的脖子在震动。这个振动的信息就是我们的基本频率信息。

发出浊音时预告声带振动,声带不振动而接收的音称为清音。辅音显然有鼻音,元音一般是浊音。因此,语音中元音和浊音辅音的方位都要对应基本频率。

如果前面提到的音响模型输入的基本频率经常跑偏,音响器准备的声音就不会奇怪了。(大卫亚设,Northern Exposure(美国电视),语音名言)训练后,在做最后的这个“发音人”时,我们也需要通过算法计算基本频率信息。不良基本频率提取算法可能会导致基本频率损失、倍频或反频率现象。它们直接影响基本频率预测模型的效果。

如果在需要基本频率的地方不能预测基本频率,一起准备声音是沙哑的,对听觉感的影响非常明显。好的声码器也要处理好基本频率人和自然波的关系。高频谐波过于突出时,听觉感不会发出嗡嗡声,机械感突出。

在这篇文章中,我们分析了TTS的基础原理和语音助手不能像真人一样说话的原因。TTS在各种决定中不受惩罚,是朗诵错误或不自然的。同时,为了使计算机能够准备声音,工程师不修改文本和语音转换问题,使其无法准确地描述声音分解过程。

这种修改来自对语音语言分解过程的理解限制,并且仅限于当前的计算工具。现在这个领域有很多新的方法,特别是要用深度自学的方法把文本变成语音,已经发出了大自然的声音,但要让你的AI助手几乎像人一样说话还是很困难的。

(大卫亚设,Northern Exposure(美国电视连续剧),) (公众号:)据报道:本文作者郑文文,爱丁堡大学人工智能硕士,师是国际著名语音合成专家西蒙金教授。目前担任Rokid ALab语音合成算法工程师,负责语音合成引擎体系结构设计、后声模型开发等。

特约原告被刊登在许可禁令上。下面,我们来听一下关于刊登的注意事项。


本文关键词:体育赌钱APP

本文来源:体育赌钱APP-www.3dxian.com

产品中心