创客空间

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2331|回复: 10

先进机器学习技术之语音识别技术

[复制链接]

8

主题

81

帖子

186

积分

注册会员

Rank: 2

积分
186
发表于 2017-11-2 12:05:02 | 显示全部楼层 |阅读模式
先进机器学习技术之语音识别技术
随着当今的人工智能技术、机器学习技术与深度学习技术的蓬勃发展,语音识别技术也迎来的快速发展的春天。人们的生活已经离不开语音识别技术。 现实生活中,各种设备都有涉及语音识别技术,苹果的 Siri、微软小娜、亚马逊 echo 音响、小米的小爱同学、高德地图、天猫智能音箱等等产品都运用了语音 识别技术,让广大消费者有更好的服务体验。无论国内还是国外的科技公司, 都在大力推动和发展语音识别技术,注重核心技术的研发,着重研究语音识别 的新算法新策略。在科技飞速发展的今天,语音识别技术借着人工智能的东 风,迎来了全面的爆发。
一、 语音识别技术的背景与意义
语音识别技术的研究历史由来已久,最早可以追溯到上世纪 20 年代生产的"RadioRex",它是一种简单的语音识别器。1952 年,由贝尔实验室设计出第一 个语音识别系统 Audrey,但它只能识别 10 个英文数字。这个系统设计是一种 单一匹配模式,只能识别内存中的有限的字,而不能理解复杂的句子与词汇。 20 世纪 70 年代,随着计算机软硬件的快速发展,基于模型与特征分析的语音识别系统被研发出来,跟以前的系统相比,他能够理解简单的句子。每一个语音的输入,都会被计算机转换成字节并且记录其关键特征(比如元音字母等)。为了识别出语音,都会将每一个字的关键特征与已知的特征进行对比。随着不 断的语音训练,语音识别的准确度会得到提高,因为该系统集成了每位用户的 反馈。这种系统比以前的系统会更好,因为它能开始理解简单的句子。但是, 这个系统的也有不足,它只能够理解简单的句子,并且准确度并不是很高。因 为在真实语境中,英语发音有很多相似甚至相同的,比如 sun 和 son。到了 20 世纪 80 年代,统计学习的方法被应用到语音识别领域,特别是隐马尔可夫模型 (Hidden MarkovModel),被应用于构建声学模型与随机语言模型。声学模型与 随机语言模型的构建能够根据最后一个词语预测出下一个出现的词语。到了 2001 年,语音识别的正确率能达到 80%。
二、 语音识别技术的当前发展水平与应用
近年来,随着计算机硬件的性能提升与新的深度神经网络提出,深度神经网络模型开始应用于语音识别领域。目前,循环神经网络广泛应用于语音识别,它是一种卷积神经网络模型的一种变种,它的每一次输出都会用于下一次 输入,以便用于预测下一次输出。现阶段,这种语音识别模型准确率能达到 95%以上。目前,语音识别技术的应用非常广泛。比如,智能出行方面,有高德 地图、百度地图、腾讯地图;只能家居方面,有亚马逊 echo 音箱,小米小爱同 学智能音箱,天猫智能音箱;在手机端,有 Siri,有科大讯飞。由此可见,语音 识别已经融入人们的日常生活,也给大众生活带来了便利。无论国内还是国外 企业,都愿意投入大量财力研究新的语音识别算法与技术。
三、 语音识别技术的关键点
file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image002.png file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image002.png
要将语音转换为屏幕文本或计算机命令,计算机必须经历几个复杂的步骤。当你说话时,你会在空中产生振动。模拟数字转换器(ADC)转换该模拟 波成计算机能理解的数字数据。为此,它通过频繁地对波进行精确测量来对声音进行采样或数字化。系统过滤数字化声音以消除不需要的噪音,有时将其分 成不同的频率频段(频率是声波的波长)。它还可以对声音进行标准化,或将其 调整为恒定的音量级别。它也必须在时间上对齐。人们并不总是以相同的速度 讲话,因此必须调整声音以匹配已经存储在系统内存中的模板声音样本的速 度。
接下来,信号被分成短至几百分之一秒的小段,在爆破辅音的情况下甚至千分之一,通过阻碍声道中的气流产生的辅音停止, 然后程序将这些段与适当 语言的已知音素匹配。音素是语言中最小的元素表达我们制作的声音并组合在 一起形成有意义的表达。英语中大约有 40 个音素(不同的语言学家对确切的数 字有不同的看法),而其他语言有更多或更少的音素。
  下一步是设计统计建模系统,这看起来似乎很简单,但它实际上是最难实
现的,并且是大多数语音识别研究的焦点。该程序在其周围的其他音素的上下
文中检查音素。它通过复杂的统计模型运行上下文音素图,并将它们与已知单
词,短语和句子的大型库进行比较。然后,程序确定用户可能在说什么,并将
其作为文本输出或发出计算机命令。
  早期的语音识别系统试图将一套语法和句法规则应用于语音。如果所说的
单词符合某组规则,则程序可以确定单词是什么。然而,人类语言有许多例
外,即使它的语言一致。口音,方言和习惯可以极大地改变某些单词或短语的
使用方式。
  今天的语音识别系统使用强大而复杂的统计建模系统。这些系统使用概率
和数学函数来确定最可能的结果。今天主导该领域的两个模型是隐马尔可夫模
型和神经网络。这些方法涉及复杂的数学函数,但实际上,它们采用系统已知
的信息来计算隐藏的信息。
隐马尔可夫模型(HMM)是最常见的,所以我们将仔细研究这个过程。在 这个模型中,每个音素就像链中的一个链接,完成的链是一个单词。然而,当 程序试图将数字声音与最有可能接下来的音素匹配时,链条有不同方向的分 支。在此过程中,程序根据其内置字典为每个音素分配概率分数。对于短语和 句子来说,这个过程更加复杂,系统必须弄清楚每个单词的停止和开始位置。
四、 语音识别技术的难点以及可能的解决方案
没有语音识别系统 100%完美,现有的语音识别系统仍存在许多困难,有几个因素会降低准确性。其中一些因素是随着技术的进步而不断改进的问题。而 有一些因素可以由用户行为改进。
(1)鲁棒性:这个概念和机器学习中的泛化能力很像。它是指目前的语音识别 系统对环境条件的依赖性强, 要求保持测试条件和训练条件一致, 否则系统性能 会严重下降。
(2)低信噪比或噪声干扰:拾音器需要“清楚地”听到所说的单词,而声音的任 何额外噪声都会干扰这一点。噪音可能来自多种来源,包括办公室环境中的大 声背景噪音。用户应在安静的房间内工作,并将高质量的麦克风放置在尽可能 靠近嘴的位置。低质量声卡为麦克风提供输入以将信号发送到计算机,通常没 有足够的屏蔽来防止其他计算机组件产生的电信号。它们可以在信号中引入嗡 嗡声或嘶嘶声。
(3)声音重叠:当前系统难以将同时语音与多个用户分开。当你试图在人们 经常互相打断或互相交谈的对话或会议中使用语音识别技术,你可能会得到极 差的结果。所以,现在运用语音识别技术的场景不能用于多用户语音识别。
(4)同音词: 同音异义词是具有不同含义但听起来相同的单词。比如说,中文 的“南方”和“男方”,“密封”和“蜜蜂”,“麻将”和“麻酱”这些词语都是例子。语音识 别程序无法仅根据声音来区分这些单词之间的区别。然而,对系统和统计模型 进行广泛的训练,考虑到词语背景,大大提高了语音识别程序的表现。
五、 语音识别技术的未来的发展方向
语音识别的第一个发展早于现代计算机的发明已超过50 年。亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)受到他的聋哑妻子传播讲话的启发。他最 初希望创造一种能够将可听到的单词转换为聋人可以解释的可见图像的设备。 他也制作了声音的光谱图像,但他的妻子无法破译它们。这一系列的研究最终 导致了他对电话的发明。
  几十年来,科学家们开发了计算机化语音识别的实验方法,但当时可用的
计算能力限制了它们。另一个问题是制作一个能够完美处理俚语,方言,口音
和背景噪音等障碍的系统是非常困难的。而且语言使用的不同语法结构也可能
造成问题。但是,随着科技的发展,隐马尔可夫模型和神经网络应用于语音识
别技术之上,让语音识别技术的准确率发生了质的飞跃。
目前,非常多领域都有应用语音识别技术。比如,用于智能家居的小米音箱,亚马逊的 echo 音箱,用于 apple 的 Siri,用于车载系统的语音导航系统, 用于和电视机交流的讯飞智能电视助手,用于医疗和司法系统的智能会议等 等。可以说,随着语音识别技术的新算法新策略不断研发,计算机硬件处理能 力持续增强,语音识别技术的准确率会越来越高,在未来会应用于越来越多的 领域。
  可能在未来的某个时刻,语音识别可能会成为语音理解。统计模型允许计
算机决定一个人说了什么,有一天他们可以让他们掌握单词背后的含义。而且
这个模型在计算能力和软件复杂性方面也有一个巨大的飞跃。也有一些研究人
员认为,语音识别开发提供了从当今计算机到真正的人工智能的最直接联系。
语音识别技术发展到今天,对于中小词汇量非特定人语音识别系统识别精度已
经大于 98%,对特定人语音识别系统的识别精度就更高。总之,语音识别技术 未来可期。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

10

主题

84

帖子

196

积分

注册会员

Rank: 2

积分
196
发表于 2017-11-6 21:07:04 | 显示全部楼层
有图有正想
回复

使用道具 举报

6

主题

84

帖子

192

积分

注册会员

Rank: 2

积分
192
发表于 2017-11-4 17:29:36 | 显示全部楼层
请叫我雷锋
回复

使用道具 举报

6

主题

72

帖子

172

积分

注册会员

Rank: 2

积分
172
发表于 2017-11-11 13:39:08 | 显示全部楼层
我就看看
回复

使用道具 举报

5

主题

64

帖子

145

积分

注册会员

Rank: 2

积分
145
发表于 2017-11-7 19:46:18 | 显示全部楼层
赶上直播了
回复

使用道具 举报

3

主题

75

帖子

171

积分

注册会员

Rank: 2

积分
171
发表于 2017-11-9 02:06:54 | 显示全部楼层
笑而不语
回复

使用道具 举报

6

主题

79

帖子

176

积分

注册会员

Rank: 2

积分
176
发表于 2017-11-12 10:26:00 | 显示全部楼层
今天没吃药感觉自己萌萌哒
回复

使用道具 举报

9

主题

80

帖子

183

积分

注册会员

Rank: 2

积分
183
发表于 2017-11-7 10:18:34 | 显示全部楼层
伪前排
回复

使用道具 举报

8

主题

69

帖子

156

积分

注册会员

Rank: 2

积分
156
发表于 2017-11-9 17:45:37 | 显示全部楼层
期待下一篇!
回复

使用道具 举报

8

主题

78

帖子

170

积分

注册会员

Rank: 2

积分
170
发表于 2017-11-2 19:11:27 | 显示全部楼层
拜读了,收益匪浅
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|创客空间

GMT+8, 2024-11-27 06:39 , Processed in 0.014130 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表