前言:

本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。

为了更好理解语音识别,着实是硬啃了些技术文章(附文末),看的脑壳嗡嗡的。

本人属于销售岗,虽然力求严谨,但内容上仍然不免有错误,欢迎行业大佬指正,谢谢!


一、语音识别技术的原理

定义:语音识别技术(ASR Automatic Speech Recognition),让智能设备听懂人类的语音。

语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理

语音识别的基本工作流程

1、前端处理

前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。

前端处理的硬件链路:MIC—>Codec/ADC/PDM—>NPU\DSP

MIC 麦克风 采集音频的关键硬件载体,关键参数是灵敏度和信噪比。 按信号输出分为模拟和数字,数字Mic在模拟Mic的基础上内置模拟转换器ADC, 按形态分为驻极体ECM和硅麦MEMS,模拟Mic通常形态是驻极体,数字Mic通常形态是硅麦,但也有数字Mic形态是驻极体。 智能手机全部使用的是硅麦MEMS

以下是前端处理的流程原理简化:

音频采集: 通过麦克风,将声波转换为模拟电信号,再通过ADC转换为数字信号
预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等
特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点

2、模型训练

模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词

那模板怎么来的呢?

首先,需要通过大量地采集真人的语音数据(语料采集),且可以针对性地采集地方口音。

探境科技 某项目采集表格

然后,语料采集完后,需通过特定的算法(硬件载体是服务器)进行语料的训练,又称“模型训练”。即编辑一本字典出来,后面语音识别的时候就需要“翻字典”查找正确答案。

语音识别系统的模型训练通常分为两套:

声学模型训练

声学模型是识别系统的底层模型,是语音识别系统中关键的部分,算法主要集中优化该部分

声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。

语言模型训练

语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”

它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。

早期的语音识别算法不需要语言模型,因为这些算法不要求机器“听懂”词汇。

3、后端识别处理 (语音解码)

将“声学模型”和“语言模型”匹配前端信号采集进来的音频信号,并输出识别结果。

该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。

识别准确率和响应速度,综合取决于算法优化,硬件主频,以及前端降噪和保真度。

以下是详细语音识别技术的原理分支整理:


二、语音识别技术的发展史

语音识别芯片的分类,与技术迭代高度关联。以下简单搜罗整理了语音识别技术的发展史。

语音识别技术的发展,可以分为三个阶段:

第一阶段 模型匹配法 / 语音标签(70年代)

主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配
模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度
主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)
技术局限:识别很模糊,体验很差,不具有降噪能力,命令词有限

第二阶段:概率统计型(1993年~2009年)

部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM
HMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态
GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率

HMM:词句 ≥ N*音素 ≥ N*状态=N帧语音

基于GMM-HMM框架,后续又提出了许多改进方法: 动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等
该算法技术比较成熟,市场上也比较通用常见,比第一阶段拥有更高的识别率和降噪效果 缺点:高灵敏度状态下,误识别率仍然较高。词汇超过一定数量,识别体验差

第三阶段: 辨别器分类方法(2009年至今)

常被成为深度神经网络识别,是当下技术最前沿的语音识别技术类型,包括:
1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM
2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加
3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费

该类别技术的离线芯片原厂是我重点关注的对象,下午会详细展开说明。

下一代语音识别技术:端到端CTC? 自然语言NLP?

国内大厂的技术选择:
科大讯飞–深度全序列卷积神经网络(DFCNN)、阿里LFR-DFSMN、百度SMLTA、Kaldi


三、语音识别芯片的比对(本文重点)

按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类

在线语音识别,即大词汇量连续语音识别系统
典型应用:在线翻译、智能客服、大数据分析、服务机器人等
离线语音识别,即小词汇量、低功耗、低成本的语音识别系统
典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等

离线和在线技术原理都差不多,区别在于离线语音通常在本地设备端处理,且常见于家电这类成本要求高的应用,硬件资源有限(MCU\NPU+Nor Flash)。而在线语音常用于智能音箱和智能手机,通过网络传到云端服务器跑,硬件资源极为强大(CPU+ HDD)。

在线语音识别芯片

在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线

在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。
该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。

本文关注重点是离线语音识别,在线的就不展开详细叙述和对比。

离线语音识别芯片

根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:

PS:以下表格信息有点多,建议点开图片查看

芯片比对参数说明:

识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。
误识别率该指标比较隐形,且关联因素较多,各厂家没法直接比较。但该指标极其重要,因为作为用户肯定不希望在聊天的时候,被智能设备插嘴打断,甚至半夜忽然来一句。
处理器:分为MCU和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。
存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量
语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数
音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。
电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。
其他因素:工作温度、封装等,以及特殊备注。

以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。

1.0&2.0时代:传统型

算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。由于芯片配置低,没有降噪功能,安静环境下的识别距离在2~5m,识别率通常在90%左右。词条数5~10条。
处于成本考量和应用行业特点,各家芯片都有不同的”性能短板”:外挂主控、外挂存储、OTP固定词条、词条数少、接口单一、稳定性差等等,这些短板,都是为了降低成本。

厂商分析:
台湾 新塘\凌阳
围绕着台湾赛维的算法,几年前以新塘为首的台湾MCU厂家,大力推广离线语音识别,新塘ISD9160更是号称出货10kkpcs,国内外各大家电均有大力尝试推广,然而受限於技术,识别效果无法令消费者满意,导致退货率居高不下,厂商损失惨重,离线语音识别技术成为诸多老板和高管的雷区。
在家电以外,台湾系的语音识别,以低廉的价格和支持多国语言等特性,几乎垄断语音玩具行业。玩具消费者,对于识别率的要求比较宽容。
ICRoute 上海音航
根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网(http://www.icroute.com/) 的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。
另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。
广州九芯\深圳唯创\深圳盛矽\深圳捷通
语音播放芯片(OTP MCU+喇叭),语音识别芯片的成本低,应该主要用于玩具行业。
玩具行业的芯片和方案,多来出产于台湾和广东区域,制造就更是集中在广东:出口代工玩具Made in韶关,国内玩具Made in汕头澄海,产业聚集地会带动周边行业的发展。

3.0时代:互联网型

互联网行业马太效应,以及过往火热的热钱减少,中小型互联网企业开始跨行业寻找新的增长点。芯片强国的背景下,加上语音识别和视觉识别作为人机交互两大入口,自然也慢慢进入互联网企业的眼界。但互联网公司自身没有芯片设计能力和经验,往往需要借助外力,例如百度与阿里,和芯片企业战略合作,思必驰和讯飞收购芯片企业,云知声\互问\华镇 向第三方芯片企业采购芯片(MCU)。

这种互联网+芯片的模式,不参与芯片底层设计,直接拿来主义,确实能在短时间内快速出货,提升公司的营收。但在持续的成本优化上、软硬一体结合性、供应持续稳定性等方面,个人认为有待观察,毕竟互联网追求的快速和芯片需要的稳扎稳打的风格有冲突(之前有芯片行业人士说出,别让互联网毁了芯片行业的呼吁)。但另一方面,芯片在软件开发和线上推广的能力是很明显的优势,特别是未来离线语音需要与在线语音的技术融合,以及命令词的自动生成等工具,互联网在这方面还是很强。

厂商分析:

互联网巨头:阿里巴巴和百度
两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用)
在线语音识别巨头:科大讯飞、思必驰、云知声
三家在线语音识别巨头,纷纷从云端落地到线下,利用成熟的识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。
语音算法公司:互问、华镇
相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品,拼成本和效率。

3.0时代:纯芯片型

纯芯片型大部分属于初创新公司,拥有完整的芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。

芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\远场识别等功能。加上持续优化的声学算法模型和语料定制,识别率通常在95%以上,且误识别率更低。

厂商分析:

探境 & 清微 & 知存
三家北京系的公司,在NPU(网络神经处理器)上有各自的技术特点和优势,语音识别的处理能力最优,能耗比很高。探境 核心处理器采用先进SFA架构,算法上降噪效果和远场拾音上非常优异,成本上控制得很好,当前双麦语音识别技术成熟,且成本很低。
另外还有一家北京公司:承芯卓越,暂未查到资料。
成都启英 & 深圳人麦
两家是最早一批进入3.0时代的厂商,产品均已迭代至第二代,产品经过几年的市场验证较为成熟,也有一定的客户群体。其中启英2016年即已开始推广,在市场上知名度较高,行业经验较为充足。
杭州国芯
国芯成立于2001年,芯片行业的老兵。业务分为两大块:卫星数字电视方案和AI语音识别方案。语音识别业务,与互联网公司联合开发,其中刚推出的GX8002A主打”高集成度和小体积”特点,主攻TWS耳机和可穿戴应用。
普林芯驰 该公司暂时了解不多,之前推出的芯片支持触控功能,靠拢家电应用需求。

总结:

市场角度看。离线语音识别技术比较小众,需要时间和契机让广大消费者真正理解其特点和优势,这需要各个厂家的共同努力,创造出巨大的增量市场,而非局限于当前那么小块的饼干。同时,也需要市场的验证,到底哪些具体的场景下,离线语音能带来真正的体验和效率提升。

产品角度看。相较于在线语音识别:离线语音无论从硬件成本上,还是软件开发和维护成本上,均具有明显优势;也特别适用于单向控制的应用,如风扇、空调、照明等。但受制于固定命令词,无法做到类似“天猫精灵”之类的对话式控制,消费者短期内需要适应和学习。

其他潜在提升的功能包括:自动命令词生成工具(提升开发效率)、离在线一体(兼顾响应速度与灵活度)、自然语言NLP、非连续性AEC、可打断响应、本地自学习(特定人声音)、波束成形、N麦克风阵列等

产业链角度看。从我整理的国内射频芯片原厂的文章开始,到这篇语音识别芯片原厂,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但来自于国家大基金的支持,以及芯片产业配套和人才培养上,还是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容追求快钱的深圳?

最后声明:以上的对比,仅仅为个人浅薄的见识,有信息和理解盲区,也可能带了主观偏见。不能作为标准参考,如有错误欢迎帮忙指正,如有冒犯,请告知,我将第一时间删除。

最后的最后,容许我打个广告(是的,我承认了,以上对比我有主观倾向性):

离线语音识别芯片:音乐旋风Voltis611

厂商:北京探境科技技术有限公司

特点:1、超长识别距离,以及高降噪能力,见如下视频效果演示

2、芯片和算法开发都是自家的,成本极具优势(台积电 沙子般的价格)

3、支持双麦降噪识别,2021年将推出一个更加震撼的新品,敬请期待https://www.zhihu.com/video/1346185503797100544语音识别效果龙洋的视频 · 3 播放


参考文章链接,感谢各位大神的贡献,通俗易懂,深入浅出,是小可求知的恩师们:灵声讯:语音识别技术简述(概念->原理)​zhuanlan.zhihu.com

陈孝良:语音识别技术简史​zhuanlan.zhihu.com

语音识别系统的分类、基本构成与常用训练方法 | Machine Speech​www.aibbt.com

语音识别的技术原理是什么?​www.zhihu.com

来源:https://zhuanlan.zhihu.com/p/166078186?

发表评论