什么是语音芯片?

语音芯片

1.语音芯片的定义:通过采样将语音信号转换成数字,存储在IC的ROM中,再由电路将ROM中的数字还原成语音信号。

普通语音芯片的放音功能本质上是一个DAC过程,ADC过程的数据由计算机完成,包括语音信号的采样、压缩和EQ处理。

录音芯片包括ADC和DAC两个过程,都是由芯片自己完成的,包括语音数据的采集、分析、压缩、存储和播放等步骤。

ADC =模拟数字转换模拟数字转换,DAC=数字模拟转换数字模拟转换,

音质取决于ADC和DAC的位数。比如伟创力的WTV系列,ADC和DAC都是16bit,接近CD的音质。威创的WTB系列DAC是8bit,正常音质。

2.语音信号的量化表达。

(1)语音信号的量化

采样率(f)、位数(n)、波特率(t)

采样:将语音模拟信号转换成数字信号。

采样率:每秒的样本数(字节)。

波特率:每秒采样的位数。波特率直接决定了音质。Bps:比特每秒,

采样位数是指二进制条件下的位数。一般来说,除非另有说明,声音的采样位数是指8位,从00H - FFH,静音设置为80H。

(2)抽样率

奈奎斯特定律:要从采样信号中不失真地恢复出原始信号,采样频率应该是信号最高频率的2倍以上。当采样频率小于频谱最高频率的2倍时,信号的频谱是混叠的。当采样频率大于频谱最高频率的2倍时,信号的频谱没有混叠。

语音的频带宽度大约在20 ~ 20 kHz,普通语音大约在3KHZ以下。所以一般来说CD的音质是44.1K,16bit。如果遇到一些特殊的声音,比如乐器,音质也是48K,24bit,但不是主流。

一般来说,我们在处理普通语音IC时,采样率高达16K,语音一般是8K(如电话质量)或6K左右。6K以下效果差。

在单片机应用过程中,采样越高,定时器中断速度越快,会影响对其他信号的监测和检测,所以要综合考虑。

(3)语音压缩技术。

由于语音数据量巨大,所以需要对语音数据进行有效的压缩,这样可以使我们在有限的ROM空间内输入更多的语音内容。有几种方法:

语音分段:把语音中可以重复的部分剪下来,通过排列组合完整的回放内容。

语音采样:一般我们用的喇叭频响曲线在中频部分,高频很少用。因此,如果喇叭的音质可以接受,适当降低采样频率达到压缩效果是不可逆的,这种压缩称为有损压缩。

数学压缩:主要是压缩采样位数,也是有损压缩。比如我们经常采用的ADPCM压缩格式是将语音数据从16bit压缩到4bit,压缩率是4倍。MP3压缩数据流,涉及数据预测。其波特率压缩比约为10倍。

通常情况下,上述压缩方法都是一起使用的。

(4)常见的语音格式

PCM格式:脉码调制,对模拟声音信号进行采样,得到量化的语音数据,是最基本、最原始的语音格式。与之非常相似的是RAW格式和SND格式。都是纯语音格式。

WAV格式:Wave Audio Files是微软开发的一种声音文件格式,也称为波形声音文件,它被Windows平台及其应用程序广泛支持。WAV格式支持多种压缩算法和多种音频比特、采样频率和通道,但WAV格式需要太大的存储空间,以方便通信和传播。WAV文件中存储的每一条数据都有自己独立的标识,可以告诉用户是什么数据,包括采样频率和位数,单声道还是立体声等。

ADPCM格式:它利用几个过去的样本值来预测当前输入的样本值,并使其具有自适应预测功能与实际检测值进行比较,并随时自动处理测量差值的量化电平差,使其保持与信号同步变化。适合中等变声率,声音回放过程短。其优点是对人声的处理逼真,一般达到90%以上,在电话通信领域得到了广泛的应用。

MP3格式:运动图像专家组音频层III,缩写为MP3。它采用了MPEG音频层3的技术,采用了名为“感官编码技术”的编码算法:编码时,首先对音频文件进行频谱分析,然后通过滤波器滤除噪声水平,再对剩下的每一位进行量化分散排列,最后形成一个高压缩比的mp3文件,压缩后的文件在回放时可以达到更接近原始声源的声音效果。其本质是vbr(Variant Bitrate可变波特率)可以根据编码的内容动态选择合适的波特率,所以编码的结果是在保证音质的同时兼顾文件大小。

Mp3压缩比10倍甚至12倍。是首次出现的高压缩率语音格式。

线性比例格式:根据声音的变化率,将声音分成若干段,每段按线性比例压缩,但其比例是可变的。SUNLINK公司和ALPHA公司的线性标尺格式为5bit。

Logpcm格式:基本上线性压缩整个声音,去掉最后几个比特。这种压缩方式在硬件上很容易实现,但是音质比线性标度差,尤其是在音量小,声音细腻的情况下。主要用于纯言语。

3.空间语言的表达

语音芯片是表达的可视化,用语音长度来表示。

a)普通语音芯片以6K采样率为语音长度计算标准。

b)录音IC以4K采样率作为语音长度的计算标准。

4.语音芯片的要素

同类芯片的成本与芯片大小成正比。

a)I/O口的分配和ROM(语音秒)的大小决定了芯片成本。低秒语音芯片的I/O端口较少。

b)音质提升,采样改善,语音秒缩短。

音质降低,采样减少,语音秒变长。

c)发言秒的计算方法:M/(n*f)

M - ROM大小(位)n * f-波特率

5.声音处理软件介绍

1)声音锻造

2)酷编辑

3)金波

语音芯片分类:

现在市场上常见的芯片分类:

短时筹码包括10秒、20秒、40秒、80秒和170秒的筹码。型号:WTV系列和ISD1700系列芯片。

常用的模块有:6分钟、8分钟、16分钟、1小时等。。型号:WT588D系列语音模块。

长线筹码是:340秒,500秒,1000秒,长2000秒。。型号:WTV340和ISD4000系列语音芯片。

一般筹码是:3秒到340秒。型号:WTV系列,WTB系列,APLUS系列。

语音芯片是根据集成电路的类型来分类的。所有与声音相关的集成电路统称为语音芯片(也叫语音ic,这里应该叫语音IC),但在语音芯片的几大类型中,又分为语音IC(这里应该叫语音IC)和音乐IC(这里应该叫音乐IC)。

语音芯片供应商:李一萍威创电子