什么是语音芯片？

语音芯片

1.语音芯片的定义:通过采样将语音信号转换成数字，存储在IC的ROM中，再由电路将ROM中的数字还原成语音信号。

普通语音芯片的放音功能本质上是一个DAC过程，ADC过程的数据由计算机完成，包括语音信号的采样、压缩和EQ处理。

录音芯片包括ADC和DAC两个过程，都是由芯片自己完成的，包括语音数据的采集、分析、压缩、存储和播放等步骤。

ADC =模拟数字转换模拟数字转换，DAC=数字模拟转换数字模拟转换，

音质取决于ADC和DAC的位数。比如伟创力的WTV系列，ADC和DAC都是16bit，接近CD的音质。威创的WTB系列DAC是8bit，正常音质。

2.语音信号的量化表达。

(1)语音信号的量化

采样率(f)、位数(n)、波特率(t)

采样:将语音模拟信号转换成数字信号。

采样率:每秒的样本数(字节)。

波特率:每秒采样的位数。波特率直接决定了音质。Bps:比特每秒，

采样位数是指二进制条件下的位数。一般来说，除非另有说明，声音的采样位数是指8位，从00H - FFH，静音设置为80H。

(2)抽样率

奈奎斯特定律:要从采样信号中不失真地恢复出原始信号，采样频率应该是信号最高频率的2倍以上。当采样频率小于频谱最高频率的2倍时，信号的频谱是混叠的。当采样频率大于频谱最高频率的2倍时，信号的频谱没有混叠。

语音的频带宽度大约在20 ~ 20 kHz，普通语音大约在3KHZ以下。所以一般来说CD的音质是44.1K，16bit。如果遇到一些特殊的声音，比如乐器，音质也是48K，24bit，但不是主流。

一般来说，我们在处理普通语音IC时，采样率高达16K，语音一般是8K(如电话质量)或6K左右。6K以下效果差。

在单片机应用过程中，采样越高，定时器中断速度越快，会影响对其他信号的监测和检测，所以要综合考虑。

(3)语音压缩技术。

由于语音数据量巨大，所以需要对语音数据进行有效的压缩，这样可以使我们在有限的ROM空间内输入更多的语音内容。有几种方法:

语音分段:把语音中可以重复的部分剪下来，通过排列组合完整的回放内容。

语音采样:一般我们用的喇叭频响曲线在中频部分，高频很少用。因此，如果喇叭的音质可以接受，适当降低采样频率达到压缩效果是不可逆的，这种压缩称为有损压缩。

数学压缩:主要是压缩采样位数，也是有损压缩。比如我们经常采用的ADPCM压缩格式是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3压缩数据流，涉及数据预测。其波特率压缩比约为10倍。

通常情况下，上述压缩方法都是一起使用的。

(4)常见的语音格式

PCM格式:脉码调制，对模拟声音信号进行采样，得到量化的语音数据，是最基本、最原始的语音格式。与之非常相似的是RAW格式和SND格式。都是纯语音格式。

WAV格式:Wave Audio Files是微软开发的一种声音文件格式，也称为波形声音文件，它被Windows平台及其应用程序广泛支持。WAV格式支持多种压缩算法和多种音频比特、采样频率和通道，但WAV格式需要太大的存储空间，以方便通信和传播。WAV文件中存储的每一条数据都有自己独立的标识，可以告诉用户是什么数据，包括采样频率和位数，单声道还是立体声等。

ADPCM格式:它利用几个过去的样本值来预测当前输入的样本值，并使其具有自适应预测功能与实际检测值进行比较，并随时自动处理测量差值的量化电平差，使其保持与信号同步变化。适合中等变声率，声音回放过程短。其优点是对人声的处理逼真，一般达到90%以上，在电话通信领域得到了广泛的应用。

MP3格式:运动图像专家组音频层III，缩写为MP3。它采用了MPEG音频层3的技术，采用了名为“感官编码技术”的编码算法:编码时，首先对音频文件进行频谱分析，然后通过滤波器滤除噪声水平，再对剩下的每一位进行量化分散排列，最后形成一个高压缩比的mp3文件，压缩后的文件在回放时可以达到更接近原始声源的声音效果。其本质是vbr(Variant Bitrate可变波特率)可以根据编码的内容动态选择合适的波特率，所以编码的结果是在保证音质的同时兼顾文件大小。

Mp3压缩比10倍甚至12倍。是首次出现的高压缩率语音格式。

线性比例格式:根据声音的变化率，将声音分成若干段，每段按线性比例压缩，但其比例是可变的。SUNLINK公司和ALPHA公司的线性标尺格式为5bit。

Logpcm格式:基本上线性压缩整个声音，去掉最后几个比特。这种压缩方式在硬件上很容易实现，但是音质比线性标度差，尤其是在音量小，声音细腻的情况下。主要用于纯言语。

3.空间语言的表达

语音芯片是表达的可视化，用语音长度来表示。

a)普通语音芯片以6K采样率为语音长度计算标准。

b)录音IC以4K采样率作为语音长度的计算标准。

4.语音芯片的要素

同类芯片的成本与芯片大小成正比。

a)I/O口的分配和ROM(语音秒)的大小决定了芯片成本。低秒语音芯片的I/O端口较少。

b)音质提升，采样改善，语音秒缩短。

音质降低，采样减少，语音秒变长。

c)发言秒的计算方法:M/(n*f)

M - ROM大小(位)n * f-波特率

5.声音处理软件介绍

1)声音锻造

2)酷编辑

3)金波

语音芯片分类:

现在市场上常见的芯片分类:

短时筹码包括10秒、20秒、40秒、80秒和170秒的筹码。型号:WTV系列和ISD1700系列芯片。

常用的模块有:6分钟、8分钟、16分钟、1小时等。。型号:WT588D系列语音模块。

长线筹码是:340秒，500秒，1000秒，长2000秒。。型号:WTV340和ISD4000系列语音芯片。

一般筹码是:3秒到340秒。型号:WTV系列，WTB系列，APLUS系列。

语音芯片是根据集成电路的类型来分类的。所有与声音相关的集成电路统称为语音芯片(也叫语音ic，这里应该叫语音IC)，但在语音芯片的几大类型中，又分为语音IC(这里应该叫语音IC)和音乐IC(这里应该叫音乐IC)。

语音芯片供应商:李一萍威创电子