语音芯片概述

芯片是半导体元器件产品的总称。它是集成电路(IC)的载体，由晶圆片分割而成。

硅片是一小片含有集成电路的硅，是计算机或其他电子设备的一部分。语音芯片的定义:通过采样将语音信号转换成数字，存储在IC的ROM中，再由电路将ROM中的数字还原成语音信号。

根据语音芯片的输出模式，可以分为两类，一类是PWM输出模式，一类是DAC输出模式。PWM的输出音量不是连续可调的，所以不能和普通功放连接。目前市面上大部分语音芯片都是PWM输出模式。另一种是DAC通过内部EQ放大，语音芯片的语音可以连续调节，数控调节，可以外接功放。

普通语音芯片的放音功能本质上是一个DAC过程，ADC过程的数据由计算机完成，包括语音信号的采样、压缩和EQ处理。

录音芯片包括ADC和DAC两个过程，都是由芯片自己完成的，包括语音数据的采集、分析、压缩、存储和播放等步骤。

ADC =模拟数字转换模数转换

DAC=数模转换

音质取决于ADC和DAC的位数。比如20秒到340秒，最低是10秒到340秒。从名字上看，语音芯片就是与语音相关的芯片，语音就是存储的电子声音。凡是能发出声音的芯片都是语音芯片，俗称语音芯片，英文应该叫语音IC。在语音芯片的大家族中，根据类型不同可以分为(语音IC)和(语音IC)。一般来说，面罩制作是先把声音烧进芯片，然后封装，一般需要量。

Otp制作。所谓otp，就是一次性烧。先封装芯片，然后用软件烧入声音。

语音芯片根据IC本身的物理结构有多个通道(同时发出多个通道的声音)，可以分为几种类型:

一、单通道:

1，单通道ic(语音IC(此语音芯片不支持音乐IC音乐存储模式)；常见的语音IC是单通道语音芯片，DKC020-OTP20秒和DKA010动物叫声是最典型的单通道语音芯片。

2、单声道音乐IC(Music IC)，在同一单位时间内只能发出一种音乐，电音文件是只有一个声道的. Mid后缀文件。

单调是最基本的音乐ic，它的效果是由一定时间内输出的音符数决定的，包括64个音符，128个音符等。单调有广泛的应用和极低的价格。最常见的单声道是生日快乐贺卡单调。典型的有DK20S等。

严格来说，单声道音乐ic的结构和单声道平板是不一样的。

两个，两个频道:

1，2通道语音ic，2通道和多通道语音芯片，在实际应用中，语音回放一般会固定在某个通道播放声音(相当于单通道)，但这类产品比单通道语音IC(语音IC)贵。语音芯片厂商为了平衡产品价格和应用，一般会在功能支持和音效方面做的更完善。

这种结构可能是由产品和解决方案的实际应用领域和价格决定的。语音芯片的输出一般是单声道声音输出，支持立体声的产品很少。想要高端产品，一定要选择MP3主控芯片等解决方案。

2、2声道音乐芯片，俗称音乐用双音ic，顾名思义，两个声道在相同单位时间内可以发射音乐的音乐ic。电子音源文件一般是. mid的双通道文件，常见的圣诞系列音乐ic如下。

这里我得再补充几句。市面上还有一种叫melody的音乐芯片。她的定义是什么？简单来说，单音片的效果比和弦音乐芯片差，所以双音也叫旋律音乐芯片。旋律结构应该说是更高级的单声道电影，也可以说是效果翻倍的单声道电影。

三个或四个通道、八个或更多通道:

超过三个声道的声音。也称为和弦音乐。4和弦音乐ic通常指4声道音乐IC，如DKC040。...

一般多声道语音芯片同时支持ic(音乐IC和IC(语音IC功能。

(a)引入“语音芯片”:

(1)语音信号的量化

采样率(f)、位数(n)、波特率(t)

采样:将语音模拟信号转换成数字信号。

采样率:每秒的样本数(字节)。

波特率:每秒采样的位数。波特率直接决定了音质。Bps:比特每秒

采样位数是指二进制条件下的位数。一般来说，除非另有说明，声音的采样位数是指8位，从00H - FFH，静音设置为80H。

(2)抽样率

奈奎斯特定律:要从采样信号中不失真地恢复出原始信号，采样频率应该是信号最高频率的2倍以上。当采样频率小于频谱最高频率的2倍时，信号的频谱是混叠的。当采样频率大于频谱最高频率的2倍时，信号的频谱没有混叠。

语音的频带宽度大约在20 ~ 20 kHz，普通语音大约在3KHZ以下。所以一般来说CD的音质是44.1K，16bit。如果遇到一些特殊的声音，比如乐器，音质也是48K，24bit，但不是主流。

一般来说，我们在处理普通语音IC时，采样率高达16K，语音一般是8K(如电话质量)或6K左右。6K以下效果差。DKC系列语音芯片可以采样22K。

在单片机应用过程中，采样越高，定时器中断速度越快，会影响对其他信号的监测和检测，所以要综合考虑。

(3)语音压缩技术。

由于语音数据量巨大，所以需要对语音数据进行有效的压缩，这样可以使我们在有限的ROM空间内输入更多的语音内容。有几种方法:

语音分段:把语音中可以重复的部分剪下来，通过排列组合完整的回放内容。

语音采样:一般我们用的喇叭频响曲线在中频部分，高频很少用。因此，如果喇叭的音质可以接受，适当降低采样频率达到压缩效果是不可逆的，这种压缩称为有损压缩。

数学压缩:主要是压缩采样位数，也是有损压缩。比如我们经常采用的ADPCM压缩格式是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3压缩数据流，涉及数据预测。其波特率压缩比约为10倍。

通常情况下，上述压缩方法都是一起使用的。

(4)常见的语音格式

PCM格式:脉码调制，对模拟声音信号进行采样，得到量化的语音数据，是最基本、最原始的语音格式。与之非常相似的是RAW格式和SND格式。都是纯语音格式。

WAV格式:Wave Audio Files是微软开发的一种声音文件格式，也称为波形声音文件，它被Windows平台及其应用程序广泛支持。WAV格式支持多种压缩算法和多种音频比特、采样频率和通道，但WAV格式需要太大的存储空间，以方便通信和传播。WAV文件中存储的每一条数据都有自己独立的标识，可以告诉用户是什么数据，包括采样频率和位数，单声道还是立体声等。

ADPCM格式:它利用几个过去的样本值来预测当前输入的样本值，并使其具有自适应预测功能与实际检测值进行比较，并随时自动处理测量差值的量化电平差，使其保持与信号同步变化。适合中等变声率，声音回放过程短。其优点是对人声的处理逼真，一般达到90%以上，在电话通信领域得到了广泛的应用。

MP3格式:运动图像专家组音频层III，缩写为MP3。它采用了MPEG音频层3的技术，采用了名为“感官编码技术”的编码算法:编码时，首先对音频文件进行频谱分析，然后通过滤波器滤除噪声水平，再对剩下的每一位进行量化分散排列，最后形成一个高压缩比的mp3文件，压缩后的文件在回放时可以达到更接近原始声源的声音效果。其本质是vbr(Variant Bitrate可变波特率)可以根据编码的内容动态选择合适的波特率，所以编码的结果是在保证音质的同时兼顾文件大小。

Mp3压缩比10倍甚至12倍。是首次出现的高压缩率语音格式。

线性比例格式:根据声音的变化率，将声音分成若干段，每段按线性比例压缩，但其比例是可变的。

Logpcm格式:基本上线性压缩整个声音，去掉最后几个比特。这种压缩方式在硬件上很容易实现，但是音质比线性标度差，尤其是在音量小，声音细腻的情况下。主要用于纯言语。中间格式。中格式语音占用空间小，有时十几首中格式音乐只需20秒就能装入一个芯片。

(b)引入“音乐芯片”:

(1)音乐的声道和音色:

包络方波(贴片)通道

包络:合成音色的一部分，单位时间内音符输出的变化，俗称“ADSR”

方波:单位时间内音符方波电流的变化，作为合成音色的一部分。(另见三角波等。)

通道:芯片同时输出的音符数，即“单音乐器”的数量。

PCT:一种模拟音色，通过采样乐器声音的256个点来模拟每个音符的音高。(音色柔和，空间小，但不够真实)

全波:通过采集乐器的声音来模拟每个音符的音高。(乐器的声音是真实的，但是占用空间大，采集的音色质量高。)

(2)音乐压缩:

由于音乐数据量巨大，需要对音乐数据进行有效的压缩，这样可以使我们在有限的ROM空间内输入更多的音乐内容。有几种方法:

音乐分段:将音乐中可重复的部分剪切出来，通过排列组合完整地回放内容。

音色:根据音乐的丰满度和需求，确定全波、PCT、双音的选择。每个音占用的空间不同，音质也不同。

数学压缩:主要是对采样的音色(全波)进行压缩，也是有损压缩。对要采集的音色进行降采样和处理，以减小采集音色的大小(与语音类相同)。语音芯片是表达的可视化，用语音长度来表示。

a)普通语音芯片以6K采样率作为语音长度的计算标准，最大采样率为22K。

b)录音IC以6K采样率作为语音长度的计算标准。

也就是芯片在6k的采样率下可以播放的长度。同类芯片的成本与芯片大小成正比。

a)I/O口的分配和ROM(语音秒)的大小决定了芯片成本。低秒语音芯片的I/O端口较少。

b)音质提升，采样改善，语音秒缩短。

音质降低，采样减少，语音秒变长M - ROM大小(bit)n * f-波特率。

声音处理软件介绍

1)声音锻造

2)酷编辑

3)金波

4)步行