MP3是什么?

mp3

1.便携式MP3播放器的俗称。

用于播放MP3格式音乐的便携式播放器(现在兼容wma、wav等格式)。便携式MP3播放器最初是由韩国人黄光洙和黄(Moon & amp;Hwang)发明于1997,并申请了相关专利。

2.MP3作为一种音乐格式

MPEG-1音频层3,通常称为MP3,是一种流行的数字音频编码和有损压缩格式。旨在大幅减少音频数据量,但对于大部分用户来说,回放的音质与原始未压缩音频相比并没有明显下降。它是由赫勒姆的研究机构Fraunhofer-Gesellschaft的一群工程师在1991年发明并标准化的。

一般检验

MP3是一种数据压缩格式。它丢弃了PCM音频数据中对人类听觉不重要的数据(类似于JPEG,这是一种有损图像压缩),从而实现了更小的文件大小。

MP3中使用了许多技术,包括心理声学来确定音频的哪一部分可以被丢弃。MP3音频可以以不同的比特率压缩,在数据大小和声音质量之间提供了一系列折衷。

MP3格式使用混合转换机制将时域信号转换为频域信号:

* 32频段多相积分滤波器(PQF)

* 36或12抽头修正离散余弦滤波器(MDCT);每个子带的大小可以在0...1和2...31.

*混叠衰减的后处理

根据MPEG规范,MPEG-4中的AAC(高级音频编码)将是下一代MP3格式,尽管有许多重要的努力来创建和推广其他格式。然而,由于MP3的空前流行,目前任何其他格式的成功都不太可能。MP3不仅有广泛的客户端软件支持,还有很多硬件支持,比如便携式媒体播放器(MP3播放器)DVD和CD播放器。

历史

发展

MPEG-1音频层2编码最初是一个数字音频广播(DAB)项目,由Deutsche Fors Chungs-und verschuanstalt für Luft-und Raumfahrt(后来称为Deutsche Zentrum für Luft-und Raumfahrt,德国航天中心)的Egon Meier-Engelen管理。这个项目是由欧盟资助的尤里卡研究项目,它的名字通常被称为EU-147。EU-147的研究时段为1987至1994。

到了1991年,出现了两个提案:Musicam(称为第2层)和ASPEC(自适应频谱感知熵编码)。选择由荷兰Philips、法国CCETT和德国Institut für Rundfunktechnik提出的Musicam方法是因为其简单性、出错时的鲁棒性和高质量压缩时的较少计算量。基于子带编码的Musicam格式是决定MPEG音频压缩格式(采样率、帧结构、数据头、每帧采样点)的关键因素。这项技术及其设计思想完全融入了ISO MPEG音频Layer I、II以及后来的Layer III(MP3)格式的定义中。在穆斯曼教授(汉诺威大学)的主持下,标准的制定由莱昂·范·德·科克霍夫(第一层)和格哈德·斯托尔(第二层)完成。

荷兰的里昂·范德科克霍夫,德国的格哈德·斯托尔,法国的伊夫·弗兰?由德国ois Dehery和Karlheinz Brandenburg组成的工作组吸收了Musicam和ASPEC的设计思想,并加入了自己的设计思想开发出MP3,在128kbit/s时可以达到MP2 192kbit/s的音质..

所有这些算法最终成为1992年MPEG-1第一个标准组的一部分,并产生了1993年出版的国际标准ISO/IEC 11172-3。关于MPEG音频的进一步工作最终成为第二个MPEG标准组MPEG-2的一部分,该标准组在1994中制定。本标准的正式名称为ISO/IEC 13818-3,首次发布于0995年。

编码器的压缩效率通常由比特率定义,因为压缩率取决于位数(:en:位深度)和输入信号的采样速率。但是经常有产品使用CD参数(44.1kHz,两个通道,每个通道16位或者2x16位)作为压缩比参考,使用这个参考的压缩比通常较高,这也说明了有损压缩的压缩比问题。

Karlheinz Brandenburg使用CD媒体上苏珊·薇格的歌曲《汤姆的晚餐》来评估MP3压缩算法。之所以用这首歌,是因为它柔和简单的旋律更容易让人在回放时听出压缩格式的缺陷。有人戏称苏珊·薇格为“MP3之母”。更严肃和批判性的音频节选(钟琴,三角琴,手风琴,...)由专业音频工程师用来评估MPEG音频格式的主观质量。

MP3走向大众。

为了生成比特兼容的MPEG音频文件(1层,2层,3层),ISO MPEG音频委员会成员用C语言开发了一个名为ISO 1172-5的参考仿真软件。在一些非实时操作系统上,可以演示第一个基于DSP的压缩音频实时硬件解码。一些其它MPEG音频是为消费者接收器和机顶盒的数字广播(无线电DAB和电视DVB)实时开发的。

后来在1994年7月7日,Fraunhofer-Gesellschaft发布了第一款MP3编码器,名为l3enc。

Fraunhofer开发团队选择了扩展名. mp3(以前是。bit)7月1995。很多人用第一个实时软件WinPlay 3(0995年9月9日发布的65438+)就可以在个人电脑上对MP3文件进行编码和回放。因为当时的硬盘比较小(比如500MB),所以这项技术对于在电脑上存储娱乐音乐非常重要。

MP2、MP3和互联网

1993年6月,网上出现了(MPEG-1音频层2)文件,经常用兴MPEG音频播放器播放,后来出现了Tobias Bading为Unix开发的MAPlay。MAPlay最早发布于199年2月22日,现在已经移植到微软Windows平台。

起初,仅有的MP2编码器产品是Xing Encoder和CDDA2WAV,这是一种将CD轨道转换为WAV格式的CD抓取器。

互联网地下音乐档案馆(IUMA)被普遍认为是在线音乐革命的鼻祖。IUMA是互联网上第一个高保真音乐网站。在MP3和互联网流行之前,它有数千张MP2的授权唱片。

从1995前半年一直到90年代末,MP3开始在互联网上蓬勃发展。MP3的流行主要得益于Nullsoft在1997发布的Winamp和Napster在1999发布的Napster等公司和软件包的成功,它们相互促进发展。这些程序可以让普通用户轻松播放、制作、分享和收藏MP3文件。

关于MP3文件共享的点对点技术的争论近年来迅速蔓延——这主要是因为压缩使文件共享成为可能,而未压缩的文件太大,无法共享。因为MP3文件通过互联网广泛传播,一些主要的唱片制造商已经起诉Napster来保护他们的版权(见知识产权)。

iTunes Music Store等商业在线音乐分发服务通常选择支持数字版权管理(DRM)的其他或专有音乐文件格式来控制和限制数字音乐的使用。支持DRM的格式用于防止版权材料被侵犯,但大多数保护机制可以通过一些方法被破解。计算机专家可以使用这些方法来生成可以自由复制的解锁文件。一个显著的例外是微软的Windows Media Audio 10格式,目前还没有被破解。如果想得到压缩的音频文件,录制的音频流必须压缩,音质会降低。

MP3的音频质量

因为MP3是一种有损格式,所以它提供了许多不同的“比特率”选项——也就是说,它用于表示每秒音频所需的编码数据的位数。典型的速度在每秒128到320kb之间。相比之下,CD上的未压缩音频比特率为1411.2 kbit/s(16比特/采样点× 44100采样点/秒× 2通道)。

以较低比特率编码的MP3文件通常播放质量较差。如果比特率太低,播放时会出现“en:compression artifact”(原始录音中找不到的声音)。压缩噪声的一个很好的例子是欢呼声的压缩:由于其随机性和急剧变化,编码器误差会更明显,听起来像回声。

MP3文件的质量除了与编码文件的比特率有关之外,还与编码器的质量和信号编码的难度有关。有人认为128kbit/s的MP3和44.1kHz的CD音质和CD差不多,压缩比大概是11:1。在这种速率下,正确编码的MP3可以获得比调频广播和盒式磁带更好的音质,这主要是由于那些模拟媒体的带宽限制、信噪比等限制。但听音测试表明,听众可以通过简单的练习测试,可靠地分辨出128kbit/s MP3与原版CD的区别。在很多情况下,他们认为MP3的音质太低,无法接受。然而,另一些听众认为,在另一种环境下(例如在嘈杂的汽车里或在聚会上),音质是可以接受的。很显然,MP3编码的缺陷在低端电脑的扬声器上并不明显,但在连接电脑的高质量立体声系统中,尤其是在使用高质量耳机时,这种缺陷更为明显。

Fraunhofer Gesellschaft(FhG)在其官网公布了以下MPEG-1层1、2和3的压缩率和数据率,以供对比:

*层1: 384 kbit/s,压缩比4:1。

*第二层:192...256千比特/秒,压缩比8:1...6:1.

*第三层:112...128千比特/秒,压缩比12: 1...10: 1.

不同层次之间的差异是由它们不同的心理声学模型造成的;1层的算法相当简单,所以透明编码要求更高的码率。但是,由于不同的编码器使用不同的模型,很难进行这样完整的比较。

很多人认为报价严重失真是因为对2层和3层记录的偏好。他们认为实际比率如下:

*层1: 384 kbit/s是优秀的。

*第二层:256...384 kbit/s很优秀,224...256 kbit/s就不错了,还有192...224 kbit/s就不错了。

*第三层:224...320 kbit/s很优秀,192...224 kbit/s就不错了,128...192 kbit/s不错。

比较压缩机制时,使用音质相同的编码器非常重要。将新编码器与基于过时技术或甚至有缺陷的旧编码器进行比较可能会产生不利于旧格式的结果。由于有损编码会丢失信息,MP3算法通过建立人类听觉整体特性的模型,试图保证被丢弃的部分不被人耳识别(比如因为噪声掩蔽),不同的编码器可以不同程度地实现这一点。

一些可能的编码器:

* LAME最早由Mike Cheng在1998年初开发。与其他产品相比,它是一款完全效仿LGPL的MP3编码器。它有着不错的速度和音质,甚至挑战后续版本的MP3技术。

* Fraunhofer Gesellschaft:有些编码器是好的,有些是有缺陷的。

有许多早期的编码器不再广泛使用:

* ISO dist10参考代码

*邢

* BladeEnc

* ACM Producer Pro。

一个好的编码器可以在128到160kbit/s达到可以接受的音质,在160到192kbit/s达到近乎透明的音质,所以在特定编码器或最佳编码器的话题内不谈128kbit/s或192 kbit/s的音质很容易造成误解。好的编码器以128kbit/s生成的MP3可能比坏的编码器以192kbit/s生成的MP3具有更好的声音质量..此外,即使相同的编码器具有相同的文件大小,恒定比特率的MP3的音质也可能比可变比特率的MP3差得多。

需要注意的一个重要问题是,音频信号的质量是一种主观判断。安慰剂效应是斜坡,许多用户声称需要一定的透明度质量水平。许多用户在A/B测试中失败,他们无法在更低的比特率下区分文件。特定的比特率对一些用户来说足够了,但对另一些用户来说还不够。每个人对声音的感知可能不一样,所以没有一个特定的心理声学模型能让每个人都满意。仅仅改变听音环境,如音频播放系统或环境,就可能显示有损压缩导致的声音质量下降。上面给出的数字对大多数人来说只是一个大致有效的参考,但在有损压缩领域真正有效的压缩过程质量测试手段是听音频结果。

如果你的目标是实现无质量损失的音频文件或者录音室使用的音频文件,你应该使用无损压缩算法。目前可以将16位PCM音频数据压缩到38%而不损失任何声音。此类压缩工具包括无损音频LA、苹果无损、TTA、FLAC、Windows Media Audio 9无损(wma)和猴子的音频。对于需要编辑混音的音频文件,尽量使用无损格式,否则有损压缩带来的误差在处理后可能无法预料,多种编码带来的损失会混合在一起,编码后会更加明显。无损压缩可以以降低压缩比为代价达到最佳效果。

一些简单的编辑操作,比如剪掉一些音频片段,可以直接在MP3数据上操作,不需要重新编码。对于这些操作,只要使用合适的软件(mp3DirectCut和MP3Gain)就可以忽略上述的顾虑。

潜在速度

MP3文件的比特率是可变的。总的原则是,比特率越高,声音文件中包含的原始声音信息越多,因此播放时的音质越高。在MP3编码的早期,整个文件使用固定的比特率。

MPEG-1层3允许的比特率是32、40、48、56、64、80、96、112、128、160、192、224和224。44.1kHz是最常用的速度(与CD的采样率相同),128kbit/s是事实上“质量好”的标准,虽然192kbit/s在对等文件共享网络中越来越普及。MPEG-2和[非正式]MPEG-2.5包括其他比特率:6,12,24,32,40,48,56,64,80,96,112,128,65438。

可变比特率(VBR)也是可能的。MP3文件中的音频被分成具有不同比特率的帧,以便在对文件进行编码时可以动态地改变比特率。虽然在最初的实现中没有这个功能,但是现在VBR已经被广泛使用了。这种技术使得在声音变化大的部分使用较大的比特率,在声音变化小的部分使用较小的比特率成为可能。这种方法类似于声控录音机,不录静态部分,节省磁带用量。一些编码器非常依赖这项技术。

通过LAME编码器和自由格式可以实现高达640kbit/s的非标准比特率,但是很少有MP3播放器可以播放这些文件。

MP3的设计限制

MP3格式有一些固有的限制,不能简单地通过使用更好的编码器来克服。一些新的压缩格式如Vorbis和AAC不再有这些限制。

从技术角度来说,MP3有以下局限性:

*最大位速度为320kbit/s。

*相对于快速变化的信号,时间分辨率太低。

*对于超过15.5/15.8khz的频率,没有比例因子带。

*联合立体声是基于逐帧的。

*编码器/解码器的整体延迟未定义,这意味着无间隙播放缺乏正式的规定。

然而,即使有这些限制,一个调整良好的MP3编码器也可以非常有竞争力地完成编码任务。

MP3音频编码

MPEG-1标准并没有MP3编码器的精确规范,相反,解码算法和文件格式都有详细的定义。人们想象编码的实现就是设计自己的算法(或者它的频域修正离散余弦(MDCT)表示)适合从原始音频中去除一些信息。在编码过程中,576个时域样本被转换成576个频域样本。如果是瞬态信号,用192个采样点代替576个采样点,这是为了限制量化噪声随瞬态信号的短期扩散。

这就是听觉心理学的研究领域:人的主观声音感知。

因此,有许多不同的MP3编码器,每种编码器产生不同的音质。它们有许多比较结果,因此潜在用户很容易选择合适的编码器。应该记住,在高比特率下表现良好的编码器(例如在高比特率下广泛使用的LAME)在低比特率下可能表现得不一样好。

MP3音频解码

另一方面,解码在标准中有详细的定义。

大多数解码器是比特流兼容的,这意味着从MP3文件解码的未压缩输出信号将与标准文档中数学定义的输出信号完全相同(在指定的近似误差范围内)。

MP3文件具有标准格式,即具有384、576或1152采样点的帧(取决于MPEG的版本和层),并且所有帧都具有相关联的头信息(32位)和辅助信息(9、17或32字节),取决于MPEG版本和立体声或单通道。报头和辅助信息可以帮助解码器正确解码相关的霍夫曼编码数据。

因此,大多数解码器的比较几乎完全基于它们的计算效率(例如,它们在解码过程中需要的内存或CPU时间)。

ID3和其他标签

主要文章:ID3和APEv2标签

“标签”是保存在MP3(或其他格式)中并添加到文件中的数据,如标题、艺术家、专辑、曲目编号或其他有关MP3文件的信息。目前最流行的标准标签格式是ID3 ID3v1和ID3v2标签,最新的是APEv2标签。

APEv2最初是为MPC文件格式开发的(参见APEv2规范)。APEv2可以与ID3标记共存于同一个文件中,但也可以单独使用。

音量标准化

由于CD和其他各种音频源是以不同的音量录制的,因此将文件的音量信息保存在标签中会很有用,这样就可以在播放期间动态调整音量。

已经提出了一些标准来编码MP3文件的增益。他们的设计思路是将音频文件的音量(不是“峰值”音量)归一化,从而保证不同连续曲目切换时音量不会发生变化。

保存重放增益的最流行和最常用的解决方案简称为“重放增益”。音轨的平均音量和剪辑信息都存储在元数据标签中。

可选技术

还有许多其他有损音频编解码器,包括:

* MP3的前身MPEG-1/2音频层2(MP2);

* MPEG-4 AAC,MP3的MP3继承者,苹果的iTunes音乐商店和iPod使用;

Xiph.org基金会的Ogg Vorbis,自由软件和无专利编解码器;

* MPC,又名Musepack(原名MP+),源自MP2;

*汤姆逊多媒体公司的MP3和SBR的组合;

*用于AC-3、杜比数字和DVD

* ATRAC,索尼的Minidisc用的;

* Windows Media Audio(WMA)来自微软公司;

*低速QuickTime的QDesign;

* AMR-WB+增强型自适应多速率宽带编解码器,针对蜂窝电话和其他有限的带宽使用进行了优化;

* real networks的RealAudio常用于网站的流媒体;

* Speex,一个基于CELP的专门为语音和VoIP设计的免费软件和无专利编解码器。

Mp3PRO、MP3、AAC和MP2都是同一技术家族的成员,它们都基于大致相似的心理声学模型。Fraunhofer Gesellschaft拥有许多基本专利,涵盖这些编解码器、杜比实验室、索尼公司、汤姆森消费电子公司和AT & amp;t还拥有其他一些关键专利。

互联网上还有一些其他的无损音频压缩方法。虽然它们不同于MP3,但它们是其他压缩机制的优秀范例,包括:

* FLAC代表“免费无损音频编解码器”。

*猴子的音频

* SHN,又名肖特

* TTA

* Wavpack

*苹果无损

听觉测试试图在特定比特率下找到最佳质量的有损音频编解码器。在128kbit/s,Ogg Vorbis、AAC、MPC、WMA Pro的性能处于领先地位,而LAME MP3则略微落后。在64kbit/s时,AAC-HE和mp3pro略领先于其他编解码器。超过128kbit/s时,大部分听众听不出两者的明显区别。什么是“CD音质”也是很主观的:对某些人来说,128kbit/s的MP3就够了,而对另一些人来说,必须要有200kbit/s以上的位速..

虽然WMA和RealAudio等新编解码器的支持者声称,他们各自的算法可以实现64kbit/s的CD音质,但听力测试显示的结果却不同;但是这些编解码器在64kbit/s的音质明显超过了同码率的MP3。无专利的Ogg Vorbis编解码器的开发者声称,他们的算法超越了MP3、RealAudio和WMA的音质,上述听力测试也证实了这一说法。Thomson声称其mp3PRO已经达到64kbit/s的CD音质,但测试人员报告称,64kbit/s的mp3Pro文件的音质与112kbit/s的MP3文件类似,但直到80 kbit/s才能接近CD的音质..

专门为MPEG-1/2视频设计的优化MP3通常在48kbit/s以下的单声道数据和80kbit/s以下的立体声中表现不佳..

授权和专利问题

Thomson Consumer Electronics在承认软件专利的国家(包括美国和日本,不包括欧盟国家)控制MPEG-1/2第3层专利的许可。汤姆逊积极加强对这些专利的保护。汤姆森已经被欧盟国家的en:European专利局授予了一项软件专利,但是还不清楚他们是否会被那里的司法部门加强。参见欧洲专利公约下的软件专利。

有关汤姆逊专利文件、许可协议和费用的最新信息,请参考他们的网站mp3licensing.com。

1998年9月,弗劳恩霍夫协会致信几家MP3软件开发商,称“出版或销售编码器或解码器”需要授权。这封信声称,未经授权的产品“侵犯了弗劳恩霍夫和汤姆森的专利权。”要制造、销售或分发使用[MPEG Layer-3]标准或我们的专利的产品,您需要从我们这里获得这些专利的许可协议。"

这些专利问题大大减缓了未经授权的MP3软件的发展,并引起了人们的注意,以发展和欢迎其他替代品,如WMA和奥格Vorbis。微软是Windows开发系统的制造商,专门从MP3开始开发他们自己的Windows Media格式,以避免专利相关的授权问题。在这些关键专利到期之前,未经授权的编码器和播放器在承认软件专利的国家似乎是非法的。

尽管有这些专利限制,永恒的MP3格式继续发展;造成这种现象的原因似乎是以下因素带来的网络效应:

*熟悉这种格式,不知道有没有其他替代格式。

*事实上,这些替代格式并没有明显超过MP3的优势。

*大量MP3格式的音乐,

*大量不同的软件和硬件使用这种格式,

*没有DRM保护技术,使得MP3文件很容易通过网络修改、复制和再分发。

*大多数家庭用户不知道也不关心软件专利纠纷。通常这些纠纷与他们个人使用和选择MP3格式无关。

此外,专利持有者不愿意对开源解码器征收许可费,这也带来了许多免费MP3解码器的发展。此外,尽管他们试图阻止编码器的二进制代码被发布,但汤姆森已经宣布,使用免费MP3编码器的个人用户将不必支付费用。这样,虽然专利费是很多公司在计划使用MP3格式时需要考虑的问题,但对用户没有影响,带来了这种格式的普及。

Sisvel S.p.A. [1]及其美国子公司Audio MPEG,Inc. [2]之前曾起诉汤姆逊[3]侵犯MP3技术专利,但那些纠纷最终在2005年6月结束,当时Sisvel授权汤姆逊MP3。摩托罗拉最近还与音频MPEG签署了MP3许可协议。由于Thomson和Sisvel都拥有独立的专利,他们声称这些专利对于编解码器是必要的,因此MP3专利的法律地位并不明确。

弗劳恩霍夫的专利将于2010年4月到期,届时MP3算法将不再受专利保护。