【音频】音频文件格式全介绍之二
- 音频视频
- 2005-08-13
- 15热度
- 0评论
VQF实际指的是TwinVQ(Transform-domain Weighted INterleave Vector Quantization)技术,是日本Nippon Telegraph and Telephone集团属下的NTT Human Interface Laboratories(http://sound.splab.ecl.ntt.co.jp/)开发的一种音频压缩技术。该技术受到著名的YAMAHA公司的支持。VQF或TVQ是其文件的文件类型名。VQF其实是一种比较先进的技术,通常认为96kbps VQF 与 128kbps MP3 质量相同。下图是MP3与VQF的一个质量对比示意图:
虽然说质量相同,但由于VQF使用的是不同的技术,从这个图上大家应该可以感受到两者的差别。
VQF在YAMAHA公司的大力推动下也曾有相当的市场份额。不过时至今日,VQF已经在逐步淡出舞台。原因是多方面的。首先,VQF 是专门开发来用于低比特率情况的,对于录音室这种需要高保真的环境就无能为力了。换句话说,VQF仅适合一般播放用途。这使得VQF的应用范围相对狭窄。其次,VQF没有得到操作系统平台的直接支持,就像mp3PRO那样,Windows自始至终都不支持直接播放VQF文件,使得VQF得不到大范围的推广。再次,VQF是一种封闭的专利技术,导致市场所有与VQF相关的编码器、播放器无一不是YAMAHA和NTT的产物,这一点极大地妨碍了VQF的发展。最著名的一个例子就是一个曾经致力于推广VQF技术的网站:http://www.vqf.com/宣布由于VQF的衰落而停止更新,等待高比特率(192kbps或以上)的VQF格式出台后再作打算。虽然YAMAHA公司已经成功地将VQF提交到了MPEG组织,并成为MPEG-4标准的一部分,但这些努力也是无济于事的。因为MPEG-4本来就是一个面向对象的大包容的平台,与MPEG-1和MPEG-2这样专门针对某种具体的技术而制定的标准已经不是一回事了。
要播放VQF软件,可以通过给WinAMP增加支持插件来实现,也可以使用YAMAHA自己的SoundVQ Player播放器。编码软件可以使用YAMAHA SoundVQ Encoder或者NTT TwinVQ Encoder。后者的优化比较好,速度比前者快一些。
图表 - TwinVQ 编码器,非常简单的界面。
非主流
最热门的非主流 - MOD
Module(简称mod)是数码音乐文件,由一组samples(乐器的声音采样)、曲谱和时序信息组成,告诉一个mod播放器何时以何种音高去演奏在某条音轨的某个样本,附带演奏一些效果比如颤音等。因而mod与纯正的象WAV或AU那样的没有包含时序信息的样本文件不同,与象MIDI文件那样的不携带任何附加样本/乐器的文件也不同(与现在支持DLS技术的MIDI倒是有点相似,不过mod的体积要比DLS MIDI小得多。)。mod起源于Amiga计算机,当时的文件扩展名是MOD,为了区分具体的类型和整个结构体系,通常使用mod来表示整个Module格式体系。由于该格式起源很早,因此曾经非常流行,因为mod提供了一种具有可以接受的音质水平而又非常廉价的制作音乐的方法。而且这种文件的音质效果对于当时的电脑硬件水平来说效果比MIDI要好,文件的体积也不大,好处是轻而易见的。随着高质量的音响硬件的使用,新一代的mod的声音质量甚至可以提升到接近专业设备的水平。这使得mod成为一种介乎于象WAV或VOC那样的纯正样本数据文件和象General MIDI那样的纯正时序信息文件之间的混合体,成为一种比较灵活的音频格式。
但是,mod的最大缺点是具体的格式变化太多。由于原本的MOD格式只支持4条音轨,而且MOD格式并没有版权限制,导致后来涌现了一大堆在MOD的基础上改进而来的格式,比如xm这种支持高达32条音轨128种采样的格式。但由于mod格式的不统一,最终结果就是这种格式在商业领域没有多大的作为。Windows平台上曾经有一个非常好的播放器名为MOD4WIN,后来也停止了开发。目前支持播放Mod的播放器主要有WinAMP,比较新的制作软件则有Sk@le Tracker(http://www.skale.org/),是一个免费的软件。大家如果对这种格式产生兴趣的话可以到http://www.modplug.com/ 看看,这里是最齐全的关于mod的站点。
一个也不能少 - Monkey's audio
Monkey's Audio(http://www.monkeysaudio.com/)是一种无损压缩技术。他并不是由什么大公司发明的,完全是一个个人业余兴趣作品。为了使Monkey's Audio能有更好的发展,现在这个软件已经公开了源代码。
这种压缩格式的特点是无损压缩,也就是说对压缩数据进行还原之后得到的数据与原来的数据是完全相同的。该格式的特点尤其适合那些拥有一对“金耳朵”并且一直对mp3的音质耿耿于怀的音乐发烧友。后者有人会问,要无损压缩,我随便找个压缩软件比如WINRAR都可以达到不错的效果了,还要这种格式干嘛?所以这里要澄清一个误解:使用普通的压缩软件进行压缩无疑是可以得到不错的压缩效果,有时候甚至更优于使用Monkey's Audio,但是压缩软件生成的压缩包必须要先解压还原之后才能播放里面的内容,而Monkey's Audio这种无损压缩编码得到的文件可以直接使用播放器(比如WinAMP)进行播放。Monkey's Audio的压缩效果大约在2:1左右,也就是说压缩结果是原来的二分之一大小。一张CD大约需要330MB左右的空间存放,相比之下还是比较占空间的。由于这个原因,所以对音质要求不是太高的人通常都选择VBR方式的mp3而不是选择它。
与Monkey's Audio类似的编码格式还包括WavPack、RKAU、Shorten等等。由于相对不是那么出名,又或者在某些方面不够Monkey's Audio做得好,因此获得的关注程度就逊色很多。
苹果专用 - aiff
刚才我们在介绍WAV格式的时候已经提到过AIFF了。它是Apple苹果电脑(http://www.apple.com/)上面的标准音频格式,属于QuickTime技术(http://www.apple.com/quicktime)的一部分。这一格式的特点就是格式本身与数据的意义无关,因此受到了Microsoft的青睐,并据此搞出来WAV格式。AIFF虽然是一种很优秀的文件格式,但由于它是苹果电脑上的格式,因此在PC平台上并没有得到很大的流行。不过由于Apple电脑多用于多媒体制作出版行业,因此几乎所有的音频编辑软件和播放软件都或多或少地支持AIFF格式。只要苹果电脑还在,AIFF就始终还占有一席之地。
由于AIFF的包容特性,所以它支持许多压缩技术。这里顺带说说的是在苹果平台上原生的流媒体压缩技术是QDesign公司(http://www.qdesign.com/)的QDMC,QDesign Music Codec。据官方资料介绍,QDesign Music Codec 2能在全带宽立体声的设置下将音频压缩为原来的百分之一大小。与其他纯粹基于知觉音频编码技术(mp3等)不同的是,QDesign Music Codec 2 使用了新的专利的算法技术,因此,可以在modem的速度上达到相当的音频质量。该技术最大支持128kbps。不过在笔者的实验结果看来,该技术的唯一过人之处就是在任何比特率下都能提供44khz立体声的输出。不过脱离了音质的输出又有什么意思呢?
聊胜于无 – au
au 是unix下一种常用的音频格式,起源于Sun 公司(http://www.sun.com/)的Solaris系统。这种格式本身也支持多种压缩方式,但文件结构的灵活性就比不上aiff和WAV。这种格式的最大问题是由于它本身所依附的平台不是面向广大消费者的,所以知道这东西的人并不多。但这种格式毕竟出现了很多年,所以许多播放器和音频编辑软件都提供了读/写支持。不过时至今日,在本人看来实在意义不大,因为这个文件格式对目前许多新出现的音频技术都无法提供支持,起不到类似于WAV和aiff那种通用性音频存储平台的作用。目前可能唯一必须使用au格式来保存音频文件的就是java平台。
曾经辉煌 – VOC
当年创新公司(Creative, http://www.creative.com/)的声音卡成了PC平台上的多媒体声音卡事实标准的时候,VOC格式也跟同着成为了DOS系统下面的音频文件格式标准。因为它是创新公司发明的音频文件格式。当然,现在已经很少见到了。由于该格式属于硬件公司的产品,因此不可避免地带有浓厚的硬件相关色彩。这一点随着Windows平台本身提供了标准的文件格式WAV之后就变成了明显的缺点。加上Windows平台不提供对VOC格式的直接支持,所以VOC格式很快便消失在人们的视线中。不过现在的很多播放器和音频编辑器都还是支持该格式的,道理就跟au一样:出来的早嘛!
记住你的声音 - vox
这个格式比较特殊。Vox引申是voice的意思,表明了该格式专门面向语音音频。它是由Dialogic公司(现已被Intel公司收购)发明的,使用ADPCM压缩技术进行压缩,主要应用于语音通信方面。由于面向语音压缩,因此该技术专门针对低采样律进行优化。该格式仅支持单声道16位音频,并达到了4:1的压缩比(它将每个音频有损压缩为4个比特)。该格式最大的失败在于没有文件头,无法在音频文件中储存相关的信息。如果你忘记了当初是以什么采样频率录的音,那就是一场恶梦。这个文件格式最常见于一些利用互联网进行语音通信的软件,比如PC2Phone。主流音频编辑器一般都支持这个格式。
在介绍了这么多音频媒体格式之后,我们来看看下面的特点概括列表:
媒体格式 扩展名 相关公司或组织 主要优点 主要缺点 适用领域 WAV wav Microsoft 可通过增加驱动程序而支持各种各样的编码技术。 不适于传播和用作聆听。支持的编码技术大部分只能在Windows平台下使用。 音频原始素材保存。 mp3(MPEG 音频) mp3 (包括mp2 mp1 mpa等) Fraunhofer-IIS 在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持。 出现得比较早,因此音质不是很好。 一般聆听和高保真聆听。 mp3PRO mp3 Fraunhofer-IIS CodingTechnologies Thomson Multimedia 在低至64kbps的比特率下提供接近CD音质的音频质量。 专利费用较高,支持的软件和硬件不多。 一般聆听和高保真聆听。 RealMedia ra, rma RealNetworks 在极低的比特率环境下提供可听的音频质量。 不适于除网络传播之外的用途。音质不是很好。 网络音频流传输。 Windows Media wma, asf Microsoft 功能齐全,使用方便。同时支持无失真、有失真、语音压缩方式。 失真压缩方式下音质不高。必须在Windows平台下才能使用。 音频档案级别保存,一般聆听,网络音频流传输。 MIDI MID MIDI RMI XMI 等 MIDI Association 音频数据为乐器的演奏控制,通常不带有音频采样。 没有波表硬件或软件配合时播放效果不佳。 与电子乐器的数据交互,乐曲创作等。 Ogg Vorbis OGG Xiph Foundation 在低至64kbps的比特率下提供接近CD音质的音频质量。开放源代码,不需要支付使用许可费用。跨平台。 发展较慢。推广力度不足。 一般聆听和高保真聆听。 VQF vqf tvq NTT Human Interface Laboratories 在低至96kbps的比特率下提供接近CD音质的音频质量。 相关软件太少。 一般聆听。 MOD(Module) mod s3m it xm mtm ult 669 等 Amiga和mod社区 音频数据由乐器采样和乐谱、演奏控制信息组成。 具体的文件格式太多影响推广和使用。 一般聆听。 Monkey's Audio ape Matthew T. Ashland 无失真压缩。部分开放代码。 由于是个人作品,使用上存在一定风险。 高保真聆听和音频档案级别保存。 aiff aiff Apple 可通过增加驱动程序而支持各种各样的编码技术 一般限于苹果电脑平台使用。 苹果电脑平台下音频原始素材保存。 au au Sun Unix和Java平台下的标准文件格式。 支持的压缩技术太少且音频数据格式受文件格式本身局限。 Unix和Java平台下音频原始素材保存。 voc voc Creative 对于目前的音频技术来讲,该格式已经没有什么优点了。 与具体的硬件相结合因此没有延续性。 淘汰。 vox vox Dialogic 面向语音的编码。 文件格式缺乏足够的信息,因此不适应作存档用途。技术比较早期。 淘汰。
当然,无论一种音频格式目前是否主流,在未来都有可能被新出现的更先进的技术取代。不过从目前的形势来看,音频技术已经发展到了一个成熟的、优胜劣汰的阶段。那些没有技术优势的音频格式将很快就会被市场淘汰掉,而存活下来的音频技术由于技术性能方面已经非常接近且基本上不存在继续发展的空间,将会努力从网络功能和应用功能两方面去吸引用户并打倒竞争对手。因此,实力强大的商业公司在这方面有着充分的优势。可喜的是由于开放源代码运动的发展,我们在商业技术之外还可以有另外一个选择。所以,音频技术的发展可以肯定的是只会剩下一个商业公司的技术和一个开放源码的技术并存。就像现在的操作系统之争那样。
作为一个音频技术的用户,如何选择适合自己的音频格式是一个比较头疼的事情。有些人趋向音质要求高;有些则需要丰富的附加功能。要做出自己的选择,则必须首先搞清楚自己需要的是什么。另外,需要提醒大家的是,随着中国电子政务的铺开以及Linux在电子政务中的应用,我们必须重视开放源代码这一不可忽视的要素,否则由于选择错了音频格式而导致随后工作的推倒重来那可是严重的经济损失。
希望大家看完这篇文章后能对目前繁多的各种音频格式有一个大致的了解,并能正确地作出适合自己的选择。