找回密码
 -注册-
查看: 32107|回复: 0
打印 上一主题 下一主题

既然大家对MD编码有兴趣 我给大家转篇专业点的文章吧!-->af2000转移

[复制链接]
跳转到指定楼层
1
发表于 2004-1-26 00:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式 来自 浙江温州
MD的心脏大脑
——ATRAC的深入研究
文 Tuiop
笔者在上期中介绍了关于UTOC的内容,这一期将为大家讲一些有关ATRAC——特别是支持MDLP的ATRAC3的知识。
众所周知,MD是一种体积小巧的便携式音频播放设备,每张MD碟片的半径只有6.4厘米,容量大约160MB,都远远小于CD-Audio(12厘米、740MB)①。如果按照CD原来的16bit信号录制数据的话,仅能容纳不到15分钟的内容,为了录制整张(在LP2模式下是两张)CD的内容,不对数据进行压缩是不可能实现的。因此,Sony引入了针对音频的压缩算法ATRAC,以便减小音频数据量,在碟片上容纳更长时间的高品质数字音乐。
长久以来Sony对ATRAC版本号的命名是很混乱的:以前是用ATRAC 1.0~ATRAC 4.5来标记的,对应的产品分别是便携机的MZ-1~MZ-R91和桌面机的MDS-101~MDS-JA555ES。但在2000年发布了支持MDLP技术的ATRAC3后(注意这里ATRAC和3之间没有空格),只好把前面的产品又改名叫ATRAC1 version1.0~ATRAC1 version4.5了。将这一新的算法称作ATRAC3而不是ATRAC 5.0或6.0 ,Sony还是有别有用心的。因为尽管MD在日本非常流行,但是欧美地区以Rio为代表的MP3机却是数字音频播放器的主导力量,为了扩大市场份额,Sony将这一新算法命名为ATRAC3就有了明显的针对性,从某种意义上说ATRAC3的诞生就是为了同MP3战斗的!此外Sony还曾提出ATRAC2标准,但以改善音质为目的ATRAC2却颠覆了MD很多基本规律②,且不能兼容ATRAC1的产品,故而没有任何实际的产品上市,本文将不涉及这一部分内容。
ATRAC体系压缩原理介绍
ATRAC是一种数字音频压缩算法,其全称是Adaptive Transform Acoustic Coding——自适应声学编码,它主要是基于声学心理学(Psychoacoustics)原理,积极的利用人耳听觉的特性,将信号中人耳感觉不到的不进行编码和传送,从而实现减少数据传输率的目的。下面笔者将具体介绍ATRAC编码和解码的过程。
我们通常一提到数据压缩方法,大家都会想到删除冗余部分这种基本方法。例如,我们在一同种音量频率持续的音乐段中,假定用二进制补码表示的原始信号是11111……11共计64个1,不压缩的话,这段信号将会占用8个字节,若用64*1来表示可能2个字节就够了。假如我们如果定义音乐段内所有取样的值本身都是1,只有得0的部分才被记录到存储介质中,那我们记录这一音乐断只需一个时间轴标识即可,根本不占用空间。这就是删除冗余的基本思路,由它压缩过的数据可以完全被重建,是一种无损失的压缩方法。但是现实中的音频信号是很复杂的,如果真的采用这种方法进行压缩,其效率是很低的——只是根据音阶无数次的重新定义并记录基准值就是一项浩瀚的工作了,而且能不能真正的节省存储空间也是个问号,因此使用这种方法是有限制的。
数字音频专家发现,在原始信号和经过压缩——解压缩过程处理的信号是允许有差别的,只要使人们不能轻易体察到这种差别同样可以达到高保真的要求。换句话说,只要使处理后的信号(原来信号加上噪声的)中噪声部分的能量尽可能减小至不被听到就是成功的编码方法(噪声指的是经压缩——解压缩过程后的信号与原始信号的差别)。
但是经过声学心理学的仔细研究,发现噪声被感知的能力并不是简单的数字能表示的。人们感觉到的噪声大小会因噪声的频率及很多动态因素而有很大的不同,改变某些加给噪声的情况竟然也会使人耳对其与原来的差别感觉不出来。在ATRAC中主要应用声学心理学的三个主要内容来进行数据压缩的。
1. 去除处于听阈以下的部分并根据等响度曲线优化比特分配。声音要达到一定的声压级才能被听到,这一最小可听声压级就被称为听阈,它表述了人们听觉的绝对感觉。人的听阈虽然有个体差异,但其统计值却非常接近。声强超过听阈时,随声强的增加主观上产生由越来越响感觉。这里声强是客观刺激量,响度是听觉的主观心理量。声音的频率不同,人感受到的响度并不相同。通常以40dB的1000Hz纯音作为基准,并将此时的响度定义为1sone(1sone对应的响度级为40phon),声音的频率不同它和基准音等响的声压级也不同。比较不同纯音和基准音等响时的声压级随频率变化的曲线成为等响曲线(Equi-loudness Curves),如图1所示。
图中虚线为听阈,虚线以下为人依靠双耳不能感知的声音。从图中可以看出人耳响度听觉得一些特性:响度取决于声强,提高声强,响度等级相应提高,但声音的响度并不唯一决定于声强,还受频率的影响。不同频率的纯音有不同的响度增长率,在曲线的最小值点及其周围的有限邻域就是人耳最敏感的频率范围(4kHz左右),ATRAC对于这个范围内的信号应有较少的噪音,尽量保持原始信号;不过对于不敏感的部分则可以容忍一定程度的失真。
2. 去除由于掩蔽效应造成听阈提高而无法被感知的信号。当人们同时听两个声音时,其中一个声音的感受会随着另一个声音的出现而改变。由于其它声音的干扰造成该声音听阈上升的现象叫做掩蔽效应(Masking)。掩蔽效应与听觉传导系统(人耳机耳内组织)无关,纯属人类神经系统判断的结果。假定对声音A的阈值已经确定为50dB,但同时又听到声音B,人们发现由于声音B的影响使A的听阈提高到了64dB,即比原来的阈值提高了14dB才能被听到。这个例子中,B称为掩蔽声,A称为被掩蔽声,14dB被称为掩蔽量。由一个纯音引起的掩蔽大体上决定于它的强度和频率,低频声能有效的掩蔽高频声,但高频声对低频声的掩蔽作用不大。通过窄带噪声进行的掩蔽效应试验结果表明,如图2掩蔽量随掩蔽声的增强而加大,最大掩蔽量出现在掩蔽声频率附近。当掩蔽声和被掩蔽声同时作用时掩蔽的效果最明显,被称为同时掩蔽。但掩蔽效应可以发生在两者不同时作用的条件下。掩蔽声作用在前,被掩蔽声作用在后的称为前掩蔽,反之为后掩蔽,如图3。被掩蔽声在时间上越接近掩蔽声,阈值提高越大。掩蔽声和被掩蔽声在时间上相距很紧时,后掩蔽作用大于前掩蔽。且掩蔽声强度增加并不带来掩蔽量的相应增加,这与同时掩蔽效果不同。在这里有两个重要的结论对ATRAC编码中依靠掩蔽效应建立声学模型有着重要意义。强信号的频率与弱信号相同或比它高时,同时掩蔽最有效;强信号停止比较长的时间里后掩蔽有效,但前掩蔽只在强信号开始之前的2~3ms内有效。
3. 明确由临界频带确定的频带噪声对纯音的掩蔽。当频带噪声的频带不太宽时,掩蔽曲线更具对称性,并且不受频率的影响。只有频带噪声的频带较宽时,只有对以纯音为中心的很窄的频带内的噪声才与掩蔽有关,这一频带可成为临界频带(Critical Bands)。人耳是以临界频带为单位对声音进行处理的,在同一临界频带内,耳朵的听觉感知特性是类似的③,心理声学呈现相同的特性。输入信号在临界频带内,即使加入更大的噪声,人耳也不能察觉出与原信号间的差别。下表为茨维克尔得出的离散的临界宽度表。可以看出,频率越高,临界频带越宽。
中心频率Hz    临界带宽Hz    中心频率Hz    临界带宽Hz
50    80    1850    280
150    100    2150    320
250    100    2500    380
350    100    2900    450
450    110    3400    550
570    120    4000    700
700    140    4800    900
840    150    5800    1100
1000    160    7000    1300
1170    190    8500    1800
1370    210    10500    2500
1600    240    13500    3500
ATRAC编码解码流程
ATRAC是一种有损的音频压缩方法,在其压缩的过程中会引入相当数量的噪音,为了保证乐音的高保真性,必须使人耳不能轻易察觉到这些噪音。ATRAC通过把输入的信号按照高中低分解为三个子频带,各子频带的脉冲信号转变为频谱,把频谱再分成更小的频谱单元,分析出哪些部分是重要的必须高精度编码,哪些不重要可以容忍一定的噪音而不影响乐曲的听觉感受进行低比特编码。频谱的比特分配好后,将它再量化后同一些编码过程中的重要信息一起记录到MD碟片上,这样就完成了整个编码过程。
ATRAC的编码流程如图4所示。MD输入的信号为AES(音频工程学会)推荐的取样频率44.1kHz 的PCM④标准调制信号。由于ATRAC是一种变换编码,在信号被压缩前,首先被称为QMF(Quadrature Mirror Filter,正交镜像滤波器)在编码器中进行频带分割。ATRAC1通常将0~22.05kHz的整个声音频带分为0~5.5125kHz、5.5125~11.025kHz和11.025~22.05kHz三个子频带,且各子频带都是其输入频带带宽的1/2——三个子频带分别占原始信号带宽的1/2、1/4、1/4。但整个分割过程并不是同步完成的,输入信号先经过第一个QMF分解滤波器,分为高低频两部分,其中低频部分要被第二个QMF再次分解。这一过程中,为保持三个子频带的信号的同步性,首先被拆分出的高频部分要经过一个时间延时暂存器,使其稍稍延迟以等待另两个子频带。同步后的三个信号要被送到MDCT(Modified Discrete Cosine Transform,改良离散余弦变换)先进行分块再通过类似傅立叶变换的运算将各子频带信号以每个块为单位转变为频谱,分块化和频谱化都是在MDCT内部进行的。ATRAC分块化中得到的块的大小根据其所在子频带各自的属性分为长模式(每块对应11.6ms)和短模式(高频对应1.45ms,其余频率2.9ms)。长模式的压缩比率高,具有比较理想的位速率(Bitrate,数据传输率的单位),但是整个块内可能会出现大量不能由掩蔽效应降至听阈下的噪音,这个问题被称作前回音(Pre-echo)。为避免前回音降低整个乐音的品质,ATRAC在人耳敏感的频带一定程度的使用短模式。它的块时间短,噪音能充分的被后掩蔽消除——虽然长模式的11.6ms小于15ms的后掩蔽范围,但其过长的持续时间并不能使噪音完全降至听阈之下。块长度决定器(Block Size Decision)就是根据声学心理学原理动态的决定块的模式,并将结果送到对应MDCT执行分块的甄别机构。
QMF分割的三个子频带只占用输入信号带宽的一半,即把信号按相等带宽一分为二,以一半来取样,使取样频率小于信号最高频率的两倍,加之QMF不是理想滤波器,会使频谱产生混叠现象,并出现混叠噪声,如图5。不过因为解码器端的IQMF(Inverse QMF)在把三个频带合成同时,应用与QMF完全相反的方法,可将混叠部分抵消。这不仅不影响到音质,反而MDCT允许块间出现最大50%的重叠,还可以提高单位频率的信息量和解析度,从而提高算法的效率。
实际上,在QMF至MDCT的过程中,还没有进行信息的压缩,将这样得到的信号用解码器中的IMDCT(Inverse MDCT)和IQMF处理,仍可以恢复出原来的信号。ATRAC真正对数据进行取舍和压缩是在频谱的比特分配和再量化阶段进行的。通过MDCT得到的频谱以人耳临界频带为基准,先分成内部心理学特征相同的52个子频谱带,由不同的BFU(Block Floating Unit,块浮动单元)处理后将它们聚合到一起——这一重新组合的过程称为再量化。每个BFU在组织自己的频谱带时根据它的重要性采用各自的比例因子(Scale Factor)进行字组的浮动。如果仅使用小比例因子,再量化后就会有明显的噪声。为了保持音质,比特分配算法必需保证声音敏感的单元有较大的比例因子和足够数据量。比特分配后的子频谱带就会再量化到一起,而且将每声道512个采样生成一个212字节大的声音组(soundgroup)数据,其中除了压缩频谱外还有各频带的比例因子、字长等量化副信息以便解码时调用。至此整个编码过程结束,不断生成的声音组流就是ATRAC芯片输出的用于传输和存储的信号了。ATRAC的解码过程要比编码简单得多,基本来说就是编码的反过程。解码器读取副信息中的比例因子和字长,将各部分频谱重组后得到的新频谱经过IMDCT转换成子频带,把它们合成就得到了输出的PCM信号。
为什么ATRAC要将分割开的子频带进行频谱化,再把得到的频谱分割成单元后对单元应用心理声学,而不直接对三个子频带进行心理声学处理呢?其实这就是ATRAC的高明之处,如果对子频带就直接编码,那样会由于频带范围太宽导致编码执行效能的严重降低及乐音品质的急剧下降。通过细分频带而减小子带宽度,则由于技术上的困难而无法实现。而使用为编码而专门生成的频谱数据可以大大降低解码器的负担,对于控制DSP芯片的LSI(Large-scale Integration,大规模集成电路)体积和成本也有重要意义。那既然频谱化有如此优点,那为什么还要进行频带分割呢?频带分割主要有以下两条优点:分割后的信号频率减小,在MDCT频谱化时工作区(缓存和寄存器)可以大为减小;在处理窄频带音频信号时,直接频谱变换,编码的效率可能会成问题,ATRAC通过对频带分解限制了频谱的范围,就有可能进行效率高的编码。
从Sony与Philips公司在1993年制订的CD黄皮书中可以看出音乐CD采样的频率与MD同为44.1kHz,每声道每次取样帧大小是16bit,这样双声道净码位速率=44.1* (samples/s)*2channals*16(bit/sample)=1.4112* kbps。通过数码光纤创送到MD的信号位速率也为这个数值,而经过ATRAC算法压缩的信号其位速率可以大大减小。ATRAC把每512个原始信号采样数据压缩成212字节的声组,我们可以算出压缩后的位速率=44.1* (samples/s)/512(samples/soundgroup)*2channels*212(bytes/soundgroup)*8(bits/byte)=292.1625kbps。这样可以得出ATRAC的压缩率是141.12/292.1625=4.83:1。
ATRAC3的特性分析
2000年中,Sony发布的MDLP(MiniDisc Long Play,MD长时间播放)技术以及用来支持该技术的ATRAC3算法,可以说是MD发展史中具有里程碑意义的重大变革,并且它的影响不仅仅局限在MD领域:Sony以ATRAC3为核心开发出了几个系列的音乐娱乐产品,从MC-50、NW-E5为代表的微型随身听到AU C404S(iMode)和CMD-MZ5(GSM)音乐手机再到PEG-N700C(710C)掌上电脑,它们无不显示出ATRAC3的强大动力和卓越性能。
与前一代压缩算法相比,ATRAC3可以在品质基本不变的情况下提供ATRAC1两倍压缩率,并保持良好的向上兼容性。ATRAC3不仅兼容以前的SP立体声和MONO单声道模式,更增添了LP2、LP4两种立体声长时间放音模式。在一张普通的80分钟的MD碟片上,应用ATRAC3-LP2和ATRAC3-LP4格式,可使录音/放音时间达到160和320分钟。播放时的文件传输位速率也由ATRAC1的292kbps降至而132kbps(ATRAC3-LP2)和66kbps(ATRAC3-LP4)。LP2和LP4的位速率并不是简单的在ATRAC1的292Kbps基础上的146(292/2)Kbps和73(292/4)Kbps。因为不支持MDLP的MD机不能播放LP2和LP4音轨,为防止产生不必要的噪音,每录制212字节的LP数据,就会随后生成20字节ATRAC1下的静音数据。无MDLP机能的机器播放LP音轨,会认为是用MONO录音的,并播放一段时间静音信号。此时显示的音轨名是在正常名称之前加上“LP”字样,是因为使用MDLP的录音机录音时会自动打上“LP”记号(此功能在部分机种可被禁止)。下表显示了将各种不同的音轨被播放的各种情况。
实际的音频数据模式    UTOC表示的音轨模式⑤    在支持MDLP的机种中播放的结果    在不支持MDLP的机种中播放的结果
SP stereo    SP stereo    SP stereo    SP stereo
    SP mono    半速SP mono    半速SP mono
    LP2    静音    SP stereo
    LP4    静音    半速SP mono
SP mono    SP stereo    倍速SP mono    倍速SP mono
    SP mono    SP mono    SP mono
    LP2    静音    倍速SP mono
    LP4    静音    SP mono
LP2    SP stereo    静音    静音
    SP mono    静音    静音
    LP2    LP2    静音
    LP4    不停的尖叫噪声    静音
LP4    SP stereo    静音    静音
    SP mono    静音    静音
    LP2    倍速LP4    静音
    LP4    LP4    静音
为了保证兼容性是要付出代价的,Sony给每212字节的数据加上了20字节的空白,这样算下来,完全应用LP录音的碟,会有将近10%的存储空间被白白浪费掉了。但即使如此,LP2模式的声音仍出色得令人难以置信,以至于让人感觉不出同SP模式的差别。用不到二分之一的位速率而达到几乎相等的音质,ATRAC3是如何做到的呢?下面我们从技术层面上详细了解一下。
ATRAC3改进的编码解码系统
ATRAC3是在原来的ATRAC基础上发展起来的,与旧有系统有着很明显的继承性,就连Sony自己也用了affinity(嫡亲关系)一词来形容它们之间的连续性。ATRAC3的编码解码过程和原来的版本大体相同,如图6。ATRAC3采用了变换编码的技术(Transform coding),它可以将输入的音频信号转换成频率域信号,再根据声学心理学确定人耳听觉特性进行压缩。这里音频信号将被波段分割滤波器分成4个子频带,子频带经 MDCT后由PCM调制信号被转变为频谱。频谱经过分析,被分解成音乐旋律部分和非音乐部分,前者将被特殊处理,以获得更好的音乐效果。这一过程处理过的频谱会重新整合形成数据流完成编码的过程。
ATRAC3也包括信号子频带分割、MDCT频谱化、频谱再分割、比特分配和信号总合再量化这几个基本过程。但各个环节都有一定的改进,从而使它的编码效率更高,表现效果更好。接下来,笔者将以LP2为主线按编码流程依次介绍。
虽然Sony在ATRAC3的技术说明里用了一个变换编码技术的新名词,但它实际上仍是用QMF把PCM信号按照对应原音的频率进行分割的老方法。不过ATRAC是用两个QMF得到三个子频带,ATRAC3是用三个QMF得到四个子频带,如图7。二者在中低频断的分割是相同的,只是后者把前者的高频再一次拆分为两段。这是显示出Sony在ATRAC3中更加学会了精打细算,以前的分割把11kHz以上的部分当作高频统一处理,但是人耳的听觉在高频部分很不敏感,且越高越不敏感。参考等响度曲线(图1)可以发现,高音不仅听阈高,而且听力范围也未必能达到20kHz(人耳对高音部的感知能力甚至随年龄减弱,老年人通常都听不到13kHz以上的声音)。这样统一处理太浪费有限的位速率了,不如再分段,在16.5375kHz以上的子频带采用更高的压缩率,这会在不影响音质的情况下获得更高的压缩比。
为了实现比ATRAC1高一倍的压缩比,ATRAC3在MDCT频谱化时的采样单元由原来的512个样本(由低到高三个字频带分别是128个、128个.、256个)提高到了1024个(四个子频带各256个),每个声组(212字节)对应的样本数提高了一倍,这是ATRAC3降低位速率的根源所在。剩下的工作只是在高压缩的情况下如何提高音质的了。Sony在ATRAC3里引入了结果调整(Gain Adjustment)和旋律分割(Tonal Component Separation)两项新技术来做到这点。
我们在前面ATRAC1编码时就曾经介绍过MDCT频谱分块化时会在整个子频谱内引入不能通过掩蔽效应防止的量化噪音——前回音问题,在ATRAC的压缩比下只要分块时采用一定数量短模式就可以充分避免了。但以ATRAC3的压缩比进行分块时,如果不使用一定手段的话,前回音是不能避免的,结果调整技术就是为了这个目的而产生。这一技术是在MDCT中频谱化完成但还没有进行分块时,在整个频谱区间内进行可能产生前回音的未来的子频带的预测。在预测结果为肯定的地方的头尾先进行标记,并把标记暂存于芯片寄存器中,合成信号时再记录在传输信号的副信息里,以备解码时调用。标记后的部分会进行振幅的放大处理(此处已是频谱,而不是PCM数字信号,是存在振幅的),使振幅增大到不会产生前回音的水平,如图8。解码时,读取副信息里的标记,再对信号制定位置的振幅进行恢复,在这一放一收的过程中巧妙的消除了前回音的影响,还不增加芯片额外的运算量,达到控制LSI规模减小耗电量的目的。
结果调整技术只是减小了噪音对信号的影响(信噪比),但对于提升高压缩比下的音质贡献并不是特别大,旋律分割技术就是专门为解决这一问题引入的。人的听觉对于单调频率的声音并不是特别的敏感,对它们采用高保真度的压缩并不能让人耳感觉到音质的提高。而人对于有旋律(具有一定规律并且频率有起伏)的音乐却特别敏感,通常乐曲中的一丁点失真都会被发烧友灵敏的耳朵觉察出来,并对音响器材提出批评。因此提高旋律部分的保真度,也就成了ATRAC3的重要部分。旋律分割技术就是找出信号中的旋律部分以便进行高保真处理的技术。我们知道,音乐是乐音的有调组合,乐音中所有的音都可以从低到高按一定的音阶排列,不论是等程音阶还是自然音阶都有一定的频率特征,乐音也就有了这一特征。频率分割技术可以从频谱中找出具有乐音特征的频谱部分与其它部分区分开来,ATRAC3对它们予以特别的关注,进行高保真(低压缩率)的编码,继而获得较高的音乐品质。这一技术具有很高的智能性,可以分辨出乐曲中的核心部分——旋律,对于颤音、回音等非主要部分并不进行特殊处理,仅依靠解码时的重建和补偿就可以满足人耳的较高要求。
除了加入这两项技术外,ATRAC3的声学心理学模型和比特分配算法都有所改进,但是Sony将它们视为核心技术没有对外公布,我们也就不知道其改进的手段。至于编码的其它过程都与以前相同,前面已经介绍得比较清楚,而解码只是编码的逆过程,这里对它们就都不重复了。
在ATRAC1里提供了MONO单声道模式,将录音时间比SP立体声延长了一倍,它仅是录音时舍弃一半的乐曲信息(一个声道),实现延长录音时间的目的。而在ATRAC3里有LP4模式与之对应,它却是立体声,实现的原理也不像前面这么简单。ATRAC3中的LP4模式采用了重合立体声(Joint Stereo)技术,在数字音频领域中首次把针对左右声道的互相关联的编码技术应用到音乐播放器中。其实为了提高编码的效率,很早就有人提出找出左右声道相同的部分编码后对它们只记录一遍,不同的部分分别记录以减少传输位速率的方法,如图9。但是,在实验中却发现仅是用于记载某一信号段是属于那个声道就会占用大量的带宽。而更致命的是由于输入信号的完全不可预知性,DSP芯片根本就不能知道下一个采样是两声道完全相同还是完全不同,编码就处在无规律可循的动态中。与具有较强运算能力的通用处理器(如计算机CPU)不同,专用的DSP芯片若用来处理这种复杂的情况势必使其LSI规模大大增加,由此带来的成本的增加和耗电量的增长对消费类数码产品是不能承受的!由于没有表现出期待中的优点,该技术一直没被任何产品采用。ATRAC3的重合立体声技术先要对经过分块化的各子频谱带进行分析,检测同一时间两声道的重合度是否符合该技术的要求。若答案是否定的,在位速率一定的情况下,只好采用降低音乐“分辨率”的方法——减小编码时单位时间实际被编制的样本数目——此时的音质比较差;但若答案是肯定的,ATRAC3先对重合的部分编码再分别对两个声道特有的部分编码这可以在低位速率下有效的提高音乐品质。
ATRAC数字音频压缩体系有着优秀的声学性能和较低的传输位速率,应用这一技术的产品也是多种多样。笔者有理由相信,随着Sony公司及其盟友对它的改进和推广,ATRAC必将为更多的消费者带来快乐。
注:
①CD碟的纹距和MD碟的蛇型沟距离都为1.6μm,即相同长度的纹路有着相同的存储量,二者存储量之差就在于纹路的总长度。
②ATRAC2使用PQF(Polyphase Quadrature Filters,多级正交滤波器)代替QMF,每个声组有1024个采样,将音乐中的音调单独编码,还有将输入信号分解成4个子频带,这些都与ATRAC1有本质区别。
③此处是指掩蔽等感知特性是相同的,并不是说人耳会混淆临界频带内的声音,其实1Hz的频率改变都是能被人耳察觉的。
④PCM——Pulse Code Modulation脉冲编码调制,是将模拟信号转换成数码再变成使用2的补码的二进制数字信号,之所以称为脉冲调制,是因为转换后的信号以脉冲为形式出现。
⑤此处是使用特殊的技术修改UTOC的片断模式定义值,有关UTOC中标识片断模式的内容请参考第9期的《MD的神经中枢——UTOC的深入介绍》一文。









您需要登录后才可以回帖 登录 | -注册-

本版积分规则

Archiver|手机版|粤icp备09046054号|耳机网-耳机大家坛

粤公网安备 44030602000598号 耳机大家坛、www.erji.net、网站LOGO图形均为注册商标

GMT+8, 2024-12-1 03:49

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表