游戏语音后期处理细节若干
原文作者:dmkjyang
通常情况下,对白或旁白的平均响度在一个游戏里是作为混音时的参考音量的,即使在商业电影也是如此。任何时候,对白是必须要能明确听清楚的。在电影里,我们可以通过使用side-chain链接的压缩来实现自动平衡:当语音出现的时候,其他轨道都会自动衰减。对游戏语音,要在总线上挂一个side-chain链接的效果器并不是所有的声音引擎能做到的。所以在大部分游戏里,任何一个独立的样本,其RMS值是需要严格平衡控制的。通常是所有的样本都保持同样的RMS,以便于游戏平衡与混音,即使这个样本在游戏听到的结果很是小音量的,也要确保样本自身的RMS要足够大。
(上图:语音轨道总线通过BUS19送出信号,传到SFX总线上的压缩API 2500的Side-chain旁链输入。当语音信号输入时,SFX会根据被自动衰减)
游戏语音样本的数量也是个相当棘手的事情。10年前,游戏里的语音(无论是对白、旁白还是shout),有个1、2千句就算很多了(不算多语言)。而现在上万个语音样本的数据量也最多让人小惊一把。在“荣誉勋章”这样的大项目里,甚至还会安排专门的设计师负责处理语音相关的数据。
语音后期处理的另一个麻烦在于角色所需要的音色和效果。最常遇到的就是所谓“变声”,比如把人声变成某种动物的样子或者变成对讲机通话的质感。其实这些效果处理是语音后期处理的最后步骤了,是要等到所有样本的基本平衡已经完成之后采开始做的。
语音处理最重要的步骤是平衡所有样本的动态,让所有样本的PEAK、RMS和频响都保持在一个统一状态,这个状态是有一些标准的,也是要根据实际情况做一些规划的。这事情看起来很简单,但如果你有成千上万句样本要处理的话,这事情就麻烦了。想象一下,如果你看一个商业电影,里面的对白时而在前面、时而退到后面;每次场景切换,语音音质的景深和动态都不一样,恐怕你只能觉得这质量“被纪录片”化了。
游戏和影视的语音处理不同,游戏语音的基本处理基本步骤如下:
1)挑选和切割样本。通常录配音的时候就会打上一些标记,标明哪个TAKE保留。但往往后期处理的时候还是要全面对待的,尽量把所有可能有用的TAKE都挑选出来,单独保存,而后通过在文件名后面加数字编号的方式区别开来。只有这样,你之后的工作才能有更多选择。挑选出来的每个样本都要采用合适的命名,所以命名规则要在录音前就做好计划的。
***这个步骤里,建议不要做任何效果处理,即使是简单的放大音量啥的都不要。
2)把所有挑选出来的样本采样质量转换成44.1kHz/16bit或者48kHz的。你当然可以保留更好的原始录音质量来继续后面的处理,但对于多数软件来说,这种作法的意义其实不大。因为多数插件、尤其是那些DX插件,事实上只有44.1kHz或者48Khz的精度计算,样本的高精度可能反而是累赘。当然,越来越多的插件确实已经开始支持更高采样率的计算。
3)到这步,记得备份所有这些样本!因为接下来的处理动作,你一定会尽量使用批处理的。这系列动作里,你可能出错,你可能会反悔,如果没有上一步动作的备份,你就失足了…
4)样本定型测试。批量处理之前,先做一些测试比较,以确定每个角色的频响位置。比方说,你可以把某男一号的语音处理得很醇厚的样子,但是如此一来,可能某大怪的语音就要更醇厚才能显出其大怪气质。所以你不能把这男主角的语音处理得太满,要给别的角色留点空间,以确保他们之间有足够的对比。对比测试没必要把每个角色都拎出来的,只要把最典型的几个角色和他们最典型的几句样本挑出来即可,比方说根据动态或者语气,一般可以找一个中性情绪的,在找一个轻声细语或耳语的,再找一个大声吼的。这样三个最典型的状态,基本可以涵盖大部分可能出现的动态和频响状况。
5)当你把每个角色的样本RMS、PEAK和频响都控制在了一个相对稳定的平衡状态后,可以开始考虑最后加一些效果器,例如NomadFactory AMT系列的压缩或者Magnetic插件,用微弱的渲染量过一边,利用这种效果器的染色来给样本增加一些统一的色彩。我选用NomadFactory AMT系列插件或者Steinberg Magneto是为了获得一些温暖的质感。
6)对于一些特殊效果,比如说对讲机通话、怪物甚至是像BioShock里那种特殊的效果,建议在所有样本平衡完PEAK、RMS和频响之后再做,这是最容易把握的。当然,如果你有把握和经验的话,也可以在初步平衡完相关样本的动态之后就直接开始处理。但无论如何,最终所有语音样本的动态和频响都必须保持一定范围的统一,甚至是严格的统一。
一些技术细节和建议:
1)关于样本挑选和切片。目前Soundforge、PT和Cubase之类的软件都有自动判断静音位置来切片的功能。你需要花这么一点点时间来掌握这种功能的使用,它可以最大程度帮助你提高效率的,除非你对手动切割和选择样本这事情有独钟。(就算如此,你也要体谅一下项目的时间成本哈!)切出样本后再挑选,虽然挑选样本比较花时间,但这还是值得的。当然,如果你不确定某些样本里的语气语调啥的是不是够合适,也可以全部都保留下来,处理完之后让别人去挑。
2)样本的命名。通常,上面提到的那些软件是有功能自动命名的,你只要在输出样本时候给出每批样本的命名规则即可。你也可以采用Rename4Mac或者BatchRename Pro(Windows)这样的软件来批处理命名问题。通常,你拿到的配音文案里是已经写清楚每句样本的名称或者命名规则的。但是如果你真的很不幸,那么你也只好自己给一套命名规则了。作为一种职业态度,你最好能把这套命名规则清晰明确地落成文字说明,最后一起交给相关人员。
3)备份插件链。语音处理,往往某个角色的声音处理会是一样的,所以尽量做批处理是比较现实的作法。最多,对于某些特殊的样本,可以在批处理后再单独开个小灶处理一下。所以你最好要习惯保存那些效果插件链!Cubase, Wavelab, Logic都是可以直接保存Channel Strip的,但是PT和Soundforge不能那么直观。PT里面,你只能保留这个Session作为一个Template。而Soundforge里面,你可以用纸记录每个插件的先后位置,再保存每个插件的设置为用户自定预设(User Presets),随后在它的Batch Converter里逐个调用这些插件和它们的预设(千万记得这些插件的顺序不能搞错),然后进行批处理。Soundforge的Batch Converter里是可以保存这套预设置的!常用的转换,比如44转22和16,也都可以保存在桌面上,这很常用的。你也可以使用Soundforge的Preset Manager来保存和管理每套预设。无论如何,批处理办法是你确保每个角色的样本保持统一的最有效手段!并且,万一以后还要补录一些语音的话,或者还要录制其他语言的话,这些预设的作用之重要就不言而喻了。
*** 每个项目实用的这些插件链预设都最好单独备份在项目相关文件夹里,并且做必要的文字注解,以方便别的版本或者以后版本更新可以实用。
4)切掉不必要的低频。语音样本在放大平衡之后,往往低频会被增益。有些低频是完全没有必要的,比如说60Hz以下,对绝大部分语音来说都可以切掉,有些甚至切到80Hz都没问题。这些低频不但可能会影响角色语音的某些质感(尤其是,当你需要醇厚低频的时候,其实这种低频基本在100-200这个范围,切掉80Hz以下反而能突出这个频段),还可能导致一个常见的结果:把样本音量推得非常狠,甚至峰值都过载了,但是音量怎么听都不够大。需要注意的是,这个动作应该在最终平衡前就做,而不是整体平衡后再做。因为这个动作可能会导致波形的动态出现很大的变化,但是听觉上却变化不大。而对于我这种比较纠结波形美感的人来说,听觉上的响度与动态稳定性是一定要尽量和波形显示结果一致的。低频和中低频的变动,很容易让人产生距离上的变化感觉。通常,低频越大,就会感觉距离越近。但低频的切除点和切除量一定不是绝对的!有些角色确实需要保留甚至50Hz的频段也有可能。在你没有把握的情况下,可以谨慎切除一点,只要保证最终波形显示上的动态和听觉基本一只即可,甚至可以是保守一点的。等样本进了游戏之后,整体上看了再决定如何细节调整,这也是不错的做法。
5)如果你希望语音有比较饱满的低频,那么建议使用多段均衡,通常可以在160-440Hz范围里找到合适的点,切掉一部分。切的时候Q值尽量大(范围小)。
*** 这里有个小技巧推荐:比方说在160Hz处切掉了一些,那么为了保持同样的响度和整体频谱比例,可以在80Hz或者250和32Hz位置提升一点。因为160-440Hz这个范围对于绝大部分语音来说都是比较敏感的,很容易引起音量和色彩上的明显变化。所以,谨慎起见,在做批处理之前,最好先挑选这个角色的几个典型样本测试一下确定最佳切点和切除量,然后再批处理。
6)即使有PEAK和RMS标准参考值(见下文)和分析软件来帮助你获得这两个值,但是最终结果还是要靠人耳去判断的!在保持稳定的RMS值同时,更要确保所有语音能够处在统一的纵深位置上,而不是有些听上去扑面而来,有些却隔你大老远的样子。这个问题对于使用耳机做监听的人来说是比较麻烦的。最简单的办法是,把一个角色的所有样本都拖到某个播放器里,快速连续播放这些样本,这样就比较容易比较出纵深感上区别。或者你也可以找一些监听音箱模拟器,例如Focusrite VRM,通过这个小小的硬件,你就可以在监听耳机里听到不同品牌和型号的监听音箱出来的结果。当然,这种产品只是作为参考监听用的,跟它较真就没意思了。
关于插件的使用建议:
1)如果原始录音的音量偏小,千万记得不要一下子把它们推到很大,这会导致声音严重变形。最好分几步放大,并且每次放大采用不同性能的插件。比方说,第一步放大可以用Waves Rvox,这是一种Gate Expender,并且为语音特别优化过的,可以在提升语音本体音量的同时,抑制其他部分的电平。这样你就可以获得信噪比更好的样本了,之后即使你某些动作过大也不会引起底噪啥的被跟随放大太多。一般建议开始放大的步骤里,不要使用压缩,这会把底噪也一起推上来的。
2)如果要把人声处理成怪兽,或者要把同一个配音演员在兼配其他角色时候的嗓音特征区别拉大,有两个简单有效的插件建议使用:
a.Steinberg Voice Designer:这插件可以在提供Pitch Shift的同时,补偿和修改Formant(共振峰,其实人声的区别很大一部分来自于共振蜂的区别)
b. Avox Throat:这是一个喉部物理模型模拟器,这样你就可以更细致地修改嗓音的某些特点,比如声带的张力等。但是要注意的是,这个插件的计算精度相当不够,会把有些样本搞得很脏呼呼的。如果你不喜欢,可以在处理完之后用EQ或者滤噪软件或者PSP Audioware Saturator这样的软件再修饰一下。
3) 由于不同的压缩和均衡对语音这种敏感声音来说是影响很大的,所以,最好在动手前尝试比较不同的均衡和压缩所产生的结果,以确定最佳办法。通常,那些熟练工往往会有些固定的习惯做法,比方说我就比较喜欢用NomadFactory的多段均衡和Waves ReEQ系列,并且我还会习惯性地最终把所有样本在那个老掉牙的Steinberg Magneto插件里过一遍,以校正整体质感,就跟校色差不多。
3)所有样本的最终统一润色,这个步骤是绝大部分人都比较容易忽视的。通常,这个步骤是采用一些带有明显特征的母带插件来完成的。所以你需要花点时间去熟悉各种不同品牌的母带级插件能够产生怎样的音质结果。如前面所言,我自己通常喜欢用Nomard Factory AMT Max和AMT Warm,还有这家公司的Retro Film和Magnetic,有时候也会用PSP Audioware Vintage Warmer和Waves SSLEQ或者通道条。但是无论如何,即使这些插件我都不用,也会用Steinberg Magneto把所有东西都过一遍。但对于音效,使用Steinberg Magneto润色,我会非常小心,因为这个东西的Attack有点慢。插件不在于多,而在于你对它们的熟悉程度。无论如何,有意识地让自己养成一些比较稳定的使用习惯,对于提高效率且保证质量是非常非常有帮助的。
4)滤噪。语音在放大过程中,往往会遇到某些样本偏低的问题,放大之后噪声会变得很大。有些人比较喜欢极其干净的语音,没有任何杂质。有些人,比如在下,就比较喜欢带一些噪声的,这样的声音听起来更自然一些。你最好不要轻信那些广告,说他们自己的滤噪工具用了啥啥技术的,怎么怎么了得,貌似没有啥噪声是滤不掉的。在一些发达国家,样本噪声处理是交给专门的工作室甚至实验室去完成的,甚至有些电影的同期录音也是有专门的工作室承担这种业务。滤噪是个很复杂的事情,你首先要做的不是找插件,而是确定这个你想“滤除”的部分是怎样的声音。不同性质的“噪声”(有些不是噪声啦,只是你不喜欢这部分元素而已),是一定需要不同的处理办法的!甚至有些听起来很麻烦的噪声却只要一个简单EQ就可以完美处理了!滤噪是个太大的话题,以后再议。熟悉每一个滤噪插件的性能反应,熟悉各种均衡,熟悉不同的噪声类型,这是你应该做的,而不是去找各种广告。
下面是一个我自己比较坚持的样本动态参考值,供参考:
Types | maxi Peak (dB) | ref RMS (dB) | average RMS (dB) | FMOD vol set (dB) |
1) Actions | -3 | -12 ~ -16 | -16 | -3 ~ - 12 |
2) Skills with SFX | -3 | -10 ~ -16 | -12 | -6 ~ -12 |
3) Amb stereo | -6 | -18 ~ -24 | -20 | -9 ~ -16 |
4) 3D Shout vox | -3 | -12 ~ -16 | -16 | -3 ~ -9 |
5) Footsteps with textures | -3 | -12 ~ -16 | -16 | -9 ~ -16 |
6) Music stereo | -3 | -12 ~ -16 | -16 | -6 ~ -12 |
7) UI | -3 | -12 ~ -16 | -16 | -6 ~ -12 |
8) HUD | -3 | -12 ~ -16 | -16 | -6 ~ -9 |
*** 表格的最后一列,是不同类型的声音,在FMOD的EVENT里设置的参考音量。这个设置,通常在数据整合阶段,以产生游戏最基本的声音层次。
对于这个表格里的参考值,你也不必过于纠结。不同硬件平台和声音引擎的情况都不一样。比方说NDS上面,这样的样本音量就可能导致整体音量输出偏小的,因为NDS硬件上的扬声器,在250Hz一下基本没啥反应了,所以样本出来的音质也会产生很大变形,甚至面目全非。关于选择哪一类声音作为参考音量,不同情况也是需要分析后决定的。
可继续阅读续文: