胖蔡说技术
随便扯扯

音频基础介绍

声音的物理性质

  1. 声波的三要素

声波的三要素是:频率、振幅和波形。频率影响声音的传递长度,低频波长较长,传递距离较远;响度是声音的力度大小,常用分贝来描述响度的大小;波形的形状代表着声音的音色,由于声音产生的介质的不同导致声音的波形不同。

人耳的听力频率范围:20Hz~20kHz

数字音频

数字音频是将模拟信号数字话,其中音频数据化存在三个过程:采样、量化、编码。

采样

采样就是在时间轴上对信号进行数字化。根据 奈奎斯特定理(采样定理) 按照比声音最高频率高2倍以上的频率对声音进行采样(也称AD转换),如人耳的频率接受范围为20Hz到20kHz,所以采样频率在44.1kHz(代表1秒会采样44100次)。

量化

量化是对声音采样数据的数据化表示。是指在幅度轴上对信号进行数字化。如用16bit的二进制信号来表示声音的一个采样,16bit所代表的范围[-32768,32768),共有65536个可能取值,因此最终模拟音频信号在幅度上也分为65536层。

编码

编码是对数字化数据的存储,就是安装一定的格式记录采样和量化的数字数据,比如顺序存储和压缩存储。存储过程涉及很多种数据格式,通常所说的音频裸数据格式就是脉冲编码调制数据(Plus Code Modulation,PCM)数据。一段PCM数据一般需要有如下几个参数:量化格式(sampleFormat)、采样率(sampleRate)、声道数(channel)组成。 如CD音质为例:量化格式为16bit(2B),采样率为44100(44.1kHz),声道数为2。如上为描述声音的音质,而对于声音数据的大小的描述有一个称呼为“数据比特率”,即一秒内的比特数,它用于衡量音频单位时间内的数据单位容量大小。其计算公式如下:

  bits = 量化数据*采样率*声道数
  44100*2*16 = 1378.125kbps(每秒音频存储数据为1378.125kbit)

对于音频数据的数据比特率单位为:bps,kbps,Mbps,Gbps,Tbps,转换为:

1000bps = 1kbps
1000kbps = 1Mbps
1000Mbps = 1Gbps
1000Gbps = 1Tbps

压缩编码

为了让音频数据在网络上实现实时传出,从未需要对音频数据进行压缩编码处理,压缩算法包括有损压缩和无损压缩。无损压缩是指解压后的数据可以完全复原,有损压缩是指解压后的数据不能完全复原,会丢失一部分信息,压缩比越小,丢失信息就越多,信号还原后的失真就会越大,常用的压缩格式为有损压缩。常见压缩编码算法有:PCM、WAV、AAC、MP3、Ogg等。

  1. WAV 编码

WAV的一种实现(有多种实现但都不会进行压缩操作),就是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。 特点: 音质好,软件基本都支持 适用场合: 多媒体开发的中间文件、保存音乐和音效素材.

  1. MP3编码
    适用LAME编码(MP3编码格式的一种实现)的中高码率的MP3文件,听感上非常接近源WAV文件 特点: 音质在128bps以上表现不错,压缩比较高,兼容性好 适合场合: 高比特率下对兼容性有要求的音乐欣赏
  2. AAC编码 新一代的音频有损压缩技术,通过一些附加的编码技术,衍生了LC-AAC、HE-AAC、HE-AAC v2三种主要的额编码格式。LC-AAC应用于中高码率场景(>=80kbps);HE-AAC(AAC+SBR)应用于中低码率场景(<=80kbps);HE-AAC v2(AAC+SBR+PS)应用于低码率场景(<=48kbps).大部分编码器都设置为<=48kbps自动启用PS技术,而>48kbps则不加PS,相当于普通的HE-AAC. 特点:在小于128kbps的码率下表现优异,并且多用于视频中的音频编码。 适用场景:128kbps以下的音频编码,多用于视频中的音频轨的编码。
  3. Ogg编码 Ogg是一种非常有潜力的编码,在各种码率下都有比较优秀的表现,尤其是中低码率场景下。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,128kbps的Ogg比192kbps甚至更高码率的MP3还要出色。 特点:可以用比MP3更小的码率实现比MP3更好的音质,高中低码率下均有良好的表现,兼容性不好 适用场景:语言聊天的音频消息场景
赞(0) 打赏
转载请附上原文出处链接:胖蔡说技术 » 音频基础介绍
分享到: 更多 (0)

请小编喝杯咖啡~

支付宝扫一扫打赏

微信扫一扫打赏