一、音频数据
1.1 声音概念
音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。
声音有三个属性:
- 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
- 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大。
- 音色:又称声音的品质,波形决定了声音的音色。
波长是决定音调高低;振幅是决定音量高低;波纹是决定音色。
1.2 PCM
PCM(Pulse Code Modulation),即脉冲编码调制技术。
由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM
技术。
PCM
技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM
处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。
采样频率:单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz
、44.1KHz
、48KHz
三个等级。
Tip:
5kHz
的采样率仅能达到人们讲话的声音质量。11kHz
的采样率是播放小段声音的最低标准,是CD音质的四分之一。22kHz
采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。44kHz
的采样率是标准的CD音质,可以达到很好的听觉效果。
采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。
采样位数通常有8bits
或16bits
两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8bits
为低品质,16bits
为高品质,16bits
最为常见。
PCM格式的数据流
- 码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。
比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。
MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。
码率=采样率∗采样位数∗声道数
例如:
如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 1000 16 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 1 * 60 / 1024 / 1024 =10.09MB。
1.3 音频格式
PCM
数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。
WAV 格式定义
该格式的实质就是在 PCM 文件的前面加了一个文件头,每个字段的的含义如下:
1 | typedef struct { |
- 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
- ALAC、APE、FLAC
- 有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
- MP3、AAC、OGG、WMA
二、Android音频播放流程
各层音频模块
播放流程拆解
音频播放链路
三、Android音频Pipeline
1、音频Pipeline
要有好的音频效果,音频的pipeline基本如下:
mic采集->Audio Codec->ADSP->AEC->beamforming->ANC->AGC->3A outbuffer->音频编码->发送
接收->音频解码->EQ->DRC->PA/Codec->SPK播放
2、音频Pipeline详解
MIC,全称是麦克风接口,即英文Microphone的缩写。在日常生活中,我们通常称之为麦克风接口。它是一种音频输入接口,用于将声音转换成电信号,以便进一步处理或传输。
Audio Codec 提供录音和播放功能,录音时模拟信号从麦克风输入或是线入,经过模拟部分增益放大,再转换成数字信号,最后从 I2S 接口输出,实现录音功能,支持立体声录音;回放时,音频信号从 I2S 接口输入,再由 DAC 转换成模拟信号输出,支持立体声音乐播放。
ADSP是音频数字信号处理器,专门设计用来处理音频信号。
3A算法(AEC、AGC、ANC)
AEC是回声消除器(Acoustic Echo Chancellor),AEC可以消除各种延迟的回声)。AEC是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型(高斯模型),利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少,AEC可以消除各种延迟的回声。
AGC是自动增益补偿功能(Automatic Gain Control),AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。
ANS是背景噪音抑制功能(Automatic Noise Suppression),ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现出与会者清晰的声音。
波束形成(Beamforming),波束算法也叫作空域滤波器,它是利用麦克风阵列(个数大于1)的多通道空间信息,选择性的增强或者抑制空间中的某个方向的信号。相对于单通道语音,多通道波束算法可以有效的抑制干扰方向的信号,提高期望方向信号的信噪比,因此常常被用于远场语音的通信和识别。
EQ是均衡器的缩写。它的基本作用是通过对声音某一个或多个频段进行增益或衰减,达到调整音色的目的。当然,EQ还有一个显著的功能,降噪。EQ通常包括如下参数:F(requency),频率――这是用于设定你要进行调整的频率点用的参数;G(ain),增益――用于调整在你设定好的F值上进行增益或衰减的参数;Q(uantize)――用于设定你要进行增益或衰减的频段 “宽度”。
DRC(Dynamic range control,动态范围控制)。当输出的音频信号不是很大的时候,系统会按照原来的设定输出,但是当输出的音频信号过大的时候,为了保护喇叭DRC会将输出信号的幅度进行压缩将其限制在一个范围内。因为输出的音频信号过大会引起削峰,从而引起音频失真,并且损坏喇叭,所以需要有DRC的作用来将输出限制在一定的范围内。在信号很小的时候DRC是不会起作用的,只有当输出信号的功率超过了你设定的DRC门限的时候DRC才会工作。
PA (Power Amplifier): PA 是指功率放大器。它的主要功能是放大来自音频源的低功率信号,使其足以驱动扬声器发出声音。在移动电话和便携式音频播放器中,PA 对音频信号进行放大后,用户才能通过内置或外接的扬声器听到声音。功率放大器需要高效率,以最大化电池寿命,同时还需要保持音频信号的质量和保护扬声器不被损坏。
SPK(扬声器)
参考资料
音频基础知识及PCM技术详解
https://zhuanlan.zhihu.com/p/550072985?utm_id=0&wd=&eqid=851e49d00004bbfe000000046465d25b
Android高性能音频解析
https://mp.weixin.qq.com/s/yQQ5q8vvi7ltVxVQrfcl0Q
Android音频系统介绍
https://zhuanlan.zhihu.com/p/460528800
Android音频架构