Skytoby

Android音频基础知识

Android音频基础知识

一、音频数据

1.1 声音概念

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。

声音有三个属性:

  • 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
  • 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大。
  • 音色:又称声音的品质,波形决定了声音的音色。

波长是决定音调高低;振幅是决定音量高低;波纹是决定音色。

1.2 PCM

PCM(Pulse Code Modulation),即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。

采样频率:单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz44.1KHz48KHz三个等级。

Tip:

  • 5kHz的采样率仅能达到人们讲话的声音质量。
  • 11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。
  • 22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。
  • 44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。

采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8bits为低品质,16bits为高品质,16bits最为常见。

PCM格式的数据流

  • 码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。

比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。

MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

码率=采样率∗采样位数∗声道数

例如:

如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 1000 16 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 1 * 60 / 1024 / 1024 =10.09MB。

1.3 音频格式

PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。

WAV 格式定义

该格式的实质就是在 PCM 文件的前面加了一个文件头,每个字段的的含义如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
typedef struct {
char ChunkID[4]; //内容为"RIFF"
unsigned long ChunkSize; //存储文件的字节数(不包含ChunkID和ChunkSize这8个字节)
char Format[4]; //内容为"WAVE“
} WAVE_HEADER;
typedef struct {
char Subchunk1ID[4]; //内容为"fmt"
unsigned long Subchunk1Size; //存储该子块的字节数(不含前面的Subchunk1ID和Subchunk1Size这8个字节)
unsigned short AudioFormat; //存储音频文件的编码格式,例如若为PCM则其存储值为1。
unsigned short NumChannels; //声道数,单声道(Mono)值为1,双声道(Stereo)值为2,等等
unsigned long SampleRate; //采样率,如8k,44.1k等
unsigned long ByteRate; //每秒存储的bit数,其值 = SampleRate * NumChannels * BitsPerSample / 8
unsigned short BlockAlign; //块对齐大小,其值 = NumChannels * BitsPerSample / 8
unsigned short BitsPerSample; //每个采样点的bit数,一般为8,16,32等。
} WAVE_FMT;
typedef struct {
char Subchunk2ID[4]; //内容为“data”
unsigned long Subchunk2Size; //接下来的正式的数据部分的字节数,其值 = NumSamples * NumChannels * BitsPerSample / 8
} WAVE_DATA;
  • 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
    • ALAC、APE、FLAC
  • 有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
    • MP3、AAC、OGG、WMA

二、Android音频播放流程

各层音频模块

播放流程拆解

音频播放链路

三、Android音频Pipeline

1、音频Pipeline

要有好的音频效果,音频的pipeline基本如下:

mic采集->Audio Codec->ADSP->AEC->beamforming->ANC->AGC->3A outbuffer->音频编码->发送

接收->音频解码->EQ->DRC->PA/Codec->SPK播放

2、音频Pipeline详解

MIC,全称是麦克风接口,即英文Microphone的缩写。在日常生活中,我们通常称之为麦克风接口。它是一种音频输入接口,用于将声音转换成电信号,以便进一步处理或传输。

Audio Codec 提供录音和播放功能,录音时模拟信号从麦克风输入或是线入,经过模拟部分增益放大,再转换成数字信号,最后从 I2S 接口输出,实现录音功能,支持立体声录音;回放时,音频信号从 I2S 接口输入,再由 DAC 转换成模拟信号输出,支持立体声音乐播放。

ADSP是音频数字信号处理器,专门设计用来处理音频信号。

3A算法(AEC、AGC、ANC)

AEC是回声消除器(Acoustic Echo Chancellor),AEC可以消除各种延迟的回声)。AEC是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型(高斯模型),利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少,AEC可以消除各种延迟的回声。

AGC是自动增益补偿功能(Automatic Gain Control),AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。

ANS是背景噪音抑制功能(Automatic Noise Suppression),ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现出与会者清晰的声音。

波束形成(Beamforming),波束算法也叫作空域滤波器,它是利用麦克风阵列(个数大于1)的多通道空间信息,选择性的增强或者抑制空间中的某个方向的信号。相对于单通道语音,多通道波束算法可以有效的抑制干扰方向的信号,提高期望方向信号的信噪比,因此常常被用于远场语音的通信和识别。

EQ是均衡器的缩写。它的基本作用是通过对声音某一个或多个频段进行增益或衰减,达到调整音色的目的。当然,EQ还有一个显著的功能,降噪。EQ通常包括如下参数:F(requency),频率――这是用于设定你要进行调整的频率点用的参数;G(ain),增益――用于调整在你设定好的F值上进行增益或衰减的参数;Q(uantize)――用于设定你要进行增益或衰减的频段 “宽度”。

DRC(Dynamic range control,动态范围控制)。当输出的音频信号不是很大的时候,系统会按照原来的设定输出,但是当输出的音频信号过大的时候,为了保护喇叭DRC会将输出信号的幅度进行压缩将其限制在一个范围内。因为输出的音频信号过大会引起削峰,从而引起音频失真,并且损坏喇叭,所以需要有DRC的作用来将输出限制在一定的范围内。在信号很小的时候DRC是不会起作用的,只有当输出信号的功率超过了你设定的DRC门限的时候DRC才会工作。

PA (Power Amplifier): PA 是指功率放大器。它的主要功能是放大来自音频源的低功率信号,使其足以驱动扬声器发出声音。在移动电话和便携式音频播放器中,PA 对音频信号进行放大后,用户才能通过内置或外接的扬声器听到声音。功率放大器需要高效率,以最大化电池寿命,同时还需要保持音频信号的质量和保护扬声器不被损坏。

SPK(扬声器)

参考资料

音频基础知识及PCM技术详解

https://zhuanlan.zhihu.com/p/550072985?utm_id=0&wd=&eqid=851e49d00004bbfe000000046465d25b

Android高性能音频解析

https://mp.weixin.qq.com/s/yQQ5q8vvi7ltVxVQrfcl0Q

Android音频系统介绍

https://zhuanlan.zhihu.com/p/460528800

Android音频架构

https://www.rtcdeveloper.cn/cn/community/blog/23998