Android音频编辑之音频合成功能

前言

音频编辑系列:

- android音频编辑之音频转换PCM与WAV
-android音频编辑之音频裁剪
- android音频编辑之音频合成

本篇主要讲解音频PCM数据的合成,这里合成包括音频之间的拼接,混合。

- 音频拼接:一段音频连接着另一段音频,两段音频不会同时播放,有先后顺序。
- 音频混合:一段音频和另一段音频存在相同的区间,两者会有同时播放的区间。

下面是音频拼接,音频混合的效果图:

音频拼接

如果大家理解了android音频编辑之音频转换PCM与WAV和android音频编辑之音频裁剪的原理。那么音频拼接的原理其实就很好理解了。总的说来就是新建一个音频文件,将一段音频的PCM数据复制到新音频上,再将另一段音频的PCM数据复制到新音频上。但这里还是有一些需要注意的。

情景一

假设A音频40秒,B音频20秒,B音频数据拼接到A音频后面,得到60秒的C音频文件。

这种情况最简单了,新建音频文件C,将A音频的PCM数据复制到C音频文件上,再将B音频的PCM数据复制到C音频文件上,然后为C音频写上wav文件头信息,得到可播放的WAV文件。

情景二

假设A音频40秒,B音频20秒,B音频数据插入到A音频10秒的地方,得到60秒的C音频文件。

这种情况稍微复杂点,新建音频文件C,将A音频前10秒的PCM数据复制到C音频文件上,再将B音频的PCM数据复制到C音频文件上,再将A音频后30秒的PCM数据复制到C音频文件上,最后为C音频写上wav文件头信息,得到可播放的WAV文件。

情景三

假设A音频40秒,B音频20秒,B音频5至15秒的数据插入到A音频10秒的地方,得到50秒的C音频文件。

这种情况更复杂,也是最常见的插入场景,裁剪B音频并插入到A音频的某个位置,这里涉及到B音频数据的裁剪,当然原理其实也是简单的,计算出B音频5秒和10秒对应的文件数据位置,然后复制这个区间的数据到C上,针对A文件的数据,也是同样道理。

情景四

A音频和B音频中多段数据相互拼接

这种情况,原理同上面一样,只要知道指定时间对应的数据是什么,就可以实现自由拼接了。

音频拼接的实现参考我的Github项目 AudioEdit,这里我就不贴具体代码了。

音频混合

音频混合是指一段音频和另一段音频合在一起,能够同时播放,比如最常见的人声录音和背景音乐的合成,可以得到一首人声歌曲。
音频混合的原理是

音频混合原理: 量化的语音信号的叠加等价于空气中声波的叠加。

也就是说将输入的每段音频的某个时间点的采样点数值进行相加,即可将声音信号加入到输出的音频中。

音频采样点数值的大小是(-32768,32767),对应short的最小值和最大值,音频采样点数据就是由一个个数值组成的的。如果单纯叠加,可能会造成相加后的值会大于32767,超出short的表示范围,也就是溢出,所以在音频混合上回采用一些算法进行处理。下面列举下简单的混合方式。

直接叠加法

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)叠加后求平均值,得到C((A1+B1),(A2+B2),(A3+B3),(A4+B4))
这种情况,输出的音频中A和B音频数据都可以以相同声音大小播放,但是可能出现溢出的情况。假设A音频指定时间点的某段采样数据是(23,67,511,139,307),B音频对应该时间点的采样数据是(1101,300,47,600,22),那么两者直接叠加的话,得到的采样数据是(1124,367,558,739,329),这个短采样数据就是两者声音混合的数据了。

叠加后求平均值

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)叠加后求平均值,得到C((A1+B1)/2,(A2+B2)/2,(A3+B3)/2,(A4+B4)/2)
这样可以避免出现溢出的情况,但是会出现两者声音会比之前单独的声音小了一半,比如人声和背景音乐混合,导致输出的音频中,人声小了一半,背景音乐也小了一半,这种情况可能就不是想要的效果,特别是多段音频混合的情况。

权值叠加法

A(A1,A2,A3,A4)和B(B1,B2,B3,B4)权值叠加,A权值为x,B权值为y,得到C((A1 * x+B1 * y),(A2 * x+B2 * y),(A3 * x+B3 * y),(A4 * x+B4 * y))
这样可以更方便条件A和B的音量的大小,比如A的权值为1.2,B的权值为0.8,那么A的声音相对提高了,B的声音相对减弱了。严格来说,直接叠加法和叠加求平均值法都属于该类型。

此外还有各种更复杂的混合算法,如动态权值法,A和B的权值会根据当前时刻采样点数值的大小进行动态变化,得到一个动态增益和衰减的混合方式。

下面是直接叠加法的实现,需要注意short值要按大端存储的方式计算,存储时按大端方式存储。

 /**
 * 叠加合成器
 * @author Darcy
 */
 private static class AddAudioMixer extends MultiAudioMixer{

 @Override
 public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {

  if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)
  return null;

  byte[] realMixAudio = bMulRoadAudioes[0];

  if(bMulRoadAudioes.length == 1)
  return realMixAudio;

  for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){
  if(bMulRoadAudioes[rw].length != realMixAudio.length){
   Log.e("app", "column of the road of audio + " + rw +" is diffrent.");
   return null;
  }
  }

  //row 代表参与合成的音频数量
  //column 代表一段音频的采样点数,这里所有参与合成的音频的采样点数都是相同的
  int row = bMulRoadAudioes.length;
  int coloum = realMixAudio.length / 2;
  short[][] sMulRoadAudioes = new short[row][coloum];

  //PCM音频16位的存储是大端存储方式,即低位在前,高位在后,例如(X1Y1, X2Y2, X3Y3)数据,它代表的采样点数值就是((Y1 * 256 + X1), (Y2 * 256 + X2), (Y3 * 256 + X3))
  for (int r = 0; r < row; ++r) {
  for (int c = 0; c < coloum; ++c) {
   sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);
  }
  }

  short[] sMixAudio = new short[coloum];
  int mixVal;
  int sr = 0;
  for (int sc = 0; sc < coloum; ++sc) {
  mixVal = 0;
  sr = 0;
  //这里采取累加法
  for (; sr < row; ++sr) {
   mixVal += sMulRoadAudioes[sr][sc];
  }
  //最终值不能大于short最大值,因此可能出现溢出
  sMixAudio[sc] = (short) (mixVal);
  }

  //short值转为大端存储的双字节序列
  for (sr = 0; sr < coloum; ++sr) {
  realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);
  realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);
  }

  return realMixAudio;
 }

 }

注意事项

音频的拼接和混音,有一些是需要注意和处理的。

1. 需要确保A音频和B音频的采样位数一致。例如A音频是16位采样位数,B音频是8位采样位数,那么这时是不能直接拼接的,需要转换成相同的采样位数,才能做后续操作。

2. 需要确保A音频和B音频的采样率一致。这个在录音和歌曲拼接时要特别注意,假如录音的音频频率是16000,歌曲的音频是44100,那么两者也是不能直接拼接的,需要转换成相同的采样率,转换采样率可以使用resample库。

3. 需要确保A音频和B音频的声道数一致。当然这个并不是指单声道和双声道的音频不能合成了,事实上录音音频通常是单声道的,而歌曲通常是双声道的。单声道和双声道音频合成,一般是按双声道为基准,需要将单声道音频转换成双声道音频,转换原理也简单,将单声道的采样点数据多复制一份,比如将单声道的ABCD数据转换成双声道的AABBCCDD数据。

那么我们可能会有疑问,如果A音频和B音频的采样率位数,采样率,声道数不一样的话,合成后是有效的音频文件吗?这个其实是有效的,同样可以播放,但是会造成合成后的音频不同部分的音频播放速度不一样,例如单声道的A和双声道的B拼接,会造成A部分的播放速度比B的播放速度快一倍,而B的播放速度是正常的。

总结

到这里我想大家已经对音频的裁剪,拼接,混合的原理有了基本的了解了,不过大家可能会发现输出的音频都是WAV或者PCM格式的,而我最终需要的是MP3或者AAC等格式的音频,那么该如何转换呢?其实这个就是涉及到音频的编码了,mp3编码可以使用第三方库mp3lame,AAC编码可以使用Android自带的MediaCodec实现。

我的Github项目 AudioEdit

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • Android添加音频的几种方法

    在res文件夹中新建一个文件夹,命名为raw.在里面放入我们需要的音频文件. 第一种: // 根据资源创建播放器对象 player = MediaPlayer.create(this, R.raw.xiaoxiaole); try { player.prepare();// 同步 } catch (IllegalStateException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOExcept

  • Android线程中Handle的使用讲解

    Android UI线程是不安全的,子线程中进行UI操作,可能会导致程序的崩溃,解决办法:创建一个Message对象,然后借助Handler发送出去,之后在Handler的handleMessage()方法中获得刚才发送的Message对象,然后在这里进行UI操作就不会再出现崩溃了 定义类继承Handler public class BallHandler extends Handler{ ImageView imageview; Bitmap bitmap; public BallHandle

  • Android亮屏速度分析总结

    前面聊的 最近在调试项目的亮屏速度,我们希望在按下power键后到亮屏这个时间能达到500MS以内,在Rockchip 3399和3288上面的时间都不能达到要求,因此引发了一系列的调试之路. 计算按下power键到亮屏的时间 Android 唤醒时间统计 刚开始的时候,我只在android阶段统计时间,也能看到时间的差异,但是不是最准确的,我统计的时间日志如下 01-18 09:13:40.992 683 772 D SurfaceControl: Excessive delay in set

  • android采用FFmpeg实现音频混合与拼接剪切

    接触FFmpeg有一段时间了,它是音视频开发的开源库,几乎其他所有播放器.直播平台都基于FFmpeg进行二次开发.本篇文章来总结下采用FFmpeg进行音频处理:音频混合.音频剪切.音频拼接与音频转码. 采用android studio进行开发,配置build.gradle文件: defaultConfig { ...... externalNativeBuild { cmake { cppFlags "" } } ndk { abiFilters "armeabi-v7a&q

  • Android 判断网络状态对音频静音的实现方法

    在实际应用中,我们不希望在教室网络,打开游戏就显示较大的声音,进而影响上课质量.因此,就需要让app变得智能,让app可以根据使用者当前网络状态,自动进行静音等操作. 本次内容分为两部分:1. 识别网络环境 2. 实现app自动静音. 自动静音 /** * 实现静音功能 */ private void silentSwitchOn() { AudioManager audioManager = (AudioManager) getSystemService(Context.AUDIO_SERVI

  • Android视频/音频缓存框架AndroidVideoCache(Okhttp)详解

    关于安卓边下边播功能,供大家参考,具体内容如下 对于视频/音频软件,音乐软件,视频软件,都有缓存这个功能,那如何实现边下边播功能: 如何实现这个边下边播功能? 文件是否支持同时读写?(Mediaplayer 播放文件,从网络上下载文件) 播放与下载进度如何协调? 已缓存的文件需及时清理 经过一番折腾,我 find 了 : [ AndroidVideoCache ],这个库是 danikula 大神写,看完源码后收益匪浅.实现流媒体边下边播原理利用socket 开启一个本机的代理服务器 结合自身需

  • Android传感器SensorEventListener之加速度传感器

    这个类(我的是Activity中)继承SensorEventListener接口 先获取传感器对象,再获取传感器对象的类型 //获取传感器管理对象 SensorManager mSensorManager = (SensorManager)getSystemService(Context.SENSOR_SERVICE); // 获取传感器的类型(TYPE_ACCELEROMETER:加速度传感器) Sensor mSensor = mSensorManager.getDefaultSensor(

  • Android音频系统AudioTrack使用方法详解

    今天,简单讲讲AudioTrack的使用方法. 1.Android AudioTrack简介 在android中播放声音可以用MediaPlayer和AudioTrack两种方案的,但是两种方案是有很大区别的,MediaPlayer可以播放多种格式的声音文件,例如MP3,AAC,WAV,OGG,MIDI等.而AudioTrack只能播放PCM数据流. 事实上,两种本质上是没啥区别的,MediaPlayer在播放音频时,在framework层还是会创建AudioTrack,把解码后的PCM数流传递

  • Android音频编辑之音频转换PCM与WAV

    前言 本篇开始讲解在Android平台上进行的音频编辑开发,首先需要对音频相关概念有基础的认识.所以本篇要讲解以下内容: 1. 常用音频格式简介 2. WAV和PCM的区别和联系 3. WAV文件头信息 4. 采样率简介 5. 声道数和采样位数下的PCM编码 6. 音频文件解码 7. PCM文件转WAV文件 现在先给出音频编辑的效果图,看看能不能提高大家的积极性~,哈哈 常用音频格式简介 在Android平台上进行音频开发,首先需要对常用的音频格式有个大致的了解.在Android平台上,常用的音

  • Android使用MediaRecorder类实现视频和音频录制功能

    一.前期基础知识储备 Android提供了MediaRecorder这一个类来实现视频和音频的录制. 由官方配图可知,MediaRecorder用于录制视频时需要调用一系列的API来设置和录制相关的配置,而且调用方法的顺序是固定的,必须按照这个顺序进行API调用才能正确利用手机摄像头实现录像功能. 调用MediaRecorder的录像API顺序如下: 1)Open Camera - Use the Camera.open() to get an instance of the camera ob

随机推荐