音视频面试题集锦 2023.11（1）

at 8个月前 ca 音视频八股文 pv 763 by touch

下面是 2023.11 月音视频面试题集锦的几条干货精选：

1、介绍一下 FFmpeg 中关于 timebase 的基础知识与应用？
2、如何识别一个视频是 HDR 视频？
3、如何通过优化播放器来优化音乐播放体验，比如提升音质或音效？
4、介绍一下 SIMD 以及它在音视频处理中的应用？

1、介绍一下 FFmpeg 中关于 timebase 的基础知识与应用？

1）timebase 定义

在 FFmpeg 中，time_base 是一个关键概念，它用于表示时间单位。在处理音频或视频流时，time_base 可以根据不同的采样频率或帧率来定义。timebase 在 FFmpeg 的定义是一个 AVRational 结构体：

typedef struct AVRational{
   int num; ///< numerator  
   int den; ///< denominator  
} AVRational;

2）timebase 的使用

在某些情况下，time_base 是根据采样频率来定义的。例如：对于视频采样频率为 90KHz（90000Hz）的情况，time_base 就相当于 1/90000 秒。另一种定义 time_base 的方式是根据帧率。例如：对于视频帧率为 24fps 的情况，time_base 就相当于 1/24 秒。在 FFmpeg 的分层结构中，原始数据层、编解码层和封装层都有对应的 time_base。原始数据层和封装层都通过 AVStream 进行处理，而编解码层则对应 AVCodec。

3）封装层 timebase，视频流/音频流 timebase 和现实时间戳的的关系和转换

封装层 tbn、视频 tbc 和音频 tbc 可以各不相同，相互不影响。现实时间基我们一般选用 1us 即 (1/1000000)s。因为每一层用的时间基不同，在函数参数传递上只会使用时间基前面的倍数值，timebase 是统一的，因此时间在不同的时间基上面需要做一层转换。例如：现实时间 1s 转换到音频流时间实现为 1000000 * (1/1000000) = 44100 * (1/44100)，那么现实时间 1000000 在音频流时间值则为 44100。举一个开发中的实例：如果想 seek 视频到现实时间的 X ms。

int64_t seekTime = (int64_t)(( X / 1000 )  / av_q2d(videoStream->time_base));
av_seek_frame(videoFormatCtx_, video_index_, seekTime, AVSEEK_FLAG_BACKWARD);

因为 av_seek_frame 是在视频流层面，时间基与现实时间不同，需要转换并将转换后的值作为参数才能得到正确的结果。

4）转换函数解析

double av_q2d(AVRational a) //将AVRational 对象转换为小数，便于转换
// 将一个时间戳a从时基bq转换到时基cq下
int64_t av_rescale_q(int64_t a, AVRational bq, AVRational cq)

例如，将视频流的一帧 pts(a * atbr) 转换到封装层打包成 AVPacket，封装层 timebase 为 tbn，此时需要转换 int64 t = av_rescale_q_rnd(a， atbr， tbn);。

2、如何识别一个视频是 HDR 视频？

iOS 判断一个视频是否是 HDR 视频的方法：判断是否带有 HDR 特征的 track 即可，如下：

NSArray<AVAssetTrack *> *hdrTracks =
[asset tracksWithMediaCharacteristic:AVMediaCharacteristicContainsHDRVideo];
if (hdrTracks.count > 0){
  return YES;
}

Android 需要我们自己解析出 colortransforfunction和ccolorStandard，如下：

@RequiresApi(api = Build.VERSION_CODES.R)
public static boolean isHDR(MediaMetadataRetriever mediaMetadataRetriever)
       throws NumberFormatException {
   String colorTransferString =
           mediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_COLOR_TRANSFER);
   Log.e("isHDR", colorTransferString);
   String colorStandardString =
           mediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_COLOR_STANDARD);
   Log.e("isHDR", colorStandardString);
   int colorTransfer = Integer.parseInt(colorTransferString);
   int colorStandard = Integer.parseInt(colorStandardString);
   // This check needs to match the isHDR check in
   // frameworks/av/media/libstagefright/FrameDecoder.cpp.
   return (colorTransfer == MediaFormat.COLOR_TRANSFER_HLG
           || colorTransfer == MediaFormat.COLOR_TRANSFER_ST2084)
           && colorStandard == MediaFormat.COLOR_STANDARD_BT2020;
}

3、如何通过优化播放器来优化音乐播放体验，比如提升音质或音效？

在播放侧可以使用自动增益控制算法（AGC）来提升音效。AGC 算法通过自动调整音频信号的增益，使其保持在一定的范围内，这种算法可以避免因音频信号的幅度变化而引起的声音过大或过小的问题，保证了音频信号的稳定性和可听性，目前有开源的实现例如 webrtcagc，可以把算法移植到自己的项目中。

4、介绍一下 SIMD 以及它在音视频处理中的应用？

SIMD（Single Instruction Multiple Data）是一种并行计算的技术，它允许在单个指令中同时处理多个数据元素。SIMD 指令集通常由处理器提供，用于加速向量化计算，从而提高程序的性能。

下面是一个 SIMD 的示例：向量化乘法

假设有两个数组 A 和 B，我们想要将它们的对应元素相乘，并将结果存储在另一个数组 C 中，使用 SIMD 指令，可以一次处理多个元素，提高计算效率。

// 使用 SIMD 指令进行向量化乘法
#include <immintrin.h>

void vectorMultiply(float* A, float* B, float* C, int size) {
   for (int i = 0; i < size; i += 8) {
       __m256 a = _mm256_load_ps(A + i); // 加载 8 个单精度浮点数到向量寄存器 A
       __m256 b = _mm256_load_ps(B + i); // 加载 8 个单精度浮点数到向量寄存器 B
       __m256 result = _mm256_mul_ps(a, b); // 执行向量乘法
       _mm256_store_ps(C + i, result); // 存储结果到数组 C
   }
}

在实际应用中，还可以使用 SIMD 指令进行其他操作，如减法、除法、逻辑运算等，以及应用于不同的数据类型，如整数、双精度浮点数等。通过合理地使用 SIMD 优化，可以显著提高程序的性能。

在音视频开发中，SIMD 也有不少的应用场景。比如：

1）在音频处理中，SIMD 可以用于实时音频效果处理，如均衡器、压缩器、混响器等，通过同时处理多个音频样本，可以提高音频处理的效率和实时性。

2）在视频处理中，SIMD 可以用于加速图像处理算法，如图像滤波、边缘检测、图像压缩等，通过同时处理多个像素，可以提高图像处理的速度和质量。

3）在视频编码中，SIMD 可以用于加速压缩和解压算法，如 H.264、H.265 编码器一些实现中，可以通过并行处理视频数据来提高视频编解码的效率和性能。

总之，SIMD 在音视频开发中的合理应用可以提高数据处理速度，降低功耗。

本文转自 https://cloud.tencent.com/developer/article/2362232，如有侵权，请联系删除。

版权声明

本文仅代表作者观点，不代表码农殇立场。
本文系作者授权码农殇发表，未经许可，不得转载。