“ GPU视频处理技术调研报告 ”-白红宇

“ GPU视频处理技术调研报告 ”

阅读量：209 次

发布时间：2019-02-28

本文共 1319 字，大约阅读时间需要 4 分钟。

NVIDIA GPU视频处理技术调研报告

作为一名NVIDIA高级工程师，我在过去的几年中深入研究了GPU在视频编解码、图像分析和视频处理方面的技术支持与实际性能评测数据。这份报告旨在为技术选型和部署提供有力技术依据，同时为现有GPU用户提供前沿的进阶知识。

1. NVIDIA GPU基础准备

NVIDIA的产品线策略主要是通过少量的GPU型号衍生出满足不同客户群需求的复杂显卡产品。以2018年8月发布的Turing架构为例，TU104作为核心GPU衍生出了三档产品：GeForce RTX 2080、Tesla T4和Quadro RTX 5000。这些产品在性能和显存配置上各有侧重，但消费级显卡在显存和某些功能上与专业显卡存在一定的舍弃。

2. GPU编程基础

GPU编程是一种异构计算模式，核心任务是通过API将计算委派到GPU进行执行。CUDA SDK提供了基本的GPU编程API，包括显存分配、数据交换和自定义CUDA kernel。代码示例显示，GPU编程模型主要包括数据拷贝到显存、执行CUDA kernel、结果拷贝回主存等步骤。显存与主存的高带宽差距要求开发者尽量减少数据交换开销。

3. 图像处理加速

图像处理加速主要依赖于NPP库，提供了许多预先实现的CUDA kernel。开发者可以直接通过API调用这些功能，无需深入学习CUDA编程。对于需要自定义kernel的用户，学习CUDA C编程是必经之路。NVIDIA Codec SDK提供了常用算法的样例代码，可供开发者参考和修改。

4. 视频解码

NVIDIA GPU支持所有主流视频格式，解码能力在Turing架构下有显著提升。Tesla P4在1080P H264解码速度达到678 FPS，而Turing架构的Tesla T4在H264下的解码能力翻倍。消费级显卡如RTX2080与企业级显卡Tesla T4在解码能力上存在显著差异，这主要归因于消费级显卡在某些功能上的舍弃。

5. 视频编码

Turing架构在视频编码方面也取得了进展。Tesla/Quadro产品没有并发路数限制，解码速度与上一代产品持平，但画质和效率有所提升。编码速度受驱动支持影响，预计Turing架构在新版本SDK发布后将获得更大提升。H.264和HEVC编码能力均有显著提升，特别是在B帧支持和画质保真的方面。

6. 数据流动与优化

理想的数据流动是将视频数据一直保留在显存中，通过解码、中间处理和编码完成所有操作而无需拷贝数据到主存。Tensor Core的引入为矩阵乘法加速提供了强大支持，提升了计算效率。神经网络预测框架如MXNet和TensorFlow需要优化显存互操作，目前仍存在数据拷贝的瓶颈。

7. 总结与评价

Turing架构GPU在视频处理领域展现了显著优势，特别是在Tensor Core加速和视频解码能力方面。尽管FP32性能提升有限，但其它功能的改进和性能优化为用户提供了更强大的工具。未来，随着驱动和SDK的不断完善，Turing架构的潜力将进一步释放。

通过这份报告，我希望为技术选型和部署提供清晰的指导，同时为GPU用户提供前沿的技术洞察。

转载地址：http://pmup.baihongyu.com/

你可能感兴趣的文章