MNN推理引擎框架简介

大家好，欢迎来到IT知识分享网。

1.MNN介绍

随着手机算力的不断提升，以及深度学习的快速发展，特别是小网络模型不断成熟，原本在云端执行的推理预测就可以转移到端上来做。端智能即在端侧部署运行AI算法，相比服务端智能，端智能具有低延时、兼顾数据隐私、节省云端资源等优势。

MNN（Mobile Neural Network）一个轻量级的深度神经网络推理引擎，在端侧加载深度神经网络模型进行推理预测。目前，MNN已经在阿里巴巴的手机淘宝、手机天猫、优酷等20多个App中使用，覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。此外，IoT等场景下也有若干应用。

图 1：MNN概述图

2.MNN整体方案

图 2：MNN框架

由上图所示，MNN基本的工作流由两部分组成，即Offline Conversion和On-device Inference。

Converter由Frontends和Graph Optimize构成。前者负责支持不同的训练框架，MNN当前支持Tensorflow(Lite)、Caffe和ONNX(PyTorch/MXNet的模型可先转为ONNX模型再转到MNN)，最终全部转换为MNN自定义的模型格式（.mnn）；后者通过算子融合、算子替代、模型压缩、布局调整等方式对图进行基本的优化操作。

On-device Inference由三部分组成，分别是：Pre-inference、算子级优化和Backend Abstraction。在Pre-inference模块中引入了一种对可选计算方案的代价评估机理，在已知输入大小和内核形状的前提下，从多种方案中选择一种最优的方案；算子级优化主要包括在卷积和反卷积中应用Winograd算法、在矩阵乘法中应用Strassen算法、低精度计算、手写汇编、多线程优化、内存复用等；Backend Abstraction主要是提供了一套统一的接口来隐藏后端的差异，支持多种硬件架构，支持OpenCL，OpenGL，Vulkan和Metal等，可以方便地进行扩展，比如TPU、FPGA等。

3. Pre-inference

图 3：加速方案选择

在移动应用中，计算速度和轻量化是主要考虑的因素，为了实现轻量化，就不能使用OpenBLAS和Eigen等加速库，所以有一些推理引擎框架中使用手工搜索的方式，不依赖于任何外部库

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/131760.html

MNN推理引擎框架简介

1.MNN介绍

2.MNN整体方案

3. Pre-inference

相关推荐

发表回复