caffe框架中模拟int8量化

原创作品,转载时请务必以超链接形式标明文章原始出处: http://www.dapalm.com/?p=143,作者:DaPalm-大数据,怕了么?
 最近一直在研究模型量化。这块可以用到的论文和实现太少了,真是折腾人,没办法估计最后还是要用TensorRT来实现了。总结一下工作。

量化相关论文

我的目的是让网络能够用int8整形数据来进行并行卷积运算,所以根据paper所要达到的主要目的来进行分类:1.提高前向运算性能,2.压缩模型用于移动端。
- 压缩weight值的范围
1. Alvarez R, Prabhavalkar R, Bakhtin A. On the efficient representation and execution of deep acoustic models[J]. arXiv preprint arXiv:1607.04683, 2016.(声学深度模型的有效表示和执行)
 在本文中,我们提出了一个简单而计算效率高的量化方案,使我们能够将神经网络参数的分辨率从32位浮点值降低到8位整数值。 所提出的量化方案导致显着的存储器节省,并且使得能够使用优化的硬件指令来进行整数运算,从而显着降低了推理的成本。 最后,我们提出了一个“量化意识”训练过程,在网络训练期间应用所提出的方案,并发现它使得我们能够恢复由量化引入的大部分精度损失。

 主要思想是以量化int8数据进行前向卷积,然后输出时恢复成float,再进行方向传播更新全精度的weights值,相当于让weights值拟合量化int8的数据。它的量化方法比较简单
- 不压缩weight值的范围

发表评论

电子邮件地址不会被公开。 必填项已用*标注