博文

“视觉智能与信息安全”专栏 | MDPI Sensors：基于深度学习的果蔬新鲜度分类改进方法

已有 1708 次阅读 2023-5-6 16:18 |个人分类:学术软文|系统分类:论文交流

原文出自 Sensors 期刊：

Mukhiddinov, M.; Muminov, A.; Cho, J. Improved Classification Approach for Fruits and Vegetables Freshness Based on Deep Learning. Sensors 2022, 22, 8192. https://doi.org/10.3390/s22218192

引言

水果分类技术主要结合来自多个领域 (如模式识别和对象分类) 的数据，以产生水果的特征集，通过训练和学习对水果进行分类。大多数关于水果分类的研究都集中于单一问题，主要集中在多果分类上。多果类的鉴定具有很大的实用价值。例如，在发达国家超市中，多果识别技术被用于自助水果采购。在生产线上，它可以消除人为采摘错误，提高生产效率。在智慧农业中，多果分类可以促进多种混合果园的果树育种和自主采摘。此外，盲人和视障人士在日常生活中需要确定水果和蔬菜是新鲜的还是腐烂的。传统研究证据表明，当水果腐烂时，会经历一系列生化转变，导致其物理条件和视觉特征 (如颜色和形状) 改变。基于计算机视觉的方法被视为最具成本效益的解决方案。

近期，Sensors 发表的研究论文，基于改进的YOLOv4模型，提出了一个用于多类水果和蔬菜分类的深度学习系统，该模型首先识别图像中的对象类型，然后将其分类为新鲜或腐烂。所提出的系统包括开发优化的YOLOv4模型、创建水果和蔬菜的图像数据集、数据论证和性能评估。此外，使用Mish激活函数增强所提出模型的主干，以实现更精确和快速的检测。

研究内容

文中基于深度学习的果蔬分类解决方案将深度神经网络主干与空间金字塔池 (SPP)、特征金字塔网络 (FPN) 和路径聚合网络 (PAN) 模块系统融合。所提出的系统可被认为是研究对象、水果检测和视障辅助技术的结合。在应用人工智能 (AI) 方法即深度学习 (DL) 和迁移学习 (TL) 网络后，该研究提高了水果和蔬菜的分类性能，以促进BVI人员的健康饮食，减少农业行业对新鲜和腐烂水果的错误分类。将TL思想引入基于自定义数据集的果蔬分类研究中，并提出了经过微小改进的优化YOLOv4模型。在具有80个类的COCO数据集上预训练的原始YOLOv4被用作水果和蔬菜分类的主干框架。

所提出的确定水果和蔬菜新鲜度方法的模块化表示如图1所示。第一步包括训练模型的数据收集和处理。在第二步中，该研究定义了一个深度学习模型，通过迭代训练和测试对水果和蔬菜分类。随后，预测步骤可以实现新鲜和腐烂水果分类的最终结果。

图1. 文中果蔬分类系统的模块化表示。

YOLOv4模型是YOLOv3的改进版本。YOLOv3中Darknet-53主干被YOLOv4模型中CSPDarket-53骨干取代。CSPDaknet-53分类器使用Mish激活函数进行训练，通过调整分类器的预训练权重来提高分类器和检测器的精度。因此，CSPDarknet-53更适用于对象分类器和检测器。YOLOv4模型分为三部分：CSPDarket-53、颈部和头部。该模型的主干部分是CSPDarket-53网络；颈部部分由SPP、FPN和PAN网络组成，预计骨干提取的特征将得到更有前景的使用；头部部分是使用先前提取的特征并输出最终分类结果的预测。图2为基于优化YOLOv4模型的水果和蔬菜分类流程图。分类程序如下：

(1) 将水果和蔬菜图像输入到深度学习网络中。

(2) 使用骨干部分和Mish激活函数从图像中提取信息。

(3) 颈部包括SPP、FPN和PAN模块，用于确保更有效地使用从主干提取的特征。

(4) 预测部分采用先前提取的特征来提供最终检测结果。

图2. 使用优化YOLOv4模型提出的水果和蔬菜分类的框图。

实验结果

这里介绍该文的水果和蔬菜分类模型的实验设置和结果。所提出的深度CNN和其他替代模型在具有8核3.70 GHz CPU、32 GB RAM和NVidia GeForce 1080Ti GPU的PC上进行了训练。为进行训练和测试，使用了水果和蔬菜数据集。为了准确地对水果和蔬菜分类，研究人员须检查分类性能。实验表明，YOLOv4比YOLOv3和YOLOv3-tiny具有更高的精度和训练速度，且改进的YOLOv4比其他模型准确地将更多水果和蔬菜分类为新鲜或腐烂。实验评估通过定性和定量评估来确定。图3给出了改进的YOLOv4模型的定性结果。表1比较了各算法的性能。

图3. 所提出水果和蔬菜模型的分类结果。(a) 新鲜水果，(b) 腐烂水果，(c) 新鲜蔬菜，(d) 腐烂蔬菜。

表1. 水果和蔬菜分类模型训练和测试性能与增强数据集的比较。

该文还开发了一个演示系统，其客户端-服务器体系结构的总体设计和流程如图4。客户端部分由智能手机和智能眼镜组成，人工智能服务器部分由计算机和深度学习模型组成。在客户端部分，BVI用户首先在智能眼镜和智能手机之间建立蓝牙连接。用户可要求智能眼镜捕捉图像，再将图像发送至智能手机。然后，人工智能服务器的结果通过耳机、扬声器或智能手机以文本和语音反馈的形式传递。在AI服务器部分：首先对从客户端接收的图像进行预处理以去除噪声。其次，水果和蔬菜分类模型预测新鲜或腐烂结果。之后，使用文本到语音的方法将预测结果转换为音频格式，并与文本结果一起发送至客户端。

图4. 客户端-服务器体系结构的总体设计。

此外，研究人员还在现实世界场景中用水果和蔬菜的例子测试了移动演示应用程序。如图5，输入图像在红色框中，而相应的输出结果在绿色框中。实验结果显示了新鲜和腐烂水果的真实分类。BVI的整个辅助应用程序项目由多个模块组成，如文本检测、物体检测和火灾检测。

图5. BVI人群果蔬分类系统的移动应用。

总结

该工作的贡献总结如下：提出了一种果蔬自动分类系统，用于判断果蔬是否新鲜或腐烂；该分类系统首先识别以及蔬菜，然后将它们分为新鲜类或腐烂类；收集并分析了一个大型水果和蔬菜图像数据集，该数据集由五类水果 (苹果、香蕉、橙子、草莓和芒果) 和五类蔬菜 (胡萝卜、土豆、番茄、甜椒和黄瓜) 在各种现实生活和光照条件下组成；为增强数据，实现了标记边界盒的自动移动方法来旋转水果和蔬菜图像；为了进一步提高YOLOv4的精度，将激活函数改为Mish，并采用了空间金字塔池和路径聚合网络。实验结果表明，与其他最先进的方法 (YOLOv3、YOLOv4及其微小版本) 相比，所提出的系统和数据集实现了稳健的性能；最后，开发了一个移动应用程序，为盲人和视障人士展示实时性能。

撰稿人：陆哲明

专栏简介

“视觉智能与信息安全”专栏由Sensors 期刊编委陆哲明教授 (浙江大学) 主持，专注于视觉智能与信息安全领域的前沿进展与创新应用。

专栏编辑