摘要:为了提高机器人在复杂的室内环境中场景识别的准确率,本文提出一种融合卷积神经网络( convolutional neural network,CNN)和视觉 Transformer 结构的机器人室内场景识别模型。 本文模型利用 CNN 提取场景局部特征,然后使用视觉 Transformer 结构捕捉特征中远距离依赖关系,其中提出的视觉 Transformer 结构包括 3 个部分,分别是特征编码结构(Attention Embedding)、Encoder 结构和一个将高层语义特征转化成像素级特征的结构(Attention Project)。 本文研究的机器人场景识别模 型利用 CNN 提高视觉 Transformer 局部细节特征的描述能力,同时通过视觉 Transformer 帮助 CNN 构建远距离特征的依赖关系, 从而能够有效的表征和利用机器人工作场景图像的视觉特征。 最后,通过机器人在实际工作环境中采集的数据集和开源的 COLD 数据集进行实验,验证了本文研究模型的有效性,场景识别精度更高。