細(xì)粒度圖像分類(lèi)上Vision Transformer的發(fā)展綜述
計(jì)算機(jī)工程與應(yīng)用
頁(yè)數(shù): 17 2023-12-12
摘要: 細(xì)粒度圖像分類(lèi)(fine-grained image classification,FGIC)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中的重要問(wèn)題。與傳統(tǒng)圖像分類(lèi)任務(wù)相比,F(xiàn)GIC的挑戰(zhàn)在于類(lèi)間對(duì)象極其相似,使任務(wù)難度進(jìn)一步增加。隨著深度學(xué)習(xí)的發(fā)展,Vision Transformer(ViT)模型在視覺(jué)領(lǐng)域掀起熱潮,并被引入到FGIC任務(wù)中。介紹了FGIC任務(wù)所面臨的挑戰(zhàn),分析了ViT模型及其特... (共17頁(yè))