在计算机视觉领域,CNN与Transformer的对决已持续十年之久。CNN凭借其强大的归纳偏置和局部特征提取能力,奠定了视觉任务的基础;而Transformer以其全局建模和自注意力机制,迅速崛起并冲击传统格局。