CaiT

1 Post

Shifted Patch Tokenization (SPT) | Locality Self-Attention (LSA)

Less Data for Vision Transformers: Boosting Vision Transformer Performance with Less Data

Vision Transformer (ViT) outperformed convolutional neural networks in image classification, but it required more training data. New work enabled ViT and its variants to outperform other architectures with less training data.

CaiT

Less Data for Vision Transformers: Boosting Vision Transformer Performance with Less Data

Subscribe to The Batch