Ayush Garg

Search

Recently Updated

Deepseek V4
Apr 25, 2026
On-Policy Distillation
Apr 25, 2026
Pretraining
Apr 25, 2026
Supervised Fine-Tuning (SFT)
Apr 25, 2026

❯

❯

Attention is All You Need

Attention is All You Need

Apr 19, 2025, 1 min read

Paper Link: https://arxiv.org/pdf/1706.03762

Concepts

Transformer Encoder
Transformer Decoder
Scaled Dot-Product Attention
Multi-Head Attention
Self Attention
Sinusoidal Positional Encoding
Layer Normalization

Graph View

Backlinks

Transformer Encoder
Transformer

Created by Ayush Garg using Quartz , © 2026

GitHub
Linkedin
Blog
Twitter