Tutorial Transformer - Belajar dari Dasar

Pengenalan Transformer

Revolusi dalam Natural Language Processing

🎯 Mengapa Transformer Penting?

Transformer adalah arsitektur neural network yang merevolusi dunia AI, terutama dalam pemrosesan bahasa alami (NLP). Model seperti GPT, BERT, dan ChatGPT semuanya dibangun di atas arsitektur Transformer.

                    Masalah yang Dipecahkan:
                    ❌ RNN lambat karena harus memproses sequence secara berurutan
❌ Sulit menangkap dependensi jarak jauh dalam kalimat panjang
✅ Transformer memproses semua token secara parallel
✅ Attention mechanism memungkinkan setiap token "melihat" semua token lain

                

📚 Apa yang Akan Anda Pelajari?

🔤

Konsep Dasar

Tokens, embeddings, dan representasi sequence

👁️

Attention Mechanism

Bagaimana model "memperhatikan" bagian penting

🧮

Matematika

Query, Key, Value, dan perhitungan attention

🏗️

Arsitektur

Encoder-Decoder, Multi-Head Attention

🎨 Analogi Sederhana

Bayangkan Anda membaca kalimat: "Kucing itu mengejar ekornya"

Untuk memahami kata "ekor", Anda perlu melihat kata "kucing" dan "nya". Transformer melakukan hal yang sama - setiap kata bisa "memperhatikan" kata-kata lain yang relevan!

Konsep Dasar

Memahami tokens, embeddings, dan sequences

🔤 Tokenization: Memecah Teks

Langkah pertama dalam memproses teks adalah mengubahnya menjadi tokens (unit-unit kecil).

Kalimat: "Saya belajar Transformer"

Saya belajar Transformer

🔢 Word Embeddings: Angka untuk Kata

Komputer tidak mengerti kata-kata. Kita perlu mengubah setiap token menjadi vektor angka (embedding).

"Saya"

→

[0.2, -0.5, 0.8, 0.1, ...]

Biasanya memiliki dimensi 512 atau 768

📊 Sequence Representation

Seluruh kalimat direpresentasikan sebagai matrix di mana setiap baris adalah embedding dari satu token.

Saya	[0.2, -0.5, 0.8, ...]
belajar	[0.1, 0.3, -0.2, ...]
Transformer	[-0.4, 0.7, 0.5, ...]

Attention Mechanism

Inti dari arsitektur Transformer

💡 Konsep Attention

Attention memungkinkan model untuk fokus pada bagian penting dari input ketika memproses setiap token.

Analogi: Mencari di Perpustakaan

Bayangkan Anda mencari informasi tentang "Python programming":

Query: Pertanyaan Anda ("Python programming")
Keys: Judul-judul buku di perpustakaan
Values: Isi dari buku-buku tersebut

Attention mencocokkan Query dengan Keys untuk menemukan Values yang relevan!

🔑 Query, Key, Value (QKV)

Setiap token embedding ditransformasi menjadi 3 representasi berbeda:

Query (Q)

"Apa yang saya cari?"

Q = X × W_Q

Key (K)

"Apa yang saya tawarkan?"

K = X × W_K

Value (V)

"Informasi yang akan diberikan"

V = X × W_V

🧮 Perhitungan Attention

Attention Score dihitung dengan 4 langkah:

1

Dot Product

Score = Q × K^T

Mencocokkan seberapa relevan setiap token

2

Scaling

Score = Score / √d_k

Normalisasi untuk stabilitas

3

Softmax

Weights = softmax(Score)

Mengubah ke probabilitas (0-1)

4

Weighted Sum

Output = Weights × V

Menggabungkan informasi yang relevan

Formula Lengkap:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

🎬 Visualisasi Interaktif

Self-Attention

Token memperhatikan token lain dalam sequence yang sama

🔄 Apa itu Self-Attention?

Self-Attention adalah attention di mana Query, Key, dan Value semuanya berasal dari input yang sama (sequence itu sendiri).

Standard Attention

Q dari satu sequence, K & V dari sequence lain

(misalnya: dalam translation)

Self-Attention ⭐

Q, K, V semuanya dari sequence yang sama

(token "berbicara" dengan token lain)

📖 Contoh Konkret

Kalimat: "Kucing itu makan ikan di dapur"

Kucing

itu

makan

ikan

di

dapur

Ketika memproses kata "itu":

Perhatian tinggi ke → "Kucing" (merujuk pada kucing)
Perhatian rendah ke → "makan", "ikan", "di", "dapur"

Demo Interaktif:

Klik pada kata untuk melihat attention weights:

🎯 Mengapa Self-Attention Powerful?

⚡

Parallelization

Semua token diproses bersamaan, tidak sequential seperti RNN

🔗

Long-range Dependencies

Bisa menangkap hubungan antar kata yang berjauhan

🎯

Context-Aware

Representasi setiap kata disesuaikan dengan konteksnya

Multi-Head Attention

Belajar dari multiple perspectives secara parallel

🎭 Konsep Multi-Head

Daripada satu attention, kita menggunakan multiple attention heads yang bekerja parallel, masing-masing fokus pada aspek berbeda.

Analogi: Tim Reviewer

Bayangkan membaca paper ilmiah dengan beberapa reviewer:

👤 Reviewer 1: Fokus pada metodologi
👤 Reviewer 2: Fokus pada eksperimen
👤 Reviewer 3: Fokus pada kesimpulan

Setiap head adalah seperti reviewer yang fokus pada aspek berbeda!

🏗️ Arsitektur Multi-Head

Input

Embeddings (d_model = 512)

Split into Heads

Head 1
(d_k = 64)

Head 2
(d_k = 64)

Head 3
(d_k = 64)

...

Head 8
(d_k = 64)

Attention per Head

Attention

...

Attention

Concatenate & Project

Output (d_model = 512)

Formula:

MultiHead(Q, K, V) = Concat(head₁, ..., head_h) W^O

dimana head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

🔢 Contoh Perhitungan

Transformer base menggunakan:

Number of heads (h) = 8
Model dimension (d_model) = 512
Dimension per head (d_k) = d_model / h = 64

Setiap head bekerja dengan vektor kecil 64-dim, lalu hasil digabungkan kembali jadi 512-dim.

🎬 Visualisasi Multi-Head

Positional Encoding

Memberikan informasi urutan pada model

❓ Mengapa Perlu Positional Encoding?

Self-attention tidak peduli dengan urutan token. Kalimat "Kucing makan ikan" dan "Ikan makan kucing" akan menghasilkan attention yang sama!

❌ Masalah

Tanpa positional info:

"Dog bites man" ≈ "Man bites dog"

✅ Solusi

Tambahkan positional encoding:

Setiap posisi punya signature unik

🌊 Sine dan Cosine Functions

Transformer menggunakan fungsi trigonometri untuk encoding posisi:

Formula Positional Encoding:

PE_{(pos, 2i)} = sin(pos / 10000^2i/d_model)

PE_{(pos, 2i+1)} = cos(pos / 10000^2i/d_model)

pos = posisi, i = dimensi

Mengapa sine/cosine?

Menghasilkan pola unik untuk setiap posisi
Model bisa belajar relative positions
Generalisasi ke panjang sequence yang belum pernah dilihat

🎨 Visualisasi Positional Encoding

Position: 0

Warna menunjukkan nilai encoding di berbagai dimensi

➕ Penambahan ke Embeddings

Positional encoding ditambahkan langsung ke word embeddings:

Word Embedding

[0.2, -0.5, 0.8, ...]

+

Positional Encoding

[0.0, 0.1, -0.2, ...]

=

Final Embedding

[0.2, -0.4, 0.6, ...]

Arsitektur Transformer Lengkap

Menyatukan semua komponen

🏛️ Gambaran Umum

Transformer terdiri dari dua bagian utama: Encoder dan Decoder.

📥 Encoder

Memproses input sequence

Multi-Head Self-Attention
Feed-Forward Network
Layer Normalization
Residual Connections

📤 Decoder

Menghasilkan output sequence

Masked Self-Attention
Encoder-Decoder Attention
Feed-Forward Network
Layer Normalization

🔄 Flow Data

🧩 Komponen Tambahan

Feed-Forward Network

Dua linear transformations dengan ReLU:

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

Layer Normalization

Normalisasi untuk stabilitas training:

LayerNorm(x) = γ(x - μ)/σ + β

Residual Connections

Skip connections untuk gradient flow:

output = LayerNorm(x + Sublayer(x))

📊 Ukuran Model

Model	Layers	d_model	Heads	Parameters
Base	6	512	8	65M
Large	12	1024	16	340M
GPT-3	96	12288	96	175B

Contoh Kasus Nyata

Aplikasi Transformer dalam berbagai domain

🌍 Neural Machine Translation

Aplikasi pertama dan paling terkenal dari paper "Attention is All You Need"

Input (English):

"The cat sat on the mat"

→

Output (French):

"Le chat était assis sur le tapis"

Cara Kerja:

Encoder: Memproses kalimat English
Decoder: Generate kalimat French word-by-word
Attention: Decoder memperhatikan bagian relevan dari input

🤖 BERT - Understanding Language

Bidirectional Encoder Representations from Transformers

Masked Language Modeling:

Saya suka makan [MASK] goreng

Prediksi: nasi (99%), pisang (0.5%)

Aplikasi BERT:

✓ Question Answering

✓ Sentiment Analysis

✓ Named Entity Recognition

✓ Text Classification

✍️ GPT - Text Generation

Generative Pre-trained Transformer

Autoregressive Generation:

Prompt: "Artificial intelligence is"

Generated: "Artificial intelligence is transforming how we live and work. From virtual assistants to autonomous vehicles..."

Keunggulan GPT:

🎯 Zero-shot & Few-shot learning
💬 Conversational AI (ChatGPT)
📝 Creative writing & Code generation
🔄 Task adaptation tanpa fine-tuning

🖼️ Vision Transformer (ViT)

Transformer tidak hanya untuk teks! ViT menggunakan Transformer untuk image classification.

1

Image dipecah jadi patches (16×16)

2

Setiap patch di-flatten jadi vector

3

Treat patches seperti tokens

4

Transformer encoder memproses

🎉 Selamat!

Anda telah menyelesaikan tutorial Transformer dari dasar!

Yang Telah Anda Pelajari:

✅ Konsep tokens dan embeddings
✅ Attention mechanism (Query, Key, Value)
✅ Self-Attention dan Multi-Head Attention
✅ Positional Encoding
✅ Arsitektur lengkap Encoder-Decoder
✅ Aplikasi nyata: Translation, BERT, GPT, ViT

Langkah Selanjutnya:

📚 Baca paper asli: "Attention is All You Need"

💻 Implementasi: Coba coding Transformer dari scratch

🧪 Eksperimen: Fine-tune BERT atau GPT untuk task Anda