ট্রান্সফরমার কীভাবে কাজ করে?

কৃত্রিম বুদ্ধিমত্তা ও ডিপ লার্নিংয়ের ইতিহাসে ২০১৭ সাল একটি জলবিভাজিকা হিসেবে চিহ্নিত। এই বছরই একদল গবেষক “Attention Is All You Need” শীর্ষক একটি গবেষণাপত্র প্রকাশ করেন, যা পুরো মেশিন লার্নিং জগৎকে বদলে দেয়। এই গবেষণাপত্রেই প্রথম উন্মোচিত হয় ট্রান্সফরমার (Transformer) নামের এক স্থাপত্য, যা প্রচলিত রিকারেন্ট নিউরাল নেটওয়ার্ক (RNN) ও কনভলিউশনাল নেটওয়ার্কের সীমাবদ্ধতাকে ছাপিয়ে আজ জেনারেটিভ এআই, বৃহৎ ভাষা মডেল এবং অত্যাধুনিক অ্যাপ্লিকেশনগুলোর ভিত্তি হয়ে দাঁড়িয়েছে। কিন্তু কীভাবে একটি ট্রান্সফরমার কাজ করে? এর ভেতরের গণিত, আর্কিটেকচার, এবং অভিনব ‘অ্যাটেনশন’ ব্যবস্থা কীভাবে ভাষা, ছবি, অডিও বুঝতে ও তৈরি করতে পারে? এই নিবন্ধে আমরা ট্রান্সফরমারের প্রতিটি উপাদান গভীরভাবে বিশ্লেষণ করবো, যাতে আপনি সম্পূর্ণরূপে বুঝতে পারেন এই প্রযুক্তির ভিত্তি।

একটি ট্রান্সফরমার এর মৌলিক গঠন

ট্রান্সফরমার বিপ্লবের সূত্রপাত

প্রচলিত সিকোয়েন্স-টু-সিকোয়েন্স মডেল, যেমন RNN ও LSTM, তাদের ক্রমান্বয়িক প্রক্রিয়াকরণের (sequential processing) কারণে ধীরগতির ও দীর্ঘ-নির্ভরতা (long-range dependency) ধরতে ব্যর্থ হতো। ট্রান্সফরমার সম্পূর্ণ ভিন্ন পন্থায় সমগ্র ইনপুট সিকোয়েন্সকে একসাথে ও সমান্তরালে (in parallel) প্রক্রিয়া করে, যা প্রশিক্ষণের গতিকে বহুগুণ বাড়িয়ে দেয় এবং কনটেক্সট বুঝতে অসাধারণ কার্যকারিতা দেখায়। এটি বর্তমান সময়ের BERT, GPT, T5, LLaMA, এবং চ্যাটজিপিটির মতো মডেলের কেন্দ্রবিন্দু।

এই আর্টিকেলে আমরা ট্রান্সফরমারের প্রতিটি ধাপ বিস্তারিতভাবে ব্যাখ্যা করব: ইনপুট টোকেনাইজেশন থেকে শুরু করে সেল্ফ-অ্যাটেনশন, মাল্টি-হেড অ্যাটেনশন, এনকোডার-ডিকোডার ডিজাইন, পজিশনাল এনকোডিং, এবং ট্রেনিং প্রক্রিয়া। আপনি যদি একজন ডেটা সায়েন্টিস্ট, শিক্ষার্থী বা কৌতূহলী পাঠক হোন—এই নিবন্ধ আপনাকে ট্রান্সফরমারের গভীর জ্ঞান দেবে।

ট্রান্সফরমারের প্রয়োজনীয়তা: আগের প্রযুক্তির সীমাবদ্ধতা

ট্রান্সফরমারের গুরুত্ব বোঝার আগে দেখা দরকার এর পূর্বসূরি মডেলগুলোর কী সমস্যা ছিল।

RNN ও LSTM এর ঘাটতি

RNN (Recurrent Neural Network) সময়ের প্রতিটি ধাপে ইনপুট প্রক্রিয়া করে, প্রতিটি ধাপের আউটপুট পরবর্তী ধাপে হস্তান্তর করে। এতে দুটি বড় সমস্যা:

ক্রমিক প্রক্রিয়াকরণ (Sequential Processing): একসাথে অনেক ডেটা প্রসেস করতে পারে না, ফলে প্রশিক্ষণ ধীর এবং বড় ডেটাসেটে স্কেল করা কঠিন।
লং-রেঞ্জ ডিপেন্ডেন্সি (Vanishing/Exploding Gradient): অনেক ধাপ পেছনের তথ্য ধরে রাখতে গিয়ে গ্রেডিয়েন্ট হারিয়ে যায় বা বিস্ফোরিত হয়। LSTM ও GRU এটি কিছুটা সমাধান করলেও পুরোপুরি নয়।

অ্যাটেনশন মেকানিজমের সূত্রপাত

২০১৪-১৫ সালে বাহাদানাউ অ্যাটেনশন (Bahdanau Attention) এবং পরবর্তীতে লুওং অ্যাটেনশন RNN-ভিত্তিক এনকোডার-ডিকোডার মডেলে ‘অ্যাটেনশন’ যুক্ত করে, যেখানে ডিকোডার পুরো এনকোডার হিডেন স্টেটের উপর মনোযোগ দিতে পারে। এটি ফলাফল উন্নত করলেও RNN-এর ক্রমিক বাঁধন রয়েই যায়।

ট্রান্সফরমার পুরোপুরি RNN বাদ দিয়ে শুধুমাত্র অ্যাটেনশনের উপর দাঁড় করানো মডেল—তাই গবেষণাপত্রের নাম “Attention Is All You Need”।

ট্রান্সফরমারের সামগ্রিক স্থাপত্য (High-Level Architecture)

ট্রান্সফরমার মূলত দুটি অংশে বিভক্ত: এনকোডার (Encoder) এবং ডিকোডার (Decoder)। একটি ট্রান্সফরমারে একাধিক এনকোডার ও ডিকোডার স্তর স্ট্যাক করা থাকে (মূল পেপারে ৬টি করে)। প্রতিটি স্তর তার নিজস্ব কাজ করে।

এনকোডার (Encoder)

একাধিক অভিন্ন স্তরের সমাহার (N=6)।
প্রতিটি স্তরে দুটি সাব-লেয়ার: মাল্টি-হেড সেল্ফ-অ্যাটেনশন (Multi-Head Self-Attention) এবং পজিশন-ওয়াইজ ফিড-ফরওয়ার্ড নেটওয়ার্ক।
উভয় সাব-লেয়ারের পর রেসিডুয়াল কানেকশন এবং লেয়ার নর্মালাইজেশন প্রয়োগ করা হয়।

ডিকোডার (Decoder)

এনকোডারের মতোই N সংখ্যক স্তর (6)।
এনকোডারের দুটি সাব-লেয়ার ছাড়াও, একটি অতিরিক্ত সাব-লেয়ার: এনকোডার-ডিকোডার অ্যাটেনশন, যেখানে ডিকোডার এনকোডারের আউটপুটের দিকে তাকায়।
ডিকোডারের প্রথম সাব-লেয়ারটি মাস্কড সেল্ফ-অ্যাটেনশন, যাতে ভবিষ্যতের টোকেন দেখা না যায় (অটোরিগ্রেসিভ ট্রেনিংয়ের জন্য)।

ইনপুট ও আউটপুট ফ্লো

ইনপুট সিকোয়েন্স টোকেনাইজ হয়ে এমবেডিং ভেক্টরে রূপান্তরিত হয়।
পজিশনাল এনকোডিং যোগ করে সিকোয়েন্সের অবস্থান তথ্য সংরক্ষণ করা হয়।
এনকোডার প্রতিটি স্তরে প্রক্রিয়া করে ইনপুটের প্রাসঙ্গিক উপস্থাপনা (contextual representation) তৈরি করে।
ডিকোডার আউটপুট এমবেডিং ও পজিশনাল এনকোডিং নেয়, মাস্কড অ্যাটেনশন ব্যবহার করে পূর্বের উৎপন্ন টোকেনের উপর ভিত্তি করে পরবর্তী টোকেন প্রেডিক্ট করে।
সর্বশেষ লিনিয়ার লেয়ার ও সফটম্যাক্স আউটপুট সম্ভাব্যতা দেয়।

নিচের অংশে প্রতিটি উপাদান বিস্তারিত ভেঙে দেখা যাক।

ইনপুট প্রস্তুতি: টোকেনাইজেশন ও এমবেডিং

ট্রান্সফরমার মূলত টোকেনের (শব্দ বা সাবওয়ার্ড) সিকোয়েন্স নিয়ে কাজ করে। প্রক্রিয়াটি:

টোকেনাইজেশন: একটি বাক্যকে ভেঙে টোকেনে রূপান্তর। যেমন “আমি বাংলায় কথা বলি” → [“আমি”, “বাংলায়”, “কথা”, “বলি”] বা সাবওয়ার্ড টোকেনাইজেশন (Byte-Pair Encoding, WordPiece ইত্যাদি) যেমন “আমি”, “বাংলা”, “##য়” ইত্যাদি। GPT মডেলে BPE, BERT-এ WordPiece ব্যবহৃত হয়।
এমবেডিং (Embedding): প্রতিটি টোকেনকে একটি নির্দিষ্ট d_model ডাইমেনশনের (যেমন 512) ভেক্টরে ম্যাপ করা হয়। এটি শেখা যায় ট্রেনিং থেকে। এমবেডিং ম্যাট্রিক্স তৈরি হয় ভোকাবুলারি সাইজ × d_model।
পজিশনাল এনকোডিং (Positional Encoding):
ট্রান্সফরমারে কোনো পুনরাবৃত্তি বা কনভলিউশন নেই, তাই টোকেনের অবস্থান সংকেত দেওয়ার জন্য পজিশনাল এনকোডিং যোগ করা আবশ্যক। মূল পেপারে সাইন-কোসাইন ফাংশনের মাধ্যমে এটি নির্ণীত:
- PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
- PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
  যেখানে pos হলো অবস্থান, i হলো মাত্রা সূচক। এই এনকোডিং ভেক্টর ইনপুট এমবেডিং-এর সাথে যোগ করা হয়।
এটি মডেলকে অবস্থানের আপেক্ষিক দূরত্ব বুঝতে সাহায্য করে, কারণ sin/cos এর কম্পাঙ্কের ভিন্নতা প্রতিটি মাত্রায় ধরা পড়ে। বর্তমান মডেলগুলো শেখা পজিশনাল এমবেডিং বা রোটারি পজিশন এমবেডিং (RoPE) ব্যবহার করে।

সেল্ফ-অ্যাটেনশন (Self-Attention): ট্রান্সফরমারের প্রাণ

সেল্ফ-অ্যাটেনশন হলো ট্রান্সফরমারের সবচেয়ে গুরুত্বপূর্ণ উদ্ভাবন। এটি একটি সিকোয়েন্সের প্রতিটি টোকেনকে অন্য সব টোকেনের সাথে সম্পর্কিত করে প্রাসঙ্গিক প্রেক্ষাপট তৈরি করে। আপনি যখন “ব্যাংক” শব্দটি দেখেন, তখন বাক্যের বাকি অংশ দেখে বুঝতে পারেন এটি অর্থের ব্যাংক নাকি নদীর তীর। সেল্ফ-অ্যাটেনশন ঠিক এই কাজটি করে।

কিভাবে কাজ করে: Query, Key, Value

প্রতিটি ইনপুট ভেক্টর x_i থেকে তিনটি ভেক্টর তৈরি করা হয়:

Query (Q): আমি কী খুঁজছি?
Key (K): আমি কী ধরনের তথ্য ধারণ করছি?
Value (V): আমার প্রকৃত তথ্য কী?

এগুলো তৈরি হয় তিনটি শেখা ওজন ম্যাট্রিক্স W_Q, W_K, W_V দ্বারা গুণ করে:

Q_i = x_i * W_Q
K_i = x_i * W_K
V_i = x_i * W_V

তারপর একটি নির্দিষ্ট টোকেনের অ্যাটেনশন স্কোর বের করা হয় তার Query এর সাথে বাকি সব Key-র ডট প্রোডাক্ট নিয়ে। এটি বোঝায় এই টোকেনের সাথে অন্য টোকেনের কতখানি সম্পর্ক থাকা উচিত।

স্কেলড ডট-প্রোডাক্ট অ্যাটেনশন (Scaled Dot-Product Attention)

অ্যাটেনশন ফাংশনটি হলো:

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

যেখানে d_k হলো Key-এর ডাইমেনশন। স্কেলিং ফ্যাক্টর

\sqrt{d_{k}}

ধাপে ধাপে অ্যাটেনশন স্কোর নির্ণয়:

Q এবং K-র ম্যাট্রিক্স গুণ (QK^T): প্রতিটি জোড়ার জন্য একটি স্কোর ম্যাট্রিক্স তৈরি হয়।
$\sqrt{d_{k}}$
$d_{k}$ দ্বারা ভাগ করে স্কেলিং।
সফটম্যাক্স প্রয়োগ করে প্রতিটি স্কোরকে সম্ভাব্যতায় রূপান্তর (ওজন)।
এই ওজন দিয়ে V ভেক্টরগুলোর ওজনযুক্ত যোগফল (weighted sum) বের করা হয়, যা আউটপুট হিসাবে প্রতিটি টোকেনের আপডেটেড প্রেজেন্টেশন।

এই প্রক্রিয়ার মাধ্যমে প্রতিটি টোকেন পুরো সিকোয়েন্সের কনটেক্সট ধারণ করে। ফলে "The animal didn't cross the street because it was too tired" বাক্যে "it" শব্দটি কোনটিকে নির্দেশ করে, তা সহজেই বোঝা যায়।

আরও পড়ুন - স্ট্রিং থিওরি: শূন্য থেকে বিশ্বব্রহ্মান্ড

মাল্টি-হেড অ্যাটেনশন (Multi-Head Attention)

একটি একক অ্যাটেনশন হেড নির্দিষ্ট এক ধরণের সম্পর্ক শিখতে পারে। কিন্তু ভাষায় নানা রকম সম্পর্ক থাকে (সিনট্যাকটিক, সিম্যান্টিক, কোরেফারেন্স ইত্যাদি)। তাই একাধিক অ্যাটেনশন হেড সমান্তরালে চালিয়ে মডেলকে বিভিন্ন উপস্থাপন শেখার সুযোগ দেওয়া হয়।

গঠন:

মডেলের d_model কে h সংখ্যক হেডে ভাগ করা হয়, প্রতিটি হেডের ডাইমেনশন d_k = d_model / h (সাধারণত d_model=512, h=8 হলে d_k=64)।
প্রতিটি হেডের নিজস্ব W_Q, W_K, W_V ম্যাট্রিক্স থাকে এবং স্বতন্ত্র অ্যাটেনশন হিসাব করে।
সব হেডের আউটপুট কনক্যাটিনেট করা হয় এবং একটি আউটপুট ওজন ম্যাট্রিক্স W_O দিয়ে গুণ করা হয়।

MultiHead (Q, K, V) = Concat ({head}_{1}, \dots, {head}_{h}) W^{O}

যেখানে head_i = Attention(Q W_i^Q, K W_i^K, V W_i^V)

মাল্টি-হেড অ্যাটেনশন প্রতিটি অবস্থানের জন্য আলাদা আলাদা উপস্থাপন সাবস্পেসে মনোযোগ দিতে পারে। ফলে ভাষার জটিল প্যাটার্ন চেনা সহজ হয়।

পজিশন-ওয়াইজ ফিড-ফরওয়ার্ড নেটওয়ার্ক (Position-wise FFN)

অ্যাটেনশন লেয়ারের পর, প্রতিটি টোকেনের আউটপুট একটি ফিড-ফরওয়ার্ড নেটওয়ার্কের মধ্যে দিয়ে যায়, যা পুরোপুরি একই রকম, কিন্তু প্রতিটি পজিশনে স্বাধীনভাবে প্রয়োগ করা হয় (অর্থাৎ একই ওজন, আলাদা ইনপুট)।

এতে থাকে দুটি লিনিয়ার ট্রান্সফর্মেশন, মাঝখানে একটি অ্যাক্টিভেশন (ReLU বা GELU):

FFN (x) = ReLU (x W_{1} + b_{1}) W_{2} + b_{2}

অথবা GELU, SwiGLU ইত্যাদি আধুনিক ভ্যারিয়েন্টে। ভেতরের লেয়ারের ডাইমেনশন d_ff সাধারণত d_model এর ৪ গুণ (যেমন 2048)।

এই ফিড-ফরওয়ার্ড অংশ টোকেনের প্রতিনিধিত্বে অ-রৈখিকতা যোগ করে এবং জটিল বৈশিষ্ট্য শিখতে সহায়তা করে।

রেসিডুয়াল কানেকশন ও লেয়ার নর্মালাইজেশন (Add & Norm)

প্রতিটি সাব-লেয়ারের (অ্যাটেনশন এবং FFN) আউটপুটের সাথে মূল ইনপুট যোগ করে রেসিডুয়াল কানেকশন তৈরি করা হয়, তারপর লেয়ার নর্মালাইজেশন প্রয়োগ করা হয়। অর্থাৎ:

output = LayerNorm(x + Sublayer(x))

এটি গভীর নেটওয়ার্কে গ্রেডিয়েন্ট প্রবাহ সহজ করে, ট্রেনিং স্থিতিশীল করে এবং দ্রুত শিখতে সাহায্য করে। মূল ট্রান্সফরমারে পোস্ট-এলএন (পোস্ট লেয়ার নর্ম) ব্যবহৃত হয়; বর্তমান অনেক মডেলে প্রি-এলএন (আগে লেয়ার নর্ম) ব্যবহার করা হয়, যা আরও উন্নত।

এনকোডার-ডিকোডার অ্যাটেনশন (Cross-Attention)

ডিকোডারের দ্বিতীয় সাব-লেয়ারটি এনকোডারের আউটপুটের উপর অ্যাটেনশন প্রয়োগ করে। এখানে:

Query আসে ডিকোডারের আগের সাব-লেয়ার থেকে (মাস্কড সেল্ফ-অ্যাটেনশন আউটপুট)।
Key ও Value আসে এনকোডারের আউটপুট থেকে।

এটি ডিকোডারকে ইনপুট সিকোয়েন্সের প্রাসঙ্গিক অংশগুলোর দিকে তাকানোর সুযোগ দেয়। মেশিন ট্রান্সলেশন বা টেক্সট সামারাইজেশনে এটি গুরুত্বপূর্ণ: আউটপুট জেনারেট করার সময় ইনপুট সোর্স বাক্যের সঙ্গে সরাসরি সম্পর্ক তৈরি করে।

মাস্কড সেল্ফ-অ্যাটেনশন (Masked Self-Attention)

ডিকোডারের প্রথম সেল্ফ-অ্যাটেনশন লেয়ারে ভবিষ্যতের টোকেনগুলোর দিকে তাকানো আটকাতে মাস্ক ব্যবহার করা হয়। ট্রেনিংয়ের সময় পুরো আউটপুট সিকোয়েন্স দেয়া হলেও, ডিকোডার অটোরিগ্রেসিভ: এটি পূর্ববর্তী টোকেন থেকে পরবর্তী টোকেন প্রেডিক্ট করে। তাই স্কোর ম্যাট্রিক্সের যে অংশ ভবিষ্যতের অবস্থান (i < j) নির্দেশ করে, সেখানে -∞ (বা খুব বড় ঋণাত্মক মান) সেট করা হয়, যাতে সফটম্যাক্সের পর ঐ ওজন শূন্য হয়ে যায়।

এই কৌশল ডিকোডারকে ইনফারেন্সের সময় ক্রমান্বয়ে টোকেন জেনারেট করার প্রশিক্ষণ দেয়।

সম্পূর্ণ ট্রান্সফরমার ব্লকের সামারি (End-to-End Flow)

একটি ট্রান্সফরমার ব্লক (এনকোডার স্তর) এর ভেতরে যা ঘটে:

ইনপুট: X (batch, seq_len, d_model) + পজিশনাল এনকোডিং।
মাল্টি-হেড সেল্ফ-অ্যাটেনশন: Q, K, V বের করা, অ্যাটেনশন ওজন দ্বারা V-র সমষ্টি।
Add & Norm: অ্যাটেনশনের আউটপুট + X → লেয়ার নর্ম।
FFN প্রয়োগ।
Add & Norm: FFN আউটপুট + আগের লেয়ার নর্মের আউটপুট → লেয়ার নর্ম।

এনকোডারের শেষ স্তর থেকে প্রাপ্ত আউটপুট (encoder_output) ডিকোডারের ক্রস-অ্যাটেনশনে Key ও Value হিসেবে ব্যবহৃত হয়।

ডিকোডার স্তরে:

আউটপুট এমবেডিং + পজিশনাল এনকোডিং।
মাস্কড মাল্টি-হেড সেল্ফ-অ্যাটেনশন → Add & Norm।
ক্রস-অ্যাটেনশন (Q=ডিকোডার আউটপুট, K,V=এনকোডার আউটপুট) → Add & Norm।
FFN → Add & Norm।

শেষে লিনিয়ার প্রজেকশন ও সফটম্যাক্স দিয়ে ভোকাবুলারির ওপর সম্ভাব্যতা বের করে পরবর্তী টোকেন নির্ধারণ করা হয়।

ট্রেনিং প্রক্রিয়া ও লস ফাংশন

ট্রান্সফরমার সাধারণত ক্রস-এন্ট্রপি লস (Cross-Entropy Loss) ব্যবহার করে প্রশিক্ষিত হয়। ইনপুট-আউটপুট জোড়ার ডেটাসেটে, ডিকোডার প্রতিটি ধাপে পরবর্তী টোকেন প্রেডিক্ট করে এবং প্রকৃত টোকেনের সাথে তুলনা করা হয়।

শিক্ষক বাধ্যতা (Teacher Forcing): ট্রেনিংয়ের সময় ডিকোডারের ইনপুট হিসেবে প্রকৃত পূর্ববর্তী টোকেন সরবরাহ করা হয়, যা শেখার গতি বাড়ায়।
অপ্টিমাইজার: প্রাথমিকভাবে Adam অপ্টিমাইজার ব্যবহৃত, একটি বিশেষ লার্নিং রেট শিডিউল (warmup_steps) সহ।
ব্যাচ ট্রেনিং: প্যাডেড সিকোয়েন্সে মাস্কিং করে অপ্রয়োজনীয় অংশ বাদ দেয়া হয়।

ট্রান্সফরমারের শক্তিশালী দিক ও সুবিধা

সমান্তরালায়ন (Parallelization): RNN-এর মতো ধাপে ধাপে না চলে সম্পূর্ণ ইনপুট একবারে প্রক্রিয়া করে, ফলে ট্রেনিং সময় অনেক কম।
লং-রেঞ্জ নির্ভরতা ধারণ: সেল্ফ-অ্যাটেনশন সরাসরি যেকোনো দূরত্বের টোকেনের মধ্যে সম্পর্ক স্থাপন করতে পারে, কোনো ডিসকাউন্ট বা ভুলে যাওয়ার সমস্যা ছাড়াই।
স্কেলেবিলিটি: মডেল গভীরতা ও প্রস্থ বাড়িয়ে বড় মডেল তৈরি করা সহজ, যা GPT-3, GPT-4 এর মতো বৃহৎ আকারের মডেলে দেখা যায়।
ট্রান্সফার লার্নিং: প্রি-ট্রেনিং ও ফাইন-টিউনিং পদ্ধতি (BERT, GPT) এর মাধ্যমে অল্প ডেটায় অসাধারণ ফলাফল।
মাল্টিমোডাল সম্প্রসারণ: ছবি (Vision Transformer), অডিও, ভিডিও, প্রোটিন সিকোয়েন্স ইত্যাদিতে সফল প্রয়োগ।

ট্রান্সফরমারের অ্যাপ্লিকেশন

ট্রান্সফরমার শুধুমাত্র ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) তে বিপ্লব ঘটিয়েছে তাই নয়, বর্তমানে নানা ডোমেইনে এটি ভিত্তি স্থাপত্য:

ভাষা মডেল: GPT (জেনারেটিভ), BERT (এনকোডার-অনলি), T5 (টেক্সট-টু-টেক্সট)।
মেশিন ট্রান্সলেশন: গুগল ট্রান্সলেট, ডিপএল।
টেক্সট সামারাইজেশন, প্রশ্নোত্তর, কনটেন্ট জেনারেশন।
কম্পিউটার ভিশন: ViT (Vision Transformer), DETR, Swin Transformer।
স্পিচ প্রসেসিং: Whisper, SpeechT5।
জীববিজ্ঞান: AlphaFold2 (প্রোটিন গঠন পূর্বাভাস)।

সীমাবদ্ধতা ও চ্যালেঞ্জ

কম্পিউটেশন খরচ: সেল্ফ-অ্যাটেনশনের জটিলতা O(n²) (n = সিকোয়েন্স দৈর্ঘ্য), তাই খুব দীর্ঘ সিকোয়েন্সে মেমরি ও হিসাবের চাহিদা অনেক বেশি। সমাধানে স্পার্স অ্যাটেনশন, লংফর্মার, বিগবার্ড ইত্যাদি আসছে।
ডেটা খিদে: বড় ট্রান্সফরমার মডেল প্রশিক্ষণে বিপুল পরিমাণ ডেটা প্রয়োজন, যা সবার জন্য সহজলভ্য নয়।
ব্যাখ্যাযোগ্যতা: মাল্টি-হেড অ্যাটেনশন ওজনের ব্যাখ্যা করা জটিল।
পজিশনাল এনকোডিং সাধারণীকরণ: ট্রেনিংয়ের চেয়ে লম্বা সিকোয়েন্সে এক্সট্রাপোলেশন সমস্যা; RoPE, ALiBi ইত্যাদি পদ্ধতি সমাধানের চেষ্টা করছে।

ট্রান্সফরমার স্থাপত্য শুধু অ্যাটেনশনের শক্তিকে কাজে লাগিয়ে RNN-এর সীমাবদ্ধতা দূর করেনি, বরং পুরো কৃত্রিম বুদ্ধিমত্তার গবেষণার গতিপথ পরিবর্তন করেছে। এর মডুলার ডিজাইন, সমান্তরাল প্রক্রিয়াকরণ, এবং স্কেল করার ক্ষমতা বৃহৎ ভাষা মডেল ও জেনারেটিভ এআই যুগের দ্বার খুলেছে। আপনি যখন চ্যাটজিপিটি ব্যবহার করেন, ছবি জেনারেট করেন, কিংবা ভয়েস অ্যাসিস্ট্যান্টকে কথা বলতে শোনেন—এর পেছনে কোথাও না কোথাও ট্রান্সফরমারের অবদান বিদ্যমান।

FAQ

প্রশ্ন: ট্রান্সফরমার কী?

ট্রান্সফরমার একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার যা পুরোপুরি অ্যাটেনশন মেকানিজমের উপর ভিত্তি করে ডিজাইন করা, কোনো রিকারেন্ট বা কনভলিউশনাল লেয়ার ছাড়াই। এটি মেশিন ট্রান্সলেশন, টেক্সট জেনারেশন এবং আরও বহু কাজে ব্যবহৃত হয়।

প্রশ্ন: সেল্ফ-অ্যাটেনশন কেন গুরুত্বপূর্ণ?

সেল্ফ-অ্যাটেনশন একটি সিকোয়েন্সের প্রতিটি টোকেনকে অন্য সব টোকেনের সাথে সম্পর্কিত করে, যা প্রেক্ষাপট উপলব্ধি ও দীর্ঘ দূরত্বের নির্ভরতা ধরতে অসাধারণ কার্যকর।

প্রশ্ন: পজিশনাল এনকোডিং না দিলে কী হয়?

ট্রান্সফরমারের কোনো বিল্ট-ইন অবস্থান ধারণা নেই; পজিশনাল এনকোডিং ছাড়া মডেল টোকেনের ক্রম বুঝতে পারে না, ফলে “বিড়াল ইঁদুর খায়” আর “ইঁদুর বিড়াল খায়” এর পার্থক্য ধরতে ব্যর্থ হবে।

প্রশ্ন: GPT এবং BERT ট্রান্সফরমার কীভাবে ব্যবহার করে?

GPT শুধু ডিকোডার অংশ ব্যবহার করে (অটোরিগ্রেসিভ), BERT শুধু এনকোডার অংশ ব্যবহার করে (মাস্কড ল্যাঙ্গুয়েজ মডেলিং)। উভয়ই ট্রান্সফরমার আর্কিটেকচারের ভ্যারিয়েন্ট।

প্রশ্ন: ট্রান্সফরমার কি শুধু টেক্সটের জন্য?

না, ভিশন ট্রান্সফরমার (ViT) ছবি, স্পিচ ট্রান্সফরমার অডিও, এমনকি গ্রাফ ও প্রোটিন স্ট্রাকচারেও ট্রান্সফরমার ব্যবহার হয়।

আরও পড়ুন - আলো কি তরঙ্গ নাকি কণা?