Ders Adı Kodu Yarıyıl T+U Saat Kredi AKTS
Pekiştirmeli Öğrenme BSM 634 0 3 + 0 3 6
Ön Koşul Dersleri
Önerilen Seçmeli Dersler
Dersin Dili Türkçe
Dersin Seviyesi Doktora
Dersin Türü Seçmeli
Dersin Koordinatörü Prof.Dr. DEVRİM AKGÜN
Dersi Verenler Prof.Dr. DEVRİM AKGÜN,
Dersin Yardımcıları
Dersin Kategorisi Diğer
Dersin Amacı

Bu ders, Takviyeli Öğrenmenin temel prensiplerini ve temel uygulamalarını öğretmeyi amaçlamaktadır. Öğrenciler, Markov Karar Süreçleri aracılığıyla sıralı karar vermenin matematiksel temellerini anlayacak, optimal davranışı yöneten Bellman denklemlerine hakim olacak ve dinamik programlama, Monte Carlo yöntemleri ve zamansal fark öğrenmesi gibi klasik algoritmaları uygulayacaklardır. Öğrenciler, Python, OpenAI Gym ve PyTorch/TensorFlow gibi yaygın araçlarda yeterlilik kazanırken, Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-eleştirmen mimarileri gibi algoritmaları uygulamayı da öğreneceklerdir. Projeler ve ödevler aracılığıyla öğrenciler, gerçek dünya problemlerini takviyeli öğrenme görevleri olarak formüle etmeyi ve problem özelliklerine göre uygun algoritmik çözümleri seçmeyi öğreneceklerdir.

Dersin İçeriği
# Ders Öğrenme Çıktıları Öğretim Yöntemleri Ölçme Yöntemleri
1 Markov Karar Süreçleri (MDP'ler), Bellman denklemleri ve belirsizlik altında optimal karar alma temel prensipleri dahil olmak üzere takviyeli öğrenmenin altında yatan matematiksel çerçeveyi anlamak.
2 Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-kritik mimarileri gibi ileri algoritmaları anlamak ve uygulamak.
3 Politika iterasyonu, değer iterasyonu, SARSA ve Q-öğrenmesi dahil olmak üzere geleneksel RL algoritmalarını uygulama ve analiz etme konusunda yeterlilik kazanmak.
4 Python, OpenAI Gym, PyTorch/TensorFlow ve NumPy gibi araçları ve çerçevelerı kullanarak RL algoritmalarını uygulama konusunda deneyim kazanmak.
Hafta Ders Konuları Ön Hazırlık
1 Pekiştirmeli öğrenme ve makine öğrenmesi Haftalık notlar veya sunumlar.
2 Gözetimli Öğrenme Temelleri Haftalık notlar veya sunumlar.
3 Markov Karar Süreçleri (Markov Decision Processes-MDP'ler) Haftalık notlar veya sunumlar.
4 Dinamik Programlama ile MDP'leri Çözme Haftalık notlar veya sunumlar.
5 Monte Carlo Yöntemleri Haftalık notlar veya sunumlar.
6 Zamansal Fark Öğrenmesi Haftalık notlar veya sunumlar.
7 SARSA ve Q-Learning Haftalık notlar veya sunumlar.
8 Deep Q-Networks (DQN) Haftalık notlar veya sunumlar.
9 Politika GradyanYöntemleri Haftalık notlar veya sunumlar.
10 Aktör-Kritik Yöntemleri Haftalık notlar veya sunumlar.
11 Model Tabanlı RL ve Planlama Haftalık notlar veya sunumlar.
12 Model Tabanlı RL ve Planlama Haftalık notlar veya sunumlar.
13 Güncel konularla ilgili sunumlar Haftalık notlar veya sunumlar.
14 Güncel konularla ilgili sunumlar Haftalık notlar veya sunumlar.
Kaynaklar
Ders Notu

Haftalık notlar veya sunumlar.

Ders Kaynakları

Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press.

Bertsekas, D. P. (2019). Reinforcement learning and optimal control. Athena Scientific.

François-Lavet, V., Henderson, P., Islam, R., Bellemare, M. G., & Pineau, J. (2018). An introduction to deep reinforcement learning. Foundations and Trends in Machine Learning, 11(3-4), 219-354.

Graesser, L., & Keng, W. L. (2019). Foundations of deep reinforcement learning: Theory and practice in Python. Addison-Wesley Professional.

Lapan, M. (2020). Deep reinforcement learning hands-on (2nd ed.). Packt Publishing.

Plaat, A. (2022). Deep reinforcement learning. Springer.

 

Powell, W. B. (2022). Reinforcement learning and stochastic optimization: A unified framework for sequential decisions. John Wiley & Sons.

Sıra Program Çıktıları Katkı Düzeyi
1 2 3 4 5
1 Yaşadığı toplumun bilgi toplumu olmasına katkıda bulunmak, toplumsal, bilimsel, kültürel ve etik sorunlara çözüm sunmak amaçlarıyla alanındaki bilimsel, teknolojik, sosyal veya kültürel ilerlemeleri içeren bilimsel projeler geliştirir ve bu projeleri ulusal ve uluslararası bilimsel ortamlarda (toplantılarda) tanıtır. X
2 Alanında bilimsel araştırma yaparak bilgiye genişlemesine ve derinlemesine ulaşır, alanında güncel teknik ve yöntemler ile bunların kısıtları hakkında sahip olduğu kapsamlı bilgiyi elde ettiği bilgi ile karşılaştırarak değerlendirir ve sentezleyerek yeni sonuçlar ortaya koyar. X
3 Alanı ile ilgili problemleri tanımlar ve formüle eder, yeni ve/veya özgün fikir ve yöntemler geliştirir; karmaşık sistem veya süreçleri tasarlar ve tasarımlarında yenilikçi/alternatif çözümler ve/veya yöntemler geliştirir. X
4 Kuramsal, deneysel ve modelleme esaslı araştırmaları tasarlar ve uygular, belirsiz, sınırlı ya da eksik verileri bilimsel yöntemlerle tamamlar; verilerin toplanması, yorumlanması, duyurulması ile yeni modellemelerin oluşturulması aşamalarında ve mesleki tüm etkinliklerde toplumsal, bilimsel ve etik değerleri gözetir. X
5 Alanındaki uygulamaların sosyal, çevresel, sağlık, güvenlik, hukuki boyutlarını ile proje yönetimi ve iş hayatı uygulamalarını bilir ve bunların getirdiği kısıtların farkındadır. Disiplin içi ve çok disiplinli takımlarda etkin biçimde çalışabilir, bu tür takımlarda liderlik yapabilir ve karmaşık durumlarda çözüm yaklaşımları geliştirebilir; bağımsız çalışabilir ve sorumluluk alır.
6 Çalışmalarının süreç ve sonuçlarını, alanında veya alan dışındaki ulusal ve uluslararası ortamlarda bir yabancı dili en az Avrupa Dil Portföyü C1 Genel Düzeyinde kullanarak, yazılı ya da sözlü olarak aktararak sözlü ve yazılı iletişim kurar.
7 Bilgisayar ve Bilişim alanında özgün bir araştırma sürecini bağımsız olarak tanımlar, tasarlar, uygular, sonuçlandırır ve bu süreci yönetir.
# Ders Öğrenme Çıktılarının Program Çıktılarına Katkısı PÇ 1 PÇ 2 PÇ 3 PÇ 4 PÇ 5 PÇ 6 PÇ 7
1 Markov Karar Süreçleri (MDP'ler), Bellman denklemleri ve belirsizlik altında optimal karar alma temel prensipleri dahil olmak üzere takviyeli öğrenmenin altında yatan matematiksel çerçeveyi anlamak.
2 Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-kritik mimarileri gibi ileri algoritmaları anlamak ve uygulamak.
3 Politika iterasyonu, değer iterasyonu, SARSA ve Q-öğrenmesi dahil olmak üzere geleneksel RL algoritmalarını uygulama ve analiz etme konusunda yeterlilik kazanmak.
4 Python, OpenAI Gym, PyTorch/TensorFlow ve NumPy gibi araçları ve çerçevelerı kullanarak RL algoritmalarını uygulama konusunda deneyim kazanmak.
Değerlendirme Sistemi
Yarıyıl Çalışmaları Katkı Oranı
1. Ara Sınav 30
1. Ödev 10
2. Ödev 10
3. Ödev 10
4. Ödev 10
1. Proje / Tasarım 30
Toplam 100
1. Yıl İçinin Başarıya 60
1. Final 40
Toplam 100
AKTS - İş Yükü Etkinlik Sayı Süre (Saat) Toplam İş Yükü (Saat)
Ara Sınav 1 10 10
Ödev 4 6 24
Proje / Tasarım 1 10 10
Ders Süresi (Sınav haftası dahildir: 16x toplam ders saati) 16 3 48
Sınıf Dışı Ders Çalışma Süresi(Ön çalışma, pekiştirme) 16 3 48
Final 1 10 10
Toplam İş Yükü 150
Toplam İş Yükü / 25 (Saat) 6
dersAKTSKredisi 6