Ders Adı | Kodu | Yarıyıl | T+U Saat | Kredi | AKTS |
---|---|---|---|---|---|
Pekiştirmeli Öğrenme | BSM 634 | 0 | 3 + 0 | 3 | 6 |
Ön Koşul Dersleri | |
Önerilen Seçmeli Dersler | |
Dersin Dili | Türkçe |
Dersin Seviyesi | Doktora |
Dersin Türü | Seçmeli |
Dersin Koordinatörü | Prof.Dr. DEVRİM AKGÜN |
Dersi Verenler | Prof.Dr. DEVRİM AKGÜN, |
Dersin Yardımcıları | |
Dersin Kategorisi | Diğer |
Dersin Amacı | Bu ders, Takviyeli Öğrenmenin temel prensiplerini ve temel uygulamalarını öğretmeyi amaçlamaktadır. Öğrenciler, Markov Karar Süreçleri aracılığıyla sıralı karar vermenin matematiksel temellerini anlayacak, optimal davranışı yöneten Bellman denklemlerine hakim olacak ve dinamik programlama, Monte Carlo yöntemleri ve zamansal fark öğrenmesi gibi klasik algoritmaları uygulayacaklardır. Öğrenciler, Python, OpenAI Gym ve PyTorch/TensorFlow gibi yaygın araçlarda yeterlilik kazanırken, Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-eleştirmen mimarileri gibi algoritmaları uygulamayı da öğreneceklerdir. Projeler ve ödevler aracılığıyla öğrenciler, gerçek dünya problemlerini takviyeli öğrenme görevleri olarak formüle etmeyi ve problem özelliklerine göre uygun algoritmik çözümleri seçmeyi öğreneceklerdir. |
Dersin İçeriği |
# | Ders Öğrenme Çıktıları | Öğretim Yöntemleri | Ölçme Yöntemleri |
---|---|---|---|
1 | Markov Karar Süreçleri (MDP'ler), Bellman denklemleri ve belirsizlik altında optimal karar alma temel prensipleri dahil olmak üzere takviyeli öğrenmenin altında yatan matematiksel çerçeveyi anlamak. | ||
2 | Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-kritik mimarileri gibi ileri algoritmaları anlamak ve uygulamak. | ||
3 | Politika iterasyonu, değer iterasyonu, SARSA ve Q-öğrenmesi dahil olmak üzere geleneksel RL algoritmalarını uygulama ve analiz etme konusunda yeterlilik kazanmak. | ||
4 | Python, OpenAI Gym, PyTorch/TensorFlow ve NumPy gibi araçları ve çerçevelerı kullanarak RL algoritmalarını uygulama konusunda deneyim kazanmak. |
Hafta | Ders Konuları | Ön Hazırlık |
---|---|---|
1 | Pekiştirmeli öğrenme ve makine öğrenmesi | Haftalık notlar veya sunumlar. |
2 | Gözetimli Öğrenme Temelleri | Haftalık notlar veya sunumlar. |
3 | Markov Karar Süreçleri (Markov Decision Processes-MDP'ler) | Haftalık notlar veya sunumlar. |
4 | Dinamik Programlama ile MDP'leri Çözme | Haftalık notlar veya sunumlar. |
5 | Monte Carlo Yöntemleri | Haftalık notlar veya sunumlar. |
6 | Zamansal Fark Öğrenmesi | Haftalık notlar veya sunumlar. |
7 | SARSA ve Q-Learning | Haftalık notlar veya sunumlar. |
8 | Deep Q-Networks (DQN) | Haftalık notlar veya sunumlar. |
9 | Politika GradyanYöntemleri | Haftalık notlar veya sunumlar. |
10 | Aktör-Kritik Yöntemleri | Haftalık notlar veya sunumlar. |
11 | Model Tabanlı RL ve Planlama | Haftalık notlar veya sunumlar. |
12 | Model Tabanlı RL ve Planlama | Haftalık notlar veya sunumlar. |
13 | Güncel konularla ilgili sunumlar | Haftalık notlar veya sunumlar. |
14 | Güncel konularla ilgili sunumlar | Haftalık notlar veya sunumlar. |
Kaynaklar | |
---|---|
Ders Notu | Haftalık notlar veya sunumlar. |
Ders Kaynakları | Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press. Bertsekas, D. P. (2019). Reinforcement learning and optimal control. Athena Scientific. François-Lavet, V., Henderson, P., Islam, R., Bellemare, M. G., & Pineau, J. (2018). An introduction to deep reinforcement learning. Foundations and Trends in Machine Learning, 11(3-4), 219-354. Graesser, L., & Keng, W. L. (2019). Foundations of deep reinforcement learning: Theory and practice in Python. Addison-Wesley Professional. Lapan, M. (2020). Deep reinforcement learning hands-on (2nd ed.). Packt Publishing. Plaat, A. (2022). Deep reinforcement learning. Springer.
Powell, W. B. (2022). Reinforcement learning and stochastic optimization: A unified framework for sequential decisions. John Wiley & Sons. |
Sıra | Program Çıktıları | Katkı Düzeyi | |||||
---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | |||
1 | Yaşadığı toplumun bilgi toplumu olmasına katkıda bulunmak, toplumsal, bilimsel, kültürel ve etik sorunlara çözüm sunmak amaçlarıyla alanındaki bilimsel, teknolojik, sosyal veya kültürel ilerlemeleri içeren bilimsel projeler geliştirir ve bu projeleri ulusal ve uluslararası bilimsel ortamlarda (toplantılarda) tanıtır. | X | |||||
2 | Alanında bilimsel araştırma yaparak bilgiye genişlemesine ve derinlemesine ulaşır, alanında güncel teknik ve yöntemler ile bunların kısıtları hakkında sahip olduğu kapsamlı bilgiyi elde ettiği bilgi ile karşılaştırarak değerlendirir ve sentezleyerek yeni sonuçlar ortaya koyar. | X | |||||
3 | Alanı ile ilgili problemleri tanımlar ve formüle eder, yeni ve/veya özgün fikir ve yöntemler geliştirir; karmaşık sistem veya süreçleri tasarlar ve tasarımlarında yenilikçi/alternatif çözümler ve/veya yöntemler geliştirir. | X | |||||
4 | Kuramsal, deneysel ve modelleme esaslı araştırmaları tasarlar ve uygular, belirsiz, sınırlı ya da eksik verileri bilimsel yöntemlerle tamamlar; verilerin toplanması, yorumlanması, duyurulması ile yeni modellemelerin oluşturulması aşamalarında ve mesleki tüm etkinliklerde toplumsal, bilimsel ve etik değerleri gözetir. | X | |||||
5 | Alanındaki uygulamaların sosyal, çevresel, sağlık, güvenlik, hukuki boyutlarını ile proje yönetimi ve iş hayatı uygulamalarını bilir ve bunların getirdiği kısıtların farkındadır. Disiplin içi ve çok disiplinli takımlarda etkin biçimde çalışabilir, bu tür takımlarda liderlik yapabilir ve karmaşık durumlarda çözüm yaklaşımları geliştirebilir; bağımsız çalışabilir ve sorumluluk alır. | ||||||
6 | Çalışmalarının süreç ve sonuçlarını, alanında veya alan dışındaki ulusal ve uluslararası ortamlarda bir yabancı dili en az Avrupa Dil Portföyü C1 Genel Düzeyinde kullanarak, yazılı ya da sözlü olarak aktararak sözlü ve yazılı iletişim kurar. | ||||||
7 | Bilgisayar ve Bilişim alanında özgün bir araştırma sürecini bağımsız olarak tanımlar, tasarlar, uygular, sonuçlandırır ve bu süreci yönetir. |
# | Ders Öğrenme Çıktılarının Program Çıktılarına Katkısı | PÇ 1 | PÇ 2 | PÇ 3 | PÇ 4 | PÇ 5 | PÇ 6 | PÇ 7 |
---|---|---|---|---|---|---|---|---|
1 | Markov Karar Süreçleri (MDP'ler), Bellman denklemleri ve belirsizlik altında optimal karar alma temel prensipleri dahil olmak üzere takviyeli öğrenmenin altında yatan matematiksel çerçeveyi anlamak. | |||||||
2 | Derin Q-Ağları (DQN), politika gradyan yöntemleri ve aktör-kritik mimarileri gibi ileri algoritmaları anlamak ve uygulamak. | |||||||
3 | Politika iterasyonu, değer iterasyonu, SARSA ve Q-öğrenmesi dahil olmak üzere geleneksel RL algoritmalarını uygulama ve analiz etme konusunda yeterlilik kazanmak. | |||||||
4 | Python, OpenAI Gym, PyTorch/TensorFlow ve NumPy gibi araçları ve çerçevelerı kullanarak RL algoritmalarını uygulama konusunda deneyim kazanmak. |
Değerlendirme Sistemi | |
---|---|
Yarıyıl Çalışmaları | Katkı Oranı |
1. Ara Sınav | 30 |
1. Ödev | 10 |
2. Ödev | 10 |
3. Ödev | 10 |
4. Ödev | 10 |
1. Proje / Tasarım | 30 |
Toplam | 100 |
1. Yıl İçinin Başarıya | 60 |
1. Final | 40 |
Toplam | 100 |
AKTS - İş Yükü Etkinlik | Sayı | Süre (Saat) | Toplam İş Yükü (Saat) |
---|---|---|---|
Ara Sınav | 1 | 10 | 10 |
Ödev | 4 | 6 | 24 |
Proje / Tasarım | 1 | 10 | 10 |
Ders Süresi (Sınav haftası dahildir: 16x toplam ders saati) | 16 | 3 | 48 |
Sınıf Dışı Ders Çalışma Süresi(Ön çalışma, pekiştirme) | 16 | 3 | 48 |
Final | 1 | 10 | 10 |
Toplam İş Yükü | 150 | ||
Toplam İş Yükü / 25 (Saat) | 6 | ||
dersAKTSKredisi | 6 |