Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Nvidia 깨짐
- ubuntu
- DataAnalysis
- json
- Import
- 엑셀
- 시작 시 프로그램 실행
- MySQL
- Tensor Board Image
- Window_Control
- WPF
- keras
- Pandas
- Ubuntu 18.04_2
- C#
- windows form
- 시간
- Tensor Board
- openpyxl
- Multi Processing
- SQL
- nvidia 삭제
- datetime
- 상대경로
- 화면 안나옴
- Python
- ipdisk
- xlsx
- 절대경로
- 기초
Archives
- Today
- Total
목록Python/AI (1)
Kminseo
Distributional RL
Distributional RL 기존 강화학습 일반적 강화학습은 다양한 task를 시도해보고 그경험을 바탕으로 미래에 받을 평균 reward를 하나의 숫자 (scalar)로 예측하도록 학습한다. 이 예측을 기반으로 가장 높은 reward를 받을 것이라 예측되는 action을 선택하게 된다. 기존 강화학습의 단점 환경이 랜덤성을 포함하고 있는 경우 상황에 따라 동일한 state에서 동일한 action을 취해도 다음 state에서 받는 reward가 변할 수 있다. 해결 방안 확률적인 상황에서 예측되는 reward를 분포(Dristribution)로 나타내어 미래의 보상을 예측하는 것이 더 정확한 예측으로 볼 수 있어, 확률적인 환경에서 더 정확한 예측을 수행하는 강화학습 알고리즘이 Distributiona..
Python/AI
2019. 11. 9. 15:12