강화 학습 및 의사 결정의 기초

효용 이론과 다중 팔 밴딧부터 현대 강화 학습 알고리즘에 이르기까지 순차적 의사 결정의 핵심 개념을 파악하세요.

4.4 (24) ⏱ 1시간 17분 📚 3개 레슨 🎧 오디오 버전

이 과정 소개

복잡하고 변화하는 환경에서 자동화된 시스템이 어떻게 최적의 선택을 하는지 이해하는 것은 현대 인공지능에서 중요한 기술입니다. 강화 학습은 시행착오를 통해 보상을 극대화하도록 에이전트를 훈련하기 위한 수학적 프레임워크를 제공합니다. 이 기초 과정에서는 순차적 의사 결정의 메커니즘을 탐구합니다. 효용 이론의 기본 원리부터 시작하여 지능형 에이전트가 탐색과 활용의 균형을 맞추면서 환경으로부터 학습할 수 있도록 하는 알고리즘을 구축하는 단계로 나아갈 것입니다. 학습 내용: • 핵심 용어, 효용 이론, 그리고 기계 선호를 모델링하는 방법을 이해합니다. • 다중 팔 밴딧 전략을 사용하여 간단한 의사 결정 문제를 해결합니다. • 유한 마르코프 결정 과정(MDP)을 사용하여 복잡한 환경을 모델링합니다. • 동적 프로그래밍 기법을 적용하여 의사 결정 정책을 평가하고 개선합니다. • 현대 Python 시뮬레이션 환경을 사용하여 기초 알고리즘을 구성하는 연습을 합니다. • 고전적인 테이블 방식과 현대 딥 강화 학습을 연결하는 기본 개념을 탐구합니다. 커리큘럼은 기초 정의와 수학적 모델부터 실용적인 알고리즘 설계까지 이어집니다. 단계별 서면 설명과 추상적인 이론을 작동하는 논리로 변환하는 명확한 코드 스니펫을 학습하게 됩니다. 이 과정은 인공지능 초보자를 위해 설계되었으며, 사전 강화 학습 경험은 필요하지 않습니다. 오늘 지능형 의사 결정 여정을 시작하고 현대 AI 개발을 위한 기반을 구축하세요.

받게 되는 것

  • 📜 수료증
    LinkedIn 프로필에 추가
  • 🎧 오디오 버전 포함
    화면 없이 어디서나 학습
  • ♾️ 평생 이용
    언제든 다시 보세요, 만료 없음
  • 📱 휴대폰 또는 컴퓨터
    어디서든 모든 기기에서
  • 💸 30일 환불
    이유 묻지 않음
  • 짧고 핵심적
    1시간 17분의 실용 학습

리뷰

아직 리뷰가 없습니다 — 첫 경험을 공유해 보세요.

리뷰 쓰기

보낸 뒤 로그인을 안내합니다 — 임시저장됩니다.

다른 학습자도 수강

자주 묻는 질문

이 과정을 듣는 데 무엇이 필요한가요? +

인터넷이 되는 휴대폰이나 컴퓨터만 있으면 됩니다. 설치나 특별한 장비는 필요 없습니다.

결제는 어떻게 하나요? +

Stripe를 통한 카드 또는 암호화폐로. 카드 정보는 저장하지 않으며 Stripe가 안전하게 처리합니다.

환불받을 수 있나요? +

네 — 30일 이내 전액 환불, 이유를 묻지 않습니다.

얼마나 오래 이용할 수 있나요? +

평생. 구매하면 과정은 당신의 것이며 언제든 다시 볼 수 있습니다.

수료증을 받을 수 있나요? +

네. 수료 시 LinkedIn 프로필에 추가할 수 있는 수료증을 받습니다.

이런 분야 학습자에게
테크 디자인 금융 마케팅 의료 교육 호스피탈리티 제조업