Skip to content
목록으로 돌아가기

PPO Algorithm이란?

Updated:
-- Edit page

PPO Algorithm이란?\n\n### 사전적 정의 (Dictionary Definition)\nProximal Policy Optimization(PPO)은 강화학습 과정에서 에이전트의 행동 정책(Policy)을 최적화하기 위해 사용되는 알고리즘입니다. 2017년 OpenAI에서 발표하였으며, 정책 업데이트 과정에서 이전 정책과 새로운 정책 사이의 변화량이 일정 범위(Epsilon)를 벗어나지 않도록 제한하는 클리핑(Clipping) 기법을 사용하는 것이 핵심입니다. 이를 통해 복잡한 수학적 계산을 줄이면서도 학습의 안정성과 데이터 효율성을 크게 향상시킨 알고리즘으로 평가받습니다.\n\n### 실무 사용 예시 (Practical Use Case)\n대규모 언어 모델(LLM)의 성능을 고도화하는 인간 피드백 기반 강화학습(RLHF) 단계에서 핵심 기술로 활용됩니다. 인간의 선호도를 학습한 보상 모델(Reward Model)의 점수를 기반으로 언어 모델의 답변 생성 확률을 조정할 때 PPO 알고리즘을 적용합니다. 이를 통해 인공지능이 인간의 대화 지침이나 가치관에 부합하는 답변 스타일을 갖추도록 최적화하는 정렬(Alignment) 작업을 수행합니다.\n\n### 관련 단어 (Related Words)\n- RLHF (Reinforcement Learning from Human Feedback)\n- OpenAI\n- 정책 경사 (Policy Gradient)


Edit page
이 글 공유하기:

🔗 함께 읽으면 좋은 글

1 / 29