METR 이란 무엇인가?
사전적 정의 (Dictionary Definition)
Model Evaluation and Threat Research의 약자로, Frontier AI 모델의 자율 자립 행동 패턴, 생화학 오용 무기 위협 가능성, 네트워크 침투 및 사이버 공격 자율 수행 능력 등 초거대 모델들이 초래할 수 있는 고도의 사회적 파괴 위험성을 한계까지 테스트하고 안전선 규범을 제시하는 비영리 최고 권위의 안전성 검증 연구 기관입니다. 본래 AI 가치 정렬 분야의 중추 기관인 ARC(Alignment Research Center)의 평가 부서인 ‘ARC Evals’에서 독립하여 설립되었습니다.
실무 사용 예시 (Practical Use Case)
구글, 오픈AI, 앤트로픽과 같은 글로벌 테크 대기업들이 차세대 LLM 모델을 외부에 배포하기 전에 실질적인 ‘자율 행위 위협 검증’을 수행하기 위해 METR에 비공개 평가(Evals)를 의뢰합니다. METR은 가상의 독립 샌드박스 네트워크 환경을 만들고 모델에게 “스스로 특정 서버의 권한을 탈취해 보라”와 같은 인간 전문가 수준의 수 시간에서 수십 시간 분량의 자율 시나리오 미션을 준 뒤, 모델이 중단 없이 수행하는 한계치인 Time Horizon(시간 범위)과 성공 성공률(Success Rate)을 정밀 평가하여 통제력 상실 가능성을 레포트합니다.
관련 단어 (Related Words)
자율 에이전트(Autonomous Agent), 타임 호라이즌(Time Horizon), AI 안전(AI Safety), 레드티밍(Red Teaming)