Skip to content
목록으로 돌아가기

SRE이란?

Updated:
-- Edit page

SRE이란?

사전적 정의 (Dictionary Definition)

SRE(Site Reliability Engineering, 사이트 신뢰성 공학)는 구글(Google)에서 창안한 시스템 운영 방식으로, 소프트웨어 공학적 방법론을 IT 인프라 및 운영 문제에 적용하는 실무 체계를 의미합니다. 시스템의 신뢰성, 가용성, 효율성을 보장하기 위해 자동화와 모니터링을 적극적으로 활용하며, 수동 작업인 토일(Toil)을 최소화하고 서비스 수준 목표(SLO)를 기반으로 시스템 안정성을 정량적으로 관리하는 것이 특징입니다.

실무 사용 예시 (Practical Use Case)

eBPF와 같은 보안 기술을 도입하는 과정에서 SRE는 보안 로직이 시스템 가용성에 미치는 부하를 측정하고 모니터링 체계를 구축합니다. 만약 보안 프로그램 배포 후 시스템 호출 처리 속도가 저하되어 미리 설정된 에러 예산(Error Budget)을 초과할 위험이 감지되면, SRE는 가용성 확보를 위해 배포를 중단하거나 성능 최적화 작업을 우선적으로 수행하도록 결정합니다.


Edit page
이 글 공유하기:

🔗 함께 읽으면 좋은 글

1 / 29