글의 목표
LGTM 스택 도입 이후 실제 운영 중 맞은 OTel sidecar, process-exporter, Mimir 설정 문제를 후속 글로 정리한다.
다룰 내용
- OTel Collector sidecar를 서비스별로 붙일 때의 장단점
- process-exporter로 Next.js/runtime 메모리 지표를 볼 때의 matcher 문제
- Mimir out-of-order ingestion과 backfill 설정
- label selector mismatch로 메트릭이 사라지는 문제를 찾는 방법
- 대시보드보다 먼저 필요한 검증 쿼리
글에서 조심할 점
- 기존 LGTM 소개 글과 중복되지 않게 운영 트러블슈팅 중심으로 작성한다.
- 실제 서비스명과 label 값은 일반화한다.
참고 이력
- podo-cluster OTel sidecar, process-exporter, Mimir 설정 작업
- podo-cluster/podo-cluster-gcp 모니터링 운영 변경 이력
완료 기준
- 장애 증상별 탐색 순서 포함
- PromQL/LogQL 예시는 익명화해서 작성
- 기존 LGTM 글에서 링크되는 후속 글로 구성
글의 목표
LGTM 스택 도입 이후 실제 운영 중 맞은 OTel sidecar, process-exporter, Mimir 설정 문제를 후속 글로 정리한다.
다룰 내용
글에서 조심할 점
참고 이력
완료 기준