정상미, 김성수 (지은이)|프리렉


요약
독서 가이드1. 여유로운 저녁 시간에 몰입해서 읽기 좋은 분량이에요.

AI 에이전트 품질을 초기에 설계하고 반복 가능한 평가 체계로 운영하는 방법을 정리한 입문서다. RaiT 기반 평가 기준 수립부터 Judge 프롬프트 구현, TTFT·TTLT 관리까지 실무 흐름으로 안내한다.
아직 등록된 한줄평이 없습니다.
아직 이 책이 담긴 책장이 없습니다.

요약이 책은 단순히 소프트웨어를 테스트하던 기존의 QA 영역을 넘어, 확률에 의존하는 거대언어모델(LLM) 기반의 AI 에이전트를 어떻게 신뢰할 수 있는 수준으로 관리하고 평가할 것인지에 대한 실무적인 해답을 제시합니다. 인공지능이 제공하는 결과값은 결정론적이지 않기에, 기존 방식의 테스트 케이스로는 한계가 명확합니다. 저자들은 이러한 불확실성을 관리하기 위해 '정량적 지표'와 '정성