핵심 정리
좋은 결과의 평가 기준 5개를 먼저 세워줘.
그 기준으로 초안을 만든 뒤,
부족한 항목을 보완한 최종본을 다시 제시해줘.
필요하면 기준은 짧게 보여주고,
최종본은 그 기준을 반영해 다듬어줘.자기 점검
평가 기준을 먼저 세우면 초안이 목표를 갖게 된다
단번에 좋은 결과를 받으려면 모델이 "좋은 답의 조건"을 먼저 알아야 한다. 이를 사용자가 직접 정의하는 대신, 모델에게 평가 기준을 먼저 세우게 하면 작업에 맞는 기준이 자동으로 생성된다. 이 방식은 초안을 바로 확정하는 대신 목표를 먼저 정의한다는 점에서 결과 품질을 한 단계 끌어올리는 데 효과적이다.
운영체제 중간고사 대비 요약노트를 만들 거야.
먼저 좋은 요약노트의 기준 5개를 세워줘.
예: 정확성, 압축성, 비교 가능성, 오해 방지, 복습 효율.
그다음 초안을 만들고,
기준을 만족하지 못한 부분을 보완한 최종본을 다시 제시해줘.관찰 가능한 기준이 추상적인 기준보다 훨씬 효과적이다
"좋은 글"이나 "명확한 설명"처럼 추상적인 평가 기준은 모델이 초안을 대조하기 어렵게 만든다. 반면 "초심자도 읽을 수 있는가", "비교표가 있는가", "오해를 유발하는 표현이 없는가"처럼 관찰 가능한 형태로 기준을 세우면, 모델이 초안의 어느 부분이 부족한지 구체적으로 찾아낸다. 기준은 5~7개 정도로 압축하는 편이 실용적이다.
초안-기준 대조-최종본 순서가 품질을 계단식으로 높인다
기준 설정, 초안 생성, 기준 대조, 최종 수정의 4단계는 각각 독립적인 역할을 갖는다. 초안이 먼저 있어야 기준 대조가 가능하고, 기준 대조가 있어야 최종 수정에서 무엇을 고쳐야 하는지 명확해진다. 이 순서를 생략하거나 합치면 최종 수정이 방향 없이 이루어지는 경우가 생긴다.
이 패턴은 품질 기준이 여러 개인 작업에서 특히 강하다
글쓰기, 기획안, 설명문, UI 카피처럼 "좋은 결과"의 기준이 여러 개인 작업에서 자기평가 루브릭이 특히 효과적이다. 단순 정보 추출이나 형식 변환처럼 기준이 하나인 작업에서는 이 단계가 과할 수 있으므로, 복잡도에 따라 선택적으로 적용하는 편이 좋다.
단순 작업과 루브릭 작업을 나누는 기준
- 기준이 하나인 단순 변환: 바로 출력
- 정확성, 압축성, 비교 가능성처럼 기준이 여러 개인 작업: 루브릭 먼저
- 초안은 괜찮지만 완성도가 아쉬울 때: 자기평가 후 최종본언제 다시 묻게 할까
| 상황 | 적합한 선택 |
|---|---|
| 품질 기준이 여러 개일 때 | 평가 기준 5개 먼저 세우기 |
| 초안이 목표를 벗어날 때 | 기준 대조 후 최종 수정 |
| 기준이 추상적일 때 | 관찰 가능한 기준으로 구체화 |
| 결과를 한 단계 더 개선할 때 | 초안-대조-최종본 3단계 순서 유지 |
공식 참고: GPT-5 Prompting Guide
추가 읽기: 오픈AI가 공개한 공식 GPT-5 프롬프트 가이드 - 바이브 코딩
주의할 점
평가 기준이 추상적이면 효과가 떨어집니다. "좋은 글"처럼 넓은 표현보다 "초심자도 읽을 수 있는가", "비교표가 있는가"처럼 관찰 가능한 기준이 더 좋습니다. 기준이 너무 많으면 모델이 모든 항목을 균등하게 반영하지 못할 수 있으므로 5~7개로 압축하세요.
실패 예시
- "더 좋게 다듬어줘"만 요청하고 어떤 기준으로 좋은지 안 적음
- 결과: 문체만 바뀌고 실제로 부족했던 비교표나 오해 방지 요소는 그대로 남을 수 있음
- 대응: 먼저 평가 기준 5개를 세우고, 그 기준을 만족하지 못한 부분만 보완하게 한다