AI협업 보관 - 일상의 소소함

작성일 2026년 06월 01일2026년 06월 01일 작성자 illso — 댓글 한 개

[휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일] 9/12화: AI는 보간의 천재, 창의적 도약은 왜 사람만 가능한가

지난 이야기: 맥락이라는 무기, 그 다음은

지난 8화에서 AI가 영원히 읽지 못하는 ‘행간’에 대해 이야기했습니다. 맥락을 읽는다는 것은 결국 명시적으로 주어지지 않은 것을 파악하는 능력이죠. 오늘은 그 연장선에서, 한 발 더 나아가 봅니다. 주어지지 않은 것을 파악하는 데서 그치지 않고, 아직 존재하지 않는 것을 만들어내는 행위 — 흔히 ‘창의’라 부르는 것 — 에서 AI와 사람의 역할은 어떻게 다른지 살펴보려 합니다.

먼저 고백 하나. 저도 처음엔 AI가 창의적인 일을 대체할 거라 생각했습니다. 코드를 짜주고, 문장을 다듬어주고, 디자인 시안까지 뽑아주는 걸 보면서요. 그런데 현장에서 2년 넘게 AI와 함께 일하면서 깨달은 게 있습니다. AI가 잘하는 ‘창의’와 사람만 할 수 있는 ‘창의’는 본질적으로 다른 종류의 행위라는 것. 수학에서 빌려온 두 단어로 그 차이를 정확하게 설명할 수 있습니다.

보간과 외삽: 수학에서 빌려온 가장 직관적인 비유

수학에서 보간(interpolation)이란, 이미 알려진 데이터 포인트들 사이의 빈 곳을 채우는 것입니다. 점 A와 점 B 사이에 부드러운 곡선을 그려 넣는 거죠. 반면 외삽(extrapolation)은 알려진 데이터의 범위 바깥으로 나아가는 것입니다. 점 A부터 점 E까지의 패턴을 보고, 아직 관측되지 않은 점 F, 점 G의 위치를 추정하는 겁니다.

여기서 핵심적인 차이가 있습니다. 보간은 이미 존재하는 것들 사이의 빈 공간을 다루고, 외삽은 아직 존재하지 않는 방향을 다룹니다. 보간이 틀릴 확률은 상대적으로 낮습니다. 양쪽 끝의 정보가 제약 조건으로 작동하니까요. 하지만 외삽은 본질적으로 불확실합니다. 과거의 패턴이 미래에도 유지된다는 보장이 없으니까요.

이 구분이 왜 중요하냐고요? AI가 하는 거의 모든 ‘창의적’ 작업이 사실은 보간이기 때문입니다.

AI가 하는 ‘창의’의 실체: 초고속 보간 기계

대규모 언어 모델이 글을 쓸 때 무엇을 하는지 생각해 봅시다. 학습 데이터에 존재하는 수십억 개의 텍스트 패턴을 기반으로, 주어진 맥락에서 가장 적절한 다음 단어를 예측합니다. ‘가장 적절한’이라는 표현 자체가 이미 보간의 성격을 드러냅니다. 기존에 존재하는 패턴들의 가중 평균, 혹은 그 패턴들이 형성하는 공간 안에서의 최적 위치를 찾는 것이죠.

이미지 생성 AI도 마찬가지입니다. “인상주의 화풍으로 그린 한국의 봄 풍경”이라는 프롬프트를 주면, AI는 ‘인상주의 화풍’이라는 스타일 벡터와 ‘한국의 봄 풍경’이라는 콘텐츠 벡터 사이의 어딘가에 새 이미지를 배치합니다. 결과물은 분명 이전에 존재하지 않았던 새로운 이미지입니다. 하지만 그것은 이미 알려진 스타일과 이미 알려진 대상의 조합 — 다시 말해 보간입니다.

보간이 나쁜 게 아닙니다

오해하지 마세요. 보간 능력이 대단하지 않다는 게 아닙니다. 오히려 엄청납니다. 인간이 수천 개의 참고 자료를 동시에 고려해서 그 사이의 최적점을 찾는 건 사실상 불가능합니다. AI는 그걸 초 단위로 해냅니다. 업무 현장에서 이 능력은 압도적인 생산성 향상을 가져옵니다.

제가 일하는 금융IT 분야에서도 마찬가지입니다. 기존 코드 패턴을 분석해서 새로운 모듈의 뼈대를 잡거나, 수백 개의 테스트 케이스 사이에서 빠진 경계 조건을 찾아내거나, 기존 API 문서들의 스타일을 학습해서 새 엔드포인트의 문서 초안을 만드는 것. 이 모든 게 보간이고, AI가 사람보다 빠르고 정확하게 해냅니다.

문제는 보간으로는 도달할 수 없는 지점이 있다는 것입니다.

외삽의 순간: 현장에서 목격한 세 가지 사례

사례 1: “이 문제를 문제로 인식하는 것”

몇 년 전, 저희 팀이 운영하던 챗봇이 있었습니다. 응답 정확도 94%, 사용자 만족도 조사 4.2/5.0. 숫자로 보면 아무 문제 없었습니다. AI에게 “이 챗봇의 개선점을 찾아줘”라고 물으면, 응답 속도를 0.3초 줄인다든지, 특정 카테고리의 정확도를 97%로 올린다든지 하는 — 기존 지표 안에서의 개선점, 즉 보간적 제안만 내놓았습니다.

그런데 팀의 한 주니어 개발자가 전혀 다른 질문을 던졌습니다. “혹시 우리 챗봇에 아예 질문을 안 하는 사용자가 있지 않을까요? 그 사람들은 왜 안 하는 걸까요?” 이 질문은 기존 데이터에 없는 것을 물었습니다. 응답한 사용자의 만족도가 아니라, 응답 자체를 포기한 사용자의 존재를 상상한 것이죠.

조사해 보니 실제로 로그인 후 챗봇 화면까지 왔다가 아무것도 입력하지 않고 이탈하는 비율이 35%에 달했습니다. 그들이 ‘질문을 안 한’ 게 아니라 ‘어떻게 질문해야 할지 몰랐던’ 것이었습니다. 이 발견은 UI 전면 개편으로 이어졌고, 실질적 사용률을 두 배 가까이 끌어올렸습니다.

AI는 이 발견을 할 수 없었습니다. 왜냐하면 “챗봇을 안 쓰는 사람”의 데이터는 챗봇 로그에 존재하지 않으니까요. 있는 데이터의 바깥을 상상하는 것, 그것이 외삽입니다.

사례 2: “유사한 것들을 연결해서 전혀 새로운 것을 만드는 순간”

금융 시스템 장애 대응을 하다 보면, 간혹 기존의 어떤 매뉴얼로도 설명이 안 되는 상황이 발생합니다. 한번은 특정 시간대에만 간헐적으로 발생하는 지연 현상이 있었는데, 모니터링 대시보드의 어떤 지표도 임계값을 넘지 않았습니다. AI 분석 도구에 로그를 넣어봐도 “이상 없음”만 반복했죠.

결국 문제를 찾아낸 건 한 시니어 엔지니어였는데, 그 사람이 한 것은 놀라웠습니다. 완전히 다른 맥락에서의 경험 — 예전에 취미로 했던 아마추어 무선 통신에서 겪었던 ‘페이딩(fading)’ 현상을 떠올린 겁니다. 특정 시간대에 전파가 약해지는 패턴과, 우리 시스템의 지연 패턴이 구조적으로 닮아 있다는 직감이었죠. 실제로 원인은 같은 시간대에 배치 작업을 돌리는 인접 시스템의 네트워크 버스트가 간섭을 일으키는 것이었습니다.

이 연결은 AI가 만들어낼 수 없었습니다. ‘아마추어 무선의 페이딩’과 ‘금융 시스템 네트워크 지연’을 같은 훈련 데이터 안에서 연결한 패턴이 존재하지 않았으니까요. 완전히 다른 도메인의 경험을 아날로지로 끌어오는 것 — 이것도 외삽입니다.

사례 3: “기존 규칙을 의도적으로 위반하는 판단”

시스템 설계에는 ‘정석’이 있습니다. 모범 사례(best practice)라고 부르는 것들이죠. AI는 이 정석들의 종합 백과사전 같습니다. “마이크로서비스 아키텍처에서 서비스 간 통신은 어떻게 설계해야 하나요?”라고 물으면, 수백 개의 참고 사례에서 추출한 최적의 패턴을 알려줍니다. 완벽한 보간이죠.

그런데 현실에서는 가끔 정석을 깨야 하는 순간이 옵니다. 한 프로젝트에서 모든 ‘올바른’ 설계 원칙이 가리키는 방향과 정반대로 가야 했던 적이 있습니다. 교과서적으로는 비동기 이벤트 기반이 맞았지만, 팀의 규모, 운영 역량, 비즈니스의 특수한 타이밍 요구사항을 종합하면 오히려 단순한 동기 호출이 나았습니다. AI에게 물으면 “이건 안티패턴입니다”라고 경고했지만, 결과적으로 3년간 단 한 번의 장애도 없이 운영됐습니다.

‘이 상황에서는 규칙을 깨는 게 옳다’는 판단은 보간의 결과가 아닙니다. 기존 데이터(=정석)가 가리키는 방향의 바깥으로 나가는 것이니까요. 이것이 외삽입니다.

왜 AI는 외삽을 못 하는가: 구조적 한계

“AI도 학습하면 외삽할 수 있지 않을까?” 이 질문을 많이 받습니다. 기술적으로 깊이 들어가면 복잡해지지만, 핵심만 짚어보겠습니다.

한계 1: 분포 내(in-distribution) vs 분포 외(out-of-distribution)

현재의 AI 모델은 학습 데이터의 분포(distribution) 안에서 동작할 때 놀라운 성능을 보입니다. 하지만 학습 시 본 적 없는 패턴 — 분포 바깥(out-of-distribution)의 입력이 들어오면 성능이 급격히 떨어집니다. 이건 버그가 아니라 구조적 특성입니다. 학습 데이터에서 추출한 패턴으로 예측하는 게 AI의 본질이니까요.

외삽은 정의상 분포 바깥을 다루는 행위입니다. 즉, AI의 가장 취약한 지점이 바로 외삽이 요구되는 지점과 겹칩니다.

한계 2: 목적 함수의 부재

AI는 “다음 토큰 예측” 또는 “주어진 목적 함수의 최적화”를 위해 훈련됩니다. 하지만 진정한 외삽 — 예를 들어 “지금까지 아무도 묻지 않았던 질문을 던지는 것” — 에는 사전에 정의된 목적 함수가 없습니다. 무엇이 ‘좋은 새로운 질문’인지를 학습 시점에 정의할 수 없으니까요.

사람은 다릅니다. 사람은 불편함, 호기심, 미적 감각, 윤리적 직관 같은 내적 신호를 통해 “여기에 뭔가 있을 것 같다”는 방향 감각을 갖습니다. 이 방향 감각이 목적 함수 없이도 외삽을 가능하게 합니다.

한계 3: 실패의 경험이 없다

인간의 외삽 능력은 상당 부분 실패의 경험에서 옵니다. 어떤 방향이 막다른 길인지, 어떤 가정이 깨지는지를 체험적으로 아는 것이죠. AI는 학습 데이터에 담긴 타인의 실패를 ‘읽을’ 수는 있지만, 스스로 어딘가에 부딪혀보고 방향을 튼 경험이 없습니다.

현장에서 “감(感)으로 안다”고 말하는 시니어들의 외삽 능력은, 수십 년간 축적된 실패 경험의 결정체입니다. 이건 텍스트로 전달되지 않는 종류의 지식이라, AI의 학습 데이터에 담기기가 구조적으로 어렵습니다.

현실적 협업 모델: 보간은 맡기고, 외삽에 집중하기

그렇다면 실무에서는 어떻게 해야 할까요? 제가 현장에서 2년간 실험하며 정착시킨 패턴을 공유합니다.

패턴 1: AI에게 ‘빈칸 채우기’를 시키고, 사람은 ‘빈칸의 위치’를 정한다

보고서를 쓸 때를 예로 들어보겠습니다. 예전에는 사람이 목차도 잡고, 각 섹션의 내용도 채웠습니다. 이제는 이렇게 합니다:

사람이 “이 보고서에서 말하고 싶은 건 X인데, 기존 보고서에서는 항상 빠지던 관점 Y를 이번엔 포함하고 싶다”고 방향을 정한다 (외삽)
AI가 그 방향에 맞는 목차를 제안하고, 각 섹션의 초안을 채운다 (보간)
사람이 초안을 읽으며 “이 부분은 뻔하다. 여기에 의외의 각도를 넣고 싶다”고 수정 방향을 잡는다 (외삽)
AI가 수정된 방향에 맞게 다시 채운다 (보간)

이 사이클을 돌리면, 사람 혼자 쓸 때보다 시간은 1/3로 줄면서도, AI 혼자 쓸 때보다 깊이와 독창성은 두 배 이상 높아집니다.

패턴 2: AI의 ‘보간 지도’를 읽고, 빈 영역을 식별한다

AI에게 특정 주제에 대해 “알려진 모든 접근법을 정리해줘”라고 시키면, 기존 지식의 지도를 빠르게 그려줍니다. 이 지도를 받아보면, 뭐가 없는지가 보입니다. “이 방향은 아무도 시도 안 했네” “이 두 분야의 교차점이 비어 있네” — 이런 발견이 외삽의 출발점이 됩니다.

역설적이게도, AI가 보간을 잘할수록 사람의 외삽이 수월해집니다. 지도가 촘촘할수록 빈 곳이 선명하게 드러나니까요.

패턴 3: ‘말이 안 되는’ 것을 일부러 시도하고, AI에게 정합성을 맞추게 한다

외삽은 종종 “말이 안 되는” 아이디어에서 시작됩니다. “고객 불만 처리 프로세스에 게임의 보상 시스템을 접목하면 어떨까?” 같은 것들이요. 이런 비약적 연결을 사람이 던지면, AI는 그것을 현실적으로 구현 가능한 형태로 다듬는 데 탁월합니다. 엉뚱한 아이디어의 외삽적 점프는 사람이, 그것을 실행 가능한 구체 방안으로 보간하는 것은 AI가 담당하는 겁니다.

보간 능력이 무한히 올라가면 외삽도 될까?

이 글을 읽으며 “AI 성능이 더 올라가면 결국 외삽도 하게 되지 않을까?”라고 생각하실 수 있습니다. 솔직히, 저도 확신은 없습니다. 하지만 현재까지의 관찰로 말씀드리자면:

보간의 정밀도를 아무리 높여도, 그것은 여전히 보간입니다. 고해상도 지도가 아무리 정밀해도, 지도에 그려지지 않은 대륙을 발견하는 것과는 다른 종류의 행위입니다. 패턴 인식의 정밀도를 극한까지 높이는 것과, 아직 존재하지 않는 패턴을 상상하는 것 사이에는 카테고리 자체가 다른 차이가 있어 보입니다.

물론 이것은 2026년 현재의 관찰입니다. 미래에 AI의 아키텍처가 근본적으로 바뀌면 달라질 수도 있겠죠. 하지만 그때까지, 그리고 어쩌면 그 이후에도, “어디로 가야 하는지를 정하는 것”은 사람의 몫으로 남을 가능성이 높습니다.

외삽 능력을 기르는 현실적 방법

“그래서 외삽을 잘하려면 어떻게 해야 하는데?” 실용적인 질문이죠. 20년간 IT 현장에서 관찰한, 외삽을 잘하는 사람들의 공통점을 정리해 봅니다.

1. 다른 분야를 ‘가볍게’ 경험한다

앞서 아마추어 무선 경험이 시스템 장애 진단에 도움이 된 사례를 말씀드렸죠. 외삽의 원료는 ‘현재 하는 일과 다른 도메인의 경험’입니다. 깊이 파지 않아도 됩니다. 다른 분야의 기본 개념과 사고 방식을 얕게라도 접하면, 그것이 아날로지의 재료가 됩니다.

2. ‘왜 안 되지?’보다 ‘왜 이게 당연하지?’를 묻는다

기존의 관행에 “왜?”를 붙이는 것만으로도 외삽의 문이 열립니다. “왜 로그인 화면이 항상 아이디/비밀번호 입력란이어야 하지?” “왜 장애 보고서는 항상 시간순이어야 하지?” 이런 질문들이 기존 패턴의 경계를 드러내고, 그 바깥을 상상하게 만듭니다.

3. 실패를 기록하고 복기한다

성공에서는 보간을 배우고, 실패에서는 외삽을 배웁니다. “이 방향은 안 되더라”는 경험이 쌓여야, 다음에 새로운 방향을 상상할 때 어디를 피해야 하는지 감이 옵니다. 실패 일지를 따로 쓰는 습관은 외삽 능력의 가장 확실한 투자입니다.

4. AI의 보간 결과를 ‘당연하지 않다’는 눈으로 본다

AI가 내놓은 결과물을 그대로 수용하면 사람도 보간에 갇힙니다. “AI가 이렇게 제안했는데, 정말 이 범위 안에서만 답이 있을까?”라는 의심이 외삽의 출발점입니다. AI의 답이 훌륭할수록, 그것이 커버하지 못하는 바깥을 의식적으로 찾는 습관이 중요해집니다.

금융IT 현장의 리얼: 보간과 외삽의 일상

제 일상을 예로 들어보면, 하루 업무의 시간 배분이 AI 도입 전후로 극적으로 바뀌었습니다.

AI 도입 전:

보간적 작업(기존 패턴대로 코드 작성, 문서 정리, 테스트 케이스 나열): 70%
외삽적 작업(새로운 설계 방향 탐색, 비즈니스 문제 재정의, 기술 실험): 20%
커뮤니케이션 및 기타: 10%

AI 도입 후:

보간적 작업: 30% (AI가 초안을 만들고 사람이 검토·보정)
외삽적 작업: 45% (확보된 시간으로 더 많이 탐색)
AI 협업 관리(프롬프트 설계, 결과 검증, 방향 재설정): 15%
커뮤니케이션 및 기타: 10%

이 변화가 가져온 체감 효과는 분명합니다. 예전에는 보간에 에너지를 쏟느라 외삽할 여유가 없었습니다. “이거 더 좋은 방법 없을까?”라는 생각이 들어도, 당장 눈앞의 코드를 완성해야 하니까 넘어갔죠. 이제는 AI가 보간을 빠르게 처리해주니까, 그 여유 시간에 “정말 이 방향이 맞나?”를 고민할 수 있게 됐습니다.

1화에서 “AI 도입했더니 더 바빠졌다”고 했던 거 기억하시죠? 그 바쁨의 상당 부분은 사실 외삽의 기회가 늘어난 것이었습니다. 보간에 쓰던 시간이 줄면서, 그동안 미뤄왔던 “근본적으로 다시 생각해봐야 하는 것들”이 수면 위로 올라온 거죠. 바빠진 게 아니라, 해야 할 일의 성격이 바뀐 겁니다.

흔한 오해: “AI도 창의적이잖아요”

이 글에 반론을 제기할 분들을 위해, 자주 듣는 오해 세 가지에 답해보겠습니다.

“AI가 만든 그림/글이 예술 대회에서 상을 탔는데요?”

그 작품들을 분석해 보면, 기존 스타일과 기법의 정교한 조합입니다. 심사위원이 놀란 건 ‘기계가 이 수준의 조합을 해냈다’는 기술적 놀라움이지, ‘이전에 없던 예술 운동을 창시했다’는 의미의 창의가 아닙니다. 인상주의를 처음 시작한 화가들의 외삽과, 인상주의 스타일로 새 그림을 그리는 보간은 다른 차원의 행위입니다.

“AI가 수학 증명을 새로 발견했다면서요?”

AI가 기존 증명 기법들의 조합으로 새 경로를 찾아낸 사례는 있습니다. 대단한 성과죠. 하지만 “증명할 가치가 있는 새로운 추측을 세우는 것”은 여전히 인간 수학자의 몫입니다. 리만 가설을 처음 ‘떠올린’ 것과, 리만 가설의 증명을 ‘시도하는’ 것은 다른 종류의 창의입니다.

“그냥 충분히 큰 모델이면 외삽도 하는 거 아닌가요?”

모델이 커지면 보간의 공간이 넓어집니다. 더 많은 패턴을 담을 수 있으니, 이전보다 더 먼 거리의 점들 사이도 보간할 수 있게 됩니다. 이것이 ‘외삽처럼 보이는’ 경우가 있습니다. 하지만 학습 데이터의 분포 자체를 벗어나는 것과, 분포 안에서 더 정교하게 움직이는 것은 여전히 구분됩니다. 크기의 양적 확장이 질적 전환을 가져오는지는 아직 증명되지 않았습니다.

이번 화의 핵심을 한 장의 그림으로

정리하면 이렇습니다:

보간(Interpolation): 알려진 점들 사이를 채우는 것. AI의 강점. 패턴 조합, 최적화, 기존 스타일 적용.
외삽(Extrapolation): 알려진 범위 바깥으로 나가는 것. 사람의 영역. 새 질문 제기, 규칙 위반, 도메인 간 도약.
최적의 협업: 사람이 외삽으로 방향을 정하고 → AI가 보간으로 실행을 채우고 → 사람이 결과를 보고 다시 외삽.

AI 시대에 사람의 가치는 “보간을 더 빨리 하는 것”에 있지 않습니다. 어차피 그건 AI를 이길 수 없으니까요. 사람의 가치는 “아직 아무도 보간하지 않은 방향을 가리키는 것”에 있습니다.

다음 화 예고

보간과 외삽 이야기를 하다 보니, 한 가지 더 파고 싶은 주제가 떠올랐습니다. 외삽을 하려면 — 새로운 방향으로 뛰려면 — 기존의 것들을 놓아야 할 때가 있습니다. AI는 기존 지식을 절대 잊지 않습니다. 학습된 모든 패턴을 영구히 보존하죠. 그런데 인간의 ‘잊음’과 ‘놓아버림’이 오히려 창의와 적응의 조건이 되는 상황이 있습니다. 다음 10화에서는 “잊는 능력 — AI의 완벽한 기억이 오히려 한계인 이유”에 대해 이야기하겠습니다.

이번 주 한 줄 노트: “AI가 채울 수 없는 빈칸은 없다. 하지만 어디에 빈칸을 뚫을지 결정하는 건, 아직 사람의 일이다.”

※ 본 글은 특정 기업·제품의 입장을 대변하지 않는 개인 견해입니다.

이미지는 Leonardo AI 로 생성되었습니다.

이미지는 Claude AI 로 생성되었습니다.

📚 시리즈: 휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일 (총 12화 중 9화)
◀ 이전 8화 (다음 차수는 아직 게시되지 않았습니다)

작성일 2026년 05월 15일2026년 05월 15일 작성자 illso — 댓글 한 개

[휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일] 2/12화: 휴먼 인 더 루프, 당신이 알고 있는 뜻은 틀렸을 수 있다

지난 이야기, 그리고 오늘의 질문

지난 1화에서 저는 AI를 도입한 뒤 오히려 팀이 더 바빠진 현실을 솔직하게 털어놓았습니다. 그 글을 올린 뒤 댓글과 메시지로 가장 많이 받은 질문이 하나 있었습니다.

“그래서 ‘휴먼 인 더 루프’가 정확히 뭔데요?”

놀랍게도 이 질문을 던진 분 중 상당수가 현업 개발자, IT 기획자, 심지어 AI 관련 부서 소속이었습니다. 2026년 현재 ‘휴먼 인 더 루프(Human-in-the-Loop, 이하 HITL)’는 뉴스 기사, 채용 공고, 경영진 발표 자료 어디에나 등장하는 키워드가 되었지만, 정작 그 뜻을 정확히 이해하고 쓰는 경우는 생각보다 드뭅니다.

오늘은 이 용어가 어디서 왔고, 왜 이렇게 많이 오해되며, 실무에서 어떤 의미로 받아들여야 하는지를 20년차 금융IT 개발자이자 8년차 챗봇 운영자의 눈으로 풀어보겠습니다.

오해 1: “사람이 최종 승인 버튼을 누르면 HITL이다”

가장 흔한 오해부터 짚겠습니다. 많은 조직에서 HITL을 이렇게 정의합니다.

AI가 결과를 만든다
사람이 ‘승인’ 또는 ‘반려’ 버튼을 누른다
끝. 우리는 HITL을 하고 있다

이건 HITL이 아닙니다. 정확히 말하면 ‘Human-on-the-End(사람이 끝에 붙어 있는 것)’에 가깝습니다. 루프(Loop)라는 단어가 핵심인데, 루프가 빠져 있거든요.

루프란 순환을 의미합니다. 사람의 판단이 다시 시스템으로 돌아가서, AI의 다음 행동이나 학습에 영향을 미쳐야 비로소 ‘루프 안에 사람이 있는 것’이 됩니다. 승인 버튼만 누르는 건 단순한 관문(gate)이지, 피드백 루프가 아닙니다.

제가 챗봇을 운영하면서 겪은 사례를 하나 들어보겠습니다. 초기에 고객 문의에 대한 AI 응답을 상담원이 검토하고 ‘발송’ 버튼을 누르는 프로세스를 만들었습니다. 경영진에게 보고할 때 “HITL 프로세스를 구축했습니다”라고 자신 있게 말했죠. 그런데 6개월이 지나도 AI의 응답 품질은 나아지지 않았습니다. 왜냐하면 상담원이 반려한 응답이 어디에도 기록되지 않았고, AI 모델의 개선에 반영되지 않았기 때문입니다. 상담원은 그냥 자기가 새로 답변을 작성했고, AI는 같은 실수를 계속 반복했습니다.

승인 버튼은 HITL의 시작점일 뿐, 완성이 아닙니다.

오해 2: “HITL은 AI를 못 믿어서 하는 거다”

두 번째로 많이 접하는 오해입니다. “AI가 아직 부족하니까 사람이 붙어서 감시하는 것”이라는 인식이죠. 이 프레임으로 보면 HITL은 일종의 불신의 산물이고, AI 기술이 완벽해지면 사라져야 할 과도기적 장치가 됩니다.

하지만 현실은 정반대입니다. HITL은 AI가 잘 작동하는 시스템에서 더 중요합니다.

왜일까요? AI가 90%의 정확도로 작동하면 사람들은 나머지 10%에 주의를 기울입니다. 하지만 99%의 정확도로 작동하면? 사람들은 방심하고, 그 1%의 오류가 치명적 사고로 이어집니다. 이것을 학술적으로는 ‘자동화 편향(automation bias)’이라고 부릅니다.

금융IT에서 일하면서 이런 상황을 수없이 봤습니다. 시스템이 너무 잘 작동해서 사람들이 경계를 풀었을 때 큰 사고가 터집니다. 2026년 현재 AI 모델의 성능이 빠르게 향상되고 있는데, 그래서 HITL이 덜 필요한 게 아니라 오히려 더 정교한 HITL이 필요해진 겁니다.

HITL은 불신이 아니라 신뢰의 설계입니다. “AI를 믿지 못해서”가 아니라 “AI를 제대로 믿기 위해서” 사람이 루프 안에 있어야 합니다.

오해 3: “HITL = AI가 하고 사람이 검수한다”

세 번째 오해는 HITL의 방향성에 대한 것입니다. 대부분의 사람들이 떠올리는 그림은 이렇습니다.

AI → 결과물 → 사람(검수) → 최종 산출물

하지만 실제 HITL에는 여러 패턴이 존재합니다.

패턴 A: 사람이 먼저, AI가 보조

사람이 초안을 작성하고, AI가 검토·보완·제안합니다. 예를 들어 금융 보고서를 작성할 때, 분석가가 핵심 판단을 내리고 AI가 데이터 검증과 문장 교정을 돕는 방식입니다. 이때 사람은 루프의 시작점이자 최종 판단자입니다.

패턴 B: AI가 먼저, 사람이 조정

가장 흔히 알려진 패턴이죠. AI가 초안을 만들고 사람이 수정합니다. 하지만 여기서 핵심은 ‘수정’이 아니라 ‘조정의 결과가 다시 AI에 반영되느냐’입니다.

패턴 C: 사람과 AI가 동시에, 실시간 협업

2026년 들어 급격히 늘어난 패턴입니다. AI가 실시간으로 제안을 하고, 사람이 즉시 채택하거나 무시하며, 그 선택이 곧바로 AI의 다음 제안에 영향을 줍니다. 코드 에디터의 AI 자동완성이 대표적입니다. 개발자가 제안을 탭으로 수락하거나 무시하는 매 순간이 피드백 루프입니다.

패턴 D: 사람이 규칙을, AI가 실행을

사람이 정책·기준·가이드라인을 설정하고, AI가 그 범위 안에서 자율적으로 실행합니다. 사람의 개입은 규칙의 설계와 예외 처리에 집중됩니다. 제가 챗봇 운영에서 가장 효과적이라고 느끼는 패턴이 바로 이것입니다.

HITL은 단일한 프로세스가 아니라 사람과 AI가 상호작용하는 다양한 구조를 포괄하는 설계 철학입니다.

그래서 원래 뜻은 뭔데?

HITL이라는 개념은 사실 AI 이전부터 존재했습니다. 제조업의 품질관리, 군사 시스템의 의사결정, 의료 진단 보조 시스템 등에서 이미 수십 년간 사용되어 온 개념입니다.

핵심 정의를 정리하면 이렇습니다.

자동화된 시스템의 프로세스 안에(in the loop) 사람이 포함되어 있으며
사람의 판단·피드백·의사결정이 시스템의 작동에 실질적 영향을 미치고
그 영향이 순환적(loop)으로 시스템 개선에 반영되는 구조

세 가지 조건이 모두 충족되어야 합니다. 사람이 끝에 붙어 있기만 한 건 ‘Human-on-the-End’, 사람이 옆에서 지켜보기만 하는 건 ‘Human-on-the-Side’라고 구분하기도 합니다. 비슷해 보이지만 실무에서의 차이는 엄청납니다.

2026년에 이 용어가 특별히 오해되는 이유

HITL 개념 자체는 새로운 게 아닌데, 왜 하필 2026년에 이렇게 오해가 만연할까요? 제가 보는 이유는 세 가지입니다.

이유 1: AI 도입 속도가 이해 속도를 앞질렀다

2024년부터 시작된 기업 AI 도입 러시가 2026년 현재 본격적인 실전 단계에 접어들었습니다. 그런데 기술 도입 속도에 비해 조직의 이해 수준은 따라가지 못하고 있습니다. 경영진은 “우리도 HITL 한다”라고 말하고 싶어하고, 실무자는 뭔가 하고 있으니 HITL이라고 포장합니다. 용어가 유행하면서 정의 없이 사용되기 시작한 겁니다.

이유 2: 규제와 컴플라이언스가 용어를 왜곡했다

유럽 AI법(EU AI Act)과 각국의 AI 규제가 본격 시행되면서, “고위험 AI 시스템에는 인간 감독(human oversight)을 확보해야 한다”는 요건이 생겼습니다. 많은 기업이 이 요건을 최소한의 비용으로 충족하려다 보니, 형식적인 승인 단계를 추가하고 “HITL 완료”라고 체크하는 관행이 퍼졌습니다. 규제를 만족시키기 위한 서류상의 HITL과 실질적인 HITL 사이에 큰 간극이 생긴 셈이죠.

이유 3: ‘사람의 역할’에 대한 근본적 혼란

이것이 가장 깊은 이유라고 생각합니다. AI가 점점 더 많은 것을 할 수 있게 되면서, 조직 내에서 “그러면 사람은 뭘 해야 하는 거지?”라는 질문이 불거지고 있습니다. 이 불편한 질문에 대한 답을 제대로 내리지 않은 채, HITL이라는 용어를 가져다 “사람도 필요하다”는 답변 대용으로 쓰는 겁니다. 하지만 HITL은 “사람이 필요하다”는 당위가 아니라 “사람이 어떤 방식으로 기여하느냐”에 대한 구체적 설계입니다.

실무에서 진짜 HITL을 판별하는 5가지 질문

그렇다면 우리 조직이 진짜 HITL을 하고 있는지 어떻게 판단할 수 있을까요? 제가 8년간 챗봇을 운영하면서 다듬어 온 자가 진단 질문 5가지를 공유합니다.

질문 1: 사람의 피드백이 기록되는가?

사람이 AI 결과물을 수정하거나 반려했을 때, 그 내용이 어딘가에 구조적으로 기록되나요? 그냥 슬랙 메시지나 구두 전달로 끝나는 건 기록이 아닙니다. 수정 사유, 수정 내용, 수정 전후 비교가 데이터로 남아야 합니다.

질문 2: 기록된 피드백이 시스템 개선에 반영되는 경로가 있는가?

기록이 되더라도 그게 다음 모델 학습이나 프롬프트 튜닝, 규칙 업데이트 등에 실제로 반영되는 프로세스가 있어야 합니다. 피드백 데이터가 쌓이기만 하고 아무도 안 보면, 그건 HITL이 아니라 데이터 무덤입니다.

질문 3: 사람의 판단에 충분한 맥락이 제공되는가?

‘승인/반려’ 버튼만 있으면 판단이 아니라 추측입니다. AI가 왜 그런 결과를 냈는지, 어떤 데이터를 근거로 했는지, 신뢰도는 얼마인지 등의 맥락 정보가 함께 제공되어야 사람이 의미 있는 판단을 할 수 있습니다.

질문 4: 사람이 개입하는 시점이 적절한가?

모든 결과물을 사람이 검토하면 병목이 되고, 아무것도 검토하지 않으면 방치가 됩니다. AI의 확신도가 낮은 케이스, 금액이 큰 거래, 신규 유형의 요청 등 사람의 판단이 가장 가치 있는 지점에 개입이 집중되어야 합니다.

질문 5: 사람의 판단 품질을 측정하고 있는가?

이건 많은 분이 놓치는 부분입니다. HITL에서 사람도 루프의 일부인데, 사람의 판단이 일관적인지, 정확한지, 편향되지 않았는지를 측정하지 않으면 루프 전체의 품질을 보장할 수 없습니다. AI만 모니터링하고 사람은 모니터링하지 않는 건 반쪽짜리 품질관리입니다.

이 다섯 가지 질문에 모두 “예”라고 답할 수 있다면, 당신의 조직은 진짜 HITL을 하고 있을 가능성이 높습니다. 하나라도 “아니오”가 있다면, 개선의 여지가 있는 겁니다.

흔한 함정: “HITL 피로”

진짜 HITL을 구축했더라도 빠지기 쉬운 함정이 있습니다. 저는 이것을 ‘HITL 피로’라고 부릅니다.

챗봇 운영 초기, 상담원들에게 AI 응답을 검토하고 피드백을 남기는 프로세스를 도입했을 때의 일입니다. 처음 2주간은 상담원들이 꼼꼼하게 피드백을 남겼습니다. 수정 사유도 상세히 적고, 개선 제안도 활발했죠. 그런데 한 달이 지나자 피드백의 질이 급격히 떨어졌습니다. “문맥 안 맞음”, “부적절”, 심지어는 아무 코멘트 없이 반려만 누르는 경우가 늘었습니다.

이유는 단순했습니다. 피드백을 남겨도 달라지는 게 없었기 때문입니다.

상담원들은 매일 같은 유형의 오류에 같은 피드백을 남겼지만, AI 모델 업데이트 주기는 분기 1회였습니다. 3개월 동안 같은 말을 반복하고 있으니 당연히 지치죠. 이건 사람의 문제가 아니라 루프의 주기 설계 실패입니다.

이후 저희가 한 것은 세 가지입니다.

피드백 반영 주기를 분기에서 주간으로 단축 (프롬프트 튜닝 활용)
“당신의 피드백으로 이번 주 이런 것이 개선되었습니다”라는 피드백에 대한 피드백을 매주 공유
반복되는 유형의 피드백은 자동 태깅으로 처리하여 상담원의 수작업 부담 경감

이 세 가지를 적용한 후 피드백 품질이 눈에 띄게 회복되었습니다. HITL에서 사람은 기계 부품이 아닙니다. 자신의 기여가 의미 있다는 걸 체감해야 루프가 지속됩니다. 피드백의 루프 안에 보상의 루프도 설계해야 하는 이유입니다.

‘진짜 HITL’과 ‘가짜 HITL’이 만드는 결과의 차이

이론적인 이야기가 길었으니, 실질적인 결과 차이를 짚어보겠습니다.

가짜 HITL 조직에서 벌어지는 일

AI 도입 6개월 후에도 오류율이 그대로
사람은 점점 AI를 불신하거나, 반대로 맹신
“AI가 잘못한 거예요” vs “사람이 안 본 거예요”의 책임 공방
결국 AI를 걷어내거나, 사람을 아예 빼는 극단적 선택

진짜 HITL 조직에서 벌어지는 일

AI 정확도가 점진적이지만 꾸준히 개선
사람은 AI를 ‘신뢰하되 검증하는’ 건강한 관계 유지
AI가 잘하는 영역과 사람이 잘하는 영역이 점점 명확해짐
시간이 지나면서 사람의 역할이 단순 검수에서 전략적 판단으로 진화

두 경로의 차이는 처음에는 미미하지만, 1년이 지나면 돌이킬 수 없는 격차가 됩니다. 제가 여러 프로젝트에서 지켜본 바로는, 진짜 HITL을 설계한 팀은 18개월 차에 사람의 개입 빈도를 70% 이상 줄이면서도 전체 정확도를 높이는 단계에 도달했습니다. 반면 가짜 HITL 팀은 18개월 차에 “AI가 소용없다”며 수동 프로세스로 회귀하거나, “사람이 병목이다”며 검수를 생략하는 방향으로 갔습니다.

금융IT에서의 HITL: 좀 더 구체적인 이야기

금융IT는 HITL의 중요성이 극단적으로 드러나는 분야입니다. 돈이 오가는 시스템에서 AI의 오류는 곧 금전적 손실이니까요.

제가 경험한 몇 가지 상황을 익명화해서 공유합니다.

이상 거래 탐지에서의 HITL

AI가 이상 거래를 탐지하면 심사원이 검토합니다. 여기서 흔한 실수는 AI의 탐지 결과를 ‘맞다/아니다’로만 판단하는 것입니다. 진짜 HITL을 하려면 심사원이 “왜 이 거래가 이상하다고 판단했는지”를 AI의 설명과 대조하고, AI가 놓친 맥락(예: 고객이 해외 출장 중이라 해외 결제가 발생한 것)을 기록해서 다음 모델에 반영해야 합니다.

대출 심사에서의 HITL

AI가 대출 신청을 1차 심사하고 사람이 최종 판단을 내리는 구조가 많습니다. 그런데 심사원이 AI 판단을 그대로 따르는 비율이 97%를 넘으면, 사실상 사람은 루프 안에 있지 않습니다. 고무 도장을 찍고 있을 뿐이죠. 이런 상황에서는 AI와 사람의 판단이 다른 케이스를 의도적으로 추출해서 집중 리뷰하는 프로세스를 별도로 설계해야 합니다.

고객 상담 챗봇에서의 HITL

8년간 챗봇을 운영하면서 가장 효과적이었던 HITL 구조는 이것이었습니다. AI가 응답을 생성할 때 자체 확신도(confidence score)를 함께 출력하게 하고, 확신도가 기준 이하인 건만 사람에게 에스컬레이션하는 것입니다. 사람은 전체 대화의 10~15%만 처리하지만, 그 10~15%가 AI 혼자서는 해결할 수 없는 복잡한 케이스이기 때문에 사람의 전문성이 최대한 활용됩니다.

이 구조에서 핵심은 확신도 기준을 고정하지 않는 것입니다. 데이터를 보면서 주기적으로 조정합니다. 처음에는 확신도 80% 미만을 에스컬레이션했다가, 모델이 개선되면 70%로 낮추고, 새로운 유형의 문의가 급증하면 다시 올리는 식이죠. 이 기준 조정 자체가 HITL의 중요한 부분입니다.

HITL을 ‘올바르게’ 오해하는 법

여기까지 읽으셨다면, HITL이 생각보다 복잡한 개념이라는 걸 느끼셨을 겁니다. 완벽한 HITL을 처음부터 구현하긴 어렵습니다. 그래서 저는 “올바르게 오해하는 것”부터 시작하자고 제안합니다.

무슨 뜻이냐면, 아래 세 가지만 기억해도 대부분의 조직에서 지금보다 훨씬 나은 HITL을 실천할 수 있다는 겁니다.

첫째, ‘루프’를 의식하세요. 사람의 판단이 다시 시스템에 돌아가는지 자문하세요. 돌아가지 않으면 루프가 아닙니다.
둘째, ‘기록’을 남기세요. 사람이 뭘 했는지 기록이 없으면 개선할 수도 없습니다. 일단 기록부터 시작하세요.
셋째, ‘주기’를 정하세요. 기록된 피드백을 언제, 어떻게 시스템에 반영할지 정하세요. 주기가 없으면 피드백이 쌓이기만 합니다.

이 세 가지가 확립되면, 나머지는 점진적으로 고도화할 수 있습니다. 완벽한 설계보다 작동하는 최소한의 루프가 먼저입니다.

2026년, HITL이 진짜로 중요한 이유

마지막으로, 왜 이 용어를 2026년에 제대로 이해해야 하는지 한 가지만 더 짚겠습니다.

2026년은 AI 에이전트(Agent) 시대의 원년이라고 불립니다. AI가 단순히 질문에 답하는 수준을 넘어, 스스로 계획을 세우고 도구를 사용하고 다단계 작업을 수행하는 단계로 진입하고 있습니다. 이런 환경에서 HITL의 의미는 완전히 달라집니다.

예전에는 “AI가 만든 결과물을 사람이 검수”하면 됐습니다. 하지만 AI 에이전트는 중간 과정에서 수십 번의 의사결정을 내리고, 각 단계의 결과가 다음 단계에 영향을 미칩니다. 최종 결과물만 검수하면 이미 늦습니다. 프로세스의 중간중간에 사람이 방향을 잡아줘야 하는데, 그렇다고 매 단계마다 승인을 받으면 에이전트의 자율성이라는 장점이 사라집니다.

이 딜레마를 어떻게 풀 것인가? 이것이 2026년 HITL의 핵심 과제이고, 이 시리즈에서 앞으로 다뤄갈 주제이기도 합니다.

1화에서 이야기한 것과 연결하면

1화에서 “AI를 도입했더니 더 바빠졌다”고 했던 이유 중 하나가 바로 이것입니다. HITL을 제대로 설계하지 않으면, 사람은 AI의 검수자 역할만 떠안게 됩니다. 원래 하던 업무에 AI 검수 업무가 추가되니 당연히 바빠지죠. 하지만 HITL을 제대로 설계하면, 시간이 지나면서 AI가 맡는 영역이 넓어지고 사람은 진짜 사람만 할 수 있는 일에 집중할 수 있게 됩니다.

그 “사람만 할 수 있는 일”이 정확히 뭔지는, 이 시리즈를 통해 하나씩 풀어가겠습니다.

이번 주 한 줄 노트

“루프가 없으면 HITL이 아니다. 기록 → 반영 → 개선, 이 순환이 핵심이다.”

다음 3화에서는 AI가 잘 못하는 영역, 즉 사람의 판단이 결정적인 순간들을 실제 사례와 함께 살펴봅니다. ‘감’이라고 치부되던 경험적 직관이 AI 시대에 어떤 가치를 갖는지, 기대해주세요.

※ 이 글은 특정 기업이나 조직의 입장이 아닌, 개인의 경험과 견해를 바탕으로 작성되었습니다.