[휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일] 2/12화: 휴먼 인 더 루프, 당신이 알고 있는 뜻은 틀렸을 수 있다

지난 이야기, 그리고 오늘의 질문

지난 1화에서 저는 AI를 도입한 뒤 오히려 팀이 더 바빠진 현실을 솔직하게 털어놓았습니다. 그 글을 올린 뒤 댓글과 메시지로 가장 많이 받은 질문이 하나 있었습니다.

“그래서 ‘휴먼 인 더 루프’가 정확히 뭔데요?”

놀랍게도 이 질문을 던진 분 중 상당수가 현업 개발자, IT 기획자, 심지어 AI 관련 부서 소속이었습니다. 2026년 현재 ‘휴먼 인 더 루프(Human-in-the-Loop, 이하 HITL)’는 뉴스 기사, 채용 공고, 경영진 발표 자료 어디에나 등장하는 키워드가 되었지만, 정작 그 뜻을 정확히 이해하고 쓰는 경우는 생각보다 드뭅니다.

오늘은 이 용어가 어디서 왔고, 왜 이렇게 많이 오해되며, 실무에서 어떤 의미로 받아들여야 하는지를 20년차 금융IT 개발자이자 8년차 챗봇 운영자의 눈으로 풀어보겠습니다.

오해 1: “사람이 최종 승인 버튼을 누르면 HITL이다”

가장 흔한 오해부터 짚겠습니다. 많은 조직에서 HITL을 이렇게 정의합니다.

AI가 결과를 만든다
사람이 ‘승인’ 또는 ‘반려’ 버튼을 누른다
끝. 우리는 HITL을 하고 있다

이건 HITL이 아닙니다. 정확히 말하면 ‘Human-on-the-End(사람이 끝에 붙어 있는 것)’에 가깝습니다. 루프(Loop)라는 단어가 핵심인데, 루프가 빠져 있거든요.

루프란 순환을 의미합니다. 사람의 판단이 다시 시스템으로 돌아가서, AI의 다음 행동이나 학습에 영향을 미쳐야 비로소 ‘루프 안에 사람이 있는 것’이 됩니다. 승인 버튼만 누르는 건 단순한 관문(gate)이지, 피드백 루프가 아닙니다.

제가 챗봇을 운영하면서 겪은 사례를 하나 들어보겠습니다. 초기에 고객 문의에 대한 AI 응답을 상담원이 검토하고 ‘발송’ 버튼을 누르는 프로세스를 만들었습니다. 경영진에게 보고할 때 “HITL 프로세스를 구축했습니다”라고 자신 있게 말했죠. 그런데 6개월이 지나도 AI의 응답 품질은 나아지지 않았습니다. 왜냐하면 상담원이 반려한 응답이 어디에도 기록되지 않았고, AI 모델의 개선에 반영되지 않았기 때문입니다. 상담원은 그냥 자기가 새로 답변을 작성했고, AI는 같은 실수를 계속 반복했습니다.

승인 버튼은 HITL의 시작점일 뿐, 완성이 아닙니다.

오해 2: “HITL은 AI를 못 믿어서 하는 거다”

두 번째로 많이 접하는 오해입니다. “AI가 아직 부족하니까 사람이 붙어서 감시하는 것”이라는 인식이죠. 이 프레임으로 보면 HITL은 일종의 불신의 산물이고, AI 기술이 완벽해지면 사라져야 할 과도기적 장치가 됩니다.

하지만 현실은 정반대입니다. HITL은 AI가 잘 작동하는 시스템에서 더 중요합니다.

왜일까요? AI가 90%의 정확도로 작동하면 사람들은 나머지 10%에 주의를 기울입니다. 하지만 99%의 정확도로 작동하면? 사람들은 방심하고, 그 1%의 오류가 치명적 사고로 이어집니다. 이것을 학술적으로는 ‘자동화 편향(automation bias)’이라고 부릅니다.

금융IT에서 일하면서 이런 상황을 수없이 봤습니다. 시스템이 너무 잘 작동해서 사람들이 경계를 풀었을 때 큰 사고가 터집니다. 2026년 현재 AI 모델의 성능이 빠르게 향상되고 있는데, 그래서 HITL이 덜 필요한 게 아니라 오히려 더 정교한 HITL이 필요해진 겁니다.

HITL은 불신이 아니라 신뢰의 설계입니다. “AI를 믿지 못해서”가 아니라 “AI를 제대로 믿기 위해서” 사람이 루프 안에 있어야 합니다.

오해 3: “HITL = AI가 하고 사람이 검수한다”

세 번째 오해는 HITL의 방향성에 대한 것입니다. 대부분의 사람들이 떠올리는 그림은 이렇습니다.

AI → 결과물 → 사람(검수) → 최종 산출물

하지만 실제 HITL에는 여러 패턴이 존재합니다.

패턴 A: 사람이 먼저, AI가 보조

사람이 초안을 작성하고, AI가 검토·보완·제안합니다. 예를 들어 금융 보고서를 작성할 때, 분석가가 핵심 판단을 내리고 AI가 데이터 검증과 문장 교정을 돕는 방식입니다. 이때 사람은 루프의 시작점이자 최종 판단자입니다.

패턴 B: AI가 먼저, 사람이 조정

가장 흔히 알려진 패턴이죠. AI가 초안을 만들고 사람이 수정합니다. 하지만 여기서 핵심은 ‘수정’이 아니라 ‘조정의 결과가 다시 AI에 반영되느냐’입니다.

패턴 C: 사람과 AI가 동시에, 실시간 협업

2026년 들어 급격히 늘어난 패턴입니다. AI가 실시간으로 제안을 하고, 사람이 즉시 채택하거나 무시하며, 그 선택이 곧바로 AI의 다음 제안에 영향을 줍니다. 코드 에디터의 AI 자동완성이 대표적입니다. 개발자가 제안을 탭으로 수락하거나 무시하는 매 순간이 피드백 루프입니다.

패턴 D: 사람이 규칙을, AI가 실행을

사람이 정책·기준·가이드라인을 설정하고, AI가 그 범위 안에서 자율적으로 실행합니다. 사람의 개입은 규칙의 설계와 예외 처리에 집중됩니다. 제가 챗봇 운영에서 가장 효과적이라고 느끼는 패턴이 바로 이것입니다.

HITL은 단일한 프로세스가 아니라 사람과 AI가 상호작용하는 다양한 구조를 포괄하는 설계 철학입니다.

그래서 원래 뜻은 뭔데?

HITL이라는 개념은 사실 AI 이전부터 존재했습니다. 제조업의 품질관리, 군사 시스템의 의사결정, 의료 진단 보조 시스템 등에서 이미 수십 년간 사용되어 온 개념입니다.

핵심 정의를 정리하면 이렇습니다.

자동화된 시스템의 프로세스 안에(in the loop) 사람이 포함되어 있으며
사람의 판단·피드백·의사결정이 시스템의 작동에 실질적 영향을 미치고
그 영향이 순환적(loop)으로 시스템 개선에 반영되는 구조

세 가지 조건이 모두 충족되어야 합니다. 사람이 끝에 붙어 있기만 한 건 ‘Human-on-the-End’, 사람이 옆에서 지켜보기만 하는 건 ‘Human-on-the-Side’라고 구분하기도 합니다. 비슷해 보이지만 실무에서의 차이는 엄청납니다.

2026년에 이 용어가 특별히 오해되는 이유

HITL 개념 자체는 새로운 게 아닌데, 왜 하필 2026년에 이렇게 오해가 만연할까요? 제가 보는 이유는 세 가지입니다.

이유 1: AI 도입 속도가 이해 속도를 앞질렀다

2024년부터 시작된 기업 AI 도입 러시가 2026년 현재 본격적인 실전 단계에 접어들었습니다. 그런데 기술 도입 속도에 비해 조직의 이해 수준은 따라가지 못하고 있습니다. 경영진은 “우리도 HITL 한다”라고 말하고 싶어하고, 실무자는 뭔가 하고 있으니 HITL이라고 포장합니다. 용어가 유행하면서 정의 없이 사용되기 시작한 겁니다.

이유 2: 규제와 컴플라이언스가 용어를 왜곡했다

유럽 AI법(EU AI Act)과 각국의 AI 규제가 본격 시행되면서, “고위험 AI 시스템에는 인간 감독(human oversight)을 확보해야 한다”는 요건이 생겼습니다. 많은 기업이 이 요건을 최소한의 비용으로 충족하려다 보니, 형식적인 승인 단계를 추가하고 “HITL 완료”라고 체크하는 관행이 퍼졌습니다. 규제를 만족시키기 위한 서류상의 HITL과 실질적인 HITL 사이에 큰 간극이 생긴 셈이죠.

이유 3: ‘사람의 역할’에 대한 근본적 혼란

이것이 가장 깊은 이유라고 생각합니다. AI가 점점 더 많은 것을 할 수 있게 되면서, 조직 내에서 “그러면 사람은 뭘 해야 하는 거지?”라는 질문이 불거지고 있습니다. 이 불편한 질문에 대한 답을 제대로 내리지 않은 채, HITL이라는 용어를 가져다 “사람도 필요하다”는 답변 대용으로 쓰는 겁니다. 하지만 HITL은 “사람이 필요하다”는 당위가 아니라 “사람이 어떤 방식으로 기여하느냐”에 대한 구체적 설계입니다.

실무에서 진짜 HITL을 판별하는 5가지 질문

그렇다면 우리 조직이 진짜 HITL을 하고 있는지 어떻게 판단할 수 있을까요? 제가 8년간 챗봇을 운영하면서 다듬어 온 자가 진단 질문 5가지를 공유합니다.

질문 1: 사람의 피드백이 기록되는가?

사람이 AI 결과물을 수정하거나 반려했을 때, 그 내용이 어딘가에 구조적으로 기록되나요? 그냥 슬랙 메시지나 구두 전달로 끝나는 건 기록이 아닙니다. 수정 사유, 수정 내용, 수정 전후 비교가 데이터로 남아야 합니다.

질문 2: 기록된 피드백이 시스템 개선에 반영되는 경로가 있는가?

기록이 되더라도 그게 다음 모델 학습이나 프롬프트 튜닝, 규칙 업데이트 등에 실제로 반영되는 프로세스가 있어야 합니다. 피드백 데이터가 쌓이기만 하고 아무도 안 보면, 그건 HITL이 아니라 데이터 무덤입니다.

질문 3: 사람의 판단에 충분한 맥락이 제공되는가?

‘승인/반려’ 버튼만 있으면 판단이 아니라 추측입니다. AI가 왜 그런 결과를 냈는지, 어떤 데이터를 근거로 했는지, 신뢰도는 얼마인지 등의 맥락 정보가 함께 제공되어야 사람이 의미 있는 판단을 할 수 있습니다.

질문 4: 사람이 개입하는 시점이 적절한가?

모든 결과물을 사람이 검토하면 병목이 되고, 아무것도 검토하지 않으면 방치가 됩니다. AI의 확신도가 낮은 케이스, 금액이 큰 거래, 신규 유형의 요청 등 사람의 판단이 가장 가치 있는 지점에 개입이 집중되어야 합니다.

질문 5: 사람의 판단 품질을 측정하고 있는가?

이건 많은 분이 놓치는 부분입니다. HITL에서 사람도 루프의 일부인데, 사람의 판단이 일관적인지, 정확한지, 편향되지 않았는지를 측정하지 않으면 루프 전체의 품질을 보장할 수 없습니다. AI만 모니터링하고 사람은 모니터링하지 않는 건 반쪽짜리 품질관리입니다.

이 다섯 가지 질문에 모두 “예”라고 답할 수 있다면, 당신의 조직은 진짜 HITL을 하고 있을 가능성이 높습니다. 하나라도 “아니오”가 있다면, 개선의 여지가 있는 겁니다.

흔한 함정: “HITL 피로”

진짜 HITL을 구축했더라도 빠지기 쉬운 함정이 있습니다. 저는 이것을 ‘HITL 피로’라고 부릅니다.

챗봇 운영 초기, 상담원들에게 AI 응답을 검토하고 피드백을 남기는 프로세스를 도입했을 때의 일입니다. 처음 2주간은 상담원들이 꼼꼼하게 피드백을 남겼습니다. 수정 사유도 상세히 적고, 개선 제안도 활발했죠. 그런데 한 달이 지나자 피드백의 질이 급격히 떨어졌습니다. “문맥 안 맞음”, “부적절”, 심지어는 아무 코멘트 없이 반려만 누르는 경우가 늘었습니다.

이유는 단순했습니다. 피드백을 남겨도 달라지는 게 없었기 때문입니다.

상담원들은 매일 같은 유형의 오류에 같은 피드백을 남겼지만, AI 모델 업데이트 주기는 분기 1회였습니다. 3개월 동안 같은 말을 반복하고 있으니 당연히 지치죠. 이건 사람의 문제가 아니라 루프의 주기 설계 실패입니다.

이후 저희가 한 것은 세 가지입니다.

피드백 반영 주기를 분기에서 주간으로 단축 (프롬프트 튜닝 활용)
“당신의 피드백으로 이번 주 이런 것이 개선되었습니다”라는 피드백에 대한 피드백을 매주 공유
반복되는 유형의 피드백은 자동 태깅으로 처리하여 상담원의 수작업 부담 경감

이 세 가지를 적용한 후 피드백 품질이 눈에 띄게 회복되었습니다. HITL에서 사람은 기계 부품이 아닙니다. 자신의 기여가 의미 있다는 걸 체감해야 루프가 지속됩니다. 피드백의 루프 안에 보상의 루프도 설계해야 하는 이유입니다.

‘진짜 HITL’과 ‘가짜 HITL’이 만드는 결과의 차이

이론적인 이야기가 길었으니, 실질적인 결과 차이를 짚어보겠습니다.

가짜 HITL 조직에서 벌어지는 일

AI 도입 6개월 후에도 오류율이 그대로
사람은 점점 AI를 불신하거나, 반대로 맹신
“AI가 잘못한 거예요” vs “사람이 안 본 거예요”의 책임 공방
결국 AI를 걷어내거나, 사람을 아예 빼는 극단적 선택

진짜 HITL 조직에서 벌어지는 일

AI 정확도가 점진적이지만 꾸준히 개선
사람은 AI를 ‘신뢰하되 검증하는’ 건강한 관계 유지
AI가 잘하는 영역과 사람이 잘하는 영역이 점점 명확해짐
시간이 지나면서 사람의 역할이 단순 검수에서 전략적 판단으로 진화

두 경로의 차이는 처음에는 미미하지만, 1년이 지나면 돌이킬 수 없는 격차가 됩니다. 제가 여러 프로젝트에서 지켜본 바로는, 진짜 HITL을 설계한 팀은 18개월 차에 사람의 개입 빈도를 70% 이상 줄이면서도 전체 정확도를 높이는 단계에 도달했습니다. 반면 가짜 HITL 팀은 18개월 차에 “AI가 소용없다”며 수동 프로세스로 회귀하거나, “사람이 병목이다”며 검수를 생략하는 방향으로 갔습니다.

금융IT에서의 HITL: 좀 더 구체적인 이야기

금융IT는 HITL의 중요성이 극단적으로 드러나는 분야입니다. 돈이 오가는 시스템에서 AI의 오류는 곧 금전적 손실이니까요.

제가 경험한 몇 가지 상황을 익명화해서 공유합니다.

이상 거래 탐지에서의 HITL

AI가 이상 거래를 탐지하면 심사원이 검토합니다. 여기서 흔한 실수는 AI의 탐지 결과를 ‘맞다/아니다’로만 판단하는 것입니다. 진짜 HITL을 하려면 심사원이 “왜 이 거래가 이상하다고 판단했는지”를 AI의 설명과 대조하고, AI가 놓친 맥락(예: 고객이 해외 출장 중이라 해외 결제가 발생한 것)을 기록해서 다음 모델에 반영해야 합니다.

대출 심사에서의 HITL

AI가 대출 신청을 1차 심사하고 사람이 최종 판단을 내리는 구조가 많습니다. 그런데 심사원이 AI 판단을 그대로 따르는 비율이 97%를 넘으면, 사실상 사람은 루프 안에 있지 않습니다. 고무 도장을 찍고 있을 뿐이죠. 이런 상황에서는 AI와 사람의 판단이 다른 케이스를 의도적으로 추출해서 집중 리뷰하는 프로세스를 별도로 설계해야 합니다.

고객 상담 챗봇에서의 HITL

8년간 챗봇을 운영하면서 가장 효과적이었던 HITL 구조는 이것이었습니다. AI가 응답을 생성할 때 자체 확신도(confidence score)를 함께 출력하게 하고, 확신도가 기준 이하인 건만 사람에게 에스컬레이션하는 것입니다. 사람은 전체 대화의 10~15%만 처리하지만, 그 10~15%가 AI 혼자서는 해결할 수 없는 복잡한 케이스이기 때문에 사람의 전문성이 최대한 활용됩니다.

이 구조에서 핵심은 확신도 기준을 고정하지 않는 것입니다. 데이터를 보면서 주기적으로 조정합니다. 처음에는 확신도 80% 미만을 에스컬레이션했다가, 모델이 개선되면 70%로 낮추고, 새로운 유형의 문의가 급증하면 다시 올리는 식이죠. 이 기준 조정 자체가 HITL의 중요한 부분입니다.

HITL을 ‘올바르게’ 오해하는 법

여기까지 읽으셨다면, HITL이 생각보다 복잡한 개념이라는 걸 느끼셨을 겁니다. 완벽한 HITL을 처음부터 구현하긴 어렵습니다. 그래서 저는 “올바르게 오해하는 것”부터 시작하자고 제안합니다.

무슨 뜻이냐면, 아래 세 가지만 기억해도 대부분의 조직에서 지금보다 훨씬 나은 HITL을 실천할 수 있다는 겁니다.

첫째, ‘루프’를 의식하세요. 사람의 판단이 다시 시스템에 돌아가는지 자문하세요. 돌아가지 않으면 루프가 아닙니다.
둘째, ‘기록’을 남기세요. 사람이 뭘 했는지 기록이 없으면 개선할 수도 없습니다. 일단 기록부터 시작하세요.
셋째, ‘주기’를 정하세요. 기록된 피드백을 언제, 어떻게 시스템에 반영할지 정하세요. 주기가 없으면 피드백이 쌓이기만 합니다.

이 세 가지가 확립되면, 나머지는 점진적으로 고도화할 수 있습니다. 완벽한 설계보다 작동하는 최소한의 루프가 먼저입니다.

2026년, HITL이 진짜로 중요한 이유

마지막으로, 왜 이 용어를 2026년에 제대로 이해해야 하는지 한 가지만 더 짚겠습니다.

2026년은 AI 에이전트(Agent) 시대의 원년이라고 불립니다. AI가 단순히 질문에 답하는 수준을 넘어, 스스로 계획을 세우고 도구를 사용하고 다단계 작업을 수행하는 단계로 진입하고 있습니다. 이런 환경에서 HITL의 의미는 완전히 달라집니다.

예전에는 “AI가 만든 결과물을 사람이 검수”하면 됐습니다. 하지만 AI 에이전트는 중간 과정에서 수십 번의 의사결정을 내리고, 각 단계의 결과가 다음 단계에 영향을 미칩니다. 최종 결과물만 검수하면 이미 늦습니다. 프로세스의 중간중간에 사람이 방향을 잡아줘야 하는데, 그렇다고 매 단계마다 승인을 받으면 에이전트의 자율성이라는 장점이 사라집니다.

이 딜레마를 어떻게 풀 것인가? 이것이 2026년 HITL의 핵심 과제이고, 이 시리즈에서 앞으로 다뤄갈 주제이기도 합니다.

1화에서 이야기한 것과 연결하면

1화에서 “AI를 도입했더니 더 바빠졌다”고 했던 이유 중 하나가 바로 이것입니다. HITL을 제대로 설계하지 않으면, 사람은 AI의 검수자 역할만 떠안게 됩니다. 원래 하던 업무에 AI 검수 업무가 추가되니 당연히 바빠지죠. 하지만 HITL을 제대로 설계하면, 시간이 지나면서 AI가 맡는 영역이 넓어지고 사람은 진짜 사람만 할 수 있는 일에 집중할 수 있게 됩니다.

그 “사람만 할 수 있는 일”이 정확히 뭔지는, 이 시리즈를 통해 하나씩 풀어가겠습니다.

이번 주 한 줄 노트

“루프가 없으면 HITL이 아니다. 기록 → 반영 → 개선, 이 순환이 핵심이다.”

다음 3화에서는 AI가 잘 못하는 영역, 즉 사람의 판단이 결정적인 순간들을 실제 사례와 함께 살펴봅니다. ‘감’이라고 치부되던 경험적 직관이 AI 시대에 어떤 가치를 갖는지, 기대해주세요.

※ 이 글은 특정 기업이나 조직의 입장이 아닌, 개인의 경험과 견해를 바탕으로 작성되었습니다.

이미지는 Leonardo AI 로 생성되었습니다.

이미지는 Claude AI 로 생성되었습니다.

📚 시리즈: 휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일 (총 12화 중 2화)
◀ 이전 1화 (다음 차수는 아직 게시되지 않았습니다)