휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일-5화 보관

그날, 회의실 공기가 얼어붙었다

몇 해 전 일입니다. 한 금융 시스템의 정기 점검 리포트가 올라왔습니다. 이상 거래 탐지 모델이 특정 패턴의 거래를 ‘정상’으로 분류한 건이 수백 건 쌓여 있었습니다. 담당자에게 물었습니다. 왜 이 건들을 추가 검토 없이 넘겼느냐고. 돌아온 대답은 이랬습니다.

“모델이 정상이라고 했으니까요.”

그 한마디에 회의실이 조용해졌습니다. 틀린 말은 아니었습니다. 실제로 모델의 판정 결과가 ‘정상’이었으니까요. 하지만 그 모델은 새로 등장한 거래 패턴을 학습하지 못한 상태였고, 사람이 한 번만 눈으로 확인했더라면 걸러낼 수 있는 건들이었습니다. 결과적으로 큰 사고로 이어지지는 않았지만, 복기 과정에서 모두가 같은 질문에 부딪혔습니다.

그래서, 이 건의 책임은 누구에게 있는 건가?

모델을 만든 사람? 모델을 운영한 사람? 모델의 결과를 보고 넘긴 사람? 아니면 모델 자체?

이 시리즈의 지난 4화까지, 저는 AI 도입 이후 팀이 더 바빠진 현실(1화), ‘휴먼 인 더 루프’라는 개념의 진짜 의미(2화), 피드백 루프의 유무가 팀의 AI 활용 수준을 가르는 결정적 차이(3화), 그리고 금융 챗봇 8년의 경험에서 AI가 절대 끝맺지 못하는 일의 정체(4화)를 이야기했습니다. 오늘 5화에서는 그 모든 논의의 이면에 깔려 있는, 어쩌면 가장 불편한 주제를 꺼내려 합니다.

“AI가 시킨 대로 했어요”라는 말이 왜 그토록 위험한지. 그리고 그 한마디가 조직과 개인에게 어떤 결과를 가져오는지.

책임의 빈자리 — 아무도 서 있지 않는 그 공간

먼저 한 가지 사고 실험을 해보겠습니다. 여러분이 내비게이션을 켜고 운전하고 있다고 상상해 보세요. 내비게이션이 “300미터 앞에서 우회전”이라고 안내합니다. 그런데 그 우회전 도로가 공사 중이고, 바리케이드가 쳐져 있습니다. 이때 여러분은 어떻게 하시겠습니까?

대부분의 사람은 당연히 우회전하지 않습니다. 눈으로 보이는 현실이 내비게이션의 안내와 다르다는 걸 알기 때문입니다. 그리고 만약 누군가가 바리케이드를 무시하고 들이받은 뒤 “내비게이션이 가라고 했어요”라고 말한다면, 아무도 그 사람의 편을 들어주지 않을 겁니다.

그런데 신기한 일이 벌어지고 있습니다. 같은 사람이 업무 현장에서 AI 도구의 출력을 받아 들고는, 자신의 전문적 판단을 내려놓습니다. 내비게이션 앞에서는 자연스럽게 작동하던 ‘상식 필터’가, AI 앞에서는 어딘가로 사라져 버리는 겁니다.

왜 그럴까요?

자동화 편향 — 기계가 말하면 더 믿는 심리

심리학에는 자동화 편향(Automation Bias)이라는 개념이 있습니다. 자동화된 시스템의 출력을 과도하게 신뢰하는 인지 편향입니다. 이 개념 자체는 새로운 것이 아닙니다. 항공 분야에서는 1990년대부터 오토파일럿에 대한 과신이 사고로 이어지는 사례를 연구해 왔습니다. 의료 분야에서도 전자 처방 시스템의 경고를 맹목적으로 따르거나, 반대로 ‘경고 피로’로 전부 무시하는 현상이 오래전부터 알려져 있었습니다.

그런데 생성형 AI 시대에 이 편향은 한 차원 더 위험해졌습니다. 이유가 있습니다.

출력의 그럴듯함: 과거 자동화 시스템은 숫자나 코드로 결과를 내놓았습니다. ‘이상 거래 확률 0.87’ 같은 식이었죠. 사람이 해석해야 하는 여지가 있었습니다. 하지만 지금의 AI는 자연어로, 마치 사람처럼 설명합니다. “이 거래는 정상적인 패턴입니다. 과거 6개월간의 거래 이력을 분석한 결과, 금액 편차가 허용 범위 내에 있으며…” 이런 식으로요. 그럴듯한 설명이 붙으면 의심하기가 훨씬 어려워집니다.
전문성의 환상: AI가 내놓는 답변이 자신의 전문 영역 밖에 있을 때, 사람은 더 쉽게 그 답을 수용합니다. “나는 모르지만 AI는 알겠지”라는 생각이 작동하는 겁니다. 그런데 재밌는 건, 자기 전문 영역 안에서조차 AI의 출력에 자신의 판단을 양보하는 사례가 늘고 있다는 겁니다.
책임 회피의 유혹: 이것이 핵심입니다. 내가 직접 판단하면 틀렸을 때 온전히 내 책임입니다. 하지만 “AI가 그렇게 말했어요”라고 하면, 심리적으로 책임의 일부를 AI에게 넘길 수 있다는 착각이 생깁니다. 조직 내에서 실제로 이 전략이 통할 때도 있고요. 적어도 단기적으로는.

이건 게으름의 문제가 아니다

여기서 오해하지 말아야 할 것이 있습니다. “AI가 시킨 대로 했어요”라고 말하는 사람이 반드시 게으르거나 무능한 사람은 아닙니다. 오히려 성실하고 유능한 사람도 이 함정에 빠집니다. 아니, 성실한 사람이기 때문에 더 쉽게 빠지기도 합니다.

생각해 보세요. 조직에서 AI 도구를 도입하며 이렇게 말합니다. “앞으로 이 도구를 활용해서 업무 효율을 높이세요.” 성실한 직원은 그 지시를 충실히 따릅니다. AI 도구를 열심히 활용합니다. AI가 내놓은 결과를 기반으로 보고서를 작성하고, 의사결정 자료를 만듭니다. 그런데 그 과정에서 “AI의 출력을 검증하세요”라는 가이드라인은 구체적이지 않았습니다. 어디까지 검증해야 하는지, 무엇을 기준으로 판단해야 하는지 알려준 사람이 없었습니다.

결국 이 사람은 최선을 다해 도구를 활용한 것뿐인데, 문제가 터지면 책임을 져야 하는 상황에 놓입니다. 이것은 개인의 실패가 아니라 시스템의 실패입니다. 그리고 바로 이 지점에서, 이전 회차들에서 이야기한 주제들이 하나로 모입니다.

2화에서 ‘휴먼 인 더 루프’의 진짜 의미를 이야기했습니다. 사람이 루프 안에 있다는 건 단순히 ‘사람이 끼어 있다’는 뜻이 아니라, 사람이 의미 있는 판단 권한과 책임을 가지고 있다는 뜻이라고요. 3화에서는 피드백 루프가 있는 팀이 AI를 더 잘 쓴다고 했습니다. 4화에서는 AI가 끝맺지 못하는 일 — 최종 책임을 지는 일 — 이 있다고 했고요.

오늘 이야기하는 “AI가 시킨 대로 했어요”는, 이 모든 것이 무너질 때 나오는 말입니다. 사람이 루프 안에 있지만 판단은 내려놓았을 때, 피드백 루프가 끊겼을 때, AI가 끝맺지 못하는 일을 아무도 끝맺지 않았을 때.

현장에서 본 다섯 가지 풍경

금융IT에서 20년을 일하면서, 그리고 챗봇 운영 8년 동안, 저는 “AI(또는 자동화 시스템)가 시킨 대로 했어요”와 본질적으로 같은 상황을 여러 번 목격했습니다. 물론 구체적인 회사나 프로젝트를 말씀드릴 수는 없지만, 패턴화해서 공유할 수 있는 수준으로 이야기하겠습니다.

풍경 1: 자동 분류의 맹점

고객 문의를 자동으로 분류하는 시스템이 있었습니다. 들어오는 문의를 카테고리별로 나누고, 적절한 담당 부서로 배분하는 역할이었습니다. 시스템의 정확도는 꽤 높았습니다. 95% 이상이었으니까요. 문제는 나머지 5%에서 벌어졌습니다.

시스템이 ‘일반 문의’로 분류한 건 중에, 실제로는 긴급한 민원이 섞여 있었습니다. 담당자들은 시스템의 분류를 그대로 따라 처리 우선순위를 정했고, 긴급 건이 묻혔습니다. 나중에 이 건이 문제가 됐을 때, 실무자의 첫 반응은 이랬습니다. “시스템이 일반 문의로 분류했는데요.”

맞는 말이었습니다. 시스템이 그렇게 분류한 건 사실이니까요. 그런데 그 시스템의 한계를 알고 있었고, 5%의 오분류가 존재한다는 것도 알고 있었던 사람은 바로 그 실무자였습니다. 시스템을 누구보다 잘 아는 사람이, 시스템의 판단을 무비판적으로 따른 거였습니다.

풍경 2: 보고서 생성의 함정

분석 도구가 자동으로 생성하는 보고서를 그대로 경영진에게 올린 사례가 있었습니다. 도구가 만든 보고서의 수치 자체는 맞았습니다. 하지만 그 수치가 의미하는 바에 대한 맥락 — 예를 들어 특정 기간에 시스템 장애가 있었기 때문에 데이터가 왜곡되었다는 사실 — 은 빠져 있었습니다. 도구는 그런 맥락을 알 수 없으니까요.

경영진은 그 보고서를 기반으로 의사결정을 내렸고, 나중에 맥락이 빠져 있었다는 게 드러났을 때 난감해진 건 보고서를 올린 사람이었습니다. “도구가 생성한 보고서입니다”라는 말은 변명이 되지 못했습니다. 맥락을 아는 사람은 도구가 아니라 사람이었으니까요.

풍경 3: 추천 시스템의 그림자

고객에게 금융 상품을 추천하는 시스템이 있었습니다. 시스템은 고객의 거래 이력, 자산 규모, 위험 선호도 등을 분석해서 적합한 상품을 추천했습니다. 대부분의 경우 추천은 합리적이었습니다. 하지만 한 가지 문제가 있었습니다. 시스템은 고객의 최근 상황 변화를 반영하지 못했습니다.

예를 들어, 얼마 전 큰 병원비를 지출한 고객, 최근 퇴직한 고객, 가족 구성이 바뀐 고객. 이런 변화는 데이터에 즉시 반영되지 않거나, 반영되더라도 시스템이 해석하지 못하는 영역이었습니다. 상담사가 고객과 대화하면서 파악할 수 있는 정보였지만, 시스템의 추천을 그대로 따라간 경우가 있었습니다.

“시스템 추천 상품이에요”라는 말은, 고객 입장에서는 아무런 위안이 되지 않습니다.

풍경 4: 코드 리뷰의 새로운 맹점

이건 좀 더 최근의 이야기입니다. 개발 현장에서 AI 코딩 어시스턴트를 활용하는 경우가 늘었습니다. 생산성이 올라간 건 사실입니다. 하지만 새로운 패턴이 나타났습니다. AI가 생성한 코드를 리뷰하는 사람이 “AI가 작성한 코드니까 어느 정도는 괜찮겠지”라는 전제를 무의식중에 깔고 리뷰를 시작하는 겁니다.

사람이 처음부터 작성한 코드를 리뷰할 때는 꼼꼼히 보던 리뷰어가, AI가 생성한 코드 앞에서는 경계심이 느슨해지는 현상. 이것도 자동화 편향의 일종입니다. AI가 만든 코드에 보안 취약점이나 논리 오류가 있을 수 있다는 가능성을 과소평가하게 되는 거죠.

문제가 터졌을 때 “AI가 작성한 코드인데요”라는 말은, 코드 리뷰를 통과시킨 사람의 책임을 면제해 주지 않습니다. 리뷰어의 역할은 코드의 출처와 무관하게 품질을 보증하는 것이니까요.

풍경 5: 챗봇의 ‘최종 답변’

이건 제가 가장 오래 지켜본 영역입니다. 금융 챗봇이 고객에게 답변을 내놓습니다. 대부분은 정확합니다. 하지만 미묘한 영역 — 세금 관련 질문, 상품 약관의 예외 조건, 규제 변경에 따른 과도기적 처리 — 에서는 챗봇이 확신에 찬 어조로 부정확한 답변을 내놓을 때가 있습니다.

운영 초기에는 이런 건들을 사람이 전수 모니터링했습니다. 하지만 시간이 지나면서 챗봇의 정확도가 올라가자, 모니터링 빈도가 줄었습니다. “이제 챗봇이 충분히 잘 하니까”라는 판단이었죠. 그러다 규제 변경이 있었고, 챗봇은 변경 전의 정보로 한동안 답변을 계속했습니다. 발견됐을 때 이미 상당수의 고객이 잘못된 안내를 받은 뒤였습니다.

“챗봇이 그렇게 답변했어요”는 고객에게도, 규제 당국에게도 통하지 않는 변명이었습니다. 챗봇을 운영하는 주체가 사람이고, 그 사람이 모니터링 책임을 가지고 있었으니까요.

책임의 체인이 끊어지는 구조

다섯 가지 풍경에서 공통적으로 발견되는 패턴이 있습니다. 저는 이것을 ‘책임 체인의 단절’이라고 부릅니다.

전통적인 업무 환경에서 책임의 체인은 비교적 명확했습니다. 의사결정을 내린 사람이 있고, 그 결정을 실행한 사람이 있고, 그 실행의 결과를 확인한 사람이 있습니다. 각 단계마다 책임의 소재가 분명합니다. 결정이 잘못되면 결정자의 책임, 실행이 잘못되면 실행자의 책임, 확인을 놓치면 확인자의 책임.

그런데 AI가 이 체인에 들어오면 묘한 일이 벌어집니다.

결정은 누가 했는가?

AI가 추천하고 사람이 승인했다면, 이것은 AI의 결정인가, 사람의 결정인가? 법적으로는 명확합니다. 사람의 결정입니다. 승인 버튼을 누른 건 사람이니까요. 하지만 실질적으로는 어떨까요?

만약 사람이 AI의 추천을 이해하지 못한 채 승인했다면? AI의 추천 근거를 검토할 시간이 없어서 그냥 넘겼다면? AI의 추천을 뒤집을 권한이나 자신감이 없었다면?

이런 상황에서 “승인한 건 사람이니 사람의 책임”이라고 말하는 건, 형식적으로는 맞지만 실질적으로는 공허합니다. 사람이 의미 있는 판단을 할 수 있는 조건이 갖춰지지 않은 상태에서의 ‘승인’은, 진정한 의미의 ‘결정’이 아닙니다.

실행은 누가 했는가?

AI가 작성한 이메일을 사람이 보냈다면, 실행의 주체는 누구인가? AI가 생성한 코드를 사람이 배포했다면? AI가 추천한 투자 전략을 사람이 고객에게 안내했다면?

여기서도 법적·형식적 책임은 사람에게 있습니다. 하지만 실무 현장에서는, AI의 출력을 ‘실행’하는 사람이 점점 더 ‘전달자’의 역할로 축소되는 경향이 있습니다. AI가 만든 것을 전달하는 사람. 그 사람은 자신을 ‘실행자’가 아니라 ‘중간 매개체’로 인식하게 됩니다. 그리고 중간 매개체는 내용물에 대한 책임을 느끼지 않습니다.

확인은 누가 했는가?

이것이 가장 위험한 지점입니다. AI의 출력을 ‘확인’한다는 것은 무엇을 의미할까요? AI가 100건의 보고서를 생성했다면, 사람이 100건을 전부 한 줄 한 줄 검토해야 할까요? 그렇다면 AI를 쓰는 의미가 뭘까요?

여기서 현실적인 딜레마가 발생합니다. AI를 쓰는 이유는 효율을 높이기 위해서인데, 그 출력을 전부 사람이 확인해야 한다면 효율이 떨어집니다. 그래서 현장에서는 자연스럽게 확인 단계가 간소화됩니다. 100건 중 샘플 10건만 확인하거나, 아예 확인을 생략하거나.

이렇게 되면 책임 체인의 마지막 고리인 ‘확인’ 단계가 사실상 사라집니다. 그리고 문제가 터졌을 때, 아무도 “내가 확인했다”고 말할 수 없는 상황이 됩니다.

“AI가 시킨 대로 했어요”의 네 가지 변형

현장에서 이 말은 다양한 형태로 등장합니다. 겉모습은 다르지만 본질은 같습니다. 의사결정의 실질적 주체가 사람에서 기계로 이동한 상태를 정당화하는 말.

변형 1: “데이터가 그렇게 말하고 있습니다”

AI를 직접 언급하지 않지만, AI가 분석한 데이터를 근거로 제시하면서 자신의 판단은 빼는 패턴입니다. “데이터 기반 의사결정”이라는 좋은 원칙이, 실제로는 “데이터(= AI의 분석 결과) 뒤에 숨기”로 변질되는 경우입니다.

데이터 기반 의사결정은 데이터를 참고하되 최종 판단은 사람이 내리는 것이지, 데이터가 가리키는 대로 무조건 따르는 것이 아닙니다. 데이터에는 항상 맥락이 필요하고, 그 맥락을 제공하는 것은 사람의 경험과 판단입니다.

변형 2: “프로세스대로 처리했습니다”

AI가 포함된 업무 프로세스를 따랐다는 의미입니다. 프로세스에 ‘AI 추천 결과 확인 → 승인 → 실행’이라는 단계가 있고, 그 단계를 밟았다는 거죠. 하지만 ‘확인’이 형식적이었다면, 프로세스를 따른 것과 프로세스가 의도한 바를 충족한 것은 다릅니다.

이건 AI 이전에도 있던 문제입니다. 체크리스트를 기계적으로 체크하기만 하고 실제로는 확인하지 않는 현상. 하지만 AI가 들어오면서 체크해야 할 항목의 양과 복잡도가 늘어났고, 형식적 확인의 유혹이 더 커졌습니다.

변형 3: “최신 기술을 활용한 결과입니다”

기술의 신뢰성을 빌려 자신의 판단을 보강하는 패턴입니다. “AI 분석”이라는 수식어가 붙으면 보고서의 무게감이 달라지는 조직 문화가 이 변형을 부추깁니다. 하지만 분석 도구가 아무리 최신이라도, 그 도구에 어떤 데이터를 넣었고, 어떤 전제 하에 결과를 해석했는지는 사람의 영역입니다.

변형 4: “이전에도 이 모델로 잘 해왔습니다”

과거의 성공이 미래의 성공을 보장한다는 착각입니다. 특히 금융 분야에서 이 변형은 치명적입니다. 모델은 학습된 과거 데이터에 기반하고, 시장 환경은 끊임없이 변합니다. “지금까지 잘 됐으니까 앞으로도 괜찮겠지”라는 생각이 가장 위험한 순간은, 바로 환경이 변하기 시작한 지점입니다.

2화에서 이야기한 것처럼, 휴먼 인 더 루프의 핵심은 사람이 지속적으로 판단을 업데이트하는 것입니다. 과거의 판단을 반복하는 것이 아닙니다.

이것은 새로운 문제인가, 오래된 문제인가

솔직히 말하겠습니다. “기계/시스템이 그렇게 말했어요”는 AI 시대에 처음 등장한 말이 아닙니다.

엑셀 스프레드시트의 수식이 틀렸는데 그대로 보고서를 올린 적, ERP 시스템이 잘못된 재고 수량을 보여줬는데 확인 없이 발주한 적, 자동화된 신용 평가 점수를 기계적으로 적용한 적. 이런 일들은 AI가 등장하기 한참 전부터 있었습니다.

그렇다면 AI 시대에 달라진 것은 무엇일까요? 세 가지가 다릅니다.

첫째, 범위와 속도

과거의 자동화 시스템은 특정 업무, 특정 영역에 한정되어 있었습니다. 엑셀은 계산을, ERP는 재고 관리를, 신용 평가 모델은 대출 심사를 다루었습니다. 각 시스템의 영향 범위가 명확했고, 문제가 생겼을 때 영향을 받는 범위도 제한적이었습니다.

하지만 지금의 AI는 범용적입니다. 이메일 작성, 문서 요약, 코드 생성, 데이터 분석, 고객 응대, 전략 수립까지. 거의 모든 업무 영역에 걸쳐 있습니다. 그리고 그 속도가 빠릅니다. AI가 하루에 처리하는 건수는 사람이 일주일에 처리하는 건수를 넘기기도 합니다. 영향 범위가 넓고 속도가 빠르다는 것은, 잘못됐을 때의 파급력도 그만큼 크다는 뜻입니다.

둘째, 판단의 영역으로의 확장

과거의 자동화는 주로 ‘실행’의 영역이었습니다. 계산, 분류, 전송, 기록. 이런 것들이요. 판단은 여전히 사람의 몫이었습니다. 하지만 지금의 AI는 ‘판단’의 영역에도 발을 들이고 있습니다. 무엇을 해야 하는지를 추천하고, 어떻게 해야 하는지를 제안하고, 왜 그래야 하는지를 설명합니다.

‘실행’을 자동화했을 때는, 사람의 역할이 ‘판단’으로 명확하게 남아 있었습니다. 하지만 ‘판단’까지 AI가 제안하기 시작하면, 사람의 역할이 ‘판단의 판단’ — 즉, AI의 판단이 맞는지를 판단하는 메타 수준의 역할로 올라갑니다. 이것은 훨씬 더 어려운 일이고, 훈련이 필요한 일입니다.

셋째, 설명의 착각

과거의 자동화 시스템은 결과만 내놓았습니다. ‘합계: 1,234,567원’. 사람은 이 결과가 어떻게 나왔는지를 스스로 추적해야 했고, 그 과정에서 자연스럽게 검증이 이루어졌습니다.

하지만 지금의 AI는 결과와 함께 설명을 내놓습니다. 그리고 그 설명이 대개 그럴듯합니다. 문제는, 그럴듯한 설명이 반드시 정확한 설명은 아니라는 것입니다. AI가 논리정연하게 A 때문에 B이고, B 때문에 C라고 설명하면, 사람은 ‘아, 그렇구나’라고 납득하기 쉽습니다. 하지만 A라는 전제 자체가 틀렸을 수 있고, A에서 B로의 연결이 실제로는 성립하지 않을 수 있습니다.

설명이 붙으면 검증이 더 쉬워져야 하는데, 역설적으로 설명이 그럴듯하면 검증 동기 자체가 줄어듭니다. “이렇게 잘 설명하는데, 틀릴 리가 있겠어?”라는 생각이 작동하는 거죠.

그래서 누구의 책임인가 — 불편하지만 명확한 답

이 질문에 대한 답은 불편하지만 명확합니다. AI의 출력을 기반으로 행동한 결과에 대한 책임은, 그 행동을 한 사람(그리고 그 사람이 속한 조직)에게 있습니다.

이건 “사람을 탓하겠다”는 뜻이 아닙니다. 오히려 반대입니다. 이 원칙이 의미하는 바는, 사람이 AI의 출력에 대해 의미 있는 판단을 할 수 있는 조건을 조직이 보장해야 한다는 것입니다.

다시 내비게이션 비유로 돌아가겠습니다. 운전자에게 “내비게이션이 잘못 안내할 수 있으니 주의하세요”라고 말하는 것은 쉽습니다. 하지만 그 운전자가 처음 가는 길이고, 밤이고, 비가 오고, 시야가 나쁘다면? “주의하세요”만으로는 부족합니다. 내비게이션의 한계를 알려주고, 대안 경로를 미리 보여주고, 공사 구간 정보를 업데이트해 주는 것이 시스템 차원의 지원입니다.

마찬가지로, AI를 활용하는 실무자에게 “AI 출력을 맹신하지 마세요”라고 말하는 것은 시작에 불과합니다. 진짜 필요한 것은 다음입니다:

무엇을 확인해야 하는지 구체적으로 알려주는 것
어떻게 확인할 수 있는지 도구와 방법을 제공하는 것
확인할 시간을 업무 프로세스 안에 확보해 주는 것
AI의 판단을 뒤집을 권한을 명확히 부여하는 것
AI의 판단을 뒤집었을 때 불이익이 없다는 것을 보장하는 것

이 다섯 가지가 갖춰지지 않은 상태에서 “AI가 시킨 대로 했어요”라는 말이 나왔다면, 그것은 개인의 실패가 아니라 조직의 실패입니다. 그리고 그 조직의 실패를 개인에게 전가하는 것은, “AI가 시킨 대로 했어요”만큼이나 무책임한 일입니다.

금융 현장에서 배운 것들 — 사후 추적이 아닌 사전 설계

금융IT에서 20년을 일하면서 한 가지 확실히 배운 것이 있습니다. 사고가 터진 뒤에 “누구 책임이야?”를 따지는 것은, 이미 늦은 것이라는 점입니다. 진짜 중요한 것은 책임의 소재가 명확한 구조를 사전에 설계하는 것입니다.

금융 규제 환경에서는 이런 설계가 법적으로 강제됩니다. 어떤 의사결정이 어떤 근거로, 누구에 의해, 언제 이루어졌는지를 기록해야 하고, 그 기록을 일정 기간 보존해야 합니다. 이것을 ‘감사 추적(Audit Trail)’이라고 부릅니다.

AI 시대에도 이 원칙은 변하지 않습니다. 오히려 더 중요해졌습니다. AI가 의사결정 과정에 개입하면서, 기록해야 할 것이 더 늘어났습니다.

기록해야 할 것: AI의 입력과 출력

AI에게 어떤 데이터를 넣었고(입력), AI가 무엇을 내놓았고(출력), 사람이 그 출력을 어떻게 처리했는지(행동). 이 세 가지가 기록되어야 합니다. 특히 사람이 AI의 출력을 수정하거나 거부한 경우, 그 이유가 함께 기록되어야 합니다.

이건 감시가 아니라 보호입니다. 나중에 문제가 생겼을 때, “당시 AI는 이렇게 추천했고, 담당자는 이러이러한 이유로 그 추천을 수정했다”라는 기록이 있으면, 담당자의 판단이 합리적이었음을 입증할 수 있습니다. 기록이 없으면, “왜 AI 추천을 안 따랐어요?” 또는 “왜 AI 추천을 그대로 따랐어요?” 어느 쪽이든 방어가 어려워집니다.

설계해야 할 것: 판단의 기준

AI의 출력을 받은 사람이 무엇을 기준으로 수용/거부/수정을 결정할지, 그 기준이 미리 정의되어야 합니다. 모든 경우를 다 정의할 수는 없지만, 최소한 다음은 있어야 합니다:

자동 수용 가능 조건: AI의 출력을 추가 검토 없이 수용해도 되는 명확한 조건. 예: 금액이 X 이하이고, 기존 고객이며, 과거 12개월간 유사 거래 이력이 있는 경우.
필수 검토 조건: AI의 출력과 무관하게 반드시 사람이 검토해야 하는 조건. 예: 금액이 Y 이상, 신규 거래 유형, 규제 변경 이후 첫 거래.
자동 거부(또는 에스컬레이션) 조건: AI의 출력이 특정 기준에 부합하지 않으면 자동으로 상위 검토로 넘기는 조건.

이런 기준이 있으면, 실무자는 “판단해야 하는 영역”과 “따라가도 되는 영역”을 구분할 수 있습니다. 그리고 판단해야 하는 영역에 집중할 수 있습니다.

보장해야 할 것: 거부의 안전성

이건 문화의 문제입니다. AI의 추천을 거부하는 것이 칭찬받는 행동인지, 아니면 “왜 AI를 안 써?” 라는 질책을 받는 행동인지. 조직의 문화가 후자라면, 아무리 좋은 기준과 프로세스가 있어도 사람은 AI의 출력을 그대로 따를 수밖에 없습니다.

3화에서 피드백 루프를 이야기하면서, AI를 잘 쓰는 팀은 “AI의 출력에 이의를 제기하는 것”이 자연스러운 팀이라고 했습니다. 이건 기술의 문제가 아니라 문화의 문제입니다. 그리고 문화는 리더의 행동에서 시작됩니다.

리더가 “AI가 뭐라고 했어?”라고 물으면, 팀원들은 AI의 답을 전달하는 데 집중합니다. 리더가 “AI는 뭐라고 했고, 당신은 어떻게 생각해?”라고 물으면, 팀원들은 자신의 판단을 함께 준비합니다. 질문 하나의 차이가 문화를 바꿉니다.

실무자를 위한 자기 점검 — 나는 판단하고 있는가, 전달하고 있는가

여기서부터는 조직 차원이 아니라 개인 차원의 이야기입니다. 조직이 완벽한 구조를 갖추기 전에도, 실무자로서 스스로 할 수 있는 것들이 있습니다.

점검 1: 내가 설명할 수 있는가?

AI가 내놓은 결과를 다른 사람에게 설명할 수 있는지 자문해 보세요. “AI가 그렇게 말했어요”가 아니라, “이 결과는 이러이러한 근거에서 나온 것이고, 나는 이런 이유로 이 결과가 타당하다고 판단합니다”라고 말할 수 있는지.

설명할 수 없다면, 그건 이해하지 못한 것입니다. 이해하지 못한 것을 그대로 전달하면, 그건 판단이 아니라 전달입니다. 전달자는 책임을 지기 어렵습니다. 왜냐하면 자신이 무엇에 대해 책임을 지는지를 모르기 때문입니다.

점검 2: 내가 뒤집을 수 있는가?

AI의 결과가 내 전문적 직관과 다를 때, 나는 AI를 뒤집을 수 있는가? 뒤집을 권한이 있는가? 뒤집을 자신감이 있는가?

권한의 문제는 조직에 요청해야 합니다. 하지만 자신감의 문제는 자신의 전문성에 대한 믿음에서 옵니다. AI 시대에 전문성의 가치가 떨어지는 것이 아닙니다. 오히려 올라갑니다. AI가 줄 수 없는 것 — 맥락 이해, 암묵지, 예외 상황에 대한 직관 — 이 바로 전문가의 고유한 가치니까요.

AI가 “정상”이라고 했는데 뭔가 찝찝한 느낌이 들 때, 그 찝찝함을 무시하지 마세요. 20년간 쌓아온 경험이 보내는 신호일 수 있습니다. 물론 매번 찝찝함이 맞는 것은 아닙니다. 하지만 찝찝할 때 한 번 더 들여다보는 것과, 찝찝함을 무시하고 AI를 따르는 것 사이에는 큰 차이가 있습니다.

점검 3: 내가 기록하고 있는가?

AI의 출력을 받아 행동할 때, 최소한 다음을 기록하는 습관을 들여보세요:

AI에게 무엇을 물었는가 (입력)
AI가 무엇을 내놓았는가 (출력)
나는 어떤 판단을 했는가 (행동과 근거)

거창한 기록일 필요 없습니다. 메모장 한 줄이라도 충분합니다. 이 기록은 나중에 내 판단이 합리적이었음을 증명하는 근거가 됩니다. 그리고 기록하는 행위 자체가, 무의식적으로 AI의 출력을 한 번 더 되돌아보게 만듭니다.

점검 4: 나는 ‘AI를 안 쓰는 것’과 ‘AI에 묻혀 있는 것’ 사이에서 균형을 잡고 있는가?

한 가지 분명히 해야 할 것이 있습니다. 이 글의 메시지는 “AI를 쓰지 마라”가 아닙니다. AI를 쓰되, 판단의 주체로 남아라는 것입니다.

AI를 전혀 쓰지 않는 것도, AI에 모든 것을 위임하는 것도 극단입니다. 건강한 위치는 그 사이 어딘가에 있습니다. AI를 적극적으로 활용하면서도, 최종 판단은 내가 내리고, 그 판단에 대한 책임을 지는 것. 이것이 2화에서 이야기한 ‘휴먼 인 더 루프’의 실천적 의미입니다.

조직을 위한 제언 — ‘책임 설계’라는 새로운 업무

이제 조직 차원으로 시선을 넓혀 보겠습니다. AI 시대에 조직이 새로 해야 할 일이 하나 있습니다. 저는 이것을 ‘책임 설계(Accountability Design)’라고 부릅니다.

책임 설계란 무엇인가

AI를 도입한 업무 프로세스에서, 의사결정의 각 단계마다 “이 단계의 판단 책임은 누구에게 있는가?”를 명시적으로 정의하는 것입니다. 기존에도 업무 분장이라는 개념은 있었지만, AI가 들어오면서 기존의 업무 분장만으로는 커버되지 않는 영역이 생겼습니다.

예를 들어 보겠습니다. 기존 프로세스가 이랬다면:

[데이터 수집] → [분석] → [보고서 작성] → [검토] → [승인]

각 단계의 책임자가 명확했습니다. 그런데 AI가 들어오면 이렇게 됩니다:

[데이터 수집] → [AI 분석] → [AI 보고서 초안 생성] → [사람 검토] → [승인]

여기서 질문이 생깁니다. [AI 분석] 단계의 책임은 누구에게 있는가? AI가 잘못된 분석을 내놓으면? [AI 보고서 초안 생성]에서 잘못된 내용이 들어가면? [사람 검토]에서 그 잘못을 못 잡으면?

책임 설계는 이런 질문에 미리 답을 준비하는 것입니다:

AI 입력의 책임: AI에게 적절한 데이터를 제공하는 것은 누구의 책임인가? (데이터 품질 관리자)
AI 출력의 1차 검증 책임: AI의 출력이 기본적인 품질 기준을 충족하는지 확인하는 것은 누구의 책임인가? (AI 운영자 또는 도메인 전문가)
최종 판단의 책임: AI의 출력을 기반으로 최종 의사결정을 내리는 것은 누구의 책임인가? (의사결정 권한을 가진 사람)
모니터링의 책임: AI의 성능이 시간이 지나면서 변하지 않는지, 새로운 유형의 오류가 발생하지 않는지 지속적으로 확인하는 것은 누구의 책임인가? (AI 운영팀 또는 품질 관리팀)

책임 설계의 원칙

몇 가지 원칙을 제안합니다. 이건 금융IT에서의 경험에서 추출한 것이지만, 다른 분야에서도 적용 가능하다고 생각합니다.

원칙 1: 책임은 항상 사람에게 귀속된다.

당연한 말 같지만, 이것이 명시되지 않으면 “AI 시스템의 문제”라는 애매한 귀결이 반복됩니다. 시스템의 문제라는 말은 곧 아무도의 문제가 아니라는 말이 될 수 있습니다.

원칙 2: 책임의 크기는 판단의 무게에 비례한다.

AI의 출력을 단순 전달하는 역할과, AI의 출력을 해석하고 최종 결정을 내리는 역할은 다릅니다. 후자에게 더 큰 권한과 책임이 있어야 합니다. 그리고 더 큰 보상도.

원칙 3: 책임을 지려면 권한이 있어야 한다.

AI의 출력을 뒤집을 권한 없이 책임만 지우는 것은 불공정합니다. 책임을 묻기 위해서는, 그 사람이 다르게 행동할 수 있었는지를 먼저 확인해야 합니다.

원칙 4: 책임 설계는 문서화되어야 한다.

구두 약속이나 암묵적 이해로는 부족합니다. “이 프로세스에서 AI 출력의 최종 검증 책임은 OO 역할에게 있다”는 것이 문서로 남아야 합니다. 그래야 나중에 분쟁이 생겼을 때 기준이 됩니다.

원칙 5: 책임 설계는 정기적으로 업데이트되어야 한다.

AI의 능력이 변하고, 업무 환경이 변하고, 규제가 변합니다. 한 번 설계하고 끝이 아닙니다. 정기적으로 “이 책임 분배가 아직 유효한가?”를 검토해야 합니다.

불편한 진실 — AI 시대에 더 필요한 것은 ‘용기’다

이 글을 쓰면서 계속 돌아오는 단어가 있습니다. 용기. 거창한 의미가 아닙니다. 일상적인 업무 현장에서의 작은 용기들.

AI가 “이렇게 하세요”라고 했을 때, “잠깐, 이건 좀 다시 볼게요”라고 말하는 용기. AI가 생성한 보고서를 받았을 때, “이 부분의 근거가 확실한가요?”라고 묻는 용기. AI의 추천을 거부하고, “내 경험상 이건 아닌 것 같습니다”라고 말하는 용기.

이런 용기가 필요한 이유는, AI의 출력에 이의를 제기하는 것이 때로는 비효율적으로 보이기 때문입니다. “AI가 다 해줬는데 왜 다시 확인해?” “시간 낭비 아니야?” 이런 반응이 올 수 있습니다. 단기적으로는 맞는 말입니다. AI의 출력을 그대로 쓰면 더 빠르니까요.

하지만 한 번 사고가 터지면, 그동안 아낀 시간은 의미가 없어집니다. 금융 현장에서 이런 사례를 너무 많이 봤습니다. 1년 동안 아낀 시간을, 한 번의 사고 대응에 몇 배로 쏟아붓는 상황. 그리고 그 사고의 원인을 추적하면, 결국 “누군가가 확인을 안 한 것”으로 귀결되는 상황.

“AI가 시킨 대로 했어요”라는 말이 무서운 진짜 이유는, 그 말 속에 판단의 포기, 책임의 회피, 그리고 전문성에 대한 자기 부정이 모두 들어 있기 때문입니다.

그래도 희망이 있다 — 변화의 조짐들

어두운 이야기만 하면 숨이 막히니, 밝은 이야기도 하겠습니다.

현장에서 변화의 조짐이 보입니다. AI를 도입한 초기의 열광이 가라앉고, “잘 쓰려면 어떻게 해야 하는가”에 대한 진지한 고민이 시작되고 있습니다.

몇 가지 긍정적인 변화를 봤습니다:

AI 출력에 대한 ‘이의 제기 문화’를 의도적으로 만드는 팀. 매주 팀 미팅에서 “이번 주에 AI의 출력을 뒤집은 사례”를 공유하는 시간을 갖습니다. 이렇게 하면 AI에 이의를 제기하는 것이 자연스러운 일이 됩니다.
AI 출력의 ‘신뢰도 라벨링’을 도입한 팀. AI의 출력에 “높은 신뢰도 / 중간 신뢰도 / 낮은 신뢰도” 라벨을 붙이고, 낮은 신뢰도 건은 반드시 사람이 검토하도록 프로세스를 설계했습니다.
‘AI 출력 검증’을 KPI에 포함시킨 팀. AI의 출력을 얼마나 빨리 처리했는가가 아니라, AI의 출력을 검증하여 오류를 몇 건 잡아냈는가를 성과 지표에 넣었습니다.
AI 도입 전에 ‘책임 매트릭스’를 먼저 설계하는 팀. 기술 도입보다 책임 구조 설계가 먼저입니다.

이 팀들의 공통점은, AI를 “효율화 도구”로만 보지 않고 “새로운 책임 구조를 필요로 하는 변화”로 인식했다는 것입니다.

개인이 오늘 당장 할 수 있는 세 가지

마지막으로, 조직의 변화를 기다리지 않고 오늘 당장 할 수 있는 세 가지를 제안합니다.

하나, AI의 출력에 “왜?”를 한 번 더 묻자

AI가 결과를 내놓으면, “왜 이런 결과가 나왔지?”를 스스로에게 물어보세요. AI에게 직접 물어볼 수도 있습니다. “이 결과의 근거가 뭐야?”라고. AI의 설명이 납득이 되면 진행하고, 납득이 안 되면 멈추세요.

이건 30초면 됩니다. 30초의 투자가, 나중에 “AI가 시킨 대로 했어요”라고 말해야 하는 상황을 예방합니다.

둘, 내 판단을 기록하자

앞서 말한 것처럼, AI의 입력/출력/내 행동을 간단히 기록해 두세요. 메모장이든, 스프레드시트든, 업무 일지든 상관없습니다. 기록은 나를 보호하는 동시에, 나를 더 나은 판단자로 만들어 줍니다.

셋, “AI가 시킨 대로”가 아니라 “내가 판단한 대로”라고 말하자

언어가 사고를 바꿉니다. “AI가 추천한 대로 했습니다” 대신 “AI의 추천을 검토한 결과, 타당하다고 판단하여 진행했습니다”라고 말해 보세요. 같은 행동이지만, 후자는 내가 판단의 주체임을 명시합니다. 그리고 그렇게 말하는 순간, 정말로 판단의 주체로서 한 번 더 생각하게 됩니다.

사소한 차이 같지만, 이 말버릇이 쌓이면 AI와의 관계가 달라집니다. AI는 내 판단을 돕는 도구가 되고, 나는 그 도구를 활용하는 전문가가 됩니다. “AI가 시켰다”에서 “내가 결정했다”로. 이 전환이 휴먼 인 더 루프의 핵심입니다.

마치며 — 책임질 수 있는 사람이 되는 것

20년 전, 제가 이 업계에 처음 들어왔을 때 선배가 해준 말이 있습니다. “네가 이해하지 못하는 코드를 프로덕션에 올리지 마라.” 당시에는 당연한 말이라고 생각했습니다. 내가 이해하지 못하는 코드를 누가 올리겠어?

그런데 지금, AI가 생성한 코드를 이해하지 못한 채 프로덕션에 올리는 일이 벌어지고 있습니다. AI가 작성한 보고서를 이해하지 못한 채 경영진에게 올리는 일이 벌어지고 있습니다. AI가 추천한 전략을 이해하지 못한 채 고객에게 안내하는 일이 벌어지고 있습니다.

선배의 말을 AI 시대에 맞게 바꾸면 이렇게 됩니다. “네가 설명하지 못하는 AI의 출력을 네 이름으로 내보내지 마라.”

“AI가 시킨 대로 했어요”라는 말이 무서운 이유는, 그 말이 나오는 순간 사람은 이미 루프 밖으로 나가 있다는 뜻이기 때문입니다. 루프 안에 있는 사람은 그렇게 말하지 않습니다. “AI의 분석 결과를 참고하여, 내가 이렇게 판단했습니다”라고 말합니다.

4화에서 AI가 끝맺지 못하는 일이 있다고 했습니다. 오늘의 이야기를 한 문장으로 요약하면 이렇습니다. AI가 끝맺지 못하는 일 중 가장 중요한 것은, 자기 출력에 대한 책임을 지는 일이다. 그 책임은 언제나 사람의 몫입니다. 그리고 그 책임을 질 수 있는 사람이 되는 것이, AI 시대의 진짜 전문성입니다.

다음 6화에서는 시선을 좀 더 넓혀서, AI 시대에 ‘판단력’이라는 것이 어떻게 길러지는지를 이야기하려 합니다. AI가 점점 더 많은 답을 내놓는 세상에서, 좋은 질문을 던지는 능력은 어디서 오는가. 20년간 주니어에서 시니어로, 시니어에서 리드로 성장하면서 체감한 ‘판단력의 성장 곡선’을 AI라는 변수와 함께 풀어보겠습니다.

🗒️ 이번 주 한 줄 노트

“AI가 시킨 대로 했어요”를 “내가 판단해서 했어요”로 바꾸는 순간, 당신은 루프 안으로 돌아온다.

※ 이 글은 특정 기업이나 조직의 입장이 아닌, 20년차 금융IT 개발자 개인의 경험과 견해입니다.

이미지는 Leonardo AI 로 생성되었습니다.

이미지는 Claude AI 로 생성되었습니다.

📚 시리즈: 휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일 (총 12화 중 5화)
◀ 이전 4화 (다음 차수는 아직 게시되지 않았습니다)