작성일 댓글 한 개

[휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일] 6/12화: AI가 정답을 줘도 결정은 사람이 해야 하는 이유

AI의 답과 사람의 판단이 만나는 결정의 갈림길

지난 5화에서 “AI가 시킨 대로 했어요”라는 한마디가 얼마나 위험한지 이야기했습니다. 책임이 증발하는 순간, 조직 전체가 흔들릴 수 있다고요. 그런데 그 글을 올리고 나서 의외의 반응을 하나 받았습니다. 같은 업계에서 일하는 후배가 이런 메시지를 보내왔거든요.

“형, 그러면 AI가 내놓은 답을 매번 의심해야 한다는 거예요? 그럼 뭐하러 AI를 쓰는 건데요?”

솔직히, 이 질문에 바로 답하지 못했습니다. 5초쯤 멈칫했어요. 왜냐하면 이 질문이야말로 이번 6화에서 다루려던 주제의 정확히 핵심을 찌르고 있었으니까요. AI를 의심하라는 게 아닙니다. AI의 답을 활용하되, 결정의 순간에는 사람이 서야 한다는 이야기를 하려는 겁니다.

이 차이가 미묘해 보이지만, 실무에서는 하늘과 땅 차이입니다. 20년 가까이 금융IT 시스템을 만들고, 8년 동안 챗봇이 고객과 나누는 대화를 지켜보면서 깨달은 건 이겁니다. AI가 아무리 정확한 답을 내놓아도, 그것을 ‘결정’으로 전환하는 과정에는 반드시 사람의 판단이 개입해야 한다. 오늘은 그 ‘판단’이라는 행위의 정체를 파헤쳐보겠습니다.

답과 결정은 같은 말이 아니다

우리는 일상에서 ‘답’과 ‘결정’을 거의 같은 의미로 씁니다. “답 나왔어?” “응, 이걸로 결정했어.” 이런 식으로요. 하지만 AI 시대에 이 두 단어의 차이를 이해하는 것은 단순한 말장난이 아니라 일하는 방식의 근본적인 전환을 의미합니다.

답(Answer)은 데이터에서 나온다

AI가 잘하는 것, 아니 압도적으로 잘하는 것이 바로 ‘답’을 내놓는 일입니다. 방대한 데이터를 분석하고, 패턴을 찾고, 통계적으로 가장 그럴듯한 결과를 도출합니다. 이상거래를 탐지하고, 고객의 다음 행동을 예측하고, 최적의 포트폴리오 배분을 계산합니다.

예를 들어볼게요. 제가 관여했던 한 시스템에서는 고객의 거래 패턴을 분석해서 이상 징후를 점수화합니다. 0점에서 100점 사이의 숫자로요. AI 모델은 수만 건의 과거 사기 거래 데이터를 학습해서, 새로운 거래가 들어올 때마다 “이 거래의 이상 점수는 87점입니다”라는 답을 내놓습니다. 이건 답이에요. 매우 정확한 답이고, 사람이 일일이 계산하는 것보다 훨씬 빠르고 일관된 답입니다.

또 다른 예로, 챗봇이 고객의 문의 내용을 분석해서 “이 고객은 해외송금 수수료에 대해 불만을 가지고 있으며, 이탈 확률이 72%입니다”라고 알려줍니다. 이것도 답이에요. 과거 데이터에서 비슷한 패턴을 가진 고객들이 실제로 이탈한 비율을 기반으로 산출한, 통계적으로 유의미한 답입니다.

이런 답들은 그 자체로 대단한 가치를 가집니다. 사람이 직감만으로는 절대 도달할 수 없는 정밀함이 있거든요. AI를 의심하라는 게 아닌 이유가 여기 있습니다. 답 자체는 존중해야 해요.

결정(Decision)은 맥락에서 나온다

하지만 “이상 점수 87점”이라는 답을 받았을 때, 실제로 해야 하는 일은 결정입니다. 이 거래를 차단할 것인가? 고객에게 확인 전화를 걸 것인가? 일단 통과시키되 모니터링 대상에 올릴 것인가? 아니면 무시할 것인가?

이 결정에는 AI의 답에 포함되지 않은 수많은 맥락이 개입합니다.

  • 이 고객은 최근에 해외 출장을 간다고 미리 알려온 VIP 고객인가?
  • 지금 시간대가 고객센터 운영 시간 외라 확인 전화가 불가능한가?
  • 이번 달에 이미 오탐(false positive)으로 인한 고객 불만이 급증하고 있는가?
  • 규제 당국의 감사가 다음 주에 예정되어 있어 보수적으로 가야 하는 시기인가?
  • 이 거래 금액이 고객의 월 평균 거래 대비 어느 정도인가?

AI는 이 맥락 중 일부를 데이터로 가지고 있을 수도 있습니다. 하지만 이 모든 맥락을 종합하고, 우선순위를 매기고, 상충하는 가치 사이에서 균형을 잡는 일은 현재의 AI가 할 수 없는 영역입니다. 아니, 좀 더 정확히 말하면 — AI에게 맡겨서는 안 되는 영역입니다.

답은 “무엇이 사실인가”에 대한 것이고, 결정은 “무엇을 해야 하는가”에 대한 것입니다. 사실과 당위 사이에는 언제나 간극이 있고, 그 간극을 메우는 것이 바로 판단(Judgment)이라는 인간 고유의 능력입니다.

AI 답에서 사람의 판단을 거쳐 결정에 이르는 흐름도

판단이라는 보이지 않는 근육

판단이 무엇인지 좀 더 깊이 들여다보겠습니다. 사전적 의미야 “사물을 인식하여 논리나 기준에 따라 판정하는 것”이지만, 실무에서의 판단은 이보다 훨씬 복잡하고 미묘합니다.

20년 동안 금융IT 현장에서 관찰한 바로는, 판단에는 최소한 네 가지 층위가 있습니다.

첫째, 상황 인식(Situational Awareness)

판단의 첫 번째 층위는 “지금 무슨 상황인지”를 총체적으로 파악하는 능력입니다. 이것은 단순히 데이터를 읽는 것과는 다릅니다. 데이터가 말해주지 않는 것, 데이터 사이의 빈 공간, 데이터가 수집되기 전의 배경까지 포함하는 넓은 인식이에요.

예를 한번 들어볼게요. 어느 날 아침, 시스템 모니터링 AI가 “서버 응답 시간이 평소 대비 340% 증가”라는 경보를 보냅니다. 데이터만 보면 심각한 상황입니다. 하지만 상황 인식이 있는 사람은 이렇게 생각합니다. “아, 오늘이 월급날이고 오전 9시인데, 매달 이맘때 급여 조회 트래픽이 폭증하지. 게다가 이번 달에는 성과급 지급 안내가 어제 나갔으니 평소보다 더 몰릴 수 있겠다.”

이 상황 인식은 시스템에 입력된 적 없는 조직의 급여 일정, 인사팀의 공지 타이밍, 직원들의 행동 패턴 같은 것들이 복합적으로 작용한 결과입니다. AI가 이 모든 맥락을 학습할 수 있을까요? 이론적으로야 가능하겠지만, 현실에서는 “어떤 맥락이 관련 있는지”를 판단하는 것 자체가 이미 인간의 판단을 필요로 합니다. 순환 논증이 되어버리는 거죠.

둘째, 불확실성 감내(Tolerance for Ambiguity)

AI는 본질적으로 확률의 언어로 말합니다. “87% 확률로 이상거래”, “72% 확률로 고객 이탈”. 하지만 현실의 결정은 이 확률이 100%도 0%도 아닌 애매한 지점에서 내려야 하는 경우가 대부분입니다.

금융 현장에서 가장 어려운 판단은 “반반”일 때 내리는 겁니다. 이상거래 점수가 50점인 경우요. 차단하자니 정상 거래일 수 있고, 통과시키자니 사기일 수 있어요. 이때 AI는 “50점입니다”라는 답만 줄 수 있을 뿐, “그래서 어떻게 하시겠습니까?”라는 질문에는 침묵합니다.

사람의 판단은 이 불확실성을 감내하면서도 행동을 선택할 수 있다는 데 그 특별함이 있습니다. “완벽한 정보가 없지만 현재까지의 정보와 경험을 종합하면, 이 방향이 최선이다”라고 말할 수 있는 능력. 이것이 판단의 두 번째 층위입니다.

셋째, 가치 판단(Value Judgment)

아마 이것이 판단의 가장 핵심적인 층위일 겁니다. 모든 결정에는 가치의 우선순위가 숨어 있거든요.

고객 편의성과 보안 중 어느 것을 우선할 것인가? 단기 수익과 장기 신뢰 중 어느 쪽에 무게를 둘 것인가? 개인 고객의 요구와 전체 시스템의 안정성이 충돌할 때 어떤 기준으로 판단할 것인가?

이런 질문들에는 객관적인 정답이 없습니다. 조직의 미션, 산업의 규범, 시대의 가치관, 그리고 판단하는 개인의 윤리 의식이 복합적으로 작용합니다. AI는 과거 데이터에서 어떤 선택이 어떤 결과를 낳았는지 알려줄 수 있지만, “어떤 결과가 더 바람직한가”를 판단하는 것은 궁극적으로 인간의 몫입니다.

3화에서 이야기했던 피드백 루프를 떠올려보세요. 피드백의 질을 좌우하는 것은 결국 “무엇이 좋은 결과인가”에 대한 판단입니다. 이 판단이 없으면 피드백 루프 자체가 공회전합니다.

넷째, 책임 수용(Acceptance of Accountability)

5화에서 깊이 다뤘던 주제와 맞닿는 부분입니다. 진정한 판단에는 “이 결정의 결과를 내가 감당하겠다”는 의지가 포함됩니다. 결과가 좋으면 공로를, 나쁘면 책임을 지겠다는 각오 없이는 판단이 아니라 그저 선택에 불과합니다.

제가 현장에서 본 최고의 판단자들은 하나같이 이 특징을 공유합니다. 결정을 내리기 전에 충분히 고민하지만, 일단 결정을 내리면 그 결과를 온전히 자신의 것으로 받아들입니다. AI의 답이 틀렸더라도 “AI 탓”을 하지 않아요. “AI의 답을 바탕으로 최종 결정을 내린 것은 나이므로, 결과도 내 책임”이라고 말합니다.

이 네 가지 — 상황 인식, 불확실성 감내, 가치 판단, 책임 수용 — 가 결합될 때 비로소 우리가 ‘판단’이라 부르는 것이 완성됩니다. 그리고 이것이 2026년 현재, AI가 대체할 수 없는 인간의 가장 핵심적인 능력입니다.

현장에서 마주한 판단의 순간들

이론만으로는 와닿지 않을 수 있으니, 제가 금융IT 현장에서 실제로 경험하거나 가까이서 지켜본 판단의 순간들을 몇 가지 나누겠습니다. 물론 익명화하고 일반화했지만, 핵심적인 판단의 구조는 그대로입니다.

사례 1: 새벽 3시의 이상거래 경보

어느 날 새벽 3시, 이상거래 탐지 시스템이 한꺼번에 47건의 경보를 쏟아냈습니다. 모두 같은 시간대에, 비슷한 패턴으로 발생한 소액 해외 결제 건이었어요. AI 모델의 이상 점수는 평균 91점. 매우 높습니다.

야간 당직자는 두 가지 선택지 앞에 섰습니다.

  • 선택 A: 즉시 모든 카드를 일괄 정지한다. 사기 피해를 최소화할 수 있지만, 만약 오탐이라면 47명의 고객이 새벽에 갑자기 카드가 막히는 불편을 겪는다.
  • 선택 B: 일단 모니터링 강화 상태로 두고, 아침 출근 시간에 각 건을 개별 확인한다. 오탐일 경우 고객 불편은 없지만, 실제 사기라면 몇 시간 동안 추가 피해가 발생할 수 있다.

AI의 답은 명확했습니다. “91점, 고위험.” 하지만 결정은 명확하지 않았어요.

당직자는 몇 가지를 더 확인했습니다. 47건의 카드가 모두 같은 지역에서 발급된 것인지(아니었습니다), 해당 해외 가맹점이 최근 유출 이력이 있는 곳인지(확인 중이었습니다), 그리고 결정적으로 — 지난달에 비슷한 패턴의 경보가 있었는데 그때는 현지 시간대의 합법적인 세일 이벤트 때문이었다는 사실을 기억해냈습니다.

결국 당직자는 선택 C를 만들어냈습니다. 선택지에 없던 제3의 길이었어요. 47건 중 거래 금액이 일정 기준 이상인 12건만 즉시 정지하고, 나머지 35건은 실시간 모니터링으로 전환하되 추가 거래 발생 시 자동 정지되도록 임시 룰을 설정한 겁니다.

이 판단에는 AI의 답(91점이라는 높은 위험도)이 기초가 되었지만, 최종 결정은 과거 경험, 고객 영향 범위, 새벽 시간대라는 운영 맥락, 그리고 “전부 아니면 전무”가 아닌 중간 지대를 창조하는 유연성이 함께 작용한 결과였습니다.

나중에 확인해보니, 47건 중 11건이 실제 사기 거래였고 나머지 36건은 정상이었습니다. 당직자의 판단이 12건을 즉시 정지한 덕에 사기 11건 중 9건을 막았고, 정상 거래 36건 중 33건은 아무런 불편 없이 처리되었습니다. 완벽한 결과는 아니었지만, 선택 A나 B보다 압도적으로 나은 결과였어요.

여기서 핵심은 “선택 C를 만들어낸 것” 자체가 판단이라는 점입니다. AI는 A와 B 중 어느 것이 나은지 비교해줄 수는 있지만, 존재하지 않는 C를 창조하지는 못합니다.

사례 2: 챗봇이 추천한 상품의 적합성

금융 챗봇을 8년 운영하면서 수없이 겪은 유형의 사례입니다. 한 고객이 챗봇에게 “여유자금 3천만원을 굴리고 싶다”고 문의했습니다. 챗봇은 고객의 투자 성향 평가 결과(공격투자형), 현재 포트폴리오 분석, 시장 상황을 종합해서 특정 유형의 펀드 세 가지를 추천했습니다.

답으로서는 합리적이었습니다. 고객의 투자 성향에 부합하고, 분산 투자 원칙에도 맞고, 수수료 효율성도 좋았어요. 하지만 이 대화를 리뷰하던 담당자가 한 가지를 발견했습니다.

대화 맥락을 처음부터 읽어보니, 고객이 “사실 내년에 아이가 대학에 가는데”라는 말을 중간에 한 적이 있었습니다. 챗봇은 이 문장을 자연어 처리로 인식하긴 했지만, 투자 추천 로직에 반영하지 못했어요. 왜냐하면 “내년에 아이가 대학 간다”는 정보가 투자 기간이나 유동성 필요와 연결되는 맥락적 추론은 해당 시스템의 범위 밖이었거든요.

담당자의 판단은 이랬습니다. “이 고객은 공격투자형으로 분류되어 있지만, 1년 내에 큰 지출이 예정된 상태다. 3천만원 전액을 공격적 상품에 넣으면 안 된다. 최소한 등록금 예상액만큼은 안전자산에 배분해야 한다.”

이 판단은 기술적으로 간단해 보이지만, 실제로는 여러 층위가 겹쳐 있습니다. 대화 전체의 맥락 파악, “대학 등록금”이라는 한국 사회의 일반적 비용 추정, 공격투자형 성향 평가가 장기적으로는 맞지만 단기적으로는 위험하다는 시간 축의 전환, 그리고 “고객이 명시적으로 요청하지 않았더라도 알려야 하는 것이 있다”는 직업 윤리까지.

4화에서 다뤘던 “AI가 끝맺지 못하는 일”이 정확히 이런 것입니다. 챗봇은 질문에 답하는 데는 탁월하지만, 질문 뒤에 숨어 있는 진짜 필요를 판단하는 것은 아직 사람의 영역입니다.

데이터 화면 앞에서 깊이 사고하는 판단의 순간

사례 3: 시스템 장애 시 AI의 복구 제안

이 사례는 개발자로서 가장 뼈저리게 느낀 판단의 순간입니다.

대규모 시스템 장애가 발생했을 때, 요즘은 AI 기반 운영 도구가 장애 원인을 분석하고 복구 방안을 제안합니다. 어느 날 오후, 핵심 서비스 중 하나가 멈췄습니다. AI 운영 도구는 로그를 분석해서 두 가지 복구 방안을 제시했어요.

  • 방안 1: 최근 배포를 롤백한다. 예상 복구 시간 5분. 하지만 그날 오전에 반영한 규제 대응 패치도 함께 롤백된다.
  • 방안 2: 문제가 되는 특정 모듈만 재시작한다. 예상 복구 시간 15분. 하지만 재시작 과정에서 처리 중이던 거래 약 200건이 유실될 수 있다.

AI의 추천은 방안 1이었습니다. 복구 시간이 짧고, 성공 확률이 더 높다는 과거 데이터를 근거로요. 하지만 운영팀장은 잠깐 생각한 뒤 방안 2를 선택했습니다.

이유가 있었어요. 오전에 반영한 규제 대응 패치는 당일 자정까지 적용이 완료되어야 하는 법적 의무사항이었습니다. 롤백하면 패치를 다시 반영해야 하는데, 테스트와 승인 절차를 고려하면 자정까지 완료할 수 있을지 불확실했어요. 반면 200건의 거래 유실은 심각하지만, 거래 원장에서 복구 가능한 건이 대부분이었고, 최악의 경우에도 고객에게 직접적인 금전 피해는 발생하지 않는 구조였습니다.

“5분 vs 15분”이라는 AI의 답은 정확했습니다. 하지만 “규제 컴플라이언스 리스크 vs 거래 유실 리스크”라는 가치의 우선순위를 판단한 것은 사람이었어요. 그리고 이 판단에는 법적 기한, 재반영 절차의 현실적 소요 시간, 거래 원장 복구 가능성, 고객 피해 범위 같은 AI에게 입력된 적 없는 맥락이 총동원되었습니다.

사례 4: “아무것도 하지 않기”라는 판단

판단의 중요한 형태 중 하나는 “아무것도 하지 않기”를 선택하는 것입니다. AI는 기본적으로 무언가를 제안하도록 설계되어 있어요. 분석 결과를 내놓고, 추천을 하고, 행동을 제안합니다. 하지만 때로는 “지금은 아무것도 하지 않는 것이 최선”인 순간이 있습니다.

시장이 급변하는 날, 투자 관련 AI 시스템은 끊임없이 리밸런싱을 제안합니다. “현재 포트폴리오 대비 최적 배분이 변경되었으니 이렇게 조정하라”고요. 하지만 경험 많은 운용역은 알고 있습니다. 시장이 극도로 변동성이 클 때 빈번한 매매는 오히려 손실을 키울 수 있다는 것을. 거래 비용이 누적되고, 감정적 패닉 매도에 편승하게 되고, 무엇보다 변동성이 지나간 뒤 돌아보면 그냥 가만히 있는 것이 최선이었던 경우가 많다는 것을.

“AI가 하라는 걸 안 하는 것”도 판단입니다. 어쩌면 가장 어려운 판단일 수 있어요. 왜냐하면 AI의 제안을 무시했다가 결과가 나쁘면 “왜 AI 말을 안 들었냐”는 비판을 받을 수 있고, 결과가 좋아도 “아무것도 안 한 것이니 공로도 없다”가 될 수 있거든요. 그럼에도 “지금은 가만히 있는 것이 맞다”고 결정하는 것, 이것이 진짜 판단의 힘입니다.

AI가 판단할 수 없는 구조적 이유

사례를 통해 판단이 실무에서 어떻게 작동하는지 살펴봤으니, 이제 한 발 물러서서 왜 AI가 구조적으로 판단할 수 없는가를 생각해보겠습니다. 이건 “아직 기술이 부족해서”가 아닙니다. 판단의 본질적인 속성과 AI의 작동 원리 사이에 존재하는 근본적인 간극에 대한 이야기입니다.

AI가 구조적으로 판단할 수 없는 네 가지 이유 인포그래픽

이유 1: 프레임 문제(Frame Problem)

인공지능 철학에서 오래된 난제 중 하나가 프레임 문제입니다. 간단히 말하면, “어떤 상황에서 무엇이 관련 있고 무엇이 관련 없는지를 어떻게 결정하는가”의 문제예요.

사례 2의 챗봇 이야기를 떠올려보세요. “내년에 아이가 대학 간다”는 말이 투자 추천과 관련 있는 정보라는 걸 판단하려면, 먼저 “대학 = 큰 지출”, “큰 지출 예정 = 유동성 필요”, “유동성 필요 = 투자 기간 제약”이라는 연쇄적인 추론이 필요합니다. 이 추론 자체는 AI도 할 수 있어요.

문제는 이런 추론을 시작할지 말지를 결정하는 것입니다. 고객이 대화 중에 한 모든 말이 투자 추천과 관련 있을 수 있습니다. “요즘 날씨가 좋네요”는 관련 없을 확률이 높지만, “요즘 건강이 안 좋아서”는 관련 있을 수 있어요(의료비 지출 가능성). “아이가 유학을 생각하고 있어요”는 확실히 관련 있고요.

인간은 이 판단을 거의 무의식적으로, 순식간에 합니다. 대화의 흐름 속에서 “아, 이건 중요한 정보다”라고 직감적으로 포착해요. 하지만 AI에게 이것을 프로그래밍하려면 “세상의 모든 정보 중 현재 맥락에 관련 있는 것을 선별하라”는 거의 무한한 과제를 줘야 합니다. 이것이 프레임 문제의 핵심이고, 아직 완전히 풀리지 않은 난제입니다.

이유 2: 가치는 계산할 수 없다

AI는 최적화 문제를 풀도록 설계되어 있습니다. 목적 함수를 최대화하거나 손실 함수를 최소화하는 거죠. 하지만 현실의 판단에서는 목적 함수 자체가 명확하지 않거나, 여러 개의 목적 함수가 서로 충돌합니다.

“고객 만족도를 최대화하라”와 “리스크를 최소화하라”는 거의 항상 충돌합니다. 고객이 원하는 것을 다 해주면 리스크가 커지고, 리스크를 줄이려면 고객에게 제약을 가해야 하니까요. 이 둘 사이의 균형점을 어디에 둘 것인가는 수학적으로 결정할 수 없는 가치의 문제입니다.

물론 “고객 만족도에 0.6, 리스크에 0.4의 가중치를 부여하라”고 프로그래밍할 수 있습니다. 하지만 그 0.6과 0.4를 결정하는 것 자체가 이미 인간의 가치 판단이에요. 그리고 이 가중치는 상황에 따라 달라져야 합니다. 평상시에는 고객 만족도에 무게를 두지만, 금융 위기 시에는 리스크 관리에 무게를 둬야 하거든요. “언제 가중치를 바꿀 것인가”를 판단하는 것도 역시 인간의 몫입니다.

결국 AI가 아무리 정교해져도, 최종적으로 “무엇을 중요하게 여길 것인가”라는 질문에 답하는 것은 인간일 수밖에 없습니다. 이것은 기술의 한계가 아니라, 가치란 주관적이고 맥락 의존적인 것이기 때문입니다.

이유 3: 결정에는 ‘때(timing)’가 있다

판단에서 종종 간과되는 요소가 타이밍입니다. 같은 결정이라도 월요일 아침에 내리는 것과 금요일 저녁에 내리는 것은 완전히 다른 결과를 만들어낼 수 있어요.

AI는 “현재 데이터 기준으로 최적의 답”을 제시합니다. 하지만 사람은 “지금이 이 결정을 내리기에 적절한 시점인가”를 추가로 판단할 수 있습니다.

예를 들어, 시스템 개선이 필요하다는 AI의 분석이 정확하더라도, 연말 결산 시즌에 대규모 변경을 가하는 것은 현명하지 않을 수 있습니다. “무엇을 할 것인가”만큼 “언제 할 것인가”가 중요한데, 타이밍에 대한 감각은 조직의 리듬, 사람들의 에너지 수준, 외부 환경의 변화 속도 같은 극도로 미묘한 요소들에 의해 좌우됩니다.

숙련된 판단자는 “지금은 아니다”라고 말할 줄 알고, “바로 지금이다”라고 말할 줄도 압니다. 이 타이밍 감각은 수년간의 경험에서 나오는 것이지, 데이터 분석에서 나오는 것이 아닙니다.

이유 4: 전례 없는 상황에서의 판단

AI는 본질적으로 과거 데이터에서 학습합니다. 과거에 비슷한 상황이 있었고, 그때 어떤 결과가 나왔는지를 바탕으로 현재의 답을 도출합니다. 하지만 진짜 중요한 판단은 대개 전례가 없는 상황에서 필요합니다.

코로나19 팬데믹 초기를 생각해보세요. 전 세계적인 봉쇄, 비대면 거래의 급증, 정부의 긴급 지원금 지급, 금리의 급격한 변동 — 이 모든 것이 동시에 일어났을 때, 과거 데이터에 기반한 AI 모델은 대부분 무력했습니다. 이상거래 탐지 모델은 갑자기 증가한 온라인 거래를 전부 이상거래로 분류했고, 고객 이탈 예측 모델은 완전히 빗나갔어요.

그때 필요한 것은 “과거에 이런 일이 있었으니 이렇게 하면 된다”가 아니라, “전례 없는 상황이니 기본 원칙으로 돌아가서 생각하자”는 판단이었습니다. 고객의 안전이 최우선이고, 서비스 연속성이 그 다음이고, 효율성은 나중 문제라는 가치의 우선순위를 다시 세우는 것. 이것은 데이터가 아니라 원칙에서 나오는 판단입니다.

판단을 잘하기 위한 실전 프레임워크

지금까지 판단이 무엇인지, 왜 AI가 대신할 수 없는지를 이야기했습니다. 그렇다면 실제로 AI 시대에 판단을 잘하려면 어떻게 해야 할까요? 20년간의 현장 경험에서 추출한 몇 가지 프레임워크를 공유합니다.

프레임워크 1: “답-맥락-결정” 삼단계

AI의 답을 받았을 때, 바로 행동으로 옮기지 않고 세 단계를 거치는 습관을 들이세요.

1단계 — 답 확인: AI가 무엇을 말하고 있는지 정확히 이해합니다. 숫자의 의미, 추천의 근거, 확신도(confidence level)를 파악합니다. “이상 점수 87점”이라면, 87점이 의미하는 바가 무엇인지, 어떤 요소가 점수를 올렸는지를 확인하는 단계입니다.

2단계 — 맥락 보충: AI의 답에 포함되지 않은 맥락을 의식적으로 떠올립니다. 시간적 맥락(지금이 어떤 시기인가), 인적 맥락(관련된 사람들의 상황은 어떤가), 조직적 맥락(현재 조직의 우선순위는 무엇인가), 외부 맥락(규제 환경, 시장 상황 등)을 체크리스트처럼 점검합니다.

3단계 — 결정과 근거 명시: 최종 결정을 내리되, “왜 이 결정을 내렸는가”를 한두 문장으로 정리합니다. 이것이 중요한 이유는 두 가지입니다. 첫째, 근거를 명시하면 나중에 결과를 복기할 때 판단의 품질을 평가할 수 있습니다. 둘째, 다른 사람에게 결정을 전달할 때 설득력이 생깁니다.

이 삼단계가 처음에는 번거롭게 느껴질 수 있지만, 익숙해지면 거의 자동으로 돌아갑니다. 마치 운전할 때 “미러 확인 → 방향지시등 → 차선 변경”이 처음에는 의식적이지만 나중에는 무의식적으로 되는 것처럼요.

프레임워크 2: 반대 시나리오 점검

AI가 A를 추천했을 때, 의식적으로 “만약 B를 하면 어떻게 되지?”를 생각해보는 습관입니다. 이것은 AI를 의심하라는 게 아니라, 판단의 견고함을 높이기 위한 사고 도구입니다.

구체적으로 세 가지 질문을 던집니다.

  • “AI의 추천과 반대로 했을 때 최악의 시나리오는?” — 이것이 감당 가능한 수준인지 확인합니다.
  • “AI의 추천대로 했을 때 최악의 시나리오는?” — AI의 추천이 틀렸을 때의 리스크를 미리 상정합니다.
  • “두 최악 중 어느 쪽이 더 치명적인가?” — 이 비교가 최종 결정의 방향을 잡아줍니다.

예를 들어, AI가 “이 고객에게 대출을 승인하라”고 추천했을 때:

  • 반대(거절)의 최악: 우량 고객을 놓치고 경쟁사에 뺏긴다.
  • 추천대로(승인)의 최악: 부실 대출이 되어 원금을 회수하지 못한다.
  • 비교: 금융기관에서는 보통 부실 대출의 피해가 고객 이탈의 피해보다 훨씬 크다(비대칭 리스크). 따라서 AI의 확신도가 높지 않다면 추가 확인이 필요하다.

이 프레임워크는 AI의 답을 맹목적으로 따르지도, 맹목적으로 거부하지도 않게 해줍니다. 판단에 구조를 부여하는 거예요.

AI 시대 판단을 위한 네 가지 실전 프레임워크

프레임워크 3: “5년 후 테스트”

결정이 특히 어려울 때 써보면 좋은 방법입니다. “5년 후의 내가 이 결정을 돌아보면 뭐라고 할까?”를 상상해보는 거예요.

이 질문의 효과는 두 가지입니다.

첫째, 단기 압박에서 벗어나게 해줍니다. 지금 당장의 KPI, 이번 분기 실적, 상사의 눈치 같은 단기적 요인이 판단을 왜곡하는 경우가 많습니다. 5년 후의 시점에서 바라보면 이런 단기 요인들이 적절한 크기로 축소돼요.

둘째, 가치의 우선순위가 명확해집니다. 5년 후의 내가 후회할 것은 대개 “원칙을 어긴 것”, “사람을 무시한 것”, “안전을 경시한 것”이지, “조금 느리게 처리한 것”이나 “AI의 추천을 따르지 않은 것”은 아닙니다.

저는 중요한 결정을 내릴 때마다 이 질문을 스스로에게 던지는 습관이 있습니다. 그리고 놀랍게도, 이 간단한 질문 하나가 판단의 품질을 극적으로 높여줍니다. 시간 축을 늘리는 것만으로도 더 나은 판단을 내릴 수 있다니, 생각보다 단순한 도구가 강력한 결과를 만들어내는 셈이죠.

프레임워크 4: 판단의 문서화

이건 프레임워크라기보다 습관에 가깝습니다. 중요한 결정을 내릴 때마다 짧게라도 기록을 남기세요.

  • AI가 뭘 추천했는가
  • 내가 어떤 결정을 내렸는가
  • 왜 그렇게 결정했는가 (AI를 따랐든 따르지 않았든)
  • 결과는 어땠는가 (나중에 추가)

이 기록이 쌓이면 놀라운 일이 일어납니다. 자신의 판단 패턴이 보이기 시작해요. “나는 리스크를 과대평가하는 경향이 있구나”, “나는 AI의 추천을 따를 때보다 따르지 않을 때 결과가 더 좋았네”, “이런 유형의 상황에서는 내 판단이 AI보다 정확하고, 저런 유형에서는 AI가 더 낫구나” 같은 메타 인지가 생기는 겁니다.

2화에서 ‘휴먼 인 더 루프’의 진짜 의미를 이야기했는데요, 이 판단 문서화야말로 루프를 ‘학습하는 루프’로 만드는 실질적인 방법입니다. AI의 성능이 데이터가 쌓일수록 좋아지듯, 사람의 판단도 기록이 쌓일수록 좋아집니다.

판단 근육을 키우는 일상의 훈련

프레임워크가 “판단의 도구”라면, 이번 섹션은 “판단의 체력”에 대한 이야기입니다. 판단은 근육과 같아서, 쓰지 않으면 퇴화합니다. AI가 점점 더 많은 답을 대신 내놓는 시대에, 의식적으로 판단 근육을 단련하지 않으면 정작 필요한 순간에 판단력이 무뎌져 있을 수 있어요.

훈련 1: 의도적으로 AI 없이 판단하는 시간 갖기

일주일에 한 번쯤은 AI의 도움 없이 스스로 분석하고 결론을 내려보세요. 작은 것이어도 좋습니다. 점심 메뉴를 AI에게 추천받지 않고 직접 고르는 것부터 시작해도 돼요.

중요한 것은 “AI 없이도 판단할 수 있다”는 자기 확신을 유지하는 것입니다. AI에 대한 의존도가 높아지면, 어느 순간 “AI 없이는 결정을 못 하겠다”는 심리적 상태에 빠질 수 있어요. 이건 도구에 대한 건강한 활용이 아니라 의존입니다.

업무에서도 가능합니다. 주간 보고서를 작성할 때 AI의 초안 생성을 쓰기 전에, 먼저 5분만 직접 핵심 포인트를 정리해보세요. 그다음 AI가 생성한 것과 비교해보면, 자신의 판단이 AI와 어디서 같고 어디서 다른지를 확인할 수 있습니다. 이 비교 자체가 판단 훈련이 됩니다.

훈련 2: 다른 사람의 판단을 관찰하기

회의에서 상사나 동료가 결정을 내리는 과정을 의식적으로 관찰해보세요. “이 사람은 어떤 정보를 중시하는가?”, “어떤 기준으로 우선순위를 매기는가?”, “불확실한 상황에서 어떻게 대처하는가?”를 주의 깊게 보는 겁니다.

판단력이 뛰어난 사람들에게는 공통된 특징이 있습니다. 결론을 서두르지 않되, 필요할 때는 과감하게 결단합니다. 데이터를 존중하되, 데이터에 매몰되지 않습니다. 자신의 판단에 확신을 갖되, 새로운 정보가 들어오면 유연하게 수정합니다.

이런 관찰을 통해 자신만의 판단 모델을 만들어갈 수 있어요. 복싱에서 다른 선수의 경기를 분석하며 기술을 익히듯, 판단도 타인의 판단을 관찰하면서 배울 수 있습니다.

훈련 3: 사후 복기 (After-Action Review)

군대에서 유래한 이 방법은 판단력 향상에 가장 효과적인 훈련 중 하나입니다. 중요한 결정을 내린 후, 결과가 나왔을 때 세 가지 질문으로 복기합니다.

  • 무엇을 기대했는가? (결정 시점의 예상)
  • 실제로 무엇이 일어났는가? (결과)
  • 차이가 왜 발생했는가? (원인 분석)

이 복기를 정기적으로 하면, 자신의 판단에 있는 체계적 편향(systematic bias)을 발견할 수 있습니다. “나는 낙관적으로 판단하는 경향이 있어서 리스크를 과소평가한다”든지, “나는 최근 경험에 과도하게 영향받는다”든지 하는 패턴이 드러나요.

AI와 함께 일할 때는 이 복기가 특히 중요합니다. “AI를 따른 판단”과 “AI에 반해 내린 판단” 각각의 정확도를 추적하면, 어떤 영역에서는 AI를 더 신뢰해야 하고 어떤 영역에서는 자신의 판단을 더 신뢰해야 하는지가 데이터로 드러나니까요. 이것이야말로 진정한 의미의 휴먼 인 더 루프입니다. 사람과 AI가 서로의 부족함을 보완하며 함께 나아지는 학습 루프.

훈련 4: 판단의 언어화

머릿속에서 내린 판단을 말이나 글로 표현해보는 훈련입니다. “왜 그렇게 결정했어?”라는 질문에 명확하게 대답할 수 있는지 스스로 테스트해보세요.

판단을 언어화하는 것이 중요한 이유는, 언어화 과정에서 자신의 판단에 있는 논리적 허점이 드러나기 때문입니다. 머릿속에서는 그럴듯했던 논리가 입으로 말하거나 글로 쓸 때 “어, 이게 좀 이상한데?”하고 깨달아지는 경험, 다들 있으시죠?

동료에게 “나 이렇게 판단하려고 하는데 어떻게 생각해?”라고 물어보는 것도 좋은 방법입니다. 이건 확인 편향(confirmation bias)을 방지하는 효과도 있어요. 자기 혼자 판단하면 자신에게 유리한 정보만 선택적으로 고려하는 경향이 있는데, 다른 사람의 관점이 개입하면 이 편향이 어느 정도 교정됩니다.

판단을 포기하면 일어나는 일

지금까지 판단의 중요성을 여러 각도에서 이야기했는데, 마지막으로 “판단을 포기하면 어떤 일이 벌어지는가”를 생각해보겠습니다. 이것은 단순히 개인의 문제가 아니라 조직, 더 나아가 사회 전체의 문제입니다.

개인 차원: 판단력의 퇴화

AI에게 결정을 맡기는 것이 편하다보니, 자주 그러다 보면 진짜로 판단력이 약해집니다. 마치 에스컬레이터만 타다 보면 계단 오르기가 힘들어지는 것처럼요. 처음에는 “사소한 결정은 AI한테 맡기고 중요한 건 내가 하면 되지”라고 생각하지만, 문제는 어디까지가 사소하고 어디부터가 중요한지를 판단하는 것 자체가 판단이라는 점입니다.

판단 근육이 약해진 사람은 결정적인 순간에 두 가지 증상을 보입니다. 결정 마비(decision paralysis) — 정보가 충분한데도 결정을 내리지 못하고 계속 더 많은 데이터를 요구하거나, 무비판적 수용(uncritical acceptance) — AI가 뭘 말하든 그냥 따르는 것. 둘 다 건강하지 않은 상태예요.

조직 차원: 집단적 판단 위축

조직 전체가 AI의 답에 의존하기 시작하면, 조직 내에서 “나는 다르게 생각하는데”라고 말하기가 점점 어려워집니다. AI의 분석과 다른 의견을 제시하는 사람은 “데이터에 반하는 주관적인 판단을 하는 사람”으로 취급받을 수 있으니까요.

하지만 역사적으로 가장 큰 재앙은 “모두가 같은 방향으로 생각했을 때” 발생했습니다. 금융위기 때 모든 모델이 안전하다고 했지만 실제로는 안전하지 않았던 것처럼요. AI의 답에 모두가 동의하는 것이 반드시 좋은 것은 아닙니다. 오히려 누군가가 “잠깐, AI 분석은 이렇지만 내 경험으로는 좀 이상한데”라고 말할 수 있는 문화가 건강한 조직의 징표입니다.

3화에서 AI를 잘 쓰는 팀과 못 쓰는 팀의 차이가 피드백 루프에 있다고 했는데요, 그 피드백 루프가 작동하려면 “AI에 대해 이의를 제기해도 괜찮다”는 심리적 안전감이 전제되어야 합니다. AI의 답을 존중하면서도 의문을 제기할 수 있는, 건강한 긴장감 말이에요.

사회 차원: “시스템이 그렇게 했다”의 확산

5화의 주제였던 “AI가 시킨 대로 했어요”가 사회 전체로 확산되면, 책임의 진공 상태가 만들어집니다. 대출이 거절되었을 때 “시스템 판단입니다”, 보험금이 지급되지 않았을 때 “AI 분석 결과입니다”, 채용에서 탈락했을 때 “알고리즘 평가입니다” — 모든 결정이 시스템 뒤에 숨으면, 이의를 제기할 대상이 사라집니다.

이것은 단순히 불편한 것을 넘어서, 민주 사회의 근간인 설명가능성(explainability)과 이의제기 권리(right to contest)를 위협합니다. 누군가의 삶에 영향을 미치는 결정에 대해 “왜 그런 결정을 내렸습니까?”라고 물었을 때, “AI가 그렇게 판단했습니다” 이상의 답을 할 수 있는 사람이 있어야 합니다. 그 사람이 바로 ‘루프 안의 인간’이고, 그 사람이 하는 일이 바로 ‘판단’입니다.

그래서, 어떻게 할 것인가

글이 길어졌습니다. 지금까지의 이야기를 한 줄로 요약하면 이겁니다.

AI의 답을 신뢰하되, 결정의 주인은 당신이어야 한다.

후배의 질문으로 돌아가겠습니다. “AI가 내놓은 답을 매번 의심해야 하냐”고 물었죠. 제 대답은 이렇습니다.

“의심하라는 게 아니라, 답과 결정 사이에 네 판단을 넣으라는 거야. AI의 답은 훌륭한 재료지만, 그걸로 뭘 만들지 정하는 건 너야. 요리사가 좋은 재료를 의심할 필요는 없지만, 어떤 요리를 만들지 결정하는 건 요리사 자신이잖아.”

AI 시대에 경쟁력 있는 사람은 AI를 가장 잘 다루는 사람이 아닙니다. AI의 답을 재료로 삼아 최선의 결정을 내릴 수 있는 사람입니다. 그리고 그 능력의 이름이 ‘판단’입니다.

판단은 타고나는 것이 아니라 기르는 것입니다. 오늘 소개한 프레임워크와 훈련법이 여러분의 판단 근육을 키우는 데 작은 도움이 되길 바랍니다.

오늘 하나만 실천해보시면 좋겠습니다. AI가 답을 줄 때, 바로 실행하지 말고 3초만 멈춰서 스스로에게 물어보세요. “이 답을 결정으로 바꾸기 전에, 내가 알고 있지만 AI는 모르는 게 뭐지?”

그 3초가 당신을 단순한 AI 사용자에서 AI 시대의 판단자로 바꿔줄 겁니다.

📝 이번 주 한 줄 노트
AI의 답은 지도 위의 경로 안내다. 하지만 핸들을 잡고, 신호를 보고, 멈출지 갈지를 판단하는 건 운전석에 앉은 사람의 몫이다.

다음 화 예고 — 7화: 감정이라는 데이터
“감정적으로 판단하지 마세요”라는 말, 직장에서 많이 들으시죠? 하지만 AI 시대에 감정은 정말로 판단에 방해만 되는 걸까요? 다음 7화에서는 감정이 판단에 미치는 영향, 그리고 AI에게 없는 감정이 오히려 인간 판단의 강점이 되는 순간들을 이야기합니다. 금융 현장에서 ‘직감’이 데이터를 이긴 사례도 함께요.

이미지는 Leonardo AI 로 생성되었습니다.

이미지는 Claude AI 로 생성되었습니다.


📚 시리즈: 휴먼 인 더 루프(Human-in-the-Loop): AI 시대, 사람만 할 수 있는 일 (총 12화 중 6화)
이전 5화  (다음 차수는 아직 게시되지 않았습니다)