박지환 씽크포비엘 대표 "인공지능은 완벽하지 않아... 데이터가 핵심"
상태바
박지환 씽크포비엘 대표 "인공지능은 완벽하지 않아... 데이터가 핵심"
  • 정규호 기자
  • 승인 2021.09.13 12:39
  • 댓글 0
이 기사를 공유합니다

KOIIA 디지털혁신기술委, 'DX 촉진' 포럼 개최
박 대표 '공공데이터의 올바른 수집 기준과 기술적 방안' 발표
"토요타·우버 자율주행 사고, 아마존·구글 AI 여성·흑인 차별 논란... 모두 데이터 문제"
씽크포비엘 박지환 대푝 10일 코엑스에서 열린 한국산업지능화협회(KOIIA) 산하 디지털혁신기술위원회에서 열린 ‘공급기업 중심의 DX 촉진 방안’ 포럼에서 '인공지능'에 대해 발표했다. 사진=시장경제DB
씽크포비엘 박지환 대푝 10일 코엑스에서 열린 한국산업지능화협회(KOIIA) 산하 디지털혁신기술위원회에서 열린 ‘공급기업 중심의 DX 촉진 방안’ 포럼에서 '인공지능'에 대해 발표했다. 사진=시장경제DB

“토요타 자율주행차가 2021 도쿄 패럴림픽에서 선수와 추돌하고, 우버가 횡당보도를 걷는 사람을 치어 사망케하고, 아마존 채용시스템의 여성 차별, 구글 비전의 흑인 차별 등 AI가 인간의 가치를 훼손하는 일이 계속해서 벌어지고 있다. 세계 최고의 기업들이 기술력이 부족해서 이런 일이 벌어졌을까. 아니다. 데이터 검증, 데이터 편향성 때문에 발생한 문제들이다”

씽크포비엘 박지환 대표는 10일 코엑스에서 열린 한국산업지능화협회(KOIIA) 산하 디지털혁신기술위원회에서 열린 ‘공급기업 중심의 DX 촉진 방안’ 포럼에서 이 같은 밝혔다.

이번 포럼은 ‘2021 스마트공장·자동화산업전(Smart Factory+ Automation World 2021)’ 부대행사로 진행됐다.

박 대표는 이날 ‘공공데이터의 올바른 수집 기준과 기술적 방안’이라는 주제로 발표하면서 인공지능의 핵심은 ‘데이터’라는 화두를 던졌다.

박 대표는 “현재 글로벌 기업들이 개발한 인공지능에서 계속해서 문제가 발생하고 있는데, 원인은 ‘기술 부족’이 아니라 ‘데이터’다”라며 “엔지니어가 어떤 생각을 가지고 있느냐에 따라 인공지능의 성장 방향이 달라지고, 어떤 데이터를 사용했느냐가 인공지능의 성장의 수준을 결정한다”고 설명했다.

박 대표는 인공지능 데이터에 대해 알기 쉽게 예를 하나 들었다. 박 대표에 따르면 바닷속 연체동물이 동양권에선 문어, 낙지, 쭈꾸미 등 다양하게 구분되지만 서양권에선 보통 ‘문어’로 통일된다. 따라서 인공지능 엔지니어가 서양권 사람이라면 바닷속 연체동물을 동양권과 다른 가치로 학습시킬 수 있다는 것이다.

구글, 아마존, 우버 등이 데이터가 부족해서 데이터를 덜 투입했거나, 일부러 편향된 데이터를 활용했겠냐는 역설이다.

박 대표는 씽크포비엘 분석한 실제 사례도 공개했다. 씽크포비엘이 데이터 편향성을 의뢰 받아 A공공기관의 데이터 5만여장을 분석한 결과, 실제로 사용할 만한 데이터는 ‘이미지 231장’에 불과했다.

박 대표는 “인간 눈에는 다양하다고 생각한 것들이 인공지능 학습 관점에서는 양적 증가에 집중한 무의미한 중복 데이터들에 불과했다”고 밝혔다.

박 대표는 “이렇듯 인공지능이 기존의 데이터를 학습하는 과정에서 관련 업계의 만연한 성차별적 편견을 그대로 반영하고 있다”며 “최종적으로는 빅데이터의 적절한 밸런스를 맞춰줄 기준과 검증 방법의 부재로, 오류 가능성을 현장에 적용하기 전에 잡지 못한 것이 문제”라고 밝혔다. 인공지능을 위한 도덕, 윤리의 필요성을 제기한 것이다.

인공지능을 위한 도덕, 윤리를 만들자는 것이 언뜻 보면 생소하지만 유럽에서는 이미 제정돼 글로벌 표준으로까지 자리 잡은 상태다.

끝으로 박 대표는 인공지능은 실수하지 않는다고 설명했다.

박 대표는 “인공지능 문제는 인공지능이 실수를 하거나 편견 때문에 발생한 것이 아니다. 인간이 편향된 사고로 수집한 데이터를 사용하여 잘못 인도한 것이다. 인공지능에 정치적 공정성이나 성실성이 부족해서가 아니라, 오작동을 일으킬 수 있다는 것을 검증 과정에서 잡아내지 못한 데이터 검증의 기술의 문제”라며 “지금까지 우리가 데이터의 품질을 바라볼 때 대부분, 구문 정확성(오타)과 의미 정확성 (내용의 적합함) 중심으로 검증하였지만, 정작 중요한 검증 요건은 학습에 사용된 데이터의 다양성과 충분성이다. 이것이 인공지능의 편향을 유발하는 직접적 원인이다”고 밝혔다.

'다양하다'라는 것이 검토 한 사람에 따라, 그 검토자의 경험과 인식의 지평의 한계로 인해 발생 되는 편견이 존재한다는 것이다.

대표는 “결국, 어떤 데이터로 학습했고, 어떤 데이터로 검증했냐가 인공지능의 관건”이라며 “미래의 인공지능 경쟁력은 스펙이 아닌 ‘신뢰성’이 될 것이고 그것은 ‘데이터’의 수준에 따라 결정될 것”이라고 설명했다.


관련기사

주요기사
이슈포토