박지환 씽크포비엘 대표 "AI 신뢰성, 균형 잡힌 데이터가 핵심"

로봇개‧자살 드론 등 AI 100% 신뢰 기술 속속 등장
'AI‧빅데이터' SW 최대 미래 먹거리로 부상
엄격한 AI 신뢰성 검증 필요성 대두

산업계 전반으로 인공지능(AI) 활용이 급격히 늘고 있는 가운데, AI의 ‘신뢰성 향상’이 최대 화두로 올라서고 있다. AI가 급속도로 발전하고 있긴 하지만 아직까지는 오류가 많고, 신뢰할 수 없다고 판단하는 사람들이 많기 때문이다. 그렇다면 AI의 신뢰성을 사람들이 ‘신뢰’할만한 수준으로 끌어올리기 위해서는 무엇이 필요할까. 이 난제를 해결하기 위해 주류 소프트업계가 선택한 기술은 바로 ‘데이터 밸런스’이다. 어떤 기술인지 살펴보도록 하자.

AI 기술이 급격히 발전하면서 먼 미래에나 가능할 것 같던 일이 속속 현실로 나타나고 있다. 로봇개, 자산 드론 등이 대표적이다. 로봇개는 AI 심층 강화 학습 알고리즘 기반 센서를 통해 얻은 정보로 모의실험을 반복해 지형과 날씨에 방해받지 않고 자유로이 보행하는 데 성공했다. 자산 드론은 중국이 무더기로 목표물을 공격할 수 있는 저비용 사살 무기다. 모두 AI의 신뢰성을 최상으로 믿을 수 있기에 내놓을 수 있는 상품이다.

헐리우드 블록버스터 영화 ‘엔젤 해즈 폴른’에서 미국 대통령을 공격하던 자살 드론이 곧 실전 단계에 들어서게 된 것. 자살 드론은 사람이 원격 조정하지 않아도 스스로 목표물을 찾아간다. 위성항법장치(GPS)를 비롯해 적외선카메라, 레이저거리측정장비 등의 최첨단 센서를 갖춰 전 세계 어디서든 명령 신호만 보내면 임무를 수행한다. 드론의 뇌(Flight Controller)는 AI 기술로 다양한 임무 상황을 학습했기에 경로를 이탈하거나 목표물을 놓치는 일이 거의 없다.

국내에서도 AI와 빅데이터는 미래 SW산업 최대 먹거리로 여겨진다. 정부와 관련 업계·학계 모두 산업 성장 핵심 요소로 꼽는다. 실제 AI와 빅데이터를 등에 업고 국내 SW산업 시장은 큰 성장을 일궈내고 있다. SW를 포함한 정보통신기술(ICT)산업 또한 시장 규모가 커지고 있다. 이에 발맞춰 AI산업도 두 자릿수 성장세를 기록 중인데, 한국의 경우 아직 시장 상황이 관련 선진국에 비해 미미한 수준이다. 이에 따라 정부가 오는 2030년까지 AI산업을 전폭 육성해 양적·질적 산업 성장을 이뤄내겠다는 청사진을 내놨다.

미래기술로 AI가 주목을 받고 있지만, 한편에선 우려의 목소리도 적지 않다. ‘AI가 만들어낸 데이터와 결과를 얼마나 신뢰할 수 있냐’는 것이다. 전기신호를 통해 입력·축적되는 데이터에 대한 불신은 AI 기술 적용이 보편화되고 이를 통해 축적되는 빅데이터가 방대해지면서 점차 수면 위로 부상하고 있다. 멀리서 사례를 찾을 필요 없이, ‘모바일 내비게이션’ 길 안내 정보가 실제 도로 사정을 제대로 반영하지 못해 실망했던 경험을 떠올리면 쉽게 이해할 수 있다.

AI 기반 SW 활용 범위가 넓어지면서 엄격한 AI 신뢰성 확보에 관한 관심도 커지고 있다. 앞서 소개된 로봇개가 주변 환경을 스스로 파악해 제대로 이동하고, 자살 드론이 정확하게 목표물을 공격하기 위해선 학습된 AI에 대한 철저한 사전 검증이 전제돼야 한다. 만약 학습된 AI가 다양한 SW 운용 환경(사례)을 고려하지 못하면 제 기능을 수행하지 못할 수 있고, 이는 SW 사용 주체에 인적·물적 피해를 안길 가능성으로 이어진다. 그만큼 정확한 AI 설계와 이에 대한 사전 검증이 중요한 요소다.

학습된 AI 신뢰성 검증은 크게 ‘수행 영역’과 ‘설계 영역’으로 나뉜다. 전자가 AI 정확도가 얼마인지를 확인하는 것이라면, 후자는 SW에 적용된 AI에 대한 검증이 제대로 이뤄질 수 있도록 잘 설계하는 작업이다. 업계가 최근 주목하는 분야는 후자다. 제대로 검증해야 학습된 AI의 신뢰성을 확보할 수 있는 만큼, 중요성도 점차 커지고 있다.

학습된 AI 검증을 설계하는 것은 지금까진 관련 전문가 경험이나 지식에 의존해야 했다. 아니면 실제 적용된 SW가 시행착오를 거듭하며 확인된 것을 개선하는 수밖에 없었다. 문제는 이런 방법이 정확할 수 없다는 점. 전문가라고 해도 검증에 필요한 모든 사례(검증 항목)를 가늠하고 도출해내는 것은 불가능에 가깝다.

전문가들은 검증 설계 과정에서 무엇보다 ‘데이터 밸런스’에 신경 써야 한다고 입을 모은다. 변화무쌍한 현실 세계 SW 운용 환경에서 나올 수 있는 다양한 시나리오를 놓치지 않도록, 검증 평가용 데이터 세트 밸런스를 확보해야 한다는 것이다. “데이터 100만개를 확보하는 것보다 다만 10만개라도 다양성 측면에서 균형을 확보한 데이터를 기반으로 검증 항목에 입력해 분석하는 것이 중요하다”는 주장이 나오는 근거다.

이런 데이터 밸런스에 초점 맞춰 AI를 검증할 수 있는 ‘도구’가 상용화 단계에 접어들어 관심을 끌고 있다. 소프트웨어 공학 기업 씽크포비엘(대표 박지환)이 개발한 ‘CETA(Cause and Effect Test Auto Analyzer, 세타)’가 주인공이다. CETA는 인간의 주관에 의지하지 않고, 논리적·객관적 기반 모든 경우의 데이터 세트를 반자동 설계하는 도구다. 기존에 사람(전문가)이 설계하기에는 너무나도 어려웠던 부분을 CETA가 대신 수행하기 때문에 정확도가 높고 설계작업 속도도 빨라졌다. 무엇보다 데이터를 집계해 수준을 예측할 수 있는 ‘정형 데이터’와 달리, 내용 유형에 따라 ‘샘플링 편향’ 현상 등이 발생할 수 있어 예측이 어려운 ‘비정형 데이터’ 밸런스를 확보할 수 있는 현재 유일무이한 도구다. CETA 관련 기술은 관련 분야 SCI(E)급 저널에 게재됐고, 국내 단체표준으로 제정 신청된 상태다. 관련 특허 출원·등록도 20여건에 이른다.

관련해 전국 4개 권역 11개 기관이 참여 중인 지역SW품질협의체가 11월 12일과 13일 양일 동안 여수 소노캄 호텔에서 개최하는 ‘2020년 지역SW품질협의체 성과 공유 및 전략 마련 공동 워크숍’에서 데이터 밸런스 기반 AI 신뢰성 검증(평가)이 주요하게 다뤄진다. ‘SW 품질 역량 강화’를 주제로 열리는 워크숍에는 정보통신산업진흥원(NIPA) 관계자와 주요 권역별 정보문화산업진흥원 SW품질역량강화사업 담당자, SW업계 관계자 등 30여명이 참석한다. ‘코로나19’ 확산 방지를 위해 참석자가 핵심 관계자로 한정됐다.

박지환 씽크포비엘 대표는 행사 첫날 중소 SW기업이 살아남을 수 있는 현실적 방안은 물론, 이들 기업을 지원하는 정부 역할 등에 대해 두 차례 강연한다. 박 대표는 강연에서 ‘데이터 밸런스 확보를 통한 AI 신뢰성 향상의 중요성’과 ‘잘 팔리는 SW 개발의 필요성’을 각각 강조할 예정이다.

씽크포비엘은 지난 2008년 창사 이래 SW 신뢰성 검증 분야에서 독보적 기술을 쌓아왔다. 이미 SW 검증과 AI 신뢰성 평가가 가능한 설계 도구인 ‘CETA’를 개발했다. 또한, CETA를 활용해 밸런스 기반으로 평가한 ‘학습된 AI’가 실질적인 물리 환경(CPS)에서 정상 작동하는지를 가상환경을 통해 자동 검증하는 ‘드로네이스(Dronace)’를 개발한 상태다.

박지환 씽크포비엘 대표는 “바둑돌을 열심히 모아도 알파고처럼 뛰어난 AI 기반 바둑 프로그램이 나오지는 않는다”며 “모은 바둑돌을 효율적이고 균형되게 사례(검증 항목)에 입력하고 분석해야 신뢰성 높은 AI 모델이 나올 수 있다”고 했다. 박 대표는 또한 “CETA는 비정형 데이터를 망라해 AI 신뢰성 검증(평가)에 가장 효율적인 도구”라고 밝혔다.

정규호 기자 jkh@meconomynews.com

다른기사 보기