계장기술(PROCON)

기획특집 제조 디지털 전환, 인공지능(AI) 데이터 검증 먼저!

페이지 정보

작성자 최고관리자 댓글 0건 조회 579회 작성일 23-04-17 13:25

본문

제조 디지털 전환의 핵심은 ‘데이터’
 디지털 전환(Digital Transformation)이란 기업이 디지털과 물리적인 요소들을 통합하여 비즈니스 모델을 변화(Transform)하고, 산업(Entire Industries)에 새로운 방향을 정립하는 것으로 정의된다. (IBM, 2011)

글로벌 선도 기업을 중심으로 스마트공장 도입·운용이 확대되고 있으며, 관련 기술 고도화가 지속적으로 이루어지고 있는 상황이다. 디지털 전환을 성공적으로 이뤄낸 제조업체(등대공장*)는 2018년 16개에서 2021년 3월 기준 69개로 빠르게 증가하는 추세다. (WEF, 2021)
*세계경제포럼은 4차 산업혁명 기술을 적극 도입하여 생산 유연성, 공급망 탄력성, 지속가능성 등을 제고한 기업을 ‘등대공장(lighthouse)’으로 지정하였다.

1d8e8ced3a9b3ea666424c4446eb3613_1681704663_305.png

(국내 중소기업 디지털 전환 현황) 
국내 제조 분야 대기업은 제품 개발·생산·판매 등 제조 활동 전 과정에 생성되는 데이터를 활용한 디지털 전환 케이스를 만들어가고 있는 상황이다. 하지만 국민 경제의 근간이자 일자리 창출의 원천인 중소기업의 경우 전문 인력 부족, 과다한 구축/운영비로 인해 기술 솔루션 도입은 매우 미비한 실정이다. 
•국내 제조업의 디지털 전환 수준은 선진국과 비교했을 때, 약 4년(선도 기업의 경우 2년)의 격차를 보이는 것으로 나타났다. 가치사슬별로는 제품 혁신이나 공정 혁신에 비해 서비스 융합과 비즈니스 융합의 디지털 전환 수준이 상대적으로 미흡한 것으로 보인다. (산업연구원, 2017)
제조 분야의 스마트공장 보급·확산 사업으로 양적 목표는 달성하였으나, 제조 현장 데이터의 실시간 취득·분석·연결이 되지 않아 효과적인 가치사슬 관리의 사각지대로 남아 있다.
 •제조 공정에서 발생하는 데이터의 수집 방법이 체계화되지 않았고, 수집된 데이터에 대한 작업자의 제조 데이터의 이해도가 저조하다.
•제조 공정 데이터를 기계설비 예방 보전에 적절하게 활용하지 못하는 상황이다.
 

제조 공정 지식 기반 인공지능(AI) 데이터 구축의 필요성
국가 제조업 경쟁력 강화 추진 정책 사업의 일환인 스마트공장 구축 사업은 4차 산업혁명의 키워드인 사물인터넷(IoT), 인공지능(AI), 머신러닝(ML), 빅데이터, 5G 등 첨단 ICT가 총망라되며, 스마트 제조 분야의 디지털 전환을 이끄는 핵심 산업 기술이다.
 제조 분야 공장의 효율적 관리를 위해서 수집된 대량의 빅데이터를 기반으로 공정 설비에 대한 실시간 감시, 운영 상태 모니터링, 사전 고장 예측 및 정비 기술 도입이 필요하다. 제조 분야의 디지털 전환은 제조 공정에서의 디지털 기술과 증가된 빅데이터를 통해 가치를 창출하고, 이를 기업의 이익으로 확보하는 과정이다. 
 디지털 기술을 통해 확보한 디지털 자원은 편집, 복제, 세분화, 추적 가능성 등 새로운 속성을 지니고, 디지털 자원의 연결을 통해 창출된 속성들은 유의미한 데이터로서 비즈니스 프로세스 개선에 활용 가치가 있다. 또한 제조 인공지능(AI) 데이터 구축을 통해 품질 좋은 제조 데이터를 확보함으로써 제품 개발, 제조, 물류, 운영 서비스 및 보완 서비스 등 제조 분야 공장의 가치사슬에서 디지털 전환을 모색할 수 있다.

2020년 정부가 ‘한국판 뉴딜’ 정책을 발표하면서 인공지능(AI) 학습용 데이터 구축 사업의 규모가 확대되었다. 과학기술정보통신부(이하 ‘과기부’)와 한국지능정보사회진흥원(이하 ‘지능정보원’)은 해당 사업을 통해 2017년부터 2021년까지 381종의 데이터 셋을 구축해 민간에 개방하는 등 가시적인 성과를 보이고 있다.
 또한 ‘한국판 뉴딜’ 정책의 핵심 디지털 정책인 ‘데이터 댐’(공공기관이나 민간기업이 데이터를 수집하고, 이를 가공하여 유용한 정보를 재구성한 집합 시스템을 의미) 건설을 추진함에 따라 향후 인공지능 학습용 데이터 구축 사업의 규모가 지속적으로 확대되고 있다.
 2022년의 데이터 구축 사업의 사업 규모액은 5천 797억 원에 이를 것으로 기대되며, 글로벌 AI 시장의 폭발적 성장에 따라 데이터 전처리 분야는 향후 2025년 8.6조 원으로, 그 중에 데이터 품질 검증 분야의 규모는 5,200 억 원 이상으로 성장할 것으로 전망된다.

1d8e8ced3a9b3ea666424c4446eb3613_1681704867_9393.png
인공지능 서비스 개발 전체 프로세스에서 투입되는 자원의 약 80%가 데이터 수집·정제·라벨링 등 데이터를 구축하는 과정에서 발생한다. 따라서, 인공지능 관련 산업에서 양질의 서비스를 구축하기 위하여 고품질의 인공지능(AI) 학습용 데이터를 확보하는 것이 중요하다. 또 고품질의 인공지능(AI) 학습용 데이터를 확보하는 과정에서 데이터 전문 인력 등을 통해 비용과 시간적 비용이 발생한다.

인공지능 학습용 데이터 셋 구축 사업의 확대로 민간에 개방되는 데이터 셋의 양적인 측면에서의 문제가 없을 것으로 보이지만, 이미 개방된 21종 460만 건의 인공지능 학습용 데이터 셋의 일부는 데이터 품질 문제로 인해 실무 환경에서 활용되기 어렵다.

이러한 문제의 원인은 데이터 구축 사업의 수행 기관과 참여 기관의 데이터 품질관리 역량이 부족하고, 데이터 품질관리를 체계적으로 수행하는데 필요한 실무 차원의 가이드라인 및 데이터 품질관리 시스템이 미흡한 것으로 파악된다.
인공지능(AI) 학습용 데이터 구축 사업 품질 검증 특성은 데이터 구축 사업의 품질 검증은 초기 단계 데이터 검증과 최종 단계 데이터 검증으로 나뉜다. 중요한 검증은 최종 데이터 검증이나, 구축 사업이 종료된 이후에도 진행되기 때문에 검증에 대한 문제점이 발생할 경우, 재검증 과정이 매우 어렵다. 이를 해결하기 위해서, 데이터 설계 및 구축 단계에서의 체계적인 품질 검증이 요구된다.

1d8e8ced3a9b3ea666424c4446eb3613_1681704907_1793.png

인공지능(AI) 학습용 데이터 품질 검증 및 기술 표준화

인공지능(AI) 학습용 데이터 구축 사업을 위해 적용할 데이터 품질 검증 절차 및 검증 기술 규격에 대한 표준을 정의한다. 지능정보원의 인공지능(AI) 학습용 데이터 품질관리 가이드라인과 인공지능(AI) 학습용 데이터 셋 구축 안내서에서 데이터 품질관리에 대한 표준 정의 기준을 정의하고 있다.
검증 방법 중 통계적 다양성에서는 인공지능 학습용 데이터의 규모와 분포(데이터의 편향성)을 검사하며, 이를 위하여 데이터 구축 기관의 제출된 품질 검증 합의서에 따라 검사 항목을 검증한다. 품질 검증 합의서는 인공지능(AI) 학습용 데이터 셋의 어노테이션 기초 품질검사 기준 항목을 정의한 문서이다.

인공지능 학습용 데이터 셋의 구성요소 중 어노테이션 파일의 기초 품질을 검사하기 위하여 ① 원시 데이터-어노테이션 파일의 매치 여부 검사, ② 어노테이션 파일의 구문적 정확성 검사, ③ 어노테이션 파일의 통계적 다양성 검사를 실시한다. 이를 위하여 데이터 구축 수행 기업은 아래 표에 명시한 자료들을 제출하여야 한다.

1d8e8ced3a9b3ea666424c4446eb3613_1681704972_3562.png     1d8e8ced3a9b3ea666424c4446eb3613_1681704985_2752.png
 

AI 학습 데이터는 영상, 이미지, 음성 등의 원시 데이터를 대상으로 직접 어노테이션 하거나 영상의 이미지화, 이미지 변형 등으로 가공하고, 가공 데이터를 대상으로 어노테이션을 수행한다. 학습 데이터별 어노테이션 대상이 상이하기 때문에 목록화 대상을 명확하게 식별하여야 한다.

어노테이션 대상인 원시 데이터와 어노테이션 파일의 매치 여부를 검사하여 어노테이션 누락, 원시 데이터와 어노테이션 파일의 잘못된 매칭과 같은 오류를 검출한다. ‘데이터 라벨링’ 단계에서는 인공지능(AI)에 활용할 수 있도록 기능이나 목적에 부합하는 라벨을 원천 데이터에 부착하는 ‘라벨링’을 수행한다.

해당 과정에서 생성된 ‘라벨링 데이터’는 원천 데이터에 부여한 ‘참값(Ground Truth)’, 파일 형식, 해상도 등의 데이터 속성이나 설명, 주석 등이 포함된 ‘어노테이션’ 집합을 의미한다.

1d8e8ced3a9b3ea666424c4446eb3613_1681705028_6863.png
인공지능(AI) 학습용 데이터 구문적 정확성 품질 검증 프로세스

데이터 구축 기관은 라벨링 데이터, 원시·원천 데이터 목록, 구축 가이드라인 및 품질 검증 합의서를 품질 검증을 위해 제출해야 한다. 또 데이터 구축 기업은 구문적 정확성 검사 규칙 파일 생성 도구를 활용하여 구문적 정확성 검사 규칙(템플릿) 파일을 생성한다.

데이터 구축 기업은 생성된 구문적 정확성 검사 규칙 템플릿(엑셀)의 데이터 구조와 항목별 타입을 확인 및 보완하고, 항목별 세부 검사 규칙을 설정한 다음 완성된 검사 규칙을 검증 기관에 전달한다. 검증 기관은 검증 시스템을 적용하여 구문적 정확성 검사를 수행한 후, 수행 기업에 대하여 검증 결과 리포트와 유형별 검사 오류 로그를 제공한다.

1d8e8ced3a9b3ea666424c4446eb3613_1681705104_9846.png
구문 정확성 검증 검사 범위
•파일 완전성 검사 : 라벨링 파일의 데이터 형식에 따른 문법 오류 및 내용 누락 여부를 검사
•구조 정확성 검사 : 검사 규칙을 기반으로 어노테이션 항목의 누락 여부 및 유효성 검사
•형식 유효성 검사 : 검사 규칙을 기반으로 어노테이션 항목별로 값의 누락 여부 및 유효성 검사
•어노테이션 파일에 대한 구문 정확성 검증 검사 범위
  또한 수행 기관은 어노테이션 파일의 구문적 검사 항목표를 참고하여 한국정보통신기술협회(이하, ‘TTA’)가 제공한 진단 규칙 파일에 프로퍼티 타입(String, Integer, Number, Object, Array)별 검사 항목을 추가 작성하여 제출한다.
어노테이션 파일의 구문적 정확성 검사 규칙 정의 

수행 기관은 TTA로부터 제공받은 진단 규칙(JSON)에 품질 기준이 되는 구문 규칙을 추가하고, 의미 있는 구문적 정확성 검사를 위하여 아래 항목에 해당하는 검사 규칙 항목을 필수로 확인하여 입력한다.
•파일명 작성 규칙 : (학습 데이터명)_rule_SC.json으로 작성한다. “SC”는 Syntax Check를 의미한다. (예시 : 한국어대화_rule_SC.json)
•데이터 Type : 어노테이션 파일에 포함된 모든 속성(Object, Property)은 타입(String, Integer, number, Object, Array)을 반드시 명시한다.

1d8e8ced3a9b3ea666424c4446eb3613_1681705147_5571.png
인공지능(AI) 학습용 데이터 구조 오류 검증 기능

•구조 오류(파일) : 라벨링 데이터 파일 읽기 오류 사례 자동 검증
•구조 오류(항목) : 라벨링 데이터 필수 항목(Property) 누락 사례 검증
•엘레먼트(노드) 셀렉터 자동 접근 및 클래스 값(Value) 자동 검증


인공지능(AI) 학습용 데이터 형식 오류 검증
•형식 오류(스키마 검증) : 검증하려는 데이터에 대한 스키마 파일을 기준으로 형식 오류 검증
•필수 항목 값에 대한 누락 및 허용 범위 초과 사례 확인 
•구조 오류(항목) : 라벨링 데이터 필수 항목(Property) 누락 사례 검증
•데이터 품질 검증에 대한 구문 정확성 결과 분석 사용자 인터페이스 제공
•검증 데이터에 대한 자사의 제품인 ‘PASSBUCKET’의 주요 기능인 구문 정확성 검증 결과를 데스크탑 버전 기반으로 확인함으로써 검증 결과를 분석할 수 있다.

 
인공지능(AI) 학습용 데이터 통계적 다양성 검증 기능 
 데이터 구축 기업에서 제시한 인공지능(AI) 학습용 데이터 구축을 위한 품질 검증 합의서를 기반으로 검사 항목별 통계 대상의 값에 대한 명시가 있어야 한다.

파일명이나 파일 경로에서 통계 대상을 추출 방법 또한 명시해야 한다.
•통계적 다양성 검증을 위한 데이터 정량 목표 확인
•인공지능(AI) 학습용 데이터 통계적 다양성 검증 기능
•인공지능(AI) 학습용 데이터 저장소(폴더) 단위 데이터 수량 분석
•데이터 구축 참여 기업의 품질 검증 합의서의 정량 목표 총합을 기준으로 데이터 검증
검사 결과와 정량 목표를 정확하게 비교한다.
•통계적 다양성 검사 진행 시 일차적으로 해당하는 데이터의 규모를 확인해야 한다.
•대상 저장소 전체 파일 리스트 관리, 엘레멘트(노드) 셀렉터, 프로퍼티(Property) 값 자동 통계 기능
•프로퍼티 분포도 검증 : 분포별 데이터 수량 확인(사용자 정의된 CLASS별 분포 수량 분석)
•품질 검증 합의서의 내용을 기반으로 하여 통계적 다양성 항목 작성 시, 무엇을 기준으로 검사를 진행하는지 분포 단위를 분명하게 명시한다. 분포 단위의 예시로는 원천 데이터(이미지, 영상, 음성, 텍스트 등이 해당되고, 어노테이션 파일(JSON) 등이 해당될 수 있다.
•인공지능(AI) 학습용 데이터 저장소(폴더) 단위 데이터 수량 분석
•데이터 품질 검증에 대한 통계적 다양성 결과 분석 사용자 인터페이스 서비스 제공 
•검증 데이터에 대한 자사의 제품인 ‘PASSBUCKET’의 주요 기능인 통계적 다양성 검증 결과를 개발 목표인 데스크탑 버전 기반으로 확인함으로써
검증 결과를 분석할 수 있다.

인공지능(AI) 데이터 검증을 통한 제조 디지털 전환 목표 추진

제조업은 우리나라 수출의 80%, GDP의 약 30%의 비율을 차지하고 있으며, 경제성장을 견인해온 근간 산업으로서 그 역할이 매우 중요하다. 제조업의 세계적인 트렌드는 스마트 제조이며, 이는 단순한 생산 자동화가 아니라 인공지능과 데이터를 중심으로 해당 발전의 방향성이 결정될 수 있는 중요한 요소이다. 제조 분야의 인공지능(AI) 데이터 검증을 통해 구축된 고품질 데이터를 제조 산업에 도입함으로써 제조 생산성을 향상시키고, 제조 데이터 활용에 따른 디지털 전환 목표를 추진할 수 있다.

(제조공장 디지털 전환 활성화)
제조 분야의 중소기업 규모에서 스마트공장 보급은 약 1만 9799개로 해가 지날수록 스마트공장 보급률은 증가하는 추세이다. 이와 관련하여 인공지능 데이터 확보를 통해 스마트 제조 공정화 기술을 제조 현장에 도입함으로써 중소 제조 기업의 디지털 전환 속도를 높일 수 있다.
또한, 검증된 인공지능 제조 데이터를 활용하여 스마트공장 도입 및 확산을 통해 제조 분야 기업에서는 양질의 제조 공정 데이터와 이를 접목한 인공지능 기술 개발을 더 용이하게 추진할 수 있다.
더 나아가 정부 육성 정책 과제의 핵심 목표인 마이 제조 데이터 구축 및 활용을 통해 제조 분야 중소기업은 비용 절감의 효과를 확보할 수 있고, 대기업 수준의 인공지능 기술 도입으로 디지털 고도화를 도모할 수 있다.

valiantdatai@gmail.com 

카테고리

카테고리
현재(2019~)

잡지리스트

잡지리스트

이달의 광고업체

이달의 광고업체