본문 바로가기
IT 공부/데이터 라벨러 - AIDE(완)

데이터 라벨링 마스터 과정 수강 중에 느낀점

by 랜턴K 2024. 6. 5.
반응형

6월 중에는, 한 번 실제 데이러 라벨링에 참여해 봐야겠다란 생각을 했다.

인공지능 프로덕트를 만드는 회사는 '무얼' 만들고자 '어떤 데이터'가 필요한지 궁금하기도 했고,

중간 '데이터 감수자' 또는 '관리 용역사'들은 어떤 식으로 업무를 하는지도 궁금했다. 

 

데이터 라벨링 작업 공고가 나오는 사이트가 여럿 있는 것은 알지만, 

굳이 여기저기 찾아다니는 게 귀찮기도 하고, 

익숙치 않은 데를 익숙하게 만드는 데 시간 쓰기도 아까워서

크라우드웍스만 뒤적였다.

그리고! 구글 쪽에서 데이터를 모은다는 공고였는데, 보지 못한 자격요건이 있었다. 

'작업 마스터 배지 보유자' 

왜인지 AIDE 2급은 너무 쉽단 생각을 했다. 

'15년전 학부생 때 본 자율주행 학습 데이터도 이렇게 만들 수는 없는데?'라고 생각했었는데 

음.. 그 생각이 맞았던 것이다. 

 

이걸 얻으려고 또 뭘 더... 해야 하다니

 


미리 관련 서적이랑 간단한 인터넷 조사를 한 터에,

뭔진 몰라도 폴리곤 작업이 더럽게 귀찮고 어렵다는 건 알고 있었다.

이왕 시작한 김에, 이런 작업들도 경험해보고 싶었고,

착수할 때 방해받고 싶지 않아 그래 이것도 따버리자 마음 먹었다. 

다행히 수강료가 AIDE처럼 양심없이 비싸지도 않았고.

 

폴리곤 작업 / 세그멘테이션 작업 / 모션 키포인트  / 3D 박스 / 대화문 작성 

총 5가지 작업이 준비되어 있었다.

유일하게 폴리곤 작업만 2개의 실습이 있었다.

 

정말로 중꺾마다...

 

현재 모션키포인트 작업과 대화문 작성 작업 2가지만 작업 중인 상태로, 

모든 작업을 한 번씩은 해보았다. 

이 주안에, 전부 실습 작업 완료하려고 생각 중인데, 

각 작업별 감상은 아래와 같다. 

 

폴리곤 작업 ; 판별하고자하는 대상을 사진에서 누끼를 따는 작업

사물의 종류에 따라 난이도가 다르겠지만, 뇌 빼고 하기에 제일 좋은 것 같다.

특히, 나처럼 정답을 확실히 내는 걸 선호하는 사람에게는 더욱 그럴 것 같다. 

사물과 그림자의 경계 영역에서 배경과 사물색이 어둡게 비슷한 경우, 작업이 까다로워진다.

 

세그멘테이션 ; 사진의 정해진 물체의 경계를 나누는 작업

일단 실습의 예시는 쉬운 편이었다.

단일 배경 위의 정해진 사물로만 예시가 구성되어 있었으니까.

하지만, 배경이 복잡하게 얽혀있는 사진이라면, 작업이 매우 어려웠을 것이라고 생각이 들었다. 

 

이런 작업이 근데, 계속 될 수 있을까? 

작년 4월에, META에서 SAM(Segmentation anything model) 모델을 아예 공개하기도 했었는데 말이다. 

믈론, 세그멘티드 된 데이터에 라벨링은 계속 사람이 해야되겠지만, 공고 자체는 꾸준히 줄어들지 않을까 싶다. 

 

 

Segment Anything

Meta AI Computer Vision Research

segment-anything.com

 

모션 키포인트 ; 사람의 관절 부위를 클릭하고 모션을 따는 작업

기대와 달리, 해본 작업 중 가장 어렵다.

어려운 이유는 키포인트를 생성할 할 신체포인트에 대한 기준이 전혀 일정치 않아 보인다는 점이다.

가령, 어깨뼈의 끝을 기준으로, 어깨 끝의 포인트를 생성하라는데,

1. 어깨뼈가 해부학적으로 어떤 뼈를 말하는 건 지 정확하지 않으며

   (견갑골인지, 빗장뼈인지, 상완의 관절인지)

2. 사진은 2D인데, 뼈는 3D라서 끝의 포인트 또한 말로써 정의되기 어렵고

3. 트라이얼 앤 에러를 통해, 해부학적인 기준 또한 아니라는 걸 알게 되면서,

4. 어깨뼈의 끝이 아닌, 이상한 곳을 찍다 보니 더 혼란스러워졌다. 

괜히 미스테리오가 삼각형으로 뒤덮인 옷을 입고 다니는 게 아님을 깨달았다. 


3D 박스 

특정 기준에 맞춰 평행하게 박스의 선을 그려야 하는데,

이게, 크라우드 웍스 실습 프로그램에서는 평행선을 볼 수 있는 보조 도구가 없다보니,

꽤나 반려를 많이 당했다.

생각보다 어렵긴 했으나, 기준 자체는 또렷한 편으로,

반려의 이유에 대해 충분히 납득이 가능하고 수정할 수 있었다. 

 

대화문 작성 

LLM의 문체, 스타일이란 건 결국 학습된 데이터에 의한 다음 토큰의 추론으로 부터 정해진다. 

가령, 거의 대부분의 인터넷 자료를 학습한 ChatGPT 또는 Gemini가 꽤나

우리에게 친숙한 표현을 구가할 수 있음은 

넷상의 문어체와 구어체를 전부 포함하기 때문이다. 

반대로, 네이버의 하이퍼클로바X의 문체가 어색한 이유 역시 마찬가지다. 

그래서, 특정 유즈케이스나 목적에 맞는 AI 서비스를 만드려면, Common한 LLM으로는

기업이 통상 요구하는 Formal 하면서 Natural (말이 이상한데, 하여튼)한 아웃풋을

구현하기에 매우 어렵다고 생각하고 있었다.

뭐 이부분에 대해서는 별도 꾸준히 학습을 해야겠지만, 

목적이 특유할 수록, 그런 특유한 데이터가 필요함을 지속 추론할 수 있었다. 

 

작업 자체는 어려운 것은 아니나,

대화문 쓰는게 몹시 귀찮아서, 

한 두번 해보고 나중에 몰아해야지 하고 미뤄버렸다. 

인간의 창의력이란 역시 한계가 있는 것이어서

인공적인 데이터 창조 역시 여간 까다로운 것이 아니겠다 싶었다.  

반응형