본문 바로가기
IT 공부/데이터 라벨러 - AIDE(완)

AIDE 2급 내용 정리_2

by 랜턴K 2024. 5. 4.
반응형

빅데이터란

1. 대량의 모든 데이터

2. 데이터 가치와 결과분석기술

3. 빅데이터 플랫폼의 등장 

4. 대규모의 데이터 관리 기술 

 

예시 )

15분 기준 1분에

구글 2백만건 데이터 검색 ; 유튜브 72시간 비디오 생성  ; 트위터 72만건 트윗 생성 

비정형 데이터가 점점 증가 중

 

시대에 따른 데이터 소스원의 변화

70-80 ;메인프레임 컴퓨터

80-00; 개인 PC

00-10; 인터넷과 모바일 > 빅데이터 시대에 진입 

20~ ; 인공지능  등 

 

빅데이터 특징 

1. 초기 빅데이터 특징 3V ; Voulum + Variety + Velocity 

2. 4V = 3V+ veracity(정확성)

3. 5V = 4V + Value (가치)

- 규모 ; 데이터 크기 / 수십테라규모 이상 / 

- 속도 ; 실시간 처리 및 분석 / 스트림 

- 다양성 ; 데이터가 다양해짐 / 정형이던 비정형이던 반정형이던 

- 정확성 ; 신뢰가 가능한 지의 여부 

- 가치 ; 저장할 가치 / 가공 분석하여 의미를 도출 

 

다양성의 특징 

- 정형 데이터 ; 구조화된 데이터, 고정된 필드에 저장된 데이터 (DB 엑셀 CSV)

- 반정형 데이터 ; 스키마를 포함하는 데이터 (XML HTML JSON)

- 비정형 데이터 ; 연산불가, 형태 없음 (영상 음성 임지 SNS데이터) 

 

데이터 라벨링

1. 데이터 정의 ; 구축계획서  

2. 데이터 획득

3. 데이터 정제 ; 원천 데이터 

4. 데이터 라벨링 ; 라벨링 데이터 

5. 데이터 학습; 위의 2가지 데이터 셋이 필요 (분실하지 않아야 함)

 

저작권 & 초상권

- 저작권 ; 창작을 했다면, 등록 없이도 저작물 ; 만들었더라도 창작이 아니면 저작권 없음

- 초상권 ; 특정인을 식별할 수 있는 신체적 특징에 대해 촬영 그림묘사 공표 X / 영리적 사용 불가능

 

데이터 라벨링 기초 이론 

1. 데이터 수집

2. 데이터 정제 ; 학습에 적합한 형태로 바꿔주는 과정 

3. 데이터 라벨링 

4. 데이터 감수 

 

463EB (엑사바이트 - 25년 지구에서 하루 동안 생성되는 데이터의 양)

데이터 유형 ; 이미지 / 영상 / 텍스트 / 음성 

수집 혹은 가공하는 작업을 데이터 라벨러가 맡게 됨 

 

이미지 수집 
수집은 보통 찍자마자 업로드 하는 식 - 저작권의 문제

이미지 가공

        - 라벨링 박스 가장 많이 씀 / 적당한 여백 + 잘리지않음 등 중요 

        -  2개 이상일 경우 태깅 필요 

        - 키포인트 - 특징점을 점 찍음 

        - 얼굴 랜드마크 - 특징점을 찍음 > 주요 부위   

        - OCR - 일반적으로, 글자를 바운딩 -> 태깅 또는 전사 

        - 폴리곤 - 외곽선을 따라 점을 찍고 선을 만드는 작업 

        - 폴리라인 - 작업 대상을 따라 연속적으로 점을 그리는 작업 (시작점-끝점이 연결 x)

 

영상 데이터 수집 

- 영상을 찍어 수집 

- 저작권 문제로 바로 촬영 후 업로드 

영상데이터 가공 
- 바운딩 

- 특정 부위에 점을 찍어주는 스켈레톤 추출 

- 특정 구간 추출 

- 시멘틱 세그멘테이션 (!) - 폴리곤 폴리라인 브러시 등을 사용 경계 분할 

  3D 라벨링 / 멀티 모달 라벨링 기법 등 

 

텍스트 데이터 수집

텍스트 데이터 가공

- 문장 의미 비교 

- 감정 태깅 

- 키워드 찾기

- 문장 요약 

 

음성 데이터 수집

- 바로 녹음하여 업로드 하는 방식으로 저작권 회피 /

- 주변 소리 함께 녹음되야 하는 프로젝트 제외하고, 조용한 곳에서 작업

음성 데이터 가공 

- 화자 구분

- 음성 받아쓰기

 * 일반전사 ; 말한 그대로 문자화하여 전사 /

 * 이중 전사 ; 맞춤법과 발음 표기에 맞게 발음전사와 절차전사를 병행하여 작성

반응형