빅데이터란
1. 대량의 모든 데이터
2. 데이터 가치와 결과분석기술
3. 빅데이터 플랫폼의 등장
4. 대규모의 데이터 관리 기술
예시 )
15분 기준 1분에
구글 2백만건 데이터 검색 ; 유튜브 72시간 비디오 생성 ; 트위터 72만건 트윗 생성
비정형 데이터가 점점 증가 중
시대에 따른 데이터 소스원의 변화
70-80 ;메인프레임 컴퓨터
80-00; 개인 PC
00-10; 인터넷과 모바일 > 빅데이터 시대에 진입
20~ ; 인공지능 등
빅데이터 특징
1. 초기 빅데이터 특징 3V ; Voulum + Variety + Velocity
2. 4V = 3V+ veracity(정확성)
3. 5V = 4V + Value (가치)
- 규모 ; 데이터 크기 / 수십테라규모 이상 /
- 속도 ; 실시간 처리 및 분석 / 스트림
- 다양성 ; 데이터가 다양해짐 / 정형이던 비정형이던 반정형이던
- 정확성 ; 신뢰가 가능한 지의 여부
- 가치 ; 저장할 가치 / 가공 분석하여 의미를 도출
다양성의 특징
- 정형 데이터 ; 구조화된 데이터, 고정된 필드에 저장된 데이터 (DB 엑셀 CSV)
- 반정형 데이터 ; 스키마를 포함하는 데이터 (XML HTML JSON)
- 비정형 데이터 ; 연산불가, 형태 없음 (영상 음성 임지 SNS데이터)
데이터 라벨링
1. 데이터 정의 ; 구축계획서
2. 데이터 획득
3. 데이터 정제 ; 원천 데이터
4. 데이터 라벨링 ; 라벨링 데이터
5. 데이터 학습; 위의 2가지 데이터 셋이 필요 (분실하지 않아야 함)
저작권 & 초상권
- 저작권 ; 창작을 했다면, 등록 없이도 저작물 ; 만들었더라도 창작이 아니면 저작권 없음
- 초상권 ; 특정인을 식별할 수 있는 신체적 특징에 대해 촬영 그림묘사 공표 X / 영리적 사용 불가능
데이터 라벨링 기초 이론
1. 데이터 수집
2. 데이터 정제 ; 학습에 적합한 형태로 바꿔주는 과정
3. 데이터 라벨링
4. 데이터 감수
463EB (엑사바이트 - 25년 지구에서 하루 동안 생성되는 데이터의 양)
데이터 유형 ; 이미지 / 영상 / 텍스트 / 음성
수집 혹은 가공하는 작업을 데이터 라벨러가 맡게 됨
이미지 수집
수집은 보통 찍자마자 업로드 하는 식 - 저작권의 문제
이미지 가공
- 라벨링 박스 가장 많이 씀 / 적당한 여백 + 잘리지않음 등 중요
- 2개 이상일 경우 태깅 필요
- 키포인트 - 특징점을 점 찍음
- 얼굴 랜드마크 - 특징점을 찍음 > 주요 부위
- OCR - 일반적으로, 글자를 바운딩 -> 태깅 또는 전사
- 폴리곤 - 외곽선을 따라 점을 찍고 선을 만드는 작업
- 폴리라인 - 작업 대상을 따라 연속적으로 점을 그리는 작업 (시작점-끝점이 연결 x)
영상 데이터 수집
- 영상을 찍어 수집
- 저작권 문제로 바로 촬영 후 업로드
영상데이터 가공
- 바운딩
- 특정 부위에 점을 찍어주는 스켈레톤 추출
- 특정 구간 추출
- 시멘틱 세그멘테이션 (!) - 폴리곤 폴리라인 브러시 등을 사용 경계 분할
3D 라벨링 / 멀티 모달 라벨링 기법 등
텍스트 데이터 수집
텍스트 데이터 가공
- 문장 의미 비교
- 감정 태깅
- 키워드 찾기
- 문장 요약
음성 데이터 수집
- 바로 녹음하여 업로드 하는 방식으로 저작권 회피 /
- 주변 소리 함께 녹음되야 하는 프로젝트 제외하고, 조용한 곳에서 작업
음성 데이터 가공
- 화자 구분
- 음성 받아쓰기
* 일반전사 ; 말한 그대로 문자화하여 전사 /
* 이중 전사 ; 맞춤법과 발음 표기에 맞게 발음전사와 절차전사를 병행하여 작성
'IT 공부 > 데이터 라벨러 - AIDE(완)' 카테고리의 다른 글
데이터 라벨링 작업 마스터 과정 이수 후기 (0) | 2024.06.09 |
---|---|
데이터 라벨링 마스터 과정 수강 중에 느낀점 (1) | 2024.06.05 |
AIDE 2급 시험 후기 (0) | 2024.05.25 |
AIDE 공부하게 된 이유 (1) | 2024.05.12 |
AIDE 2급 내용 정리_1 (0) | 2024.05.01 |