본문 바로가기
기획/인사이트

RAG와 레거시 기업 메뉴스크립트의 방향성에 대한 고찰

by 랜턴K 2024. 2. 3.
반응형

23년 3월, ChatGPT3에서 우리가 느낀 LLM의 단점 중 하나는
ChatGPT3의 학습데이터가 21년까지 뿐이었기 때문에, 최신의 질문에 대한 대답을 못한다는 것이었습니다.

 

즉, 컨티뉴얼 러닝 - 지속학습이 불가능하다가 실제 비즈니스 필드에서 적용되기 어려운 난점이었던 것이죠

 

컨티뉴얼 러닝의 문제는 아예 언어 모델의 패러다임이 바뀌지 않는 한
원리적으로 정면에서 해결될 수 있는 문제가 아닙니다.
이에, 여러 우회적인 해결책들이 제시되었는데, 그 중 가장 현실적이고 효용성 있는 생각되는 게 'RAG' 입니다.

 

 

물론, RAG에 대해서는  전부터 셀프 스터디를 통해 대략적인 내용은 꿰고 있었습니다만

작년 회사 내부적으로 진행한 NCP 설명회를 통해 좀 더 자세한 엔지니어들의 설명을 들을 수 있었습니다. 
문서 기반 DB의 문서들을 미리 매핑 해놓고,
사용자 질의가 들어왔을 때, 레퍼런스 문서를 DB에서 검색/인출 -> 해당 문서 기반 답변을 생성하는 방식입니다.
아래 링크는 RAG방식에 대한 설명과 최근 연구 동향에 대해 기술하고 있습니다.

 

 

레퍼런스가 있는 채로 답변을 생성하기 때문에, 할루시네이션을 우회적으로 줄일 수 있습니다만,
거꾸로 이는 답변의 수준이 레퍼런스 문서 수준으로 한정된다는 것을 의미합니다.
우리가 놀라움을 감추지 못했던 LLM 자체의 복합적 인사이트 생성은 기대할 수 없다는 것이죠.

 

(RAG에 국한되는 이야기는 아니지만, 어쨌든)
RAG방식에서는 우리가 생성하는 소스 데이터 퀄리티가 무엇보다 중요합니다.
왜나하면, RAG를 적용한 LLM의 최고품질은 매뉴스크립트의 최고품질에 대한 함수일 것이기 때문입니다.
이는, 원리 상 RAG방식의 LLM이 제작하는 컨텐츠 커버리지가 메뉴스크립트의 커버리지에 종속되기 때문입니다.

 

결국, AI 프로덕트 퀄리티를 높이는 가장 근본적이며 적극적인 방법은, 원고의 품질 향상 + 원고의 커버리지 향상입니다.
하지만, 저작량이 많은 대기업 부서일 수록, 이미 비용 최적화와 인력 최적화에 허덕이고 있고,
다운타임 감수 없이는, 품질과 커버리지 증가라는 도전을 할 수가 없을 것입니다. 
 
이런 영역에서는 간접적으로 업체를 통해 생산성 향상을 재고하도록 유도하고, 
또는 대기업의 업체에 대한 적극적인 투자와 방식의 고민이 과제 저의 생각입니다
수직/수평 양방향의 고자 인적 자원 성장만이, 메뉴스크립트의 양과 질 둘 다 높이는 근본적인 방법이기 때문입니다.
더불어, 보다 고도한 인사이트를 포함한 컨텐츠를 기술 저작하다록 가이드하고 지원할 수 있게끔,
대기업 담당자 각자 지속적으로 본인이 속한 도메인에 대한 성장 역시 전제되어야 합니다

 

반응형