More
Сhoose
Head Office

경기도 성남시 수정구 위례서일로 6 우대빌딩 2층 로이드케이 (우) 13647

Contact Us

궁금한게 있으신가요? sales@lloydk.co.kr

검색 증강 생성(RAG)란? (2)

Publication cover
Category:  ARTICLE
Date:  2024.07.15

‘DO’는 로이드케이의 기술연구소가 연구/개발한 기업용 솔루션으로, 로이드케이는 보다 많은 데이터가 가치있게 활용될 수 있도록 기업 환경에 맞는 다양한 데이터 운영을 위한 제품 라인업을 지속적으로 개발 및 보유하고 있습니다.

빅데이터의 통합 수집 / AI 분석 / GenAI 활용을 위한 RAG 구성의 비즈니스 활용 플랫폼인 DO 솔루션은 대표적으로, 챗봇 형식으로 AI 데이터 분석 결과를 제공하는 형태를 취하고 있다는 특징이 있습니다(※관련 특허 보유). 사용자 친화적인 인터페이스 구성을 통해, 기업 경영 및 업무에 있어 담당자가 가장 효율적인 방식으로 AI를 활용할 수 있도록 지원합니다. 멀고 어려운 것으로 느껴지는 AI 기술을 업무에 실용적으로 접목하여 쉽게 활용할 수 있도록 하는 것은 DO 솔루션이 가장 중요하게 여기는 핵심가치 중 하나입니다.

이번 글에서는 DO 솔루션의 핵심이 되는 RAG 구성이 무엇인지 살펴봄으로써 DO 솔루션에 대한 이해를 돕고자 합니다. 실제로 업무에 있어 AI를 자주, 그리고 많이 활용하는 입장에서 봤을 때 RAG 구성이 어떻게 유용한지 공유해드리고자 하는데요. RAG 구성이 어떠한 가능성을 열어주고, 또 어떻게 업무에 도움이 되는지 등에 대하여 이야기해보고자 합니다.




기업은 왜 챗GPT 서비스를 사용할 수 없을까요?


기업에서 챗GPT 서비스를 활용하는데 있어, 대표적인 제약사항이 몇가지 존재합니다.

1. 사용자 데이터를 학습합니다.
OpenAI는 ChatGPT의 기반이 되는 모델을 훈련하고 서비스를 개선하기 위해 제공되는 콘텐츠(문서, 사진 등)를 이용할 수 있다고 명시하고 있습니다. 이로 인해 사용자의 데이터가 학습용으로 사용될 수 있습니다.

2. 사내 데이터가 외부로 유출될 수 있습니다.
특히 민감한 정보나 기밀 자료가 외부로 노출될 위험이 있습니다. 실제로 대기업 등에서는 회사 기밀 유출 우려로 인해 ChatGPT를 전면적으로 사용 금지하는 경우가 있습니다.

3. 보안성(안정성) 문제가 있습니다.
OpenAI의 보안성은 제한적이며, ChatGPT와 같은 AI 서비스는 데이터 유출, 해킹 등의 보안 위협에 노출될 가능성이 있습니다. 따라서 민감한 정보나 기밀 데이터를 다룰 때는 주의가 필요합니다. 이러한 이유로 일부 기업과 기관에서는 보안성을 이유로 ChatGPT의 사용을 제한하거나 금지하고 있습니다.

기업에서 챗GPT를 쓸 수 있는 방법이 있을까요?


기업이 ChatGPT를 안전하고 효율적으로 활용하기 위해 다음과 같은 방법을 고려할 수 있습니다.

1. Azure OpenAI 사용
Microsoft Azure에서 제공하는 OpenAI 서비스를 이용하면, 기업은 ChatGPT와 같은 모델을 클라우드 환경에서 손쉽게 사용할 수 있습니다.

[안전한 클라우드 환경]
Microsoft의 보안 및 규정 준수 기능을 통해 데이터를 보호합니다. 콘텐츠 필터링(contents filtering)을 포함하여 암호화, 인증, 역할기반 접근 제어 등을 지원하고, private endpoint를 통한 VNET 구성을 제공합니다.

[확장성]
필요에 따라 리소스를 확장하거나 축소할 수 있어 유연한 사용이 가능합니다. 콘텐츠 필터링의 적용에 있어서도, 필요에 맞게 심각도 및 적용 모델 등을 조절할 수 있습니다.

[통합]
Azure의 다른 서비스와 손쉽게 통합하여 전체적인 IT 환경의 효율성을 높일 수 있습니다.

2. Private Endpoint 사용
기업은 민감한 데이터를 보호하기 위해서, Private Endpoint를 사용하여 ChatGPT에 접근할 수 있습니다.

[보안 강화]
인터넷을 통한 접근을 차단하고, 기업 내부 네트워크에서만 접근 가능하도록 설정할 수 있습니다.

[데이터 유출 방지]
외부 해킹이나 데이터 유출 위험을 최소화 할 수 있습니다.

[제어 강화]
접근 제어 및 모니터링을 강화하여 사용자의 행동을 세밀하게 관리할 수 있습니다.

3. 콘텐츠 필터링 적용
기업은 ChatGPT를 사용할 때 부적절한 콘텐츠가 생성되지 않도록 필터링 시스템을 적용할 수 있습니다.

[부적절한 콘텐츠 차단]
민감하거나 부적절한 콘텐츠의 생성을 차단할 수 있습니다.

[기업 이미지 보호]
직원이나 고객이 부적절한 정보를 접하지 않도록 하여 기업 이미지를 보호할 수 있습니다.

[컴플라이언스 준수]
법적 및 윤리적 기준을 준수하여 규제에 대응할 수 있습니다.

4. 사용자 권한 관리
기업은 ChatGPT 사용 시 사용자 권한 관리를 통해 데이터 접근을 제한할 수 있습니다.

[역할 기반 접근 제어(RBAC)]
직원의 역할에 따라 접근 권한을 세분화 할 수 있습니다.

[활동 로그 기록]
누가 언제 어떤 데이터를 사용했는지 기록하여 추적할 수 있습니다.

[정기적인 검토 및 업데이트]
사용자 권한을 정기적으로 검토하고 필요에 따라 업데이트 할 수 있습니다.

5. 데이터 암호화
기업은 데이터 암호화를 통해 ChatGPT와 상호 작용하는 데이터를 보호할 수 있습니다.

[전송 중 데이터 암호화]
데이터가 전송되는 동안 암호화하여 도청을 방지할 수 있습니다.

[저장 데이터 암호화]
저장된 데이터를 암호화하여 불법 접근을 방지할 수 있습니다.

[강력한 암호화 알고리즘]
최신 암호화 알고리즘을 사용하여 보안 수준을 강화할 수 있습니다.

RAG는 왜 필요할까요?


위와 같이, 기업에서 보다 안전하고 효율적으로 챗GPT를 사용할 수 있도록 해주는 기술이 바로 RAG(Retrieval-Augmented Generation)입니다.

RAG는 자연어 처리(NLP) 분야에서 사용되는 최첨단 기술로, 정보 검색을 통해 언어 생성 과정을 향상시키는 방식입니다. 이 기술은 정보의 정확성과 관련성을 높여, 더욱 신뢰성 있는 답변을 제공합니다.

RAG 의 작동 원리는 다음과 같습니다.

<RAG 파이프라인> 출처: https://thetechbuffet.substack.com/p/rag-indexing-methods

1. 정보 검색 단계
사용자의 질문이나 입력에 가장 관련성이 높은 정보를 데이터베이스나 인터넷에서 검색합니다. 이 과정에서는 유사도 검색 기술이 사용되어, 질문에 답할 수 있는 가장 적합한 콘텐츠나 문서를 선택합니다. 이러한 단계는 모델이 답변을 생성하는 데 필요한 기초 데이터를 제공합니다.

2. 언어 생성 단계
검색된 정보를 바탕으로 생성 모델(예: GPT-4)이 답변을 생성합니다. 이때, 생성 모델은 검색된 콘텐츠를 활용하여 보다 정확하고 정보에 기반한 답변을 만들어냅니다. 이러한 접근 방식은 단순한 언어 생성보다 훨씬 더 높은 정확성과 신뢰성을 보장합니다.

예를 들어, 사용자가 특정 주제에 대한 질문을 했을 때, RAG 시스템은 관련 논문, 기사, 데이터베이스 등의 다양한 소스에서 필요한 정보를 검색하여 이를 기반으로 종합적이고 정교한 답변을 생성합니다. 이는 특히 복잡한 질문이나 최신 정보가 필요한 경우에 매우 유용합니다.

기업들은 RAG 기술을 통해 챗GPT와 같은 언어 모델을 보다 안전하고 효율적으로 활용할 수 있습니다. 데이터 유출의 위험을 최소화하면서도, 사용자의 요구에 부합하는 정확하고 신뢰성 있는 답변을 제공할 수 있기 때문입니다.

기업은 왜 RAG를 도입해야 할까요?


기업의 입장에서, RAG는 다음과 같은 필요성이 발생했을 때 도입하면 효과적입니다.

1. 특정 도메인에 최적화된 모델을 통해 기업이 보유한 데이터를 LLM과 연계하여 서비스하고자 할 때
일반적인 AI 모델은 다양한 주제를 다룰 수 있지만, 특정 도메인에 최적화된 정보를 제공하는 데에는 한계가 있습니다. RAG는 관련성 높은 정보를 검색하고 이를 기반으로 답변을 생성하기 때문에, 특정 산업이나 분야에 최적화된 맞춤형 응답을 제공할 수 있습니다.

2. 기업 교유의 요구사항에 대응하는, 다양한 정보를 통합한 질의 응답 시스템 등을 구축하고자 할 때
기업마다 고유한 데이터와 요구사항이 존재합니다. RAG는 이러한 고유한 요구를 반영하여, 기업 내의 데이터베이스나 인터넷에서 필요한 정보를 검색하고 이를 바탕으로 답변을 생성함으로써, 맞춤형 솔루션을 제공합니다.

3. 모델이 할루시네이션 등으로 사실이 아닌 진술을 하는 경우
AI 모델이 종종 사실과 다른 정보를 생성하는 헐루시네이션 문제가 발생할 수 있습니다. RAG는 검색된 신뢰성 있는 정보에 기반하여 답변을 생성하기 때문에, 이러한 헐루시네이션 문제를 최소화하고 더 정확한 정보를 제공할 수 있습니다.

4. 실시간으로 변화하는 정보를 반영해야 하는 모델의 결과 정확도가 기대치에 미치지 못하는 경우
AI 모델의 결과가 기업의 기대에 부응하지 못할 때가 있습니다. RAG는 관련성 높은 정보를 검색하여 보다 정확하고 신뢰성 있는 답변을 생성함으로써, 기업의 기대를 충족시킬 수 있습니다.

이렇듯 RAG가 요구되는 이유는, 모델 파인튜닝만으로는 이러한 요구사항에 대응하기가 어렵기 때문입니다. 이는 파인튜닝에 아래와 같은 제약사항들이 존재하기에 그렇습니다.

1. 파인튜닝을 위해서는 반드시 GPU가 필요합니다.
AI 모델을 파인튜닝하려면 높은 연산 능력을 제공하는 GPU가 필요하며, 이는 비용과 자원의 부담을 증가시킵니다.

2. 원하는 결과를 얻기까지 필요한 학습의 양을 가늠하기 어렵습니다.
파인튜닝 과정은 복잡하며, 목표 성능에 도달하기까지 필요한 학습 데이터와 시간을 예측하기 어렵습니다.

3. 데이터가 변경될 때마다 새로이 추가 학습이 필요합니다.
데이터가 업데이트되거나 새로운 데이터가 추가될 때마다, AI 모델은 다시 학습 과정을 거쳐야 하며, 이는 시간과 비용의 낭비를 초래할 수 있습니다.

4. 학습을 위해, 질문과 답변으로 구성된 데이터를 준비해야 합니다.
파인튜닝을 위해서는 적절한 질문과 답변 데이터셋을 마련해야 하며, 이 과정은 상당한 시간과 노력을 필요로 합니다.

5. 방대한 분량의 데이터를 사전에 구비해야 합니다.
효과적인 파인튜닝을 위해서는 많은 양의 데이터가 필요하며, 이를 수집하고 관리하는 데에도 상당한 자원이 소모됩니다.

결론적으로, RAG는 이러한 파인튜닝의 제약을 극복하고, 보다 정확하고 효율적인 AI 솔루션을 제공할 수 있는 강력한 도구입니다. 기업이 RAG를 도입함으로써, 데이터의 정확성과 관련성을 높이고, AI 모델의 신뢰성을 강화하며, 고객의 요구에 더욱 효과적으로 대응할 수 있습니다.




RAG, 꼭 전문가가 필요할까요?


RAG 구성의 도입이란 단순히 어떠한 기술을 구매하고 설치하는 것만으로 끝나는 일이 아닙니다.

기업의 기존 데이터 구조를 분석하고, 비즈니스 특성과 목적에 맞게 어떤 데이터를 어떻게 활용할지 최적의 전략을 세우며, 효율적인 활용을 위해 RAG 모델을 정교하게 튜닝하는 일련의 과정이 요구됩니다. 또한, 계속해서 기술이 발전함에 따라 지속적인 업데이트와 관리가 요구되는데, 이는 비용 및 인력적인 부담이 계속해서 가중된다는 것을 의미합니다. 이 모든 과정에 있어, 전문가의 지식과 경험이 필수적인 이유가 여기에 있습니다. RAG 구성에 대한 깊은 이해를 보유한 전문가는 RAG 기술을 기업의 특성에 맞게 최적화하고, 기술 도입 후에도 원활하게 운영될 수 있도록 다방면으로 지원할 수 있습니다. 즉, 전문가는 RAG 기술의 효과를 극대화하고, 투자 대비 최고의 성과를 얻을 수 있도록 돕는 핵심 열쇠라 할 수 있습니다.

RAG 도입에는 여러 제약사항과 고려사항이 존재합니다. RAG 구성 시에는 다양한 부분들이 활용되어야 하며, 효율적인 활용을 위해서는 구성에 대한 전문적인 이해가 필수적입니다.



RAG는 정보의 바다에서 우리에게 필요한 지식을 찾아내고, 이를 기반으로 새로운 가치를 창출해내는 놀라운 기술입니다. 이 기술이 기업의 비즈니스에 혁신을 가져다 줄 수 있도록, 비즈니스의 특성과 목표를 깊이 이해할 수 있는 전문가와 함께 체계적으로 접근하는 것이 정말 중요합니다. 바로 이러한 도입 과정을 돕고자 로이드케이는 ‘DO’를 개발하였으며, 이를 통해 기업과 함께 고민하여 비즈니스가 나아갈 방향을 찾겠습니다.

AI는 어디까지나 도구이며, 주체는 사람입니다. 어떻게 다루고 활용할지, 그리고 그를 통해 얼마만큼의 효과를 볼 수 있는지는 결국 사용자에게 달려있습니다. 기업에게 있어 그 어느 때보다도 빠른 변화와 유연한 적응이 필요한 이 때, 최적의 길을 찾도록 돕는 맞춤형 솔루션, 로이드케이의 ‘DO’가 함께 하겠습니다.

Tags: AI, DO, GenAI, LLM, RAG, 검색, 검색 증강 생성, 생성형AI, 인공지능, 챗봇
Looking to quantum jump your business?
We'll help you turn your project into a success story.

성공적인 데이터 운영을 위한
완벽한 파트너와 함께하세요.