LLM이 추천을 만나면? SKT의 LLM 기반 추천 시스템 개발기 (SKT)
요약
- 추천시스템 개발하면서 여러 시행착오에 대해 이야기하고자함.
- 내가 만들었던 멤버십 혜택 추천 기능과 유사하네
- 추천/타겟 마케팅 시스템을 계속해서 고도화하고 있음.
- 자체 개발 알고리즘이 여러 학회에서 상도 탔음.
- 전사 통합 추천 시스템인 원모델 프로젝트 시작함
- 왜 LLM을 써야하는가
- 추천 품질이 향상됨
- LLM을 쓰게되면 다양한 데이터소스를 활용할 수 있음.
- 추천 사유를 직접 설명 할 수 있음
- 고객의 실제 데이터이므로 고객 입장에서 훨씬 받아드리기 자연스러움
- 고객 상호작용을 통해 추천 서비스를 더 고도화할 수 있음
- 상담, 리뷰, 클릭, 가입 등을 활용 가능함.
- 전세계에서 LLM은 게임체인저로 활용되고 있음.
- 어떻게 구현했는가
- 고객 컨텍스트를 기반으로함
- 고객이 본 영화를 기반으로 고객이 볼법한 영화를 추천
- 각각의 영화와 같은 아이템의 메타데이터를 적극적으로 활용함
- 단순한 제목, 카테고리 뿐만 아니라 새로운 데이터(QA Set)
- 해당 아이템에 대한 질문 답변(고차원적이고 세밀함)
- 에이전틱 플로우 기반의 질문 답변 생성 시스템
- 각각의 독립적인 모델을 통해 하나의 메타데이터가 여러 결과를 만들도록 함.
- 단순한 제목, 카테고리 뿐만 아니라 새로운 데이터(QA Set)
- SFT 단계
- 작성 필요
- GRPO 단계
- SFT의 한계를 극복하기 위한 기법
- 강화학습 기반의 최적화 기법
- 모델의 문제해결능력이 크게 향상됐음
- 보상함수를 사용함
- 추천값 예측
- 추천사유 생성
- 각 추천의 근거를 합리적으로 추출
- DPO 단계
- 단기적인 행동 패턴을 보완하기 위해 적용함.
- 선호를 직접 최적화하는 알고리즘
- 고객 컨텍스트를 기반으로함
스크립트
세븐럭카지노 2
2025.11.04 화 오후 2:29 ・ 22분 36초
이두헌
참석자 1 00:00
선우라고 합니다. 반갑습니다. 네 저는 오늘 통신 도메인에 특화된 LLM 기반 에이전트의 성능 평가 벤치마크 텔 에이전트 벤치에 대해서 소개해 드리고자 합니다.
우선 제목만 보시고 저희 발표가 통신 분야에 대한 것이다 보니 나는 통신 분야 종사인이 아니다 하시는 분들이 좀 흥미를 잃으실 수 있을 것 같아서 제가 좀 걱정을 했는데요.
실은 저희가 이 연구를 진행할 때 또 한 축으로 굉장히 중심에 둔 것은 통신이 아닌 다른 도메인이나 서비스에서 모델 성능을 정밀하게 평가하시고자 할 때 어떻게 접근하면 좋을지 사례로서 소개해 드리고 싶은 그런 마음도 있었습니다.
그래서 지금부터 제가 소개해 드리는 이야기들을 관심 있는 어떤 도메인이나 서비스에 적용해 보시면서 들으면 훨씬 더 몰입이 되지 않으실까 이렇게 생각합니다.
이 내용은 AI 데이터 엔지니어링 팀의 공동 연구 성과입니다.
기쁘게도 올해 emnlp 2025 인더스트리 트랙에 채택되었습니다.
참석자 1 01:09
저희 제자 중에 지금 한 분은 중국 소주에 가셔서 이 학회 중에 저희 연구의 결과물을 공유해 주시고 계십니다.
이 연구는 또 작년에 같은 학회에서 저희가 채택 저희가 이제 작성해서 채택되었던 텔 벤치의 후속 연구이자 심화 연구이기도 합니다.
2년 연속 의미 있는 성과와 함께 성과를 함께해 주신 팀분과 그리고 교신 저자이신 에릭 담당님께 감사드리며 발표를 시작하겠습니다.
42페이지에 제가 함께 논문을 작성한 저희 팀분들의 사진을 모두 넣고 싶었는데 아이 성향인 분들이 많으셔서 굉장히 싫어하실 것 같아서 포기하고 제 사진만 넣었습니다.
네 모든 분들의 사진은 없지만 저희 팀을 한 번 소개하고 시작하겠습니다.
저희 팀은 AI 데이터 엔지니어링 팀입니다. AI 모델을 정밀하게 평가해서 그 성능을 파악하고 또 그러면 필요한 데이터에 대한 청사진이 보이는데요.
그 데이터를 설계해서 구축함으로써 파운데이션 모델 학습부터 서비스형 튜닝까지 학습에 모두 활용할 수 있는 데이터를 제공하고 있습니다.
참석자 1 02:19
또 자동화 평가 시스템과 데이터 구축 기술, 사람의 손이 닿아야 하는 디테일까지 4년간 데이터 평가 분야에서 전문성을 쌓아온 개발자 그리고 데이터 사이언티스트, 언어학자, 어노테이터까지 이렇게 구성된 꽤나 멋있는 팀입니다.
혹시 여기 계신 업체 중에서 이런 팀이 없으시다면 도입을 권하고 싶습니다.
지난해 통신 분야에서 LLN은 주로 aicc, AI 컨택센터의 적용에 집중되었었습니다.
상담사들의 평균 고객 고충의 처리 시간을 감소시키고 또 고객 만족도를 높이기 위해서 굉장히 애를 썼었고, SK텔레콤 또한 소기의 성과를 거두었습니다.
저희 SK 텔레콤에도 상담사분들의 상담 후 업무 처리를 효율화하는 포스트 폴이라든지 또는 상담 중에 필요한 검색 기능을 가능하게 해주는 인컬 rag 시스템 등이 상용화되었습니다.
2025년에 AI 분야 주요 키워드 중 하나는 에이전트입니다.
아마 모두가 다 알고 계실 텐데요.
참석자 1 03:29
2025년에는 통신 분야에서의 LLM의 활용이 mnorag 또는 텔코 에이전트 그리고 비즈니스 서포트 시스템의 API, 예를 들어 고객의 요금 정보를 조회하기 위해 호출하는 API 같은 것인데요.
이러한 API 연동을 통한 자동화 등 광범위한 비즈니스 영역으로 확장되고 있습니다.
이에 맞추어 LLM 평가 또한 초점의 변화가 필요했습니다.
작년까지는 도메인 특화 LLM 자체의 기초 역량을 평가하는 데 집중했다면 올해는 에이전틱 LLM의 종합적인 작동 능력을 평가하는 것으로 역량을 확장하고 있습니다.
이러한 필요성을 반영하여 구축된 결과물이 오늘 소개해 드리는 텔 에이전트 벤치입니다.
저희는 이 벤치마크를 통해서 에이전트의 5가지 핵심 역량 즉 위즈인 추론, 플래닝 계획, 그리고 도구 사용에 해당되는 액션 그리고 RA지 인스트럭션, 팔로잉 영역을 평가했습니다.
참석자 1 04:29
이러한 에이전트로서의 방향성과 추론 능력 등의 에이전트 역량이 중요해지는 경향성 또한 비단 통신 영역에 해당되는 것만은 아닐 거라고 생각합니다.
네 앞서 24년도에 저희가 구축했던 틀 벤치를 언급했었는데요.
이태 벤치는 통신 특화, QnA 그리고 기계, 도트, MRC 센티멘트 분석 등 기초적인 LLM 테스크 평가의 기반을 가졌던 과제였습니다.
모델이 통신 분야의 비즈니스를 이해하는지 그리고 고객 상담의 과정에 도움을 줄 수 있는지를 평가했던 것입니다.
2025년에는 에이전트의 등장에 발맞춰 평가의 복잡도를 한층 높인 텔에이전트 벤치를 구축했습니다.
그림에서 보시는 것처럼 텔 에이전트 벤치는 가운데 5가지 핵심 역량 모듈을 중심으로 통신 서비스의 현실적인 시나리오와 과제의 유형, 그리고 난이도를 세분화하여 반영했습니다.
참석자 1 05:29
이를 통해서 단순한 지식 평가를 넘어서 에이전트가 고객의 요청을 이해하고 또 계획을 세우며 적절한 도구를 활용해 문제를 해결하는 전 과정을 종합적으로 검증할 수 있도록 설계되었습니다.
또한 데이터 구축 시 텔코 시나리오에만 한정하지 않고 일반적인 한국어 상황들까지 포함함으로써 모델의 성능을 전반적으로 평가하면서도 또 테코 과제 수행 능력을 가늠해 볼 수 있도록 구성했습니다.
저희는 이 연구의 결과물 중에 자사의 비즈니스 로직이 담기지 않은 범용 상황에 대한 한국어 데이터를 공개할 계획을 가지고 있고, 현재 내부 법무 검토를 진행 중입니다.
사실 텔 에이전트 벤치를 설계하는 과정은 현업의 고민을 해결하는 과정이기도 했습니다.
보시는 슬라이드에서 왼쪽은 개발자나 서비스 기획자들이 겪고 있는 고민이고, 오른쪽은 저희 테일 에이전트 벤치가 제시하는 해결 방안입니다.
먼저 통신 분야에서 활용할 모델을 평가하고자 할 때 고객센터 상담사분들과 같은 도메인 전문가들의 도움이 절실했습니다.
참석자 1 06:38
그러나 이제 상담사분들은 원래 본연의 업무가 있으시고 그러다 보니 리소스 문제가 확실히 있었습니다.
또 상담사분들의 개인의 경험이나 직관에 따라 평가 결과가 좀 흔들리는 경험도 많이 했습니다.
또 상담사분들을 도와드리려고 하는 일이 상담사분들을 좀 귀찮게 하는 듯한 느낌도 있어서요.
아마도 이 고민은 도메인 전문가들의 도움이 필요한 그런 대부분의 영역에서 존재할 것 같습니다.
이에 저희는 자동화된 벤치마크의 설계가 필요하다고 보았습니다.
자동 평가 시스템을 통해서 언제든 효율적인 평가가 가능하도록 하였습니다.
또한 저희가 구축한 자동 평가 시스템은 단순히 정답 매칭을 넘어서는 것입니다.
에이전트의 액션 또는 rag 인스트럭션 팔로잉 등 다양한 출력 결과에 대해서 전문가가 정의한 채점 규칙을 기반으로 신속하고 일관되고 효율적인 평가를 수행할 수 있었습니다.
또 이제 많이 느끼시는 것이 바로 한국어 벤치마크의 부족인데요.
도메인 특허 한국어 벤치마크가 필요했습니다.
참석자 1 07:45
되게 유명한 아카데미 벤치마크들이 많은데 그런 것들은 일반적인 성능 예측만 가능 가능하며 대부분 영어 데이터라서 한국어 통신 도메인에 바로 적용하는 그런 한계가 명확했습니다.
저희는 통신 분야 특화 시나리오와 그리고 한국어 데이터로 벤치마크를 구성했습니다.
영어 데이터를 단순히 자동으로 번역해서 사용하는 경우도 있을 텐데 이렇게 하지 않고 자연스러운 한국어 그리고 적합한 사회 문화적 맥락을 모두 담으려고 애썼습니다.
이 과정에서 저희 팀의 개발자와 언어 학자들 간의 긴밀한 소통이 큰 도움이 되었습니다.
그리고 우리가 LLM으로 서비스를 설계하다가 보면 요즘에 이제 모델 성능이 괜찮기 때문 때문에 80% 정도의 어떤 만족도를 끌어올리는 것은 어느 정도 쉽게 달성을 할 수가 있습니다.
근데 그 이후에 완성도를 높이는 과정에서 어려움을 겪는 경우가 많은데요.
저희는 에이전트 서비스의 완성도를 높이기 위해서 남은 20%의 복잡하고 실제적인 그런 시나리오를 검증해야 될 필요성을 느꼈습니다.
참석자 1 08:47
이에 구체적이고 난이도 높은 시나리오를 반영하기도 했는데요.
네 그래서 최근에는 아까 말씀드린 것처럼 모델 성능들이 두루 높아지다 보니 이런 문항들을 포함하지 않으면 모델 간의 차이나 또 특정 모델의 강점을 파악하기 어려운 상황입니다.
마지막으로 가장 중요한 것입니다. 바로 데이터 프라이버시 문제입니다.
저희가 다루는 데이터들이 고객의 정보가 포함된 경우가 많기 때문에 특성상 실제 로그를 이 데이터로 사용하는 것은 불가능했습니다.
그래서 이를 해결하기 위해서 데이터 전문가가 현실성을 갖춘 되게 실제적이지만 고품질의 생성 데이터로 평가 셋을 이제 구축을 했고 그 데이터 생성 데이터를 구축함으로써 개인 정보의 유출 위험을 원천 차단했습니다.
통신사의 정책 및 약관 그리고 수백만 건의 실제 고객 문의 로그 패턴을 분석하여 현실에서 발생 가능한 되게 현실적인 시나리오로 커버하였습니다.
참석자 1 09:56
네 저희는 이렇게 트 에이전트 벤치를 구축하기 위해서 총 4단계의 프로세스를 체계적으로 따랐는데요.
이 단계 역 이제 세포 도메인에만 해당되는 것이 아니라 이런 류의 데이터를 구성하고 계시는 분들께 좀 더 도움이 되는 절차가 아닐까 생각합니다.
먼저 첫 번째 단계인데요. 벤치마크 기획 및 데이터 설계 단계입니다.
실제 통신 서비스에서 사용 사례를 분석해서 핵심 사례 선정하고 이 사례에서 필요하다고 여겨지는 핵심 역량을 꼽았습니다.
통신뿐만 아니라 다른 도메인에서도 벤치마크를 설계하실 때에는 먼저 상용 사례에 대한 충분한 검토가 필요하다고 생각합니다.
이러한 서비스 검토를 통해 모델의 주요 역량이 도출되면 기존의 아카데미 벤치마크들을 검토할 때 기준이 수립됩니다.
참석자 1 10:43
예를 들어 mno 같은 경우에 mno rag가 현장에서 필요한 서비스라는 걸 알게 되면 rag를 한 축으로 벤치마크를 검토하게 되고 이 경우에 라가스 같은 것들 우리가 생각하기에 중요한 어떤 충실성이나 신뢰성 같은 것들을 검증할 수 있는 아카데미 벤치마크 중에 라가스 같은 것을 선정해서 저희가 TF 통신 도메인에 맞추어서 또 한국어로 현지화할 수 있는 것입니다.
참석자 1 11:13
네 두 번째 단계로는 에이전트의 작동을 위한 도메인 특허 환경을 구현했습니다.
고객 서비스의 핵심 업무 API를 선정하여서 도구 실행 환경을 만든 것인데요.
그리고 이제 약관이나 상품 설명서 등 내부 문서들을 정제하고 DB화하여서 지식 검색 환경 즉 이제 rag를 적용할 수 있는 환경을 구축했습니다.
아마 사실 통신뿐만 아니라 대부분의 분야에서 내부 문서는 굉장히 다루기 힘드실 것 같습니다.
왜냐하면은 사내 서비스의 레거시 또는 이제는 확인할 수 없는 이유로 바뀌어 있는 어떤 규칙들 그리고 비즈니스 로직들 네 그래서 또는 모델이 이해하기 쉽지 않은 단위로 구성된 문서들 이런 것들이 있으실 텐데요.
이런 문서들을 먼저 DB화하는 과정에 또한 많은 노력을 기울였습니다.
세 번째는 초기 데이터 생성 및 확장 단계입니다. 이 단계에서는 팀 내 데이터 전문가가 소수의 고품질 시드 데이터를 생성하고 이를 기반으로 데이터를 증강하여 데이터의 양과 다양성을 확보했습니다.
참석자 1 12:18
자동 증강을 통한 데이터의 품질을 확보하기 위해서 몇 차례의 자동 수동 교차 검수를 수행했습니다.
특히 이제 평가 데이터의 특성상 모과 모호성을 해소하기 위해서 많이 노력을 했고 중복을 제거하기 위해서도 검수를 여러 차례 진행했습니다.
네 마지막으로 도메인 전문가 검증 및 고도화 단계입니다.
이 단계에서는 자체 구성한 웹 기반 도구를 활용하여서 통신사, 상담사 또는 언어학자, 도메인 전문가의 검수를 거쳐서 벤치마크 데이터의 품질을 높였습니다.
각 과제에 적합한 웹 기반 도구를 자체 개발하였고 이를 활용한 회원 검수를 효율적으로 진행하였습니다.
이 과정은 어떻게 보면 좀 휴리스틱하게 보일 수 있지만 데이터의 품질 차이를 결정하는 중요 단계라고 생각합니다.
하나씩 좀 보여드리겠습니다. 먼저 텔 에이전트 릴진입니다.
통신사의 정책 문서는 굉장히 다양한 상품 구성, 그리고 할인 조건, 부가 서비스 같은 것이 얽혀 있어서 복잡합니다.
참석자 1 13:24
따라서 에이전트는 단순히 정보를 검색하는 것을 넘어서 여러 정보를 종합적으로 엮어서 답을 추론하는 그런 능력이 필수적입니다.
저희는 이 추론 동력을 다단계 추론 즉 멀티 QA 방식으로 검증하고 있습니다.
잠깐 예시를 보시겠습니다. 예를 들어서 가장 가벼운 t 포켓 t 포켓파이 모델의 출고가는 네 이런 것이 있다면 여러 상품 중에서 가장 우수한 최상급을 찾아야 되는 시나리오이고요.
이 질문에 대한 답을 찾기 위해서는 t 포켓파이의 무게가 얼마인지, 그중 가장 가벼운 모델이 무엇인지, 그리고 해당 모델의 출고가는 얼마인지 이렇게 다단계로 추론을 이어가야 합니다.
아래에 보시는 수치 연산 유형을 예시로 가지고 왔는데요.
복잡한 계산 과정을 정확히 처리하는 능력을 의미합니다.
월 8만 원 요금제에 2년 약정 할인과 온라인 가입 할인을 모두 적용하면 최종 요금은 얼마인가?
참석자 1 14:20
이런 질문처럼 필요한 조건을 순서대로 적용하고 또 계산해서 최종 금액을 도출해야 하는 통신사의 청구 및 요금 계산 시나리오의 현실성을 반영한 것입니다.
이러한 복잡한 추론 과정은 실제 고객 상담 시 에이전트의 신뢰도를 높이는 핵심 요소입니다.
다음으로 두 번째 핵심 역량은 수화입니다. 모델이 계획을 세웠어야 사실 계약 조건을 잘 지키는 것이 필수적입니다.
우리가 에이전트 서비스를 활용하다 보면 사용자가 제시하거나 아니면 상황 속에 전제되어 있는 필수적인 제약 조건들을 하지 반영하지 못하는 계획을 세워서 신뢰도가 낮은 결과물을 만나게 되는 경우가 종종 있습니다.
통신 서비스 중 특히 로밍이나 여행 관련 서비스는 고객의 다양한 제약 조건을 동시에 고려해야 하는 복잡한 계획 수립을 요구합니다.
저희는 일반적인 여행 계획의 조건이 여행지나 숙소 같은 계약 조건 이외에도 통신 특화 제약 조건을 통합했습니다.
참석자 1 15:19
예를 한번 보시면 네 에이전트가 고객의 복잡한 요구 사항들, 스파가 관여해야 하고, 반려동물 출입이 허용되지 않는 숙소에 예산이나 로 요금제 추천 등을 제약 조건으로 모두 모아야 합니다.
이를 만족하면서 엄격한 통신 제약 조건까지 완벽하게 준수하는지를 평가함으로써 실제 서비스에 적용 가능한 에이전트의 계획 완성도를 측정합니다.
지금 화면에 보이는 예시가 이제 미디엄 예시라고 되어 있는데 중간 정도 난이도의 문항 예시입니다.
어려운 문항일수록 제약 조건이 늘어나서 플랜의 복잡도가 상승하게 됩니다.
세 번째는 액션 도구 사용입니다. 실제 통신사 고객센터 에이전트의 핵심은 비즈니스 서포트 시스템, API 연동 능력입니다.
저희는 청구, 부가 서비스, 데이터 조회 등 6개 카테고리에 걸쳐 23개의 실제 API 경로를 묘사하고 단순 조회부터 병렬 호출, 다단계 실행 등 10가지 하위 테스크를 구성하여 에이전트의 도구 호출 정확도를 정밀하게 측정합니다.
참석자 1 16:23
예를 들어 데이터 정보량을 확인 하에 고객에게 적합한 추가 데이터 상품을 추천하고 또 최종적으로 상품을 가입시키는 이런 다단계 프로젝트를 정확히 수행하는지 평가하는 것입니다.
특히 병렬 다중화폐 그는 고객의 여론이 예를 들면 이런 게 있습니다.
나와 대행자의 부가 서비스를 구현하고 부가 서비스를 해지해라고 한다면 효율적으로 처리하여 응답을 최소화하는 그래서 실제 서비스 속도에 직결되는 핵심 역량입니다.
네 보시는 예시는 고객의 4월부터 5월까지 청구 확정, 이용료 조회 요청에 대해서 에이전트가 올바른 API와 정확한 날짜 파라미터를 추출하여 호출하는지 검증하는 시나리오가 되겠습니다.
네 번째는 검색 증강 생산 즉 rag 모듈입니다.
참석자 1 17:14
rag를 서비스에 활용하려고 하는 시도들은 굉장히 많이 해보셔서 아시겠지만 아까 이제 앞선 발표에서도 언급된 것처럼 가장 위험한 것은 LLM이 검색된 문서를 무시하고 사실과 다른 내용을 지어내거나 또는 검색된 문서를 미묘하게 틀린 방식으로 조합해서 답변을 생성해내는 환각 현상일 텐데요.
저희는 이제 이를 측정하기 위해서 페이스 플리스 즉 충실성을 핵심 지표로 삼았습니다.
정교하게 구축된 접지를 통해서 답변의 모든 문장이 출처 문서에 명확하게 근거하고 있는지를 엄격하게 보았습니다.
우측 예시를 한번 보시면 모델이 답변해서 문서에 없는 허위 정보가 포함되어 있습니다.
이 허위 정보는 바로 데이터를 한도 없이 공유할 수 있다고 하는 답변입니다.
이런 답변이 사실 대고객 서비스에서 잘못 나갔을 경우를 생각하면 통신사 직원의 입장에서는 굉장히 아찔한 답변이기는 한데요.
이런 답변을 원 페이스풀로 판단해서 사실 왜곡을 잡아냈습니다.
네 마지막 핵심 모듈은 인스트럭션 팔로잉 준수입니다.
참석자 1 18:18
이 모듈은 LLL 에이전트가 고객 서비스 AI 시나리오에서 복잡한 사용자 및 시스템 요구 사항을 얼마나 일관성 있게 따르는지입니다.
예를 들면 존댓말로 해라 그다음에 150단어 미만으로 작성해라 이런 인스트럭션을 따르는 건데요.
재미있었던 것은 생각보다 많은 모델들이 단어 수 제약이나 글자 수 제약을 잘 지키지 못한다는 것입니다.
아마 좀 많이 LLM을 사용해 보셨으면 느끼셨을 텐데 그냥 카운트 하면 되는 거 아닌가라고 단순하게 생각했었지만 아마 모델이 바라보는 세상 토큰 기준이 기 때문이거나 패턴 생성으로 이루어지기 때문이 아닐까 이렇게 한번 추론해 보았습니다.
이제 이 벤치마크를 통해서 얻은 주요 결과를 좀 공유해 보겠습니다.
다음 페이지에서 보시면은 조금 더 자세하게 설명을 드릴 수 있겠지만 여기 있는 저희가 생각하는 소타 모델들을 프로 프라이어터리 모델과 오픈소스 모델, 그리고 띵킹 모델과 넌 띵킹 모델로 구분해서 평가를 진행했습니다.
참석자 1 19:18
네 먼저 왼쪽 그래프를 한번 보시겠습니다. 5개의 영역 중에서 rag에서 약간 성능이 유사한 것을 제외하면은 프로 프라이어터리 모델이 위에 있다는 것을 확인하실 수 있습니다.
특히 리즌이나 액션 영역에서 프로 프라이어터리 모델이 성능이 제법 큰 차이로 오픈 소스 모델의 성능을 상회하고 있습니다.
네 점수 차이가 나는 문항들을 보면은 보통 이제 이름이 유사한 요금제 같은 것들을 구분하지 못하거나 여러 숫자들 중 정확히 문제에서 요구하는 숫자를 찾지 못하는 그런 경우가 많아서요.
복잡한 추론과 계산이 합쳐진 문제에서는 프로 프라이어터리 모델의 우수성이 돋보였습니다.
네 오른쪽 그래프는 띵킹 모델과 런 띵킹 모델 간의 성능 평균을 영역별로 비교한 것입니다.
참석자 1 20:06
전반적으로 띵킹 모델이 좀 우위에 있지만 조금 전 프로 프라이어터리 모델과 오픈 소스 모델을 비교해서 설명드린 것처럼 추론과 액션 같이 명시적인 다단계 추론과 복잡한 조건 분 분석이 필요한 영역에서 띵킹 모델이 조금 더 높은 정확도를 달성했습니다.
네 현실의 복잡한 통신 서비스 시나리오에서는 명시적인 추론 과정을 거치는 모델이 훨씬 더 안정적이고 정확할 수 있다는 것을 시사합니다.
다음은 오픈 소스 모델의 결과를 조금 더 자세히 들여다보겠습니다.
전반적으로 띵킹 모델의 성능이 우위였음에도 불구하고 오픈 소스 모델에서는 그렇게 격차가 크지 않습니다.
그리고 평균 수치로 비교했을 때는 플랜, rag 인스트럭션 팔로잉 영역에서는 오히려 넌 띵킹 모델이 비교적 우위를 나타내는 흥미로운 결과를 보였습니다.
참석자 1 20:56
좀 성급하게 결론을 해석하기는 어렵지만 플랜이나 인스트럭션 팔로잉처럼 뭔가 출력 포맷의 엄격한 준수가 요구되거나 RA지처럼 정확한 정보 추출이 필요한 것들은 명령어에 직접적으로 응답하는 모델이 때로 더 안정적일 수 있다라는 결과를 확인할 수 있었습니다.
즉 모델을 선정하고 서비스에서 이제 활용할 때 단순히 띵킹 기능의 유물을 넘어서 실제 서비스의 핵심 요구 사항에 따라 모델 아키텍처를 신중하게 선택하는 것이 필요합니다.
지금까지 제가 소개해 드린 텔 에이전트 벤치는 사내외에서 활용될 예정입니다.
사내 비즈니스 및 서비스에서 현실성 있는 그런 평가 도구로서 활용이 될 것이고요.
또한 이제 독자 AI 파운데이션 모델 개발함에 있어서 에이전트한 능력을 평가할 수 있는 벤치마크로 활용될 예정입니다.
다음 발표에서 만나보시게 될 저희 파트너 셀렉트스타와 함께 SK텔레콤 정예 팀의 모델 개발에 우선적으로 활용할 계획입니다.
참석자 1 21:56
또한 논문으로 발표가 된 만큼 커뮤니티의 성과를 공유함으로써 유사한 고민을 가지고 있는 현업의 이슈 해결에 기여하고자 합니다.
팀분들과 함께 연구를 진행하다 보니 에너지도 생기고 사실 또 다음 연구에 대한 아이디어도 넘쳐나고 있습니다.
저희는 앞으로도 멀티 모델 영역으로의 확장, 그리고 제조 AI를 비롯한 도메인 확장 그리고 모델 성능 평가의 변별력을 갖추기 위한 고난이도 문항 개발 등 벤치마크와 관련된 연구 계획을 가지고 있고요.
꾸준히 실천해 나가려고 합니다. 발표는 여기까지입니다.
들어주셔서 감사합니다.
clovanote.naver.com
댓글
첫 번째 댓글을 남겨보세요.