PARA/03_Resources/R001_개발_레퍼런스(참고문서)/AI 강의/에이닷노트 음성인식 성능을 끌어올린 Generative AI 전처리 기술 (SKT).md

에이닷노트 음성인식 성능을 끌어올린 Generative AI 전처리 기술 (SKT)

2025년 11월 4일

소개

GPT한테 제목 만들어달라고함
전처리 만들어봤다
제목뽑아달라고했더니 이렇게 해줌
- 장황하지만 있을건 다 있음
나는 송명석임
SKT 음성인식팀임

배경 및 문제의식

에이닷노트라는게 있음
에이닷 안에 노트라는 베타버전이 있음
- 회의나 강의록등을 마련해줌
- 음성인식과 잡음을 없애기 위해 어떻게 AI를 활용했는지
- 특히 생성형 모델을 어떻게 활용했는지 알려주고자함
기존 에이닷은 통화 기반으로 데이터를 학습했기 때문에 회의 등 원거리 녹음 환경에서는 성능이 저하됨
따라서 단향, 잡음을 제거해서 음성 인식률을 향상시키는 전처리 기술이 필요함

전처리 기술이란

전체 스크립트

생성형 전처리기
2025.11.04 화 오전 10:26 ・ 23분 20초
이두헌

참석자 1 00:00
핸드폰 음성 식품에 꼭 넘겨주시고요. 이 시간 내에 다 많이 자리를 채워주시고 관심 가져주셔서 감사드립니다.

참석자 1 00:11
네 배경 설명부터 드리고자 합니다. a 단 노트라는 게 있어요.
a단 앱은 아마 다 아시겠지만 SK는 지금 열심히 하고 있는 얘기고 데이터 앱에 노트라는 베타 버전 서비스가 론칭이 됐습니다.
회의나 강의록 등을 마련해 주는 부분입니다. 핸드폰에서 여기다 서고 버튼 누르면 실시간 받아쓰기가 나오고요.
중간중간 요약이 되고 그 녹음을 이제 마치면 마지막으로 최종 과제 팀이 나오고 최종 요약되고 또 선택한 템플릿에 따라서 회의록이나 강의록 같은 것들을 만들어주는 기능인데 공통 인식팀 입장에서는 이제 a 다 노트의 음성 인식을 잘하고 싶다는 거죠.
어떻게 해야 되느냐 그런 고민을 한 건데 사실 기존의 SKT의 음성 인식은 모델은 다 그런 건 아닙니다만 대부분 통화 데이터 위주로 되어 있습니다.
대신 일단 노트는 이 회의나 강의 같은 원거리 운영 식 데이터를 맞아 어야 되는 부분이 상당히 다릅니다.

참석자 1 01:13
통화용이라고 한다면 핸드폰은 이제 뒤에 대형이기 때문에 사람의 입과 마이크가 굉장히 간격에 가까워서 녹음된 음량도 충분히 크고 그러니까 단향이나 자궁 같은 것들도 현저히 적습니다.
반면에 이제 회의 같은 상황을 가정해 보시면 핸드폰을 놓고 녹음을 한다고 하면 회의 구성원들이 멀리 떨어져 있으면 음량이 작게 들어오고 그러니까 단형이나 자궁은 상대적으로 크게 적용되는 악조건이 되겠습니다.
그 두 개의 간극을 어떻게 좁힐 것이냐 당연히 이제 회의나 강의 데이터 원본 데이터를 많이 모아서 음성 인식을 학습하는 것이 한 가지 방법일 수 있겠습니다만 오늘 말씀드리고자 하는 것은 말하자면 전처리 기술 그러니까 음성 인식기 앞에 붙어서 단약이나 자궁을 제거해 줘서 음성 인식 통을 올려보자는 는 접근 방식에 관한 내용입니다.
그러니까 이제 남은 것은 경찰이 어떻게 개발할 것이냐라는 내용인데요.

참석자 1 02:06
해보니까 생산 모델로 해보는 것도 좋겠다. 유피적이나 컨시턴스 모델을 이용해 보자 생각성이 잘 되더라.
결과적으로 실제 환경에서도 음성 인식 성능이 올라가는 것을 받고 해서 예단 노트까지 이어지게 되는 이런 흐름입니다.
그 이후에 이제 설명은 전처리 먼저 설명드리고 성능 모델 기반 전처리는 뭔지 설명드리고 그게 음성 인식이 어떻게 붙는지 설명드리고 그 두 개를 합쳐서 a 다 게 들어갔을 때 어떻게 되는지 그런 순서로 설명을 드리도록 하겠습니다.
음성 인식 전처리의 기본적인 설명이에요. 사실 전처리라고 하는 것이 많이들 사용되는 용어입니다.
다른 필드에서는 많이 사용되는데 하는 필드에서 대체로 모델을 학습하기 위해서 데이터를 수집할 때 리터를 정제할 때 전선이라 많이들 쓰시는 걸로 알고 있습니다.
저희는 오늘 말씀드릴 내용은 인퍼런스 시에 인퍼런스 앞에 있는 모듈 중이거든요.

참석자 1 03:01
그래서 자본이나 자본을 제거해서 단양이나 자본을 제거해서 음성 쉽게 깨끗한 음성을 전달하는 그런 기능을 하는 모드입니다.
이 그림에서 보시면 이게 핸드폰으로 녹음할 때의 어쿠스틱 환경이 중요한 조건들인데 사실 우리가 원하는 것은 녹음하는 마이크에 사용자의 음성만 타겟 스피치, 클린 스피치만 깔끔하게 들어가 있으면 참 좋겠는데 사실 현실은 그렇지가 않습니다.
사용자가 굉장히 멀리 떨어져 있기 때문에 멀리 떨어진 것으로 인한 분량의 경매가 있고요.
사용자로부터 마진까지 다이렉트 패스 이외에 공간을 막 튕겨서 들어오죠.
그것들이 보시면 이퍼브레이션 잔향이라고 부르는 것이다.
이 잔향은 우리가 드리는 중요한 개념이 있고요. 스피컬한 개미고 음성 성분을 제외하고 나머지 사실은 음성 소스들도 많이 있습니다.
이런 것들을 다 음향 소음이라고 할 수 있을 텐데요.
또 전철이라고 하는 것은 사실은 음향 소음이 모두 포함된 이런 룸 스피치 모든 신호로부터 크린 스위치 타겟 스피치만 뽑아내는 기술이다.

참석자 1 04:03
그렇게 간단하게 설명이 가능하고 그러니까 음성 인식용 전처리는 그 과정을 이용해서 음성 인식 성능을 높이겠다.
그게 음성 인식이 학습된 데이터의 디스비션이 실제 음성 인식 레퍼런스 시에 맞닥뜨리게 될 실제 환경은 훨씬 시끄럽고 지저분하니까요.
그 둘 간의 미스 매치를 줄여주는 재질의 지표의 역할이다 이렇게 말씀드릴 수 있겠습니다.
네 이 페이지는 그러면 이전의 전처리는 뭐였길래 생성 모델은 어쩌고 하는 것들을 추천했느냐에 관한 것입니다.
이전에 일반적인 전설리 모델링이라고 하면 점별 모델 디스크리미너티브 모델이라고 말씀드릴 수 있어요.
전처리의 입력은 반향이 있거나 잡음이 있는 입력입니다.
전처인 출력은 반향이 없고 잡음도 없는 출력이에요.
그러니까 전처리라고 하는 모델은 결국에는 노이지로부터 클린으로 가는 매핑 펑션을 학습하는 모델이다.

참석자 1 04:57
그러면 그 모델을 어떻게 학습해야 되냐면 노이지와 클린 데이터를 페어로 만들어서 만들어내면 잘 학습하면 모델이 나오겠지 그러면 이제 문제는 노이즈와 클린 쉐어 데이터를 어떻게 수집할 거냐 그냥 저희가 마이크를 들고 지하철역 같은 데 가면 시끄러운 데서 지하에 노동을 하면 무리지 스피치를 못 나갈 수도 있겠죠.
데이터를 통으로서 근데 대신 그때의 문제는 동시에 페어로 존재해야 되는 클린 스피치 데이터는 수집을 못합니다.
저희는 반대로 합니다. 조용한 데 가서 깨끗한 음성을 먼저 녹음하고 거기에 로디지를 잘하고 잔약을 입혀서 노디지 데이터를 생성해내는 것이죠.
그래서 노이지 클린 페어로 상대 사이트 데이터셋을 구성한다.
그렇게 구성하는 것이 사실은 변별 모델의 핵심입니다.
그래서 변별 모델의 성능은 뭐에서 좌우되느냐 이 데이터셋을 얼마나 리얼 월드를 잘 묘사하는 데이터셋으로 만들어내는가가 굉장히 중요합니다.

참석자 1 05:56
그게 사실은 현실에서는 굉장히 어려워요. 왜냐하면 리얼 데이터셋이라고 하는 것은 너무나 어시스트 컨디션이 다양합니다.
예를 들어 단양이라고만 해도 저희가 마이크까지 1에서 마이크까지 가는 거리를 다이렉트 패스라고 하면 그것을 제외한 모든 패스는 단양의 패스가 될 텐데 더 방 여기에 한 번 붙여서 노는 두 번 붙여서 놓는 이런 식으로 해서 수백 밀 세턴 동안 수백만 번 챙겨줘서 마이크로 녹음되는 중첩된 음성 신호가 잔량이 되잖아요.
그것을 코딩 데이터로부터 스트사이징한다 사실은 쉽지 않습니다.
그것이 그런 것이 사실은 변별 모델이 실제 리얼 월드에서 잘 동작하지 않는 기본적인 태생적인 형태라고 생각하고 있습니다.
아카데믹하게 조선들이 변별 모델로 많이 나오고 있는데요.
잘 된다는 모델들도 크림과 그 테스트 셋이 매치되 되기 저리 상에서는 잘 된다하지만 리스치가 나면 확률이 급하다 습니다.

참석자 1 06:52
잘 되는 모델도 저희가 실제 녹음한 데이터에 돌려보면 잘 적용되지 않습니다.
잘 동작하지 않거든요. 그래서 나온 것이 이제 생성 모델인데 생성 모델은 이렇게 알려진 바와 같이 이 위에서 설명드린 대로 노이지 2 클리의 매핑을 하면 이런 개념이 아니고 클린 데이터 자체만의 디스트리션을 직접 학습한다 그러니까 어신에서도 가능하다 이런 아이디 저희가 사실 관심을 갖고 있는 모델은 생성 모델 중에서도 DB전 모델인데요.
확산 모델이 되겠습니다. 리뷰에서도 보신 것처럼 비평형 면역학에서 착안했다 이런 그림에서 좀 설명을 드리면 될 것 같습니다.
큰 물통에 물 담아놓고 까만 잉크 같은 거 하나만 딱 떨어뜨리면 여기처럼 이제 처음에 오해지고 이제 시간이 지나면 이제 그게 점점 확산되어서 나중에는 일상 전체에 고르게 분포할 수 있습니다.
확산되는 거죠. 이것을 디피던 모델에서 포워드 프로세스라고 부릅니다.
그렇게 정리하는데 이 코드 프로세스는 우리가 실생활에서 늘 겪고 계시기 때문에 익숙합니다.

참석자 1 07:55
우리 우주가 원래 NTT가 증가하는 방향으로 열 평형이 이루어집니다.
이게 익숙하죠. 근데 이 DB전 모델이 재미있는 것은 그 역방향 리버스 프로세스를 정리한다는 겁니다.
그러니까 말하자면 링크가 다 퍼져 있다가 시간이 지났는데 뭉치는 거예요.
사실 원래 첫 방문처럼 이게 사실은 우리가 익숙하지 않기 때문에 상상하기 어렵지만 DB전 모델이 이렇게 가져가는 이유가 있어 생성하고 싶다는 거예요.
원래 있었던 디스크션을 모사하는 어떤 그런 디스템을 만들어내고 복원하겠다 혹은 이 디스트리뷰션에 속하는 데이터 샘플을 만들어내고 싶다 그런 의지에서 나온 어떤 모델이거든요.
그러니까 이쪽의 디스트리뷰션은 말하자면 우리가 원하지만 잘 모르는 크루드 급으로 잘 계산되지 않는 그런 이 분포입니다.
대신 이쪽은 스키만 볼 거예요. 다 퍼져버렸으니까 로버인 오션 됐습니다.
우리가 아는 심플한 디시비션을 가동할 수 있어요.
그거를 만들면 되니까요.

참석자 1 08:54
그래서 처음에 모르는 놈 원하는 놈을 계속 망가뜨려서 아는 놈으로 만드는 포드 프로세스를 하고 그 과정에서 한 스텝 앞으로 가는 DNA를 학습해 주면 리버스 프로세스에서 다 아는 놈의 디플리션에서 샘플을 만들고 학습된 DNA을 반복해서 원하는 몰랐던 디포션에 속하는 샘플을 만들어집니다.
이게 사실은 디플리션의 아이디 근데 재밌는데 실제로 잘 동작하고 그래서 그거 스테이블 디큐션 같은 이미지 생성 모델에서도 실제로 잘 활용이 되어서 굉장히 성공한 케이스인데 이런 것들이 전처리 분야에는 잘 적용이 되지 않았었습니다.
게다가 알려주셨는데 23년도에 이 논문이 나왔고요.
그 논문에서 발표한 그림입니다. 전처리 분야에서도 한 23년도부터는 적용을 하기 시작했는데 아이디어는 이 소식은 다 제끼고 그림으로만 그냥 간단히 설명드리면 이전 페이지에서 물방울 잉크 방울이 퍼지는 것처럼 기습 바블 대신 스피치 클린 스피치가 들어갑니다.

참석자 1 09:59
이 클린 스피치를 코드 프로세스에서 노이즈를 점점점점 단계적으로 더 해서 이전에 디스트리션이 잘 보이지 않을 만큼 문인자 디스크을 만들어버리는 것을 포드 프로세스로 정의하고 그러면 반대로 리버스 프로세스는 무의지한론에서부터 역산을 해서 크리어룸을 만드는 것이니 이 리버스 프로세스 자체가 사실은 우리가 원하는 전처리 미래의 역할을 다 하는 거예요.
그래서 학습되는 포드 프로세스를 합니다. 클린 데이터셋에서 모은 걸 가지고 노이드를 더 해요.
그러면서 한 단계 앞으로 가는 DNN을 학습해 줍니다.
그러면 인퍼런스 시에 노이즈한 데이터가 들어오면 그를 학습해 준 DNN을 역사를 반복 적용해서 샘플러를 만들어서 프린 데이터를 받겠다.
이게 이제 전처리인데 DB전 모델 기반의 전처리입니다.
이게 굉장히 성능이 좋고 그러니까 성능이 좋다는 말씀을 생성된 음원의 품질이 굉장히 우수합니다.

참석자 1 10:52
대신 반복해서 해야 되기 때문에 리퍼런스의 연사님의 리드가 바람직하게 단점인데 실제로 이 논문에서도 스텝 스텝이 60 스텝이에요.
그 말은 인퍼런스 할 때 로이즈 들어오면 DNA 포드를 60번 해야 된다는 말이에요.
사실 그런 문제 때문에 전처리에서 디필션이 적용이 안 되고 있었다.
근데 이제 그러면 하나의 그래프로 더 나오는데 23년에 컨시스턴시 모델이라는 것이 이미지 그룹에서 나옵니다.
이 그림이고요. 처음에 말씀드린 링크 그다음에 음성 여기서는 이제 이미지입니다.
이미지 똑같습니다. 여기다가 노이즈를 더해서 망가뜨려서 노이즈 기존의 노이즈 위주로 안 보일 때까지 노이즈를 더해버립니다.
이것이 포워드 프로세스이고 학습 프로세스 템 이때 기존의 디투전 모델은 한 스텝 앞으로 가는 것을 학습하는 모델이 있다면 왜 한 스텝 가냐 어차피 이것도 알고 저것도 아는데 앞으로 맨 앞으로 가자.
오리지널 스케이트로 변했다.

참석자 1 11:47
맨 앞으로 보내는 패스를 학습한다. 그 펑션을 학습한다.
이것이 컨센서스 모델의 어떤 아이디어입니다. 이렇게 하니까 스피드 모델의 리퍼런스 리퍼런스를 인터레이션을 한 스텝으로 줄이는 핵심적인 효과가 있습니다.
사실은 이 논문을 보고 이거가 있으면 생성 모델로 전처리를 해볼 수 있겠다라고 사실 그렇게 착안하게 된 중요한 논문인데요.
그러니까 말씀드린 훈련 모델에 기반하고 학습은 퍼시서트 모델로 하면 이미 해볼 수 있을 것 같았거든요.
그래서 모델 자 이거 DNA 아키텍처인데 이런 그림입니다.
간단하게는 그냥 입력 크고 출력 크고 중간에 바틀 레게 눈에 도로 음성 합성 쪽에서 많이 쓰는 화면 구조인데 저희도 이거를 그대로 쓰고요.
그다음에 데이터셋 확보는 어렵지 않습니다. 클린 데이터만 있으 공개 데이터 중에서 그냥 4천시간 긁으면 돼요.

참석자 1 12:37
그래서 다만 이제 다양한 언어나 연령 변경 발화세가 에서 밸런스를 맞춰서 만들어놓으면 학습을 해보면 다음과 같은 경우가 이쪽이 이그 제프인데요.
이쪽은 제가 들려드릴 거고요. 이쪽은 산성 전처리를 적용하는 음성 인식의 오류율을 나타내는 표입니다.
여기 이제 샘플에서 위에 것은 로봇은 TV의 예능에서 발췌한 음원이에요.
그거를 상무님께 통과시키면 정장이 이렇게 되고요.
이거는 실제로 대학 강의 할 수 있는데 그거를 간단히 보시면 이렇게 됩니다.
한번 들려드리도록 하겠습니다. 음악뿐만 아니라 사실 이 사람들의 유명한 또 하나의 이유 바로 캠핑 덕분이라고 합니다.
네 박스 드리고 하는데 선장 통과하면 음악뿐만 아니라 사실 귀찮아섬의 유명한 또 하나의 이유 캠페인 덕분이라고 말합니다.
네 음악 소리 잘 지워진 것 같고 음성도 또렷하게 잘 들리는 것 같습니다.
강조드리고 싶은 점은 이게 학습 데이터나 이런 데 들어간 데이터가 전혀 아니고요.

참석자 1 13:44
완전히 저쪽 입장에서는 완전히 원인이 있어요. 그냥 라이브 샘플이거든요.
그 다음 거는 실제 녹음 강의 샘플입니다. 이제 실수 하나 알려드리도록 할게요.
저는 그냥 뭐랄까

참석자 2 13:56
시간에 이 정도는 자기 보면 알고 썼으면 좋겠다라고 하는 것이 있습니다.

참석자 1 14:00
네 이전 샘플에 대해서 굉장히 잔향 같은 게 들리죠.
울리는 소리가 들리는데 그걸 처리하면

참석자 2 14:06
단 2개 하나 알려드리도록 할게요. 저는 그냥 뭐라고 그럴까요?
교약 시간에 이 정도는 2개 정도는 알고 썼으면 좋겠다라고 하는 것이 있습니다.

참석자 1 14:14
반향이 주니까 사람이 각각에서 얘기한 것처럼 들리죠.
결국에 이런 샘플을 만들어내면 이게 음성 인식기가 학습한 데이터의 데이 기능과 유사하게 맞춰주는 겁니다.
그 리스시를 죽여주는 역할을 했다. 그러니까 당연히 음상기 성분도 개선이 될 것으로 기대합니다.
그것이 보면 이게 음절 오비율이니까 점수가 낮을수록 좋은 겁니다.
여기 4개는 샘플 그냥 이름이에요. 대형 강의실 강한 자양 이런 거 이 위다우 전처리라고 된 것이 이게 음성 인식이 기존에 그냥 이제 통화 데이터 기준으로 학습이 주로 되는데 음성 이슈이기 때문에 강한 잔량에서 성립이 안 된 것을 보실 수 있는데요.
전처리로 딥필전으로 처리해 갖고는 음성 인식 해봤더니 보면 오류율이 한 절반 가까이 줄었습니다.
이 절반으로 준다는 건 굉장히 큰 폭의 상승률인데 그리고 디필론은 그렇고 컨시선시 모델로 하면 디필론보다는 조금 성능 저하가 있습니다만 비교 분이 되는 보통이 없을 때 대비해서 크게 저하되고요.

참석자 1 15:12
소금까지 성능 좋았더라. 여기 맨 밑에 줄은 SRT입니다.
SRT를 보시면 이시전 모델의 경우 익스레이션이 많다 보니까 1이 넘어가는데 컨티선치는 60분의 1로 줄이기 때문에 RT 면에서도 충분한 개선이 있었습니다.
이 테이블을 갖고서 이제 이거 이제 상용화해도 되겠다라는 생각이 든 거죠.
그래서 이후에는 상용화 프로세스를 했습니다. 말하자면 모델을 다운사이징하고 모델의 사이즈를 그냥 줄이 겁니다.
테일을 유지한 채 사우즈를 줄이고 이게 26하고 그러니까 성능 저하가 있어서 성능 저하의 갭을 메꾸고자 하이퍼 파라미터를 조정한다던가 데이터셋을 바꾼다든가 한다든지 그런 이제 성공하고 노력을 해서 결국엔 이 표처럼 되는데 이쪽은 정량화 전 이쪽이 정량화 후입니다.
음성 인식 오류율은 줄이지 않았다. 대신 모델 크기는 5분의 1로 줄였다.
XRT도 따라서 한 3분의 1 정도 이런 계산점이 있어서 성능도 이제 최적화 단계를 거쳤고요.

참석자 1 16:06
이렇게 해서 결국에는 이게 무슨 다 목표로 가느냐 결국에는 다 a닷 노트를 향해서 가는 거거든요.
a 단 노트를 서두에도 잠깐 설명드렸지만 이제 2025년 6월에 메타 로드 나왔고 무료 서비스입니다.
이다에서 서비스 실시간 녹음 버튼을 눌러서 실제로 녹음을 하면서 할 수도 있고 녹음된 파일을 업로드해서 그 결과를 정리하는 것으로 쓰실 수도 있습니다.
음성 자동 받아쓰기라고 표현된 것이 우리 음성 인식 결과고 그 테스트 결과를 LLM으로 요약 정리해 주는 개념입니다.
회의나 수업 인터뷰에 사용하실 수 있겠고 투도 리스트도 사실 정리된 팁은 있습니다.
안 써보신 분들께서는 한번 써보시는 것도 좋을 것 같아요.
사실 마지막 페이지인데요. 이런 퍼포먼스를 비교한 겁니다.
이게 조금 복잡해 보일 수도 있는데 음성 오류율을 나타낸 표니까 이게 다가 짧을수록 성능이 좋다 입니다.
여기 밑에 을 보시면 까만색, 파란색 하늘색은 a가 노트의 경쟁분이 되는 타사 솔루션이 전부고요.

참석자 1 17:10
여기 회색과 연두색으로 표현된 것이 우리 음성 인식 결과인데 정상 정체가 없는 것도 굳이 표현했습니다.
제가 잘하는 거 보여드리려고 없는 것도 하나 보여드리고 선생님 것도 다 한 가지 보여드렸다.
x 축이 다 PC예요. 기사 회의, 종이 회의 강의 이렇게 있습니다.
각각의 PC들이 한 10시간 정도씩 되는 장시간 PC고 총 평균을 내보면 평균만 설명드리면 까만 거 파란 거 하늘색에 비해서 염색이 오유율이 작다 경쟁력이 있다 이런 생각이 듭니다.
그래서 우리는 잘하고 있다는 말씀드리고요. 마지막 페이지인데 상승률 처리를 했다 그랬더니 원심 데이터에서도 강인한 성능을 받았다.
어떻게 했냐면 기술적 모델로 고품질은 어렵고 컨시서스 모델로 저하는 어렵다.
중간에 경량화는 최적화 과정을 통해서 결국엔 에단 노트에 참여가 되기로 했다.
처음 상용화가 된 케이스고요.

참석자 1 18:07
생성 인플리가 이후에는 여기저기 비켜 할 수 있기 때문에 저희 레 인공 기관 서비스의 품질을 높이는 데도 기여할 수 있을 것으로 기대하고 있습니다.
제가 지금 되게 많이 빨랐는데 일찍 끝났는데요. 들어주셔서 감사합니다.

참석자 2 18:28
저희도 수를 자주 사용하고 있는데요. 신청형 AI 기반으로 음성 검출기 기술을 통해 수입을 자동 작성의 정확도와 효율성을 많이 높았던 기술을 살펴보실 예정입니다.
저희가 시간 관계상 한 분 정도 질문을 받을 수 있을 것 같고요.
혹시 궁금한 사항 있으시면 손을 들어주시면 마이크를 전달드리겠습니다.
맨 앞쪽으로 마이크 전달 부탁드립니다. 손에 계속 들고 있어 주시면 마이크 전달드리겠습니다.

참석자 1 19:04
실제 사용 데이터의 트레이닝 데이터에는 노이즈한 데이터는 사실 사용이 안 되고 그냥 다 센스 사이즈를 하신 것 같은데 실제 일반 환경에서의 어떤 소음이 있는 소음이 있는 메이지 데이터랑 그리고 실제로 생성을 DB전 프로세스를 할 때 어떤 노이즈를 뿌리는 것과 어떤 구조인 차이는 없었는지 궁금합니다.
정말 핵심 기자는 질문이시고 제가 제가 하기가 좀 어렵네요.
아까 음성 데이터의 노이즈를 차례로 더한다라고 표현을 지었는데 그것은 말하자면 확산을 일으키는 거기 때문에 잉크는 저절로 뿌려지니까 그것에 스케이트를 변하는 것을 보기를 더하는 것으로 이 활성화할 수 있고요.
이미지의 확산 역시 이미지 각 픽셀에다가 노이즈 텀을 더해주는 것을 알 수 있습니다.
마찬가지로 좋은 질문이 음성을 그냥 랜덤 노이즈를 더하는 것이 이 프로세스를 정리하는 것이 다냐 사실 제가 설명에서는 간략하려고 생략했습니다만 실제로는 이쪽 끝은 크린이고 이쪽 끝은 실제 노이즈 림이잖아요.

참석자 1 20:14
그러니까 랜덤으로 한 다운시아 노이즈를 더해가는 것뿐만이 아니고 실제 배블 노이즈라든지 그 외에 음악 노이즈라든지 그런 것이 이쪽 끝에 더해진 상태로 있어요.
그래서 각각의 스텝 사이즈를 밟아가면서 스텝을 밟아갈 때 이 중간은 랜덤 노이즈도 일부 더해지고 맨 끝에 있어야 하는 실제 노이즈의 인터폴레이션 된 텀이겠죠 이 작은 이것이 점점 강조되는 텀으로 봐야 되게 됩니다.
이 프로세스를 정리한 것에 어떤 제일 중요한 의미라는 것이 뭐냐 하면 결국에는 여기서도 한 달 앞으로 가고 이다음에서도 한 달 앞으로 가고 이렇게 저희는 이 학습 과정을 통해서 결국에는 처음에 선생님들은 변별 학습이라면 클린과 노이즈 두 개만 가지고 가는 학습을 학습했었는데 지금 니스의 모델은 그 중간 단계를 다 압축한다는 것은 노이즈의 그 노이즈로 따지면 SLR 베리에이션을 다 보여주는 것이 거 잔량으로 따진다면 SR 리버브런트 레이저를 변화시키면서 그것들을 다 학습시키는 효과가 있는 것이고요.

참석자 1 21:16
그래서 그 덕분에 성능이 좋아지는 거 확인할 수 있다 이렇게 설명을 드리고 좋습니다.
감사합니다. 그럼 이것으로

참석자 2 21:27
첫 번째 발표를 마무리하겠습니다. 발표 준비해 주신 송명석 매니저님께 다시 한 번 큰 박수 부탁드립니다.
네 이것으로 첫 번째 발표가 종료되었습니다. 지금부터 10분간 휴식 시간을 갖겠습니다.
다음 세션은 AI 기반 영상 이에 신동 기준의 서비스 기술 스톡 포트 및 대형 서비스 개발을 주제로 SK 30 10 문경의 발표가 진행될 예정입니다.
발표는 이번 주 9일부터 시작. 참가자 여러분들의 공적 있는 시간을 부탁드리면 다리를 중요시되어 있는 모든 수시초를 추출해 주십니다.
다른 세션 방으로 이동하실 수 있도록 수시초를 소개하

참석자 2 22:23
아까 얘기

참석자 2 22:52
그럼 다음 주는 혹시 안 되겠습니다.

소개

배경 및 문제의식

전처리 기술이란

전체 스크립트

댓글