음성 인식 Ai | 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식Ai 기술에 대해 아는척 해보자 최근 답변 154개

당신은 주제를 찾고 있습니까 “음성 인식 ai – 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 국가과학기술연구회 이(가) 작성한 기사에는 조회수 18,966회 및 좋아요 198개 개의 좋아요가 있습니다.

음성 인식 ai 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자 – 음성 인식 ai 주제에 대한 세부정보를 참조하세요

목소리만으로 사물을 조정하는 시대를 열다! 음성인식🙋
최근 음성 인식을 통해 작동하는
IT 기기들의 보급이 늘어나고 있습니다.
‘전화 걸어줘’라는 말을 알아듣는 스마트폰은 기본이고
이제는 TV나 냉장고, 인공지능 스피커까지
음성인식 기능의 종류도 매우 다양한데요.📺
아침에 일어났을 때 ‘좋은 아침’이라는 한 마디로
주변 기기들을 한 번에 작동시키는 시대가 코앞으로 다가왔습니다.
그런데 대체 이런 기기들은 어떻게 우리 말을 알아듣는 것일까요?
이번 아는, 과학에선 🎤음성인식🎤에 대해 아는 척해보겠습니다.
#음성인식 #인공지능 #목소리

음성 인식 ai 주제에 대한 자세한 내용은 여기를 참조하세요.

[그것이 궁금] 일상에 스며든 AI 음성인식 서비스 – 데일리팝

AI 음성기술이 가장 많이 사용되는 분야는 음성 어시스턴트(AI 음성비서) 서비스다. 중국 내 음성인식 기술 기업들은 유리한 고지를 선점하기 위해 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.dailypop.kr

Date Published: 12/24/2021

View: 8446

딥러닝 기반의 서버형 음성인식 기술

딥러닝 기반의 서버형 음성인식 기술. □ IoT 및 스마트홈 시장의 성장과 맞물려, 스마트 스피커 시장이 급격하게 성장 중. 〮 ‌AI 기반 음성인식 기술 적용으로 …

+ 여기에 표시

Source: tb.kibo.or.kr

Date Published: 10/1/2022

View: 3431

음성인식 기술의 한계와 가능성_국경과 언어를 넘는 소통의 …

강력한 검색엔진과 방대한 사용자 데이터를 확보한 구글은 2012년 구글 나우(Google Now)를 출시했으며 2015년 공개한 AI 음성 비서 구글 어시스턴트와 …

+ 여기를 클릭

Source: news.samsungdisplay.com

Date Published: 1/10/2021

View: 3865

음성인식 엔진 STT – 솔트룩스

AI Suite의 음성인식 엔진은 딥러닝(Deep Learning)에 의해 고도화된 음향모델 적응 학습을 기반으로 합니다. 일반적으로 사용되는 음성인식 알고리즘인 HMM(Hden Markov …

+ 더 읽기

Source: www.saltlux.com

Date Published: 7/3/2022

View: 2905

Speech to Text 국내 최고 수준의 음성인식 – SELVAS AI

셀바스 AI 공식사이트: 최고의 인공지능 기반 기술과 도메인별 특화 데이터 접목을 … 주소 음성인식부터 우편번호 검색까지 지원하는 인공지능 주소 음성인식 솔루션 …

+ 더 읽기

Source: selvasai.com

Date Published: 4/16/2021

View: 1424

자세히 알아보기: 음성 인식(Speech Recognition) – Google

인간은 문맥에 맞지 않거나 뒤죽박죽 말한 문장도 이해할 수 있지만 기계는 그렇지 않습니다. ‘자연어 처리’는 음성 인식 분야의 최근 업적으로, AI가 문법 규칙을 …

+ 더 읽기

Source: atozofai.withgoogle.com

Date Published: 10/16/2022

View: 4468

CLOVA Speech – 네이버 클로바

음성 인식을 위한 AI 기술, CLOVA Speech를 만나보세요.

+ 여기를 클릭

Source: clova.ai

Date Published: 4/2/2021

View: 4325

음성인식 AI 시장, 스타트업 날개 달고 고속 성장중 – 벤처스퀘어

인공지능(이하 AI)은 1959년에 MIT AI연구소를 설립한 맥카시와 마빈 민스키, 카네기멜론 대학에 인공지능 연구소를 만든 앨런 뉴웰과 허버트 사이먼 …

+ 여기에 보기

Source: www.venturesquare.net

Date Published: 11/15/2022

View: 9639

[AI 리뷰] 메타 AI, 메타버스 시대에 강력한 AR 경험 등 ‘인공지능 …

음성 인식은 초경량, 소형 및 세련된 안경에서 장치를 작동할 수 있도록 훨씬 더 효율적이어야 하며, 사람들이 말하는 것처럼 단어들이 모호해도 문맥 …

+ 여기를 클릭

Source: www.aitimes.kr

Date Published: 6/5/2021

View: 2846

주제와 관련된 이미지 음성 인식 ai

주제와 관련된 더 많은 사진을 참조하십시오 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자
인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자

주제에 대한 기사 평가 음성 인식 ai

  • Author: 국가과학기술연구회
  • Views: 조회수 18,966회
  • Likes: 좋아요 198개
  • Date Published: 2020. 10. 4.
  • Video Url link: https://www.youtube.com/watch?v=ggA9mV3YEDI

[그것이 궁금] 일상에 스며든 AI 음성인식 서비스

(사진=게티이미지뱅크)

음성인식이란, 사람의 음성을 컴퓨터가 인식해 텍스트화하는 기술이다. 구체적인 순서는 다음과 같다. 우선 잡음 등의 노이즈를 제거하고(잡음·잔향 억제), 음성 데이터의 음의 강약이나 주파수, 소리와 소리의 간격, 시계열 등 여러가지 특징을 추출한다. 이 특징이 어떤 음소(소재가 되는 소리)나 단어에 가까운 지를 판단해(음향 모델), 방대한 데이터를 토대로 단어를 연결한다.

스마트폰과 스마트 스피커의 대중화로 인해 최근 음성인식 기술을 이용한 VUI(음성 사용자 인터페이스: Voice User Interface)의 활용 사례가 증가하고 있다. VUI란 음성 언어를 사용해 정보 기기를 제어하거나 정보 서비스를 수신할 수 있도록 말과 글을 음성으로 변환하는 인터페이스를 말한다. 눈으로 보고 키보드나 마우스로 입력하는 그래픽 사용자 인터페이스(GUI)에 대비되는 개념이다.

음성인식의 정확도 향상은 VUI(음성 사용자 인터페이스)의 보급 확대에도 공헌하고 있다. VUI는 NUI(내추럴 유저 인터페이스: Natural User Interface)를 구성하는 인터페이스 중 하나다. 디스플레이의 화상을 보고 마우스를 조작하는 GUI(그래피컬 유저 인터페이스: Graphic User Interface)와 달리 NUI는 대상물을 직접 만지거나 음성을 사용하는 등 사람의 자연스러운 동작을 통해 디지털 기기를 제어하는 환경을 말한다. GUI를 대신하는 차세대 인터페이스로서 NUI에 기대가 모아지는 것은 자연스러운 흐름이라고 할 수 있다.

한편 음성 어시스턴트 서비스를 탑재한 제품이 증가하며 해당 시장규모는 지속적으로 확대할 것으로 예상된다. 쳰잔산업연구원은 ’20년 중국 AI 음성 어시스턴트 시장규모는 241억1000만 위안이었고, CAGR 33.2%로 빠른 성장세를 기록하며 2023년 570억3000만 위안까지 성장할 것으로 전망했다.

AI 음성기술이 가장 많이 사용되는 분야는 음성 어시스턴트(AI 음성비서) 서비스다. 중국 내 음성인식 기술 기업들은 유리한 고지를 선점하기 위해 주로 스마트폰, 웨어러블 제품, 스마트홈 제품, 자동차 내비게이션 기기에 음성 어시스턴트를 탑재해 생활편의 서비스를 제공하고 있다.

스마트폰을 이용한 AI 음성 어시스턴트 서비스는 음성명령을 인식해 정보검색, 일상대화, 일정관리, 메시지 발송, 전화 걸기, 날씨 묻기, 음악송출, 번역 등 다양한 생활 편의를 제공한다.

스마트홈 제품에 있어서도 AI 음성인식 기술은 핵심 기술로 자리잡고 있다. TCL, 샤오미 등 기업들은 AI 음성인식 기술을 탑재한 다양한 스마트홈 제품을 선보이며 경쟁에 뛰어들고 있다. TV, 냉장고, 공기청정기, 조명, 에어컨 등 대부분의 가전제품에 AI 음성비서 서비스가 연동돼 있어 음성명령으로 제어가 가능하다. 또한 가전제품에 탑재된 음성비서 서비스를 통해서도 신문 검색, 날씨 확인 등이 가능하며 소비자들은 점차 이러한 서비스에 익숙해지고 있다.

중국은 의료 서비스 품질 제고를 위해 스마트 의료 환경을 구축하는 가운데 음성기술을 접목한 AI 활용 방안도 적극 모색하고 있다. 대표적인 활용 방안으로는 음성인식 기반 안내 로봇, 의무기록지 음성인식, 스마트 진료 보조 로봇 등이 있다. 의무기록지 음성인식 솔루션은 의무기록을 즉시 음성인식으로 문서화하는 서비스로, 베이징셰허병원(北京协和医院) 포함 대형병원에서 도입하여 업무 효율성이 크게 향상된 것으로 평가하고 있다.

음식점 예약관리 시스템 ‘ebica'(에비카)를 운영하는 ebisol사는 LINE의 AI 전화 응대 서비스 ‘라인 아이 콜(LINE Ai Call)’과의 협업을 통해 AI 전화 예약 응대 서비스 ‘AI 리셉션’을 2020년 10월부터 제공하고 있다.

AI리셉션에서 고객 전화에 응대하는 직원은 AI스탭이다. 고객이 음식점 점원에게 예약 가능 여부를 확인할 때 ‘오늘 방문하고 싶은데 지금 예약 가능한가요?’ 라는 말을 이해하고 인간에 가까운 음성으로 전화를 응대하면서 예약 현황 데이터를 참조해 예약 완료까지 맡아서 진행한다. 예약접수는 물론 예약 확인 전화도 AI 음성으로 대응한다. 희망하는 예약 시간대가 만석일 경우에는 앞뒤 시간이나 인근 체인점의 예약 현황을 실시간으로 안내해준다.

음식점 예약관리 서비스에 이용되는 VUI의 LINE AiCall은 스마트 스피커 ‘LINE CLOVA’에서도 적용되고 있는 ‘CLOVA Speech(음성인식) ‘와 ‘CLOVA Voice(음성합성)’ 및 회화제어의 조합으로 구성돼 있다. LINE사는 CLOVA Voice에 딥러닝 기술을 도입해 인간에 가까운 자연스러운 음성을 재현해내는데 성공했다. LINE AiCall은 AI리셉션의 도입처인 음식점의 점포뿐만 아니라 대형 운송 회사인 야마토 운수에서 배송 의뢰인의 문의 응답에서도 이용되고 있다.

콜센터 업무에 있어서 AI 음성의 역할은 크다. 성수기의 통화량 폭증에 대한 대책으로써 활용될 수 있을 뿐만 아니라 24시간 365일 대응이 가능하기 때문에 기회 손실의 경감과 인력부족 해소로 이어진다.

※ 자료 = KOTRA “중국 소비자 일상에 스며든 AI 음성인식 서비스” , “일본의 AI 보이스 테크놀로지 현황” 보고서 발췌

저작권자 © 데일리팝 무단전재 및 재배포 금지

음성인식 기술의 한계와 가능성_국경과 언어를 넘는 소통의 단초가 되다

“열려라, 참깨!”

‘알리바바와 40인의 도둑들’의 주문을 기억하시나요? 음성 명령어의 원형이라고 할 만한 이 장면은 오랜 시간 후에 실제로 구현되었습니다. 1952년 미국 벨 연구소(Bell Labs)가 최초로 개발한 오드리(Audrey)는 음성인식 서비스의 효시로, 그 후 비약적인 발전을 거듭해 왔는데요. 오늘날 일상적으로 사용하는 음성 키오스크 주문기, 시리와 인공지능 스피커, 내비게이션 등 음성인식 기술은 인간과 기계를 잇는 일상적 가교로 작용하고 있습니다. 음성인식 기술은 인간의 편리한 삶을 가능하게 해주지만, 언어별로 적용 가능한 범위가 크게 다른 양극화 현상이 존재합니다. 국내외 플레이어 동향과 기술의 발전상, 향후 해결 과제를 한 번 알아볼까요?

글. MIT Technology Review 편집팀

기술과 서비스의 각축장, 음성인식 시장의 확장

최근 코로나 팬데믹 기간을 거치면서 음성 기술의 중요성이 훨씬 더 커졌습니다. 매거진 <음성 기술> 최신호에 따르면 음성인식 시장의 규모는 2025년까지 268억 달러(약 31조 7,000억 원)에 달할 것으로 전망하고 있으며 향후 발전 가능성 또한 높습니다.

국내는 주요 가전업체와 통신사, 플랫폼 기업이 시장을 주도하고 있는데요. 주요 기기와 서비스로는 ▲삼성 ‘빅스비’ ▲LG ‘Q보이스’ ▲SK텔레콤 ‘누구’ ▲KT ‘기가지니’ ▲네이버 ‘클로바’ ▲카카오 ‘카카오’ 등이 있습니다. 국내 음성 AI 플랫폼은 한국어에 특화된 음성 인식∙합성 성능과 IPTV 셋톱박스 기능, 검색, 팟캐스트나 음악 스트리밍 등 국내 인터넷∙모바일 서비스와의 연동을 강조하고 있습니다.

반면 글로벌 음성 AI 시장에 빠르게 진입한 기업은 대부분 자이언트 테크 기업인데요. 가장 먼저 출시된 플랫폼이 애플의 ‘시리’입니다. 애플은 2011년 아이폰4S에 시리를 탑재하면서 음성 AI 시장경쟁의 신호탄을 쏘아 올렸고, 이어 아마존이 2014년 스마트스피커 에코(Echo)와 사용자의 음성을 분석해 명령을 수행하는 플랫폼 ‘알렉사’를 선보였습니다.

강력한 검색엔진과 방대한 사용자 데이터를 확보한 구글은 2012년 구글 나우(Google Now)를 출시했으며 2015년 공개한 AI 음성 비서 구글 어시스턴트와 통합 중입니다. 이어 무서운 성장세를 보이는 바이두가 2017년 ‘두어’ 플랫폼을 출시하며 새롭게 경쟁에 뛰어들었습니다. 이처럼 음성인식 시장은 빅 테크 기업들의 기술력과 다양한 플랫폼 서비스가 함께 경쟁하며 점점 더 시장이 확장되고 있는 추세입니다.

▲ 음성 AI 시장의 주요 플레이어들

음성인식 기술이 작동하는 방식

현재 우리나라는 네이버와 카카오엔터프라이즈를 필두로 음성인식 기술 발전에 박차를 가하고 있습니다. 네이버의 경우 파라미터(매개변수)가 2040억개인 초거대 AI ‘하이퍼클로바’를 개발해 자사 서비스에 적용하고 있습니다(조성준, “디지털 혁신 가져올 ‘AI’…딥러닝의 시대가 온다”, 매일일보, 2022, 06.26). 카카오의 경우 지난 1월부터 AI 기업용 음성 인식-변환 모델 ‘커스텀 STT(Custom Speech-to-Text)’를 공개했습니다(김미정, “카카오엔터프라이즈, 기업용 AI음성 인식-변환 모델 ‘커스텀STT’공개, 2022, 01.25).

해당 기업이 직접 단어와 패턴을 추가하면, 가장 적합한 AI 모델을 빠른 시간 내 자동으로 만들어주는 시스템으로, 정확도는 물론 시간과 비용을 대폭 절감할 수 있게 된 것이죠. 이처럼 한국 음성 AI의 경우, 한국어 특성상 단어가 아닌 형태소(의미를 가진 최소한의 단위) 단위로 인식이 이뤄지는데요. 말의 어미 등이 변하더라도 그 뜻을 잘 인식할 수 있도록 개발 중입니다. 업계에서는 연산 처리 속도와 정확도를 높여 방언 등 비정형 자연어를 효과적으로 인식하기 위한 딥러닝 기술을 활발하게 연구하고 있습니다.

그런데 음성 인식 기술로 작동되는 기계들은 사람처럼 우리의 말을 듣고 이해해 대답하는 것이 아니라 완전히 다른 과정으로 진행되는데요. 시리나 빅스비 등 가상 비서들은 딥러닝 기반의 자연어 처리(NLP) 기술을 통해 사람의 언어를 이해합니다. 수많은 자연어 데이터를 처리하고 분석하기 위해 복잡한 과정을 거치기 마련인데요.

a. 음성 입력: 호출어와 함께 스마트폰의 가상 비서나 AI 스피커에 명령어 입력

b. 음성 인식: 기계는 STT (speech-to-text) 기술을 통해 사용자의 음성을 텍스트로 변환

c. 자연어 처리 (Natural Language Prosessing): 기계는 NLP 기술을 통해 데이터 분석 및 이해

d. 인식 결과: TTS (text-to-speech) 기술로 처리한 텍스트를 오디오로 변환

e. 출력: 변환된 오디오를 사용자에 송출

이 과정은 비교적 간단해 보이지만, 기계의 입장에서 인간의 언어는 이해하기 매우 어려운 영역입니다. 기계가 인간의 언어를 이해하기 위해서는 컴퓨터공학, 인공지능, 언어학 등이 복합적으로 작용하기 때문에 NLP(자연어 처리) 기술은 매우 복잡하고 정교합니다. 그렇기 때문에 앞으로 AI 음성 기술의 발전에 귀추를 주목해야 하는 것입니다.

눈부시게 발전한 자연어 처리 기술 및 서비스

▲ 출처: 유튜브

현재 음성인식 기술 분야에서 가장 주목받고 있는 플레이어는 누구일까요? 바로 메타플랫폼(이하 메타)에서 내놓은 AI 자기학습 알고리즘 ‘데이터-투-백(Data2vec)’입니다. 세계 최초로 음성은 물론 이미지, 텍스트를 동시에 처리할 수 있는 자기학습(self-supervised) 인공지능(AI) 알고리즘이기 때문인데요. 메타 AI의 이 모델은 음성, 이미지, 텍스트 등의 각 분야에서만 성능을 낼 수밖에 없었던 기존 모델 방식의 패러다임을 완전히 바꿨습니다. 주변을 관찰하면서 사람처럼 학습하는 인공지능이 목전으로 다가온 것입니다! 이 알고리즘은 자기학습으로 훈련하기 때문에 복잡한 문제를 스스로 해결할 수 있는 음성인식 기반 기술로 진화하고 있습니다.

▲ 메타플랫폼이 음성을 인식하는 기술 (출처: 메타AI 홈페이지)

구글이 출시한 서비스도 이용자 의도를 보다 잘 이해하는 방향으로 진화하고 있습니다. AI 음성비서 서비스 ‘구글어시스턴트’는 인간의 언어습관을 섬세하게 인식할 수 있도록 업데이트됐는데요. 구글은 이용자의 ‘시선’을 인식해 별도의 명령어 없이도 구글 어시스턴트를 실행하는 ‘룩 앤 톡(Look and Talk)’ 서비스를 제공합니다. 이는 구글이 카메라를 통해 100개 이상의 시선 신호를 분석하는 기술을 어시스턴트에 녹여낸 결과인데요. 한 마디로 ‘눈짓’만으로 명령을 실행할 수 있게 된 셈입니다. 이를 통해 AI비서와 이용자 간 보다 유연하고 자연스러운 대화가 가능해지게 됐으며 대화에서 발생하는 ‘머뭇거림’을 인식하고, 때로는 명령을 기다려줄 수 있는 ‘스피치 모드(Speech modes)’도 장착했습니다.

인공지능은 언어의 장벽을 넘을 수 있을까

하지만 음성인식 AI가 어려움을 겪는 영역은 따로 있습니다. 각 나라마다 사용하는 각기 다른 언어를 인식하는 문제입니다. 특히 모로코어, 알제리어, 이집트어, 수단어 등 아랍어의 다양한 방언을 사용하는 사람들은 이러한 음성인식 기술의 혜택에서 가장 멀리 떨어져 있습니다. 30개에 달하는 아랍어 방언은 지역마다 세분화되어 발전했고, 어떤 방언들은 이미 서로 이해할 수 없을 정도로 달라져 있기 때문입니다. 여기에 핀란드어, 몽골어, 나바호어 등 형태학적으로 매우 복잡한 언어를 모국어로 하는 사람들 역시 이러한 기술 발전에서 소외되고 있는 실정입니다.

기계 번역(Machine Translation) 시스템은 빠르게 개선되고 있지만, 여전히 많은 양의 텍스트 데이터로부터 학습하는 것에 크게 의존하고 있기 때문에, 일반적으로 저자원 언어, 즉 학습 데이터가 부족한 언어에는 제대로 작동하지 않습니다. 앱이나 웹에서 일상적인 번역이 제공되는 언어는 우리말, 영어, 중국어 또는 스페인어 등에 불과합니다. 여전히 대부분의 사람들은 모국어로 세계와 소통할 수 없는 현실입니다.

▲ 출처: 유튜브

사실 우리는 한국어를 사용하고 있는 덕분에 엄청난 기술의 진보를 누리고 있습니다. 현재까지 대부분의 음성인식 도구들이 영어를 비롯한 소수의 몇 개 언어에 국한되어 있기 때문인데요. 모쪼록 음성인식 기술이 더욱 발전해, 국경과 언어의 장벽을 허물 수 있는 날이 빨리 오기를 바랍니다.

자세히 알아보기: 음성 인식(Speech Recognition)

AI의 모든 것 : A에서 Z까지

음성 인식

AI가 인간의 말을 이해할 수 있도록 돕는 기술.

음성 인식 시스템은 인간이 말하는 것을 인식하도록 훈련되었습니다.

이러한 시스템은 음성 인식 받아쓰기 소프트웨어는 물론 번역 도구와 음성 인식 스마트 스피커의 근간을 이루는 핵심 기술이라고 할 수 있습니다.

기계는 음성을 인식할 수는 있지만 인간이 말을 이해하는 방식으로 이해한다고 할 수는 없습니다.

인간은 문맥에 맞지 않거나 뒤죽박죽 말한 문장도 이해할 수 있지만 기계는 그렇지 않습니다.

‘자연어 처리’는 음성 인식 분야의 최근 업적으로, AI가 문법 규칙을 따르고 실제 음성을 분석해 사람들의 복잡한 발화 방식을 더욱더 잘 이해할 수 있도록 합니다. 이를 통해 AI 시스템은 어조나 유머와 같은 요소가 문장의 의미를 어떻게 바꿀 수 있는지를 파악할 수 있습니다.

이러한 음성 인식 기술은 우리가 말하는 것을 글자 그대로가 아니라 그 안에 내포된 실제 의미를 이해할 수 있도록 꾸준한 진화를 거듭하고 있습니다. AI 설계팀이 시스템에 더 다양한 뉘앙스를 학습시키는 방법을 지속적으로 모색하고 있기에, 사람들은 AI와 그 어느 때보다 매끄럽고 자연스럽게 상호작용하고 있습니다.

CLOVA Speech

본 체험 서비스는 클로바의 기본 음성 인식 모델 을 사용합니다. 배경 소음이 적으며 1명의 화자가 말하는 상황에 최적화되어 있습니다.

본 체험 서비스는 전화 통화 음성에 특화된 인식 모델 을 사용합니다. 배경 소음이 적은 통화 상황에 최적화 되어 있습니다.

파일 업로드

간단한 데이터 학습을 통해 특정 도메인의 최적화를 원하시는 경우 제휴 제안으로 문의 바랍니다.

업로드 시 최대 3분까지 텍스트 변환 제공ㅣ최대 파일 크기 10MBㅣ동일 브라우저당 일일 최대 5회 사용 가능

음성인식 AI 시장, 스타트업 날개 달고 고속 성장중

바야흐로 인공지능의 시대다.

인공지능(이하 AI)은 1959년에 MIT AI연구소를 설립한 맥카시와 마빈 민스키, 카네기멜론 대학에 인공지능 연구소를 만든 앨런 뉴웰과 허버트 사이먼과 같은 개척자들에 의해 실험학문에서 시작돼 어느새 60년을 넘게 인류와 함께하며 성장했다.

초기 인공지능은 게임·바둑 등의 분야에 사용되는 정도였지만, 실생활에 응용되기 시작하면서 지능형 로봇 등 활용 분야가 비약적으로 발전했다. 또 신경망, 퍼지이론, 패턴 인식, 전문가 시스템, 자연어 인식, 이미지 처리, 컴퓨터 시각, 로봇공학 등 다양한 분야가 인공지능의 일부분을 이루고 있다.

인공지능은 그 자체만으로 존재하는 것이 아니라 컴퓨터과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입해 그 분야의 문제 해결에 활용하려는 시도가 활발히 이뤄지고 있다.

특히 위드코로나 시대로 접어들며 비대면 소통과 디지털 커뮤니케이션이 익숙해지며 음성인식 AI 시장이 고속 성장하고 있다. 음성인식 AI는 스마트폰이나 자율주행 차량, 각종 전자기기를 비롯한 다양한 산업군에 녹아 들며 실생활화 되고 있다.

음성인식 시장 속에서도 특히 까다롭다고 알려진 한국어 역시 수요가 급속히 늘기 시작하면서 국내 음성인식 역시 빠른 속도로 진화를 거듭하고 있다. 이런 국내 음성인식 AI 시장 성장에는 IT 대기업은 물론 스타트업까지 자체 기술력을 보이며 급성장에 날개를 달아주고 있다.

◆ 청각 장애인 위해 만든 STT ‘소보로’

소보로는 ‘소리를 보는 통로’의 줄임말로, 청각 장애인을 위해 소리를 눈으로 볼 수 있는 기술을 만들어 서비스하는 STT(Speech to text) 스타트업이다.

‘소보로’는 청각장애인을 위해 만들어졌기 때문에 네이버의 클로바노트처럼 녹음 후 파일을 텍스트로 바꿔주거나, 한국어에 최적화되지 못한 구글의 STT의 단점을 보완했다.

또 청각 장애인 교육 페인포인트를 해결하기 위해 과목마다 주로 쓰이는 단어를 별도로 입력해 STT엔진이 단어를 헷갈려 하지 않도록 하고 있다. 실제로 ‘소보로’는 전국 각 시도 교육청과 계약돼 초중고 청각장애인들의 수업에 활용되고 있다.

특히 ‘소보로’는 단순히 청각장애인들만이 아닌 난청을 겪는 노인 인구들의 의료진료에도 사용되고 있다.

◆ 음성인식에서 시작해 가상인간까지 발전한 ‘마인즈랩’

‘마인즈랩’은 지난 2014년 창업한 스타트업으로 음성·시각·언어(사고)·아바타 등 종합 AI 엔진을 개발하고 AI 기술 구독 플랫폼인 ‘maum.ai’를 운영하고 있다.

‘마인즈랩’은 창업 이후 산업 각 분야에서 AI 서비스를 제공하고 있다. 콜마인즈와는 음성인식과 텍스트 분석을 중심으로 한 고객센터 분석 및 자동화 솔루션, 마인즈앤컴퍼니와는 AI 컨설팅, 에임로보틱스와는 로봇 사업을 펼치고 있다. 이에 ‘마인즈랩’은 현재 40여종의 SoTA(State of The Art, 최첨단 수준) AI 알고리즘을 자체 기술력으로 상용화했다.

특히 마인즈랩은 지난 3월 사용자의 음성을 95% 이상 이해하고 0.5초 이내 분석한 뒤 응답할 수 있도록 설계된 AI 휴먼 ‘M1’을 공개했다. 음성·시각·언어(사고)·아바타 등 AI 관련 기술을 집대성해 탄생한 가상인간이다. 실제로 ‘마인즈랩’이 개발한 가상인간은 여수MBC 기상캐스터와 라디오 뉴스진행자, 신한은행의 AI 은행원으로 각각 발탁됐다.

◆ 자체 개발 음성인식 AI기술로 무장한 음성인식 스타트업 ‘리턴제로’

‘리턴제로’가 개발한 AI전화 ‘비토(VITO)’는 국내에서 가장 많이 쓰이는 한국어 음성 인식 엔진이다. 8월 말 기준으로 비토가 처리한 한국어 오디오 처리 시간은 3380만 초로 약 391일 이상에 달하며, 매일 음성인식 및 화자분리를 처리하고 있는 통화 건수도 평균 6900만건에 육박할 정도로 방대한 음성 데이터를 처리하고 있다.

리턴제로는 통화 음성을 텍스트로 바꿔주는 STT 기술 기반 ‘소머즈 엔진’, 사용자의 목소리를 분석해 화자를 분석하는 ‘모세 엔진’ 등을 자체 개발해 원천 기술을 보유하고 있다. 한국어 자유발화 데이터 레이블링 내재화를 통해 서비스 고도화를 이뤄가는 중이다. 비토는 ARS의 음성까지 검출해내는 화자 분리 기술과 전화 수신 시 기억나지 않는 상대방과의 직전 통화 내용을 보여주는 ‘통화 전 미리보기’ 서비스를 선보이기도 했다.

‘비토’의 STT 서비스는 높은 정확도로 전화 업무가 많은 비스니스맨을 비롯해 다양한 사용자들 일상의 편리함을 가져다주며 B2B 사업 확장에도 나서고 있다.

◆ 답이 없는 질문에도 자연스러운 대화가 가능한 구글AI 언어 모델 ‘람다’와 ‘멈’

음성인식 기술 개발에 앞장서 온 ‘구글’은 지난 5월 미국 캘리포니아 마운틴뷰 본사에서 열린 개발자 회의에서 인공지능 대화 모델 ‘람다’를 소개했다. 람다는 ‘대화 언어 모델(Language Model for Dialogue Applications)’의 약자로, 기능을 고도화해 답이 없는 질문에도 인간과 같은 자연스러운 대화가 가능한 것이 특징이다.

구글은 람다의 기능이 텍스트로 제한되는 점을 개선하기 위해 멀티모달 모델인 MUM(Multitask Unified Model, 멈)도 함께 공개했다. 멈은 75개 이상의 언어로 동시에 학습된 언어모델로, 텍스트 외에도 이미지, 비디오 등 다양한 형태의 정보를 동시에 이해할 수 있는 점이 특징이다.

관련기사더보기

[AI 리뷰] 메타 AI, 메타버스 시대에 강력한 AR 경험 등 ‘인공지능 음성 인식’ 기술의 새로운 도전

강력한 AR 경험 등을 위한 인공지능 음성 인식의 새로운 도전(이미지:메타)

가상현실보다 한 단계 더 나아가 사회·경제적 활동까지 이뤄지는 온라인 공간, 메타버스(Metaverse)의 중요한 부분이 될 것으로 예상되는 새로운 증강현실(AR) 경험을 창출하려면 컴퓨터 비전 이상의 기술적 돌파구는 필수적이다.

자연스럽고 인간의 미묘한 대화 언어를 이해할 수 있는 인공지능(AI) 어시스턴트는 단순히 핸즈프리 전화를 걸거나 휴대폰에서 앱을 열 수 있도록 도와주는 것 이상의 것을 할 수 있는 차세대 음성 시스템이 필요한 시점이다.

이 샘플 대화 상자는 비서에게 필요한 핵심 기술을 보여준다. 정확하고 최신의 실제 지식을 제공할 뿐만 아니라 다중 모드(이 경우 비전과 언어 전반에 걸쳐) 작업, 여러 영역에서 작업(메시지 보내기 및 도착 시간 추정), 딱딱한 대화 템플릿을 따를 필요 없이 대화를 주도할 수 있다(이미지:메타)

즉, 음성 인식 시스템은 초경량, 소형 및 세련된 안경에서 장치를 작동할 수 있도록 훨씬 더 효율적이어야 하며, 그들은 훨씬 더 정확하고 견고해야 한다. 사람들이 말하는 것처럼 단어들이 모호해도 문맥을 이해할 수 있어야 하고, 많은 어휘들과 흔하지 않고 아주 전문적인 단어들을 다룰 수 있고, 배경 잡음과 여러 사람이 말하는 어려운 환경에서도 잘 작동할 수 있어야 한다.

실제 요구 사항에 대한 음성 인식 개선

여기에, 메타(Meta)의 음성 인식 시스템은 이미 제품과 서비스에서 점점 더 중요한 부분으로 작용하고 있다. 최근, 새로운 음성 기능을 사용하여 많은 앱에서 비디오 캡션 기능 제공하고 청각장애인이거나 난청이 있는 사람들은 여러 제품에서 동영상의 고품질 자막을 읽을 수 있기 때문에 접근성에 있어 훌륭한 결과이다.

또한, 페이스북과 인스타그램 스토리의 캡션은 사람들이 자신을 창의적으로 표현하기 위해 글꼴, 색상, 위치를 조정하면서 이야기의 시각적 표현의 필수적인 부분이 되었다. 메타의 음성 기술은 현재 포털, 퀘스트(Quest), 레이밴(Ray-Ban) 스토리 장치에서도 핸즈프리 음성 인터랙션을 지원하고 있다.

희귀 단어 인식 향상

많은 경우에 단어 오류율이 평균적으로 상당히 낮더라도 특정 중요한 단어를 잘못 인식하면 경험을 망칠 수 있다. 희귀하거나 이전에 볼 수 없었던 단어를 인식하는 것은 널리 사용되는 RNN-T 모델과 같은 최신 “종단 간” 음성 인식 시스템에서 특히 어렵다.

이 문제를 해결하기 위해, 메타는 이전에 트라이 기반 심층 바이어싱 및 신경망 언어 모델의 상황별 음성인식을 통합하고(논문) 지난 5월 22일부터 27일까지 싱가포르에서 온·오프라인 동시 개최된 세계 최고 권위의 ‘국제 음향 음성 신호처리 학술대회(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022)’에서 이 작업을 더욱 개선하는 ‘신경-FST 클래스 언어모델(Neural-FST Class Language Model. 이하, NFCLM)’을 제시했다.

NFCLM(논문 및 데이터세트 다운)은 통합 수학 프레임워크를 사용하여 엔티티(예: 노래 요청)와 함께 일반적인 배경 텍스트 및 구조화된 쿼리를 모델링한다. 이는 희귀 단어와 더 일반적인 단어 사이의 더 나은 성능 트레이드오프(Trade Off)를 달성하는 동시에 10배 이상 작다는 추가적인 이점을 갖는 모델을 만든다.

공정성 및 책임있는 AI 음성 인식

메타가 초점을 맞춘 또 다른 영역은 공정성과 책임있는 AI이다. 연구 커뮤니티에서 사용되는 기본 단어 오류율 메트릭은 데이터 세트의 총 오류 수를 나타내는 단일 숫자에 중점을 두지만, 서로 다른 모집단에 걸친 성능 차이를 포착하지는 못한다.

Meta AI는 최근 성별, 나이, 피부 톤의 차원을 따라 컴퓨터 비전 시스템의 공정성을 측정하도록 설계된 비디오 세트인 ‘일상적인 대화 데이터 세트Casual Conversations Dataset-다운, 논문-다운)’를 출시했다. ICASSP에서, 메타는 성별과 피부 톤에 걸쳐 유의한 변화가 관찰된 동일한 차원을 따라 이 말뭉치의 음성 인식 성능에 대한 최근 분석을 공유(다운)했다.

성별, 나이, 피부 톤의 차원을 따라 컴퓨터 비전 시스템의 공정성을 측정하도록 설계된 비디오 세트인 ‘일상적인 대화 데이터 세트’ 샘플 이미지(논문 캡처)

메타는 다른 연구자들이 이 문제를 연구하고 모든 모집단에 잘 작동하는 음성 시스템을 만들도록 동기를 부여하고자 인반적인 대화 데이터 세트를 공개적으로 사용할 수 있도록 하고 있다. 또한, 관심 하위 그룹 간의 음성 정확도 차이를 보다 정확하게 측정하고 해석하는 방법을 도입(논문)하고 있다.

제로 샷(Zero-Shot) 및 퓨샷 러닝(Few-Shot Learning)

공정성 개선의 과제 중 하나는 대표적인 훈련 데이터에 대한 접근이다. 일치하는 학습 데이터로 모델을 만드는 한 가지 대안적 접근 방식은 특정 작업(또는 사용자 그룹)에 쉽게 미세 조정할 수 있는 보다 보편적인 모델을 만드는 것이다.

메타는 최근 대규모 준지도 학습(Semi-Supervised Training)을 활용하여 450만 시간 이상의 자동 레이블링 데이터를 사용하여 최대 100억 개의 매개 변수를 가진 ASR 모델(논문)을 만들었다.

또한 공개적으로 사용 가능한 단계적 음성 데이터 세트에서 이 모델을 평가했다. 실어증은 뇌의 일부 손상으로 인해 발생하는 언어 장애이며, 가장 일반적으로 뇌졸중으로 인해 발생한다. 이러한 음성은 음성 인식 시스템이 정확하게 전사하는 데 매우 어렵다.

이에 메타는 자사의 보편적 모델에 비교적 적은 양의 단계적 음성으로 퓨샷 학습(Few-Shot Learning)을 적용했다. 이는 단문 음성으로만 훈련된 시스템보다 오류가 60% 이상 적게 발생하여 보편적 모델이 모든 사람에게 고품질 전사를 제공하는 방법임을 입증했다.

음성 인식은 지난 몇 년 동안 놀라운 발전을 이루었지만 모든 사용 사례에서 잘 작동하고 모든 사람에게 잘 작동하는 시스템을 구축하기 위해서는 여전히 큰 과제가 있다. 메타는 이를 위해 지난 1년 동안 상당한 진전을 이루었지만 그 여정은 1% 완료되었을 뿐이라고 밝혔다.

한편, 이번 ICASSP 2022에서 발표된 Meta AI의 음성 인식 기술 향상을 위한 연구 논문은 아래와 같다.

▷종단간 음성인식을 위한 신경-FST급 언어 모델(Neural-FST class language model for end-to-end speech recognition-다운) ▷음성 인식의 공정성 측정을 향하여: 일반적인 대화 데이터 세트 전사(Towards measuring fairness in speech recognition: Casual conversations dataset transcriptions-다운) ▷ASR의 공정성을 측정하기 위한 모델 기반 접근 방식(Model-based approach for measuring the fairness in ASR-다운)

▷슈퍼넷을 통한 온 디바이스 스트리밍 E2E ASR을 위한 빠른 희소성 최적화(Omni-sparsity DNN: Fast sparsity optimization for on-device streaming E2E ASR via supernet-다운) ▷비인과적 컨볼루션을 이용한 스트리밍 트랜스포머 트랜스듀서 기반 음성 인식(Streaming transformer transducer-based speech recognition using non-causal convolution-다운) ▷대규모 다국어 음성 인식을 위한 유사 라벨링(Pseudo-labeling for massively multilingual speech recognition-다운)

▷단어 순서는 음성 인식에 중요하지 않다(Word order does not matter for speech recognition-다운) ▷가중 유한 상태 변환기의 병렬 구성(Parallel composition of weighted finite-state transducers-다운) ▷토치오디오: 오디오 및 음성 처리를 위한 구성 요소(TorchAudio: Building blocks for audio and speech processing-다운).

키워드에 대한 정보 음성 인식 ai

다음은 Bing에서 음성 인식 ai 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자

  • 음성인식스피커
  • AI스피커
  • AI
  • 컴퓨터
  • 소리
  • 음성
  • 청각
  • 마이크

인공지능 #스피커는 #어떻게 #내 #말을 #알아들을까? #음성인식AI #기술에 #대해 #아는척 #해보자


YouTube에서 음성 인식 ai 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 인공지능 스피커는 어떻게 내 말을 알아들을까? 음성인식AI 기술에 대해 아는척 해보자 | 음성 인식 ai, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment