기계 독해 | 도서자료 기계독해 Ai 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차) 인기 답변 업데이트

당신은 주제를 찾고 있습니까 “기계 독해 – 도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차)“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 NIA AI Hub 이(가) 작성한 기사에는 조회수 308회 및 좋아요 4개 개의 좋아요가 있습니다.

기계 독해 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차) – 기계 독해 주제에 대한 세부정보를 참조하세요

■인공지능 학습용 데이터 구축사업 교육 영상(2020년 2차)■
도서자료 기계독해 AI 데이터 – 포티투마루
도서 자료를 활용한 기계독해(MRC)용 데이터셋에 대한 활용방법 소개 영상입니다.
_
인공지능 학습용 데이터와 데이터설명서는
AI 허브(www.aihub.or.kr)에서 다운로드할 수 있습니다.

기계 독해 주제에 대한 자세한 내용은 여기를 참조하세요.

기계독해 MRC(Machine Reading Comprehension)

기계독해(MRC)는 인공지능(AI) 알고리즘이 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 기술을 말합니다.

+ 여기를 클릭

Source: woongsin94.tistory.com

Date Published: 2/23/2022

View: 8509

기계독해 엔진 MRC – 솔트룩스

특히 AI Suite의 기계독해 엔진은 솔트룩스가 보유한 다양한 지식자원을 활용하여 질문의 답을 찾는다는 점에서 기존의 기계독해 기술의 문서 입력에 대한 단점을 보완 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.saltlux.com

Date Published: 7/25/2021

View: 6582

MRC 시리즈 1편: MRC가 뭐예요? – 네이버 블로그

그렇다면 오늘의 주제, MRC는 어떤 기술일까요? MRC(Machine Reading Comprehension, 기계독해)는 QA 시스템을 정교하게 구현할 수 있는 기술의 하나로, …

+ 여기에 자세히 보기

Source: m.blog.naver.com

Date Published: 5/8/2021

View: 3353

기계독해, MRC란 무엇일까

기계독해, MRC란? MRC based QA를 OPEN API로 체험하자; Saltlux의 MRC 엔진 참고. KorQuAD. KorQuAD 데이터 수집 과정. MRC for …

+ 여기에 더 보기

Source: livlikwav.github.io

Date Published: 11/10/2022

View: 7440

복잡한 내용도 이해하는 기계 독해 QA 시스템 [Tech Toolkit 2021]

기계독해(Machine Reading Comprehension, MRC)는 사람이 자연어로 하는 질문과 주어진 대상문서의 내용을 기계가 이해하고 자동으로 대답할 수 있는 기술 …

+ 자세한 내용은 여기를 클릭하십시오

Source: samsungsds.tistory.com

Date Published: 3/1/2022

View: 2675

기계독해 – TTA정보통신용어사전

기계독해는 딥러닝 기술과 접목한 솔루션으로 고도화한다. 글자와 이미지를 인식·분석하는 컴퓨터 시각(computer vision), 광 문자 인식(OCR) 기술 고도화와 병행한다.

+ 여기에 보기

Source: terms.tta.or.kr

Date Published: 3/15/2022

View: 9593

기계독해의 원리와 활용

HanBert (한국어 BERT 모델)과 기계독해 학습 모델, 예제 등. ▫ KorQuAD 1.0, 2.0 리더보드 … 2020 인공지능 온라인경진대회, 기계독해 / 문자인식 1위 …

+ 여기에 표시

Source: twoblockai.files.wordpress.com

Date Published: 1/29/2022

View: 9230

[데이터 리뷰] AIHUB(음성/자연어) – 기계독해 데이터(질의응답 …

이와 관련해서 AIHUB에서는 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋을 구축한 ‘기계독해 데이터’를 제공하고 있는데요, …

+ 여기를 클릭

Source: www.dinolabs.ai

Date Published: 7/22/2021

View: 2131

기계독해 QA: 검색인가, NLP인가? – DEVIEW 2018

이 세션에서는 기계 독해 (Machine Reading) 모델을 QA 엔진에 적용하는 방법론에 대한 연구, 겪었던 문제들, 연구계 및 산업의 동향, 그리고 제가 생각하는 우리가 …

+ 자세한 내용은 여기를 클릭하십시오

Source: deview.kr

Date Published: 2/14/2022

View: 7405

[논문]BERT를 이용한 한국어 특허상담 기계독해 – ScienceON

기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해 …

+ 여기를 클릭

Source: scienceon.kisti.re.kr

Date Published: 8/20/2022

View: 7769

주제와 관련된 이미지 기계 독해

주제와 관련된 더 많은 사진을 참조하십시오 도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차). 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

도서자료 기계독해 AI 데이터 - 포티투마루 - 인공지능 학습용 데이터 교육 영상(2020년 2차)
도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차)

주제에 대한 기사 평가 기계 독해

  • Author: NIA AI Hub
  • Views: 조회수 308회
  • Likes: 좋아요 4개
  • Date Published: 2021. 6. 17.
  • Video Url link: https://www.youtube.com/watch?v=xSuz9bYqDic

기계독해 MRC(Machine Reading Comprehension)

기계독해(MRC)란?

기계독해(MRC)는 인공지능(AI) 알고리즘이 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 기술을 말합니다.

사람이 텍스트를 읽고 질문 답변을 추론하듯이 AI가 문장 속에서 의미를 찾고 답변할 수 있습니다. 추론은 불가능하지만 사람이 관련 정보를 찾기 위해 정보를 일일이 확인하지 않아도 답을 찾아낼 수 있습니다.

단순한 과거의 기계독해로부터 AI로 발전되기 까지

과거 기계독해는 알고리즘을 일일이 컴퓨터에 주입하는 방식으로 이뤄졌습니다. 우리는 무의식적으로 익숙해지고 변화되어가는 사고방식을 지녔지만 기계는 그렇지 않았습니다. 우리가 익숙해지는 패턴을 그대로 기계에 명령을 내리고 주입을 해야만 했습니다. 이러한 과정 자체가 많은 비용을 나아냈고 효율성에 대한 회의로 이어지게 됩니다.

간단한 예를 들어, 과거에는 컴퓨터에게 공놀이를 하는데 빨간색 공 3개가 온 다음에 파란색 공 1개가 온다는 방식을 주입시켰다고 가정해봅시다. 그 후에 빨간색 공이 2개 온 다음에 파란색 공이 1개 오더라도 컴퓨터는 꾸준히 이 패턴을 받아들이지 못합니다. 빨2파1 패턴이 점점 더 잦아져도 컴퓨터는 우리가 명령을 내리기 전까지 빨3파1의 패턴을 고수하게 됩니다. 이러한 규칙화, 정형화 되어있는 공놀이에서조차도 컴퓨터에게 자연스럽게 이해시키기는 쉽지 않은데 비해 언어는 더욱이 힘든 영역입니다. 문법을 벗어난 표현이 일상적으로 사용되기도 하고 문맥에 따라 다른 의미로 이해되는 경우도 있습니다. 본질적으로 앞뒤가 딱 맞아떨어지는 영역이 아니기에 알고리즘을 입력하는데 한계가 존재할 수밖에 없었습니다. 간단히 ‘이마트’라는 단어를 검색하는 데 있어서도 ‘이마트’, ‘e마트’, ‘Emart’, ‘이mart’, ‘dlakxm’ 등 수많은 경우의 수들이 존재하게 됩니다.

이를 해결하기 위해 데이터베이스를 학습하는 AI가 등장했습니다. 글자와 단어, 문장을 숫자형태로 인식해 독해하는 ‘인간의 방식’으로 접근합니다. 컴퓨터는 글자 하나하나를 벡터값으로 인식하고 처리하게 됩니다. 이렇게 이해하는 방식을 자연어 이해방식이라고 합니다. 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만들거나 컴퓨터가 이해하도록 만들어진 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 기술입니다. 최근 기계독해는 대부분 딥러닝 기술을 적용한 솔루션이 다수를 차지하고 있습니다. 글자와 이미지를 인식·분석하는 컴퓨터 비전(VISION), 광학문자인식(OCR) 기술 등 여러 방변에서 고도화들이 추진 중에 있습니다. 향후에는 질의응답 기술을 기반으로 전문가 수준의 의사결정지원 시스템이 개발될 수 있을 것으로 예측됩니다. 여기에는 딥러닝, 추론 등 다양한 인공지능 기술들이 활용될 예정입니다.

QA > 비욘드 서치

MRC의 대표적인 기술적 활용은 QA(Question Answer)입니다. 기존 검색은 DB에서 데이터를 찾고, 키워드 기반으로 검색한 결과를 리스트로 제공하는 방식입니다. QA 서비스는 이런 방식을 넘어서, 정형 데이터든 비정형 데이터든 다양한 데이터 속에서 키워드 기반이 아니라 사용자 의도를 분석해 원하는 답을 찾아줍니다. ‘비욘드 서치(Beyond Search)’라고도 이야기됩니다. MRC는 비정형 데이터에서 의미를 파악해 질문에 적합한 답을 찾는 QA의 핵심 기술입니다.

MRC의 기술적 한계점

현재의 MRC 기술은 누구(who), 무엇(what), 언제(when)과 같이 지문에서 문구를 찾는 것은 잘하지만 왜(why), 어떻게(how)와 같은 어려운 문제는 답을 못합니다. 답 자체가 길거나, 제시문의 특정 문구가 아니라 답을 유추해야하는 경우도 많기 때문이죠. 또한 MRC가 답을 찾아낸다고 해도, 왜 이렇게 답이 나왔는지 사람이 이해하기는 쉽지 않습니다. 이에 따라 Explainable AI에 대한 논의도 많이 이루어지고 있습니다.

출처: 전자신문, 42Maru

MRC 시리즈 1편: MRC가 뭐예요?

MRC가 뭐예요?

오늘날 우리는 검색창에 질문하고, 검색 결과 안에서 스스로 답을 찾습니다. 이렇듯 검색이 일상화되면서 궁금한 점을 해결하기 위한 절차는 많이 간소화되었지만, 우리는 여전히 검색의 효용성을 높이기 위한 팁을 찾아 읽으며 ‘검색창에 어떤 키워드를 입력하면 좋을지’, 내지는 ‘검색 결과에서 어떤 페이지를 먼저 보면 좋을지’를 고민하고는 합니다.

사용자 입장에서 보다 편리한 검색엔진, 이를테면 사용자가 머릿속에 떠올린 질문 그대로 검색창에 입력하더라도 그 질의 의도를 잘 이해하고 꼭 필요한 정보만 빠르게 내놓을 수 있는 기계를 만들려면 어떻게 해야 할까요? 무엇보다 사용자가 일상적으로 쓰는 말과 글을 기계가 잘 이해할 수 있도록 처리하는 기술이 필요할 거예요. 학술적으로 우리가 평소에 쓰는 언어를 자연어(Natural Language) 라고 하는데요. 컴퓨터(기계)를 이용해 자연어의 구성단위인 형태소, 구문 등을 분석하고 처리하는 등의 전반적인 일에 자연어처리(NLP: Natural Language Processing) 기술이 사용되고, 특히 이렇게 분석되고 처리된 정보를 바탕으로 기계가 자연어를 이해하도록 하는 데 자연어이해(NLU: Natural Language Understanding) 기술이 사용됩니다. 우리가 일상에서 늘 경험하는 검색엔진이나 QA(Question Answering, 질의응답) 시스템처럼 인간과 기계 사이의 언어적 커뮤니케이션을 제공하는 여러 서비스는 자연어를 다루는 자연어처리 및 자연어이해 기술의 발전과 함께 성능이 고도화되고 있어요.

그렇다면 오늘의 주제, MRC는 어떤 기술일까요? MRC(Machine Reading Comprehension, 기계독해)는 QA 시스템을 정교하게 구현할 수 있는 기술의 하나로, 주어진 문서에서 사용자가 던진 질문에 대한 답을 추출하여 보여주는 기술이에요. 인공지능의 초기 단계였던 1970년대부터 줄곧 있었던 기술이지만, 성능이 크게 개선된 근래에 들어서야 주목을 받게 되었습니다. MRC가 근 수년간 폭발적으로 발전할 수 있던 배경에는 크게 두 가지 요인이 있어요. 하나는 MRC를 비롯한 자연어처리/자연어이해 기술 전반이 제한적인 규칙 및 통계에 기반하는 전통적인 방식에서 딥러닝에 기반하는 방식으로 발전하면서 정확도가 비약적으로 개선되었다는 점, 다른 하나는 최근 들어 여러 연구기관 및 기업들이 딥러닝/머신러닝으로 MRC 모델을 학습하거나 검증, 평가하는 데 필수적인 재료인 대용량 질의응답 데이터셋을 적극적으로 구축하고 공개하였다는 점입니다. 특히 대용량 질의응답 데이터셋에 대한 이야기는 이어지는 포스팅에서 다룰 예정이니 참고해주세요 🙂

MRC는 기존의 검색엔진과 어떻게 다른가요?

MRC를 직접 사용한 경험이 없다면 ‘주어진 문서에서 질문에 알맞은 답을 추출하여 보여준다’는 설명이 그다지 와닿지 않을 수 있어요. 이미 우리가 잘 쓰고 있는 검색엔진 서비스와 비교해보면 어떨까요? 둘은 얼추 비슷한 것 같기도 하지만 MRC만의 차별점이 분명히 있거든요.

먼저 지금의 검색엔진 서비스보다는 MRC를 활용하면 좋을만한 상황을 생각해보겠습니다. 기말 과제를 하려고 위키백과나 논문을 끝도 없이 찾아 읽고 있다면, 전세를 구하려고 대출 관련 정보를 찾아보고 있다면, 이외에도 금융이나 법률 관련 문서를 들여다보고 있다면, ‘아, 누가 대신 읽고 알려줬으면 좋겠다’는 생각이 절로 들잖아요. 이렇게 전부 다 꼼꼼하게 읽기에는 양이 너무 방대하거나, 전문지식이 없으면 이해하기 어려운 문서에서 필요한 정보를 찾아야 할 때에는 MRC가 딱 알맞은 도구 예요.

이제 서비스를 경험하는 사용자 입장에서 MRC 모델의 어떤 면이 기존의 검색엔진보다 편리할 수 있는지 살펴보겠습니다. MRC 모델에 질문을 던질 때에는 머릿속에 떠오르는 표현 그대로 입력해도 좋아요. 예를 들어 겨울 왕국에 나오는 엘사의 나이가 궁금하다면 ‘겨울왕국, 엘사 나이’라고 키워드만 간추려서 입력하는 대신, “엘사 나이는 몇 살이야?”라고 입력해도 된다는 의미입니다. 대표적인 검색엔진 구글은 어떨까요? 지금 구글 검색창에 엘사 나이를 물어보고 검색 결과가 어떻게 나오는지 볼게요.

기계독해, MRC란 무엇일까

제가 진행하려는 프로젝트에, MRC라는 기술을 도입하려고 합니다. MRC를 본격적으로 배우기전에 그래도 아는 척을 좀 하고 싶어서 정리해봅니다 ㅎㅎ.

참고 출처

‘MRC’ 또는 ‘기계독해’라는 검색어로 구글링 하였습니다. 위 글들을 읽고 정리한 글입니다. 거의 복사해서 수정한 것과 다를 바 없습니다.

첫번째글

평문 Q&A 뿐 아니라 구조화된 문서에 대한 Q&A를 위해 TableQA, TreeQA 모델이 나오게 된 배경 및 차이점 등

LG CNS 연구 내용을 간략히 소개하고, 이를 위한 작업의 일환으로 제작했던 KorQuAD dataset 상세 설명

NAVER Engineering에서 Clova 팀원 분이 설명하신 45분짜리 영상을 보면 이해에 바로 도움이 되실 것 같습니다!

기계독해, MRC란?

기계독해 Machine Reading Comprehension(MRC) 이렇게 기계한테 질문을 하면 기계가 읽고, 이해해서 답을 한다…?!

검색 + NLP 질문에 대한 적합한 문서를 찾고, NLP로 문서에서 답을 찾아냅니다.

MRC는 주어진 문서를 빠르게 이해하고 문서에 기반하여 질문에 대한 답을 찾아내는 솔루션입니다.

요즘 많이 보급화 된 AI스피커 카카오 미니한테 ‘마우스는 누가 만들었어?’하면, ‘더글라스 앵겔바트’라고 대답을 내놓습니다. 이것도 MRC 기술이라고 합니다.

질문 : “헤이 카카오, 마우스는 누가 만들었어?”

사용자의 음성을 음성 인식 기술로 글로 적어냅니다. 글로 적어낸 자연어를 인식해 맨 먼저 ‘누구’에 해당하는 단답형 답을 내놓습니다. 질문의 요지를 중심으로 외연을 확장합니다. ‘마우스를 만든 사람’이 핵심!

‘마우스 발명자’, ‘마우스 제작자’, ‘마우스 창제’와 같은 형식으로 확장된 외연을 갖고 검색을 합니다. 검색 결과 모두를 분석하여 순위를 매깁니다. 그 중 최고값을 받은 내용을 답변으로 제시합니다. ( 보통 1~2초 내에 수행해냅니다.)

이 기술은 정형화되지 않은 자연어 문장에서 의미와 의도를 뽑아내는데 핵심적인 역할을 합니다. 지난 수십년 간은 사람이 직접 추출한 결과물에 의존했었습니다.

MRC based QA를 OPEN API로 체험하자

https://www.adams.ai/apiPage?mrcqa

솔트룩스라는 회사에서 제공하는 OPEN API인, ADAMS.ai에 MRC based Q&A API를 웹 상에서 바로 체험해볼 수 있습니다.

Saltlux의 MRC 엔진 참고

기계독해 학습 데이터의 구성 (지문, 질문, 답변)의 쌍으로 구축됩니다. 답변이 해당 지문에 위치하는 index 정보를 포함해야 합니다.

단일 학습 모델이 아닌, 문제 해결에 다중 학습 모델을 참조합니다.

대화처리 엔진, 질의응답기술, 지식 자동추출 엔진 과의 연계를 이용하고 있습니다.

Open QA로 활용이 가능합니다. 사용자로부터 문서 입력받지 않아도 이미 보유하고 있는 지식자원에서 사용할 문서를 자동으로 추출합니다. 이를 통해 사용자가 질문만 입력해서 답을 구할 수 있도록 하였습니다.

KorQuAD

KorQuAD는 MRC 모델 중 하나가 아니라, 한국어 MRC를 위한 데이터셋입니다.

현존하는 다양한 영문 데이터

SQuAD

MS MARCO

HotpotQA

KorQuAD의 의의

MRC 질의응답 과제를 위한 다량의 학습데이터 제공

리더보드를 통해 객관적인 기준을 가진 연구 결과 성능 공유의 장 제공

KorQuAD 데이터 수집 과정

한국어 MRC를 위한 데이터 수집이므로, (당연하게도) 단순한 문서 데이터가 아니라, 라벨링 된 데이터를 수집한 것 같습니다.

그래서 데이터 수집의 단계로는

대상 문서 수집 Document Crawling, Extract Passages, Passage Curation

공신력 있는 위키백과에서 문서를 따오고, 평문만을 남기고, 정제함 질문/답변 생성 크라우드 소싱을 통해서 앞의 데이터에 대해서 QA(질문과 답변) 70000+쌍 생성합니다

한 사람 > 하나의 문단 > 2-3개 질문 생성

하나의 문단 > 3명 할당 = 한 문단 당 총 6-9개 질문 생성 질문 어휘의 다양성 유도

2차 답변 태깅 Human performance 측정을 위함

2차 작업자가 1차 작업 결과인 문단 & 질문을 보고 답변 영역 선택 (컴퓨터가 답변 영역 선택하듯이)

그래서, 위와 같은 과정으로 모이게 된 KorQuAD의 질문 유형은 이와 같았습니다.

답변 유형은

대상 : 55.4% 인물 : 23.2% 시간 : 8.9% 장소 : 7.5% 방법 : 4.3% 원인 : 0.7% 이었습니다. 이는 영문 표준 데이터와 특성이 유사함이 확인되었습니다.

메트릭(Metric) : 측정법을 만들어 내는 엔티티의 속성으로 정해진 수치 또는 분야를 말합니다(NAVER 국어사전)

EM : 실제 정답과 정확 일치하는 비율

F1 : 정확 일치 x, 겹치는 부분 고려한 점수(한국어는 어절 단위x, 음절 단위)

MRC for B2B task

현재의 MRC 기술/연구는 정제된 plain text를 대상으로 합니다.

구조를 가진 문서는 전처리하여 평문화하여 사용합니다

이렇게 되면, 개조식 구조의 상하계층 정보를 반영할 수 없습니다.

또한, 표, 목록에 대한 처리가 어렵습니다.

제목과 내용이 멀어질 경우 제대로 응답할 수 없다고도 합니다.

하지만, 실제 기업에서 보유한 문서는 구조가 있는 경우가 대부분입니다.

따라서 이를 위한 접근 방법은 다음과 같습니다.

구조가 있는 문서를 그대로 반영해서 input으로 사용합시다

표, 계층구조, 목록에 대해 최대한 유연하게 처리합시다

Table에 대한 MRC 가능성을 확인합시다

양식을 가진 문서에 대한 MRC 가능성을 확장하여 확인합시다

그래서, 제가 확인한 2019-3월 자료에 따르면 2가지 모델이 예시로 제시되어 있습니다.

TabQA : 표를 image처럼 행/열 구조를 그대로 받아들이도록 처리

TreeQA : 양식 문서용 MRC 알고리즘을 위한 input data 처리

TabQA

이 모델이 어떤식으로 돌아가는지는 공부를 더해봐야 할 것 같습니다.(LSTM부터 복습..)

TreeQA

계층구조에서 오는 정보를 더 활용할 수 있겠습니다. 평문이면 이런 정보는 다 사라지는 것이니 말입니다.

복잡한 내용도 이해하는 기계 독해 QA 시스템 [Tech Toolkit 2021]

Technology Toolkit 2021은 삼성SDS 연구소에서 연구개발 중인 주요 기술들을 설명하는 기술 소개서입니다.

AI, Blockchain, Cloud, Security 기술 분야의 총 7개 기술에 대해서 각각 기술 정의, 주요 기능, 차별화 포인트 및 Use Cases를 소개하여 독자 여러분께 인사이트를 제공하고자 합니다.

복잡한 표도 이해하는 똑똑한 QA 모델

기계독해 QA

복잡한 구조도 이해하는 기계독해 기반 질의응답 기술

문서 다운로드

1. 기술 소개

기술 동향 및 배경

COVID-19 팬데믹을 계기로 Digital Workplace의 필요성이 대두되면서 회사에 산재되어 있는 다양한 양질의 정보들을 하나로 통합하고, 필요한 내용을 검색하여 적시에 인사이트를 얻는 일이 보다 중요해지고 있습니다. 이러한 요구에 따라 대용량 문서를 대상으로 사용자의 질문에 똑똑하게 대답하는 Question Answering(QA) 시스템에 관한 관심이 커지고 있습니다. 필요한 정보를 빠르고 정확하게 찾는 기계독해, 시맨틱 검색 등의 자연어 처리와 자연어 이해 기술의 필요성이 부각되고 있는 이유입니다.

그중에서도 기계독해 기술 기반의 질의응답 시스템에 관한 연구는 2016년 SQuAD(Stanford Question Answering Dataset) 공개를 시작으로 최근까지 활발하게 이루어지고 있습니다. 그 과정에서 BERT를 필두로 많은 언어 모델과 다양한 벤치마크 데이터가 공개되었고, 인간의 수준을 넘어서는 기술적 성과를 이루어내기도 했습니다. 기계독해의 발전을 통해 얻은 대표적인 성과 중 하나는 질문과 대상문서를 기계가 “이해”하고 정답을 제공할 수 있게 되었다는 점입니다. 이는 키워드 매칭 기반의 단순 “검색” 결과를 제공하는 것에서 한 발짝 더 나아간 것이라 할 수 있습니다. 또한 최근에는 문서들을 “이해”하는 수준을 넘어 “추론” 과정을 통해 원하는 정답을 더욱 정확하게 제공할 수 있는 기술 연구가 활발히 진행되고 있습니다.

챗봇, 검색 엔진을 포함한 다양한 분야에서 고도화된 QA 기술을 필요로 합니다. 이러한 시장의 니즈는 기계독해 QA에 관한 연구를 더욱 촉진하고 있습니다. 이에 삼성SDS는 지속적인 기술 리더십을 확보하고 서비스에 적용하는 과정을 통해 양질의 QA 서비스를 제공하고자 합니다.

기술 정의

기계독해 QA는 사람이 자연어로 하는 질문과 대상문서의 내용을 모델을 통해 기계가 이해하고 자동으로 답할 수 있는 기술을 말합니다. 대표적인 Question Answering Dataset인 SQuAD의 경우, 지난 2018년 1월 이미 사람의 수준을 넘어섰습니다.

최근에는 전체 문서 중 질문에 대한 대상문서를 특정하지 않은 상태에서도 질문에 대한 답을 찾을 수 있는 방향(오픈 도메인 QA)으로 연구개발이 진행 중입니다. 이전의 QA 시스템들은 질문과 함께 대상문서를 입력해야 답을 제공한다는 점에서 현실적인 서비스를 제공하는 데 어려움이 있었습니다. 이러한 기존 QA의 한계를 극복하고 주어진 질문에 대답하기 위해 대상문서를 자동으로 찾는 기술을 개발하여 활용하고 있습니다. 일반적인 기계독해 기술의 정의와 함께, 독해를 넘어 추론까지 가능하게 하는 기술인 다중도약 질의응답 기술에 대해서 간략하게 알아보겠습니다.

[그림 1] 기계독해 QA 구성*

* 벤치마크 데이터:

KorQuAD1.0 https://korquad.github.io/category/1.0_KOR.html

KorQuAD2.0 https://korquad.github.io/

Hotpot https://github.com/hotpotqa/hotpot

① 기계독해

기계독해(Machine Reading Comprehension, MRC)는 사람이 자연어로 하는 질문과 주어진 대상문서의 내용을 기계가 이해하고 자동으로 대답할 수 있는 기술을 말합니다. 기계독해와 관련한 벤치마크 데이터는 앞서 언급한 SQuAD와 KorQuAD가 대표적입니다. SQuAD는 영문 Wikipedia 문서들을 크라우드소싱하여 대상 질문들을 모으고, 정답을 해당 페이지 내의 특정 부분에 존재하도록 설계한 데이터 세트입니다. KorQuAD는 SQuAD와 유사하며, 한글 Wikipedia 문서들을 크라우드소싱하여 만든 데이터 세트입니다. 특히, KorQuAD 2.0의 경우, 표나 리스트를 포함한 HTML 문서상에서 답을 찾을 수 있다는 데 그 의미가 큽니다.

기계가 문서를 읽고 잘 이해할 수 있게 하기 위해서는 어휘의 의미나 문맥을 이해하는 의미론적 정보를 이용할 수 있어야 합니다. 이를 시맨틱 검색(Semantic Search)이라고 하는데, 언어 모델 등을 이용하여 문장이나 문서의 의미론적 정보를 밀집 행렬(Dense Matrix)로 인코딩하여 사용합니다. 이는 정확한 키워드 매칭이 부족한 경우에도 검색이 가능하다는 장점이 있지만, 검색 시간이 오래 걸린다는 단점이 있습니다. 한편, 속도 이슈를 해결하기 위한 연구가 활발하게 전개되고 있는데, 2018년에 Facebook이 공개한 FAISS(Facebook AI Similarity Search)를 시작으로 실제 문제 해결에 활용할 수 있는 수준의 모델들이 계속해서 공개되고 있습니다.

[그림 2] 기계독해 예시(출처: https://ko.wikipedia.org/wiki/대한민국 )

② 다중도약 QA 기술

다중도약 질의응답(Multi-hop Question Answering)은 두 개 이상의 문서를 참조하여 질문에 답을 하는 기술입니다. 이 기술의 핵심 중 하나는 주어진 질문에 대답하기 위해서 필요한 문서들을 추려내는 것입니다. 이를 위해서 지식베이스(Knowledge Base)를 적극적으로 활용하고 있습니다. 지식베이스는 데이터에서 미리 지식을 추출하여 사용하기 좋은 형태로 저장한 데이터베이스입니다. 가장 대표적인 지식베이스로는 Google이 활용하고 있는 지식 그래프(Knowledge Graph)가 있습니다. 지식 그래프를 비롯한 많은 지식베이스에서 그래프 데이터베이스를 활용하고 있습니다. 그래프 데이터베이스의 사용을 통해 데이터와 더불어 데이터 간의 관계 정보 등 추가 지식도 효율적으로 저장하고 관리할 수 있습니다.

삼성SDS는 문서들에서 지식을 추출하여 다중도약 질의응답에 적절한 지식베이스 형태로 구축/관리하는 기술과 구축한 지식베이스를 활용하여 실제 다중도약 질의응답을 실행하는 기술을 개발하여 활용하고 있습니다. 또한 개체명 인식(Named Entity Recognition), 관계 추출(Relation Extraction), 그래프 완성(Graph Completion), 그래프 인공 신경망(Graph Neural Network), 문서 탐색(Document Retrieval) 등의 다양한 기술을 활용하고 있습니다.

[그림 3] 다중도약 질의응답 예시 (출처: https://en.wikipedia.org/wiki/Maroon_5 , https://en.wikipedia.org/wiki/Adam_Levine )

2. 주요 기능

삼성SDS의 기계독해 QA 시스템은 국내외 최고의 MRC 기술을 기반으로 다양한 종류의 질의에 대해 응답을 제공합니다.

표와 리스트 이해하는 QA

문서가 표나 리스트를 포함하고 있는 경우에도 적용이 가능합니다. 일반적으로 많은 문서가 텍스트 외에도 표나 리스트를 포함하고 있습니다. 다양한 문서를 대상으로 하는 QA 시스템은 표와 리스트에서도 필요한 정보를 찾을 수 있어야 합니다. 삼성SDS의 MRC 기술은 자연어뿐만 아니라, 표와 리스트를 함께 학습하여 필요한 정보를 다양한 형태에서 찾는 것이 가능합니다.

[그림 4] 표와 리스트 구조 이해(출처: https://ko.wikipedia.org/wiki/부천_FC_1995_2016_시즌 / Supportings 일부 수정)

장문으로 답변 가능한 QA

질문의 유형에 따라 단답형으로 대답할 수 없는 경우도 있습니다. 어떤 대상에 대해 전반적인 설명을 하거나, 과정에 대한 설명이 필요한 경우가 대표적입니다. 삼성SDS의 MRC 기술은 장문을 이해하는 기술과 장문으로 답변하는 기술을 통해 다양한 길이의 답변이 필요한 질문에 유연하게 대응할 수 있습니다.

[그림 5] 장문 답변 예시(출처:『황반변성의 모든 것』, 유형곤 외 6명, 라온누리, 2011)

두 문서 이상을 참조하여 추론 가능한 QA

어떤 질문들은 두 개 이상의 문서를 참고해야만 답을 찾을 수 있는 경우가 있습니다. 삼성SDS의 QA 시스템은 답의 근거가 될 수 있는 여러 개의 문서를 찾아서 이들을 연결하는 다중도약 QA 기술을 통해 여러 문서에 기반한 답변을 제공할 수 있습니다.

하지만, 다중도약 QA는 단순히 답만 제시하는 것으로는 사용자가 그 답변을 신뢰하기 어렵습니다. 정답의 근거가 되는 문장이나 문단 등을 답변과 함께 제시함으로써 이해 가능한 질의응답 경험을 제공합니다. 이를 통해 사용자는 질문의 정답뿐 아니라 그 배경지식 또한 알 수 있게 되고, 혹시 오답을 제공하게 되는 경우에도 사용자는 함께 제공된 근거 지식을 참고하여 왜 이러한 답이 제공되었는지를 알 수 있게 됩니다. 결과적으로 사용자는 제공된 답을 더욱 신뢰할 수 있게 할 수 있습니다.

[그림 6] 두 문서 이상을 참조하는 예시*

* 출처: https://en.wikipedia.org/wiki/BTS (Supportings 일부 수정)

https://en.Wikipedia.org/wiki/Big_Hit_Entertainment (Supportings 일부 수정)

3. 차별화 포인트

삼성SDS는 국내외 최고 수준의 기계독해 및 QA 기술을 확보하고 있습니다. 기존의 기계독해 QA 기술이 자연어로만 이루어진 문서에서 단답형의 답변만 가능했던 것을 넘어 표나 리스트를 이해하고, 장문으로 답변할 수 있으며, 여러 문서를 대상으로 한 질문에도 대응할 수 있는 기술력을 확보했습니다.

이를 바탕으로 국내외 다수의 경진대회에서 기술적 우위를 선점한 바 있습니다. 영문 데이터를 대상으로 하는 HotPotQA, 한글 데이터를 대상으로 하는 KorQuAD 1.0와 KorQuAD 2.0 등을 포함하여 영문/한글 모두 우수한 성능을 자랑합니다. 특히, KorQuAD 2.0의 경우 지난 2020년 4월 삼성SDS의 모델로 사람의 수준을 최초로 넘어섰으며, 표나 리스트를 포함한 HTML 문서상에서 답을 찾을 수 있었다는 데에 그 의의가 컸습니다. 삼성SDS의 기계독해 QA 기술은 ‘21년 1월 6일 기준 KorQuAD2.0과 HotPotQA Leaderboard에서 1위를 차지하였습니다.

4. Use Cases

Case 1 : 가상 상담사

챗봇 등을 통한 가상 상담사를 구성하는 과정에서 정해진 대화 시나리오 이외의 질문이 입력된 경우 기계독해 QA를 활용하여 적절한 답변을 제시할 수 있습니다.

[그림 7] 가상 상담사 시나리오

Case 2 : 모니터링 시스템

질병, 지지율, 특정 기술 동향을 모니터링하는 시스템에 활용 가능합니다. 정보 수집 및 분석 과정을 보다 효율적으로 바꿔줄 수 있으며, 결과에 대한 신뢰도를 높일 수 있습니다.

[그림 8] 모니터링 시스템 시나리오

5. 비즈니스 사례

앞서 살펴본 Use Cases를 발전시켜 실제 업무에 적용하고 있습니다. 기계독해 QA 서비스를 삼성SDS 지식관리 시스템에 적용 예정입니다. 임직원들의 정보 요구를 정확하게 파악하여 정보 검색 시간과 비용을 절감하고, 결과적으로 사내 시스템 활용도를 제고하며 업무 효율을 향상할 수 있을 것으로 기대합니다. 특히, 표나 리스트를 포함하는 복잡한 구조의 문서에 적극 활용할 계획입니다. 다양한 형태의 게시판, 사내 뉴스, 개발자 포털 등을 통합하여 한 번에 똑똑하게 검색할 수 있는 스마트 검색 시스템을 구축하고 여러 복잡한 구조의 문서에서도 신뢰도 높은 결과를 제공할 수 있도록 구상하고 있습니다.

[그림 9] 지식관리 시스템 기계독해 QA 서비스 적용

한편, 고객의 통합 검색 서비스 고도화를 진행 중입니다. 신규 데이터와 시스템에 대한 인덱싱을 개선하고 문서 분석 기반의 검색 기능을 향상하여 사용자 검색 만족도를 제고할 수 있을 것으로 기대합니다.

6. 맺음말

기계독해 기술의 발전으로 사용자가 대상문서를 지정않아도 되고, 문서 내에 포함된 키워드를 그대로 질문하지 않아도 똑똑하게 대답할 수 있는 QA 서비스가 가능하게 되었습니다. 이는 기존의 검색 엔진을 넘어 진정한 대화형 인공지능의 개발을 가능하게 하는 기술이라고 할 수 있습니다. 최근 비대면 업무가 보편화하면서 보험, 은행 등 금융권에서 챗봇이나 QA 시스템이 적극적으로 도입하고 있고, 호텔 내 비대면 헬프 데스크가 등장하고 있습니다. 이런 점에서 앞으로 기계독해 기반 QA 기술에 대한 니즈는 훨씬 더 많아질 것입니다.

다만, 앞으로 보완해야 하는 기술적인 이슈들이 있습니다. 예를 들면, 주어진 지문 안에서 질문에 대한 내용이 없는 경우, 오답 대신 답변이 없다는 사실 자체를 답으로 제공할 수 있는 QA 서비스에 제약이 있다는 것입니다. 이 부분에 대한 기술이 더 발전하면 사용자가 체감하는 검색 성능은 훨씬 개선될 것이며, 실제 사업에 적용할 때 수작업을 최소화하면서 제대로 된 상용화 서비스를 제공할 수 있게 될 것입니다. 하나의 서비스뿐만 아니라, 서로 관련 있는 여러 서비스가 하나의 지식 그래프를 공유함으로써 정보 또는 서비스 간의 이동을 자연스럽게 하는 새로운 검색 경험을 제공할 수 있을 것으로 기대합니다. 그리고 오프 도메인 QA와 해외 시장 진출을 위한 다국어 버전의 연구를 진행 중인데, 하나하나 해결해 가면서 검증된 기술력을 바탕으로 더 다양한 서비스를 선보일 수 있도록 하겠습니다. 계속해서 관심을 가져주시길 부탁드립니다.

# References

[1] https://korquad.github.io/category/1.0_KOR.html (KorQuAD1.0)

[2] https://korquad.github.io/ ( KorQuAD2.0)

[3] https://github.com/hotpotqa/hotpot (Hotpot)

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.

▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

권순환 | 삼성SDS 연구소 ML연구팀

NLP 및 딥러닝 개발 경험을 바탕으로, 딥러닝을 응용한 Open Domain Question Answering 시스템을 연구하고 있습니다.

신승현 | 삼성SDS 연구소 ML연구팀

삼성SDS AI선행연구Lab에서 AI를 연구하고 있습니다. 주요 관심분야는 자연어처리 기술입니다.

이민영 | 삼성SDS 연구소 ML연구팀

삼성SDS ML연구팀 Principal Data Scientist로 Question Answering 기술 개발을 리딩하고 있습니다.

⁕ Technology Toolkit 2021에 소개한 기술에 대해 문의사항이 있으시거나, 아이디어, 개선사항 등 의견이 있으시면,

[email protected]으로 연락해 주세요.

TTA정보통신용어사전

AI ) 알고리즘이 스스로 문제를 분석하고 질문에 최적화 된 답안을 찾아내는 기술.기계독해를 이용하면 사람이 텍스트를 읽고 질문에 답변을 추론하듯이 인공지능 AI )이 문장 속에서 의미를 찾고 답변한다. 이때 추론은 불가능하지만 사람이 관련 정보를 찾기 위해 정보를 일일이 확인하지 않아도 답을 찾아낼 수 있다.과거 기계독해는 알고리즘을 일일이 컴퓨터에 주입하는 방식으로 이뤄졌다. 알고리즘은 규칙 다발(묶음 또는 덩이)이다. 사람은 무의식적으로 하는 일을 기계는 할 수 없기 때문에 차례로 수행하도록 규칙 명령을 내려야 한다. 수많은 규칙을 일일이 입력하는 것은 매우 어렵고 효율이 떨어진다. 또한 언어는 본질적으로 앞뒤가 딱 맞아떨어지는 영역이 아니다. 문법을 벗어난 표현이 일상적으로 사용되기도 하고 문맥에 따라 다른 의미로 이해되는 경우도 있다. 이러한 이유로 알고리즘을 입력하는 데에 한계가 존재할 수밖에 없었다.이를 해결하기 위하여 데이터베이스 를 학습하는 인공지능 AI )이 등장하였다. 글자와 단어, 문장을 숫자 형태로 인식하여 독해하는 ‘인간의 방식’으로 접근한다.컴퓨터는 글자 하나하나를 벡터로 인식하고 처리한다. 이것은 자연어 이해방식으로 글자를 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만들거나 컴퓨터가 이해하도록 만들어진 형태를 다시 인간이 이해할 수 있는 언어로 표현한다.기계독해는 딥러닝 기술과 접목한 솔루션으로 고도화한다. 글자와 이미지를 인식·분석하는 컴퓨터 시각 computer vision ), 광 문자 인식 (OCR) 기술 고도화와 병행한다.기계독해의 최종단계는 질의응답 기술을 기반으로 전문가 수준의 의사 결정을 지원하는 것이다. 여기에 딥러닝, 추론 등의 인공지능 기술이 활용될 예정이다.

딥러닝 기술, 컴퓨터 시각, 광문자 인식 기술 등으로 더욱 고도화되고 있는 기계독해 / 출처=게티이미지뱅크

[데이터 리뷰] AIHUB(음성/자연어) – 기계독해 데이터(질의응답 데이터셋)

데이터 리뷰 : 데이터 대신 읽어드립니다!

#24 AIHUB(음성/자연어) – 기계독해 데이터(질의응답 데이터셋)

만약 인공지능에게 한 뉴스 기사를 읽게 하고, 육하원칙과 같은 질문을 한다면 인공지능은 올바르게 대답을 할 수 있을까요~? 올바른 대답을 하기 위해선 한 문장에 대해 주어, 목적어, 동사가 어느 부분인지 미리 학습되어야 할 것인데요, 만약 주어진 지문이 몇 문장에 걸친 지문이라면 더욱더 그 정확도가 떨어질 수 있습니다.

이와 관련해서 AIHUB에서는 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋을 구축한 ‘기계독해 데이터’를 제공하고 있는데요, 기계독해(Machine Reading Comprehension)이란 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술을 말합니다. 그렇다면 이번 데이터 리뷰기에서는 이 데이터가 어떻게 이루어져있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다.

기계독해 데이터

(1) 데이터 정보

제공기관 : ㈜마인즈랩

데이터 개수 : 45만 개

데이터 형식 : json

데이터 칼럼 : 제목, 카테고리, 본문, 질문번호, 육하원칙, 질문, 정답시작위치, 정답, 단서시작위치, 단서

다운로드 : https://aihub.or.kr/aidata/86

‘기계독해’ 데이터는 기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건을 구축한 데이터로, 뉴스 본문과 질문, 답으로 구성되어 있는데요, 질문과 답으로만 구성되어 있는 표준 데이터셋(25만 건), 본문에서 답을 찾을 수 없는 질문이 포함된 정답 없는 데이터셋(10만 건), 질문과 답과 그 답을 선택한 단서가 포함된 설명 가능 데이터셋(10만 건)이 있습니다.

위에 다운로드 링크로 들어가면 회원가입 또는 로그인 후 데이터를 다운받을 수 있는데요, 데이터를 다운받아서 한번 데이터가 어떻게 이루어져 있는지 살펴보도록 하겠습니다~

(2) 데이터 리뷰

데이터를 다운로드하면 앞서 언급한 것처럼 3가지 종류의 데이터셋이 있는데요, 그중 단서가 포함된 ‘설명 가능 데이터셋’을 살펴보도록 하겠습니다.

{“data”: [{

“source”: 6,

“paragraphs”: [{

“qas”: [{

“question”: “야마아트 프로듀싱 그룹 ‘파란’ 출신 시윤의 새 싱글앨범은?”,

“id”: “m4_278529-1”,

“answers”:[{

“answer_start”: 0,

“text”: “너와 내 사이”

}],

“clue”:[{

“clue_start”: 2,

“clue_text”: “최근 JTBC ‘슈가맨 시즌‘에서 근황을 알린 시윤의 신곡 ‘너와 내 사이’는 권태기를 맞은 연인의 이별 이야기를 그렸다.”

}],

“classtype”: “work_what”

}],

“context”: “파란 출신 시윤 새 싱글 ‘너와 내 사이’ 강민희 피처링, 야마아트 프로듀싱 그룹 ‘파란’ 출신 시윤의 새 싱글앨범 ‘너와 내 사이’가 12일 정오에 공개돼 화제다. 최근 JTBC ‘슈가맨 시즌‘에서 근황을 알린 시윤의 신곡 ‘너와 내 사이’는 권태기를 맞은 연인의 이별 이야기를 그렸다. 몽환적의 분위기와 누구나 한번쯤 겪어봤을 법한 가사에 시윤의 감성적인 보컬을 더해 눈길을 끈다. 싱어송라이터로 홀로 서는 시윤의 색깔을 충분히 느낄 수 있는 앨범. ‘너와 내 사이’는 아이돌리부팅 프로그램 더유닛에서 보컬리스트로 활약한 강민희가 피처링에 참여했음 프로듀싱팀 야마아트도 함께해 완성도를 더했다. 야마아트는 세븐틴, 뉴이스트W 등과 함께 작업한 바 있ㄷ. 한편 ‘너와 내 사이’는 식어버린 감정 그리고 변해버린 말투와 표정에서부터 우리라는 단어가 어느새 어색해지고 너와 내가 되어버린 연인의 사이를 사실적이고 현실감 있게 표현한 가사가 인상적인 것으로 알려졌다. [사진=시윤 앨범 자켓]”

}],

“title”: “1″

}

위 데이터는 10만 건 중 하나의 데이터로 json 파일 형식으로 이루어져 있는데요, 해당 데이터에는 제목, 본문 카테고리, 본문, 질문 번호, 육하원칙, 질문, 정답의 시작위치, 정답, 단서의 시작위치, 단서를 알 수 있습니다. 다시 데이터를 살펴보면 뉴스 본문은 ‘context’에, 질문은 ‘question’, 질문은 ‘answer’-‘text’, 단서가 되는 문장은 ‘clue_text’에 있는 것을 확인할 수 있습니다.

한편, json 파일을 어떻게 해서 사용해야 하는지 궁금하실 수 있는데요, 데이터마다 뉴스 본문, 단서가 되는 문장, 질문, 답을 출력하는 코드는 아래를 참고하시기 바랍니다.

import json with open(‘ko_nia_clue0529_squad_all.json’, ‘r’, encoding=’UTF8′) as f : json_data = json.load(f) datas = json_data[‘data’] print(len(datas)) print(datas[5][‘paragraphs’][0][‘context’]) print() print(datas[5][‘paragraphs’][0][‘qas’][0][‘clue’][0][‘clue_text’]) print() print(datas[5][‘paragraphs’][0][‘qas’][0][‘question’]) print(datas[5][‘paragraphs’][0][‘qas’][0][‘answers’][0][‘text’]) <출력> 파란 출신 시윤 새 싱글 ‘너와 내 사이’ 강민희 피처링, 야마아트 프로듀싱 그룹 ‘파란’ 출신 시윤의 새 싱글앨범 ‘너와 내 사이’가 12일 정오에 공개돼 화제다. 최근 JTBC ‘슈가맨 시즌‘에서 근황을 알린 시윤의 신곡 ‘너와 내 사이’는 권태기를 맞은 연인의 이별 이야기를 그렸다. 몽환적의 분위기와 누구나 한번쯤 겪어봤을 법한 가사에 시윤의 감성적인 보컬을 더해 눈길을 끈다. 싱어송라이터로 홀로 서는 시윤의 색깔을 충분히 느낄 수 있는 앨범. ‘너와 내 사이’는 아이돌리부팅 프로그램 더유닛에서 보컬리스트로 활약한 강민희가 피처링에 참여했음 프로듀싱팀 야마아트도 함께해 완성도를 더했다. 야마아트는 세븐틴, 뉴이스트W 등과 함께 작업한 바 있ㄷ. 한편 ‘너와 내 사이’는 식어버린 감정 그리고 변해버린 말투와 표정에서부터 우리라는 단어가 어느새 어색해지고 너와 내가 되어버린 연인의 사이를 사실적이고 현실감 있게 표현한 가사가 인상적인 것으로 알려졌다. [사진=시윤 앨범 자켓] 최근 JTBC ‘슈가맨 시즌‘에서 근황을 알린 시윤의 신곡 ‘너와 내 사이’는 권태기를 맞은 연인의 이별 이야기를 그렸다. 야마아트 프로듀싱 그룹 ‘파란’ 출신 시윤의 새 싱글앨범은? 너와 내 사이

한편, 데이터를 살펴보면 한 본문에 질문-답 데이터 셋이 여러 개일 수 있는데요, 이러한 경우 질문 번호(id) 생성규칙은 고유질문일 경우엔 (1), 유사질문일 경우엔 (2)라고 합니다.

또한 ‘source’에 6이라고 적혀있는데요, 이는 뉴스기사 카테고리를 나타낸 것으로 정치, 경제, 사회, 생활, IT/과학, 연예, 스포츠, 문화, 미용/건강의 총 9가지 카테고리로 걸쳐 다양한 범위에 해당하는 뉴스를 모아 구축된 데이터라고 합니다.

마지막으로 ‘classtype’이 있는데요, 이는 해당 본문 질문의 카테고리로 육하원칙(어디서, 누가, 무엇을, 어떻게, 왜 언제)을 구분하는 기입 형식이라고 합니다!

(3) 데이터 활용

그렇다면 이 ‘기계독해 데이터’를 이용하여 어떻게 활용하면 좋을까요~?

다양한 방법이 있겠지만 기계독해 데이터가 뉴스기사 본문, 질문, 단서 문장, 답을 모두 포함하고 있는 데이터셋이라는 점을 이용하여 질문에 답하는 QA엔진을 개발하거나, 사용자가 문서를 직접 읽지 않아도 육하원칙에 따라 해당 내용을 요약해주는 서비스를 개발할 수 있지 않을까 싶습니다. 또한 질문-답 데이터를 역이용해서 국어 비문학 영역에서의 문제를 자동으로 출제하는 서비스를 만들 수 있지 않을까요~?

또한 굳이 서비스를 완성하지 않더라도, 한국어로 이루어진 데이터셋을 학습한다는 점을 이용하여 기존 지식베이스가 가진 한계나 비효율성을 극복할 수 있는 딥러닝 기반의 정답 추론 모델을 발전시킬 수 있지 않을까 싶습니다!

한편, 현재 블로그에 ‘기계독해 데이터’를 이용한 프로젝트 글이 있는데요, Memory Networks를 이용하여 뉴스 기사 내용과 관련된 질의에 대해 적절한 답변을 하는 모델을 만든 프로젝트입니다. 해당 모델을 학습시키기 위해 이 ‘기계독해 데이터’를 이용하여 학습시켰는데요, 관심이 있으신 분들은 참고하시기 바랍니다!

# AIHUB

https://aihub.or.kr

오늘 리뷰한 ‘기계독해’ 데이터는 에서 다운로드 받은 ‘음성/자연어’ 카테고리의 데이터로, AI 허브는 AI 기술 및 제품, 서비스 개발에 필요한 AI 인프라(AI데이터, AISWAPI, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI통합 플랫폼입니다! 따라서 사용자를 위해 개발 및 활용을 위한 인프라 서비스와 AI 활성화를 위한 서비스를 제공하고 있는 것인데요, 현재 위와 같이 음성/자연어, 비전, 헬스케어, 자율주행 등 다양한 카테고리에 걸친 데이터들을 제공하고 있답니다.

한편, 오늘 살펴본 데이터는 ‘음성/자연어’ 카테고리에 있는 데이터였는데요, 음성/자연어 카테고리는 음성 파일로 이루어진 데이터나 기계독해 등 텍스트와 관련된 데이터를 제공하는 카테고리입니다. 특히 다른 빅데이터 플랫폼에서는 찾아보기 힘든 데이터들이 제공되고 있고, 한국어, 한국인 음성, 한글로 이루어진 텍스트 등 서양보다는 우리나라에 맞춰져 있는 데이터들이 있기 때문에 상당히 활용하기에 적합한 데이터이기도 합니다.

또한 각 데이터 다운로드 페이지에 들어가면 위와 같이 데이터의 구축내용과 필요성, 데이터 구조, 활용예시 등의 정보를 파악할 수 있기 때문에 데이터를 다운로드하기 전에 어떠한 형태로 이루어져 있는지 살펴볼 수 있답니다.

이렇게 오늘 데이터 리뷰기에서는 AIHUB의 ‘기계독해’ 데이터를 리뷰해보았는데요, 다음 리뷰기에서도 동일한 ‘자연어/음성’ 카테고리의 다른 데이터를 리뷰해보도록 하겠습니다. 이전 데이터 리뷰기에서는 소방, 사회 범죄, 해양수산, 헬스케어, 농수산물 등 여러 플랫폼에서 제공하는 데이터 리뷰기가 있으니, 관심이 있으신 분들은 참조하시기 바랍니다! 그럼 다음 리뷰기에서 만나요! 😀

[논문]BERT를 이용한 한국어 특허상담 기계독해

지금까지의 기술은 다양한 질의 유형과 표현에 대응하기 위해서 머신러닝 기반의 자연어처리를 하여 시나리오 기반인 액션의 흐름에 따라 정답을 찾아가는 과정이 필요하다. 시나리오 기반으로 접근하는 방식은 다양한 산업분야에서 유연하게 적용하기 어렵고, 전문지식이 필요한 질의에 는 정확한 정보 전달을 위해 직접 관련 문서를 찾아야하기 때문에 신속하고 정확하게 답변하는 데에는 한계가 있다 . 특히 특허상담분야에서 전문 상담을 위해서는 법률적 지식과 업무 도메인에 특화된 전문용어를 이해할 수 있는 전문 지식을 필요로 한다.

다양한 산업분야에서 유연하게 적용하기 어렵고, 전문지식이 필요한 질의에 는 정확한 정보 전달을 위해 직접 관련 문서를 찾아야하기 때문에 신속하고 정확하게 답변하는 데에는 한계가 있다

기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크 를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다.

BERT 모델을 활용한 학습방법은 무엇이 있는가?

키워드에 대한 정보 기계 독해

다음은 Bing에서 기계 독해 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차)

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

도서자료 #기계독해 #AI #데이터 #- #포티투마루 #- #인공지능 #학습용 #데이터 #교육 #영상(2020년 #2차)


YouTube에서 기계 독해 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 도서자료 기계독해 AI 데이터 – 포티투마루 – 인공지능 학습용 데이터 교육 영상(2020년 2차) | 기계 독해, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment