[언어 데이터] 챗봇, 자율주행차, 메타버스, NLP(자연어처리) 등, 언어 인공지능 학습에 꼭 필요한 데이터에 대하여

안녕하세요, 세계의 모든 번역 Flitto입니다.이제 내일이면 12월이라니 시간이 너무 빨리 지나가네요! 올해 1년간 런던의 신문사는 블로그를 통해서 프리트가 제공하는 인공 지능 번역, 집단 지성 번역 전문 번역, 아케이드 및 프리 트리 안 인터뷰, 링 그규스토잉타뷰ー 등 다채로운 내용의 콘텐츠에서 찾아 뵈었습니다. 오늘은 플릿의 “언어 데이터”사업에 대해서 간략히 소개하겠습니다.플릿의 인공 지능(AI)번역, 집단 지성 번역이 잘 알고 있어 상당수의 분들이 플릿을 “번역 회사”으로만 알고 있습니다. 사실 플리트는 대한민국을 대표하는 “언어 데이터 기업”입니다. 플리트가 운영하는 통합 번역 플랫폼을 통해서 언어 데이터 수집에서 검수, 분류, 저장 후의 판매에 이르는 토탈 솔루션을 제공하고 있습니다. 플리트는 실제로 독특하고 창의적인 사업 모델과 관련 기술력 사업 경쟁력을 인정 받아 2019년 7월에 국내 최초로 “사업 모델 특례 상장”을 통해서 코스닥 신규 상장되었습니다.

플리트 코스닥 상장기념식(2019.7.17 서울 여의도 한국거래소)

인공지능 산업의 고속 발전과 함께 그 중요성을 아무리 강조해도 부족한 것이 바로 ‘데이터’입니다. 사물인터넷(IoT), 로봇, 드론, 자율주행차, 메타버스 등은 4차 산업혁명의 원동력으로 꼽히는 분야인데, 이 중 어디서 인공지능(AI)이 빠질 수 없습니다. ’21세기 원유’라고도 불리는 데이터. 이 중 플리트는 다국어 코퍼스(언어쌍) 데이터를 비롯한 다양한 형태의 언어 데이터를 제공하고 있으며 텍스트뿐만 아니라 음성, 이미지 데이터 등도 제공하고 있습니다.

텍스트, 음성, 이미지 방식의 데이터

텍스트 데이터는 인공지능 번역기, 챗봇 등의 개발과 성능 향상을 위해 사용됩니다. 플리트는 전 세계 천만 명 이상의 사용자가 사용하는 번역 플랫폼을 기반으로 번역 요청과 참여 과정에서 축적된 양질의 다국어 병렬 코퍼스 데이터를 구축하고 있습니다.음성 데이터는 최근 더욱 수요가 급증하고 있는 데이터입니다. 일반 음성 데이터, 다국어 발화 데이터 등이 이에 해당합니다. 음성 데이터는 인공지능 스피커, AI 기반 외국어 교육 서비스, 음성 인식 및 합성 기술 등에 꼭 필요한 데이터입니다.’이미지 데이터’는 각종 메뉴, 안내 간판 등 텍스트가 포함된 다양한 형태의 이미지를 말합니다. 핸드라이팅(손글씨)을 포함한 이미지 데이터는 OCR(광학문자인식) 기능의 성능 향상을 위해 사용할 수 있습니다.플리트는 이렇게 독자적인 플랫폼을 통해서 언어 데이터를 수집하고 플랫폼에서 활동하는 전 세계 1천 만 유저가 데이터를 직접 검수하기 때문에 원문의 맥락과 뉘앙스를 살린 번역문과 대화문 등의 언어 데이터 구축이 가능합니다. 또 런던의 신문사의 집단 지성 번역을 통해서 최신 표현을 포함한 언어 비교 데이터를 빠르게 수집할 수 있으며 무엇보다 저작권 문제 없는 데이터를 구축할 수 있습니다. 인공 지능 채팅 봇 학습을 위한 멀티 턴(Multi-turn)대화문, 손 데이터 등 플리트가 제공하는 데이터의 타입도 다양합니다. 멀티 턴 회화문. 데이터의 경우 두 사람이 특정 주제에 대해서 논의하는 문장의 일입니다만, 회화”맥락”에서 크게 일탈하지 않는 데이터는 주제 일관성 있는 채팅 봇을 고도화하기 위해서 필요한 데이터입니다. GPT-3 같은 초거대 AI활용 모델의 한계로 지적되는 부분이기도 합니다. 손 이미지 데이터의 경우는 OCR뿐 아니라 확장 현실(AR)기술을 활용한 실시간 번역 등의 서비스 고도화에도 활용됩니다. 또 연령이나 성별, 언어, 국가, 지역 등으로 여러 사람으로부터 얻을 수 있는 음성 데이터는 STT(Speech to Text)및 TTS(Text to Speech)서비스의 구축과 고도화에 불가결한 데이터입니다.이처럼 언어 인공 지능을 위한 다양한 데이터를 구축하고 온 플리트는 글로벌 업계의 현황과 트렌드를 공유하기 위한 영문 블로그도 따로 운영하고 있습니다.플리트의 공식 영어 블로그플리트의 영어 블로그에서는 COLING 2022, 인터스피치(Interspeech), ACL과 같은 국제학술대회 참가 소식과 주요 발표 내용부터 데이터 저작권, 웹 3.0, 번역기 역사 등 산업 현황과 트렌드에 대한 콘텐츠를 꾸준히 업로드하고 있습니다. 인공지능 산업 전반과 해외 동향이 궁금하다면 플리트 영어 블로그를 방문하여 관련 내용을 살펴보시기 바랍니다.https://medium.com/@flittoFlitto–MediumReadwritingfromFlittoonMedium。 AI 및 통합 번역 플랫폼의 다국어 데이터. 매일 플리토와 수천 개의 다른 목소리가 Medium.medium.com에서 중요한 기사를 읽고 쓰고 공유하고 있다.GPT-3, 오픈소스 방식의 대규모 AI 자연어 모델 등 하이퍼스케일 AI 시대에 발맞춰 언어 인공지능 산업도 놀라운 속도로 발전하고 있습니다. 따라서 인공지능 학습을 위한 고품질 언어 데이터를 수집·판매하는 언어 데이터 기업 플리트의 역할도 더욱 커질 것으로 예상됩니다. 플리트는 향후 수 십조원 규모로 성장이 예상되는 글로벌 데이터 시장에서 통합 플랫폼을 기반으로 고품질 언어 데이터를 빠르게 구축해 제공해 나갈 수 있도록 앞으로도 최선을 다하겠습니다.GPT-3, 오픈소스 방식의 대규모 AI 자연어 모델 등 하이퍼스케일 AI 시대에 발맞춰 언어 인공지능 산업도 놀라운 속도로 발전하고 있습니다. 따라서 인공지능 학습을 위한 고품질 언어 데이터를 수집·판매하는 언어 데이터 기업 플리트의 역할도 더욱 커질 것으로 예상됩니다. 플리트는 향후 수 십조원 규모로 성장이 예상되는 글로벌 데이터 시장에서 통합 플랫폼을 기반으로 고품질 언어 데이터를 빠르게 구축해 제공해 나갈 수 있도록 앞으로도 최선을 다하겠습니다.

error: Content is protected !!