SBS Biz

업스테이지, 한국형 LLM 생태계 구축 잰걸음…'1T 클럽' 발족

SBS Biz 이민후
입력2023.08.14 10:11
수정2023.08.14 10:12


인공지능(AI) 스타트업 업스테이지가 가장 '한국적인' 거대언어모델(LLM)을 개발하기 위해 머리를 맞댑니다.



업스테이지는 고성능 LLM에 쓰이는 한국어 데이터 확보를 위해 '1T 클럽'(1조 토큰 클럽)을 발족한다고 오늘(14일) 밝혔습니다.

1억 단어 이상 한국어 데이터에 기여할 수 있는 파트너사로 구성되며 현재 언론사·기업, 학계 등 데이터 제공자 20여 곳과 파트너십을 위해 협의하고 있습니다.

업스테이지는 확보한 데이터로 한국 문화·정서를 담아낼 수 있는 거대언어모델을 개발하고 다양한 분야의 생성 인공지능 애플리케이션에 활용한다고 설명했습니다.

이어 업스테이지는 기여한 토큰 수에 비례해 거대언어모델 응용프로그램 인터페이스(API)를 사용할 수 있는 비용을 할인하고. 사업 수익 일부를 파트너사들에 지급합니다.



또 파트너사들이 제공하는 데이터는 한글 프리트레이닝 학습 용도로만 사용하며, 원문을 유출할 수 없도록 자체 탈옥 방지 기술을 적용합니다.

이를 통해 인공지능이 데이터를 자동으로 수집·분류·저장하는 '크롤링'으로 발생하는 저작권 문제 등을 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영할 수 있다고 설명했습니다.

앞서 업스테이지가 자체 개발한 메타 '라마-2' 파인튜닝(미세조정) 거대언어모델은 머신러닝 플랫폼 '허깅페이스'에서 운영하는 오픈 거대언어모델(LLM) 리더보드에서 72.3점으로 1위를 차지한 바 있습니다.

ⓒ SBS Medianet & SBSi 무단복제-재배포 금지

이민후다른기사
롯데손보, 1분기 순손실 198억원…"투자영업 손실"
롯데카드, 1분기 순이익 44% 늘어난 206억원…"리스크관리·비용절감"