당신은 주제를 찾고 있습니까 “그래프 코어 – 그래프코어, AI 컴퓨팅을 위한 IPU“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 반도체TV 이(가) 작성한 기사에는 조회수 204회 및 좋아요 8개 개의 좋아요가 있습니다.
그래프 코어 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 그래프코어, AI 컴퓨팅을 위한 IPU – 그래프 코어 주제에 대한 세부정보를 참조하세요
그래프코어가 AI 혁신 가속화를 위한 그래프코어의 신제품(IPU)을 소개했습니다. 또한 신제품 출시 소식과 더불어 기록적인 성능을 달성한 최신 MLPerf 벤치마크 결과를 공개했습니다.
그래프 코어 주제에 대한 자세한 내용은 여기를 참조하세요.
그래프코어, AI 최적화 칩 IPU 소개…”엔비디아 칩보다 성능 우월”
인공지능(AI) 개발과 운영에 사용하는 반도체 ‘지능처리장치(IPU, Intelligence Processing Unit)’를 공급하는 그래프코어가 AI 개발에 최적화된 칩 …
Source: www.aitimes.com
Date Published: 7/25/2022
View: 2775
그래프코어, 초당 35경 연산하는 반도체 출시 – 전자신문
영국 인공지능(AI) 반도체 스타트업 그래프코어가 초당 35경번 연산이 가능한 지능형처리장치(IPU)를 출시했다. 2024년 세계 최초 ‘초지능 AI 컴퓨터’ …
Source: www.etnews.com
Date Published: 7/23/2022
View: 5621
그래프코어, ETRI와 손잡고 국내 AI 산업 효율화·상용화 돕는다
그래프코어는 2016년 영국에서 설립된 팹리스 기업으로, 인공지능 연산 처리용 프로세서인 IPU(Intelligence Processing Unit, 지능 처리 장치) 등 …
Source: it.donga.com
Date Published: 12/10/2021
View: 758
그래프코어의 IPU, 얼마나 발전했나 – Byline Network
영국 AI반도체기업 그래프코어가 자사 인공지능 칩 IPU(Intelligence Processing Unit) 시스템이 최신 MLPerf 1.1 벤치마크 테스트에서 높은 성능을 …
Source: byline.network
Date Published: 5/16/2022
View: 2894
[기획] IPU가 AI에 강한 이유 5가지 – 테크월드뉴스
그래프코어(Graphcore)’의 ‘IPU’는 그 대안으로서 등장했다. (출처: 게티이미지뱅크). 2018년, 영국의 AI 반도체 스타트업 그래프코어가 개발한 …
Source: www.epnc.co.kr
Date Published: 5/22/2021
View: 4908
그래프코어의 IPU, 엔비디아를 대체할 수 있을까
영국 인공지능(AI) 반도체 스타트업 그래프코어(Graphcore)가 지난 1월 한국 지사를 설립하고 국내 시장 공략에 나섰다.그래프코어(지사장 강민우)는 …
Source: www.kipost.net
Date Published: 7/3/2021
View: 435
그래프코어: AI가 IPU를 뿌리칠 수 없는 이유
영국의 스타트업 기업인 그래프코어(Graphcore)가 머신러닝(Machine learning, 기계학습) 워크로드를 실행하도록 설계된 IPU(Intelligence Processing Unit)라는 …
Source: www.autoelectronics.co.kr
Date Published: 5/10/2021
View: 7130
주제와 관련된 이미지 그래프 코어
주제와 관련된 더 많은 사진을 참조하십시오 그래프코어, AI 컴퓨팅을 위한 IPU. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 그래프 코어
- Author: 반도체TV
- Views: 조회수 204회
- Likes: 좋아요 8개
- Date Published: 2021. 12. 8.
- Video Url link: https://www.youtube.com/watch?v=09aIxd_OqeQ
그래프코어, AI 최적화 칩 IPU 소개…”엔비디아 칩보다 성능 우월”
파브리스 모이잔 그래프코어 글로벌 세일즈 부사장은 “현재 AI가 기존과는 다른 새로운 컴퓨팅을 요구하는 만큼, 기존 레거시 칩이 가진 한계에서 벗어나야 한다”고 말했다. (출처=AI타임스DB·셔터스톡, 편집=김동원 기자)
인공지능(AI) 개발과 운영에 사용하는 반도체 ‘지능처리장치(IPU, Intelligence Processing Unit)’를 공급하는 그래프코어가 AI 개발에 최적화된 칩 사용이 기술 성패를 가를 수 있다고 밝혔다. AI가 빠른 변화와 발전을 이루는 만큼, AI 개발사는 산업 성장 속도에 대응할 수 있는 반도체를 사용해야 기술 우위를 가져갈 수 있다는 설명이다.
파브리스 모이잔(Fabrice Moizan) 그래프코어 글로벌 세일즈 부사장은 9일 열린 기자간담회에서 “현재 AI 개발에는 그래픽처리장치(GPU)가 광범위하게 사용되고 있고 일부 GPU가 AI 모델에 효과가 있는 것으로 알려져 있지만, 이는 그 모델 자체가 애초에 GPU에서 생산됐기 때문”이라며 “현재 AI는 기존과는 완전히 다른 새로운 컴퓨팅을 요구하고 있어 AI를 십분 활용하기 위해서는 기존 레거시 칩 한계에서 벗어날 필요가 있다”고 말했다.
그래프코어가 GPU 역할을 대신할 수 있는 반도체로 내세운 건 IPU다. 모이잔 부사장은 GPU와 차별된 IPU가 가진 대표적인 장점으로 병렬처리를 꼽았다.
그는 “AI 작업을 위해선 많은 병렬처리가 필요하고, 이를 처리할 수 있는 프로세서가 필요하다”면서 “IPU는 서로 독립적으로 기능할 수 있는 코어를 갖춰 그 역할을 할 수 있지만, GPU는 이러한 기능을 갖추지 못하고 있다”고 설명했다. 이어 “최근 이러한 IPU가 가진 강점으로 상당히 많은 기업과 조직에서 그래프코어 IPU를 사용해 작업을 하고 있다”고 밝혔다.
그래프코어는 고객 사례로 스탠포드 의대와 트랙터블을 소개했다. 스탠포드 의대는 차등 개인정보보호 AI 모델에 IPU를 사용하고 있다. 이 AI 모델은 환자 개인 데이터를 사용할 때 기밀은 보호하면서 필요한 정보만 사용할 수 있는 시스템이다.
모이잔 부사장은 “이 AI 모델은 GPU를 사용해서는 불가능한 모델”이라며 “스탠포드 의대는 안전한 시스템을 통해 엑스레이 연구를 하고 있다”고 밝혔다.
트랙터블은 미국 금융 분야 AI 스타트업이다. 자동차 사고 발생 시 사진을 활용해 예상 보험금 산출과 정비사에 부품 소지 여부 등을 분석할 수 있는 AI 모델을 개발하고 있다. 모이잔 부사장은 “이 AI 모델을 가동하는데 IPU와 최신 GPU를 사용했을 때 결과를 비교해보니 IPU를 사용했을 때 퍼포먼스가 5배 높았다”고 설명했다.
MLPerf 벤치마크에서 엔비디아 DGX A100 성능 능가
모이잔 부사장은 그래프코어의 IPU 우수성은 최근 열린 MLPerf 벤치마크 결과에서 증명할 수 있다고 밝혔다. MLPerf 벤치마크는 머신러닝(ML) 성능을 조사하는 벤치마크 중 하나다. 엄격한 규율을 토대로 칩 성능을 평가해 잠재 고객사에 각 칩의 성능을 비교할 수 있는 정보를 제공한다.
그래프코어는 최근 열린 MLPerf 1.1 벤치마크 대회에서 IPU를 기반으로 한 그래프코어 시스템이 엔비디아 대표 GPU ‘DGX A100’ 성능을 능가했다고 밝혔다. 이미지처리 모델인 RESNET-50과 자연어처리(NLP) 모델 BERT를 훈련하는 테스트에서 IPU 기반 시스템인 IPU-POD16의 성능 평가가 엔비디아 시스템보다 높게 나왔다고 발표했다.
실제로 IPU-POD16은 이미지처리 모델 ResNet-50을 훈련하는데 28분 3초를 기록했다. 엔비디아 DGX A100(29분 1초)보다 1분가량 빠른 속도다.
모이잔 부사장은 “IPU-POD16은 엔비디아 대표 DGX 모델보다 학습시간에 있어서 우위를 보였고, 더 놀라운 것은 IPU-POD 비용이 엔비디아 DGX A100과 비교했을 때 절반밖에 사용되지 않았다는 것”이라며 “통상적으로 ResNet-50 모델 학습에 GPU가 사용되고 있다는 점을 보았을 때 이번 결과는 더욱 주목할 만하다”고 평가했다.
그래프코어는 ResNet-50 훈련에서 자사의 IPU-POD16이 엔비디아의 DGX A100을 능가하는 성능을 기록했다고 밝혔다. (출처=그래프코어)
“한국 파트너사와의 협력으로 AI 생태계 강화할 것”
모이잔 부사장은 이번 기자간담회에서 한국 비즈니스 사업 강화 계획도 발표했다. IPU를 클라우드와 연계할 수 있는 클라우드 파트너사들과 협업을 맺고 있고, IPU-POD 고객사도 꾸준히 개척하고 있다고 밝혔다.
그래프코어는 IPU를 사용하는 국내 주요 고객사로 KT와 NHN을 꼽았다. KT는 IPU-POD128 모델을 가장 먼저 도입한 국내 고객사다. AI 연구개발(R&D) 통합 솔루션 ‘하이퍼스케일 AI 서비스’에 해당 제품군을 사용하고 있다.
NHN은 올해 6월 그래프코어와 기술 협력 업무협약(MOU) 체결 후 NHN 클라우드 공공 시스템 개발에 IPU 시스템을 사용하고 있다. 그래프코어 제품군을 활용해 고성능컴퓨팅(HPC) 환경과 AI 인프라 환경 등을 개발하고 있다.
모이잔 부사장은 “두 고객사는 그래프코어 시스템을 AI 데이터센터에 사용하고 있다”며 “두 회사 이외에도 많은 한국 기업이 AI 파트너로 그래프코어를 선택했다”고 말했다.
그는 이번 간담회에서 한국 기업과의 협력으로 AI 생태계를 강화할 뜻도 내비쳤다. “한국에서 중요한 역할을 담당하고 있는 클라우드 파트너사들과 협력을 강화하고 있다”며 “올해 메가존클라우드, 매커스시스템스 등 파트너 네트워크를 확장했다”고 설명했다.
강민우 그래프코어 한국지사장은 “AI는 IPU와 같은 하드웨어도 중요하지만, 이 하드웨어를 잘 사용할 수 있게 하는 소프트웨어 역할도 중요하다”며 “하드웨어뿐 아니라 소프트웨어도 초점을 맞춰 협력사들과 기술 진보를 이뤄갈 것”이라고 말했다.
AI타임스 김동원 기자 [email protected]
[관련기사]엔비디아, MLPerf HPC 벤치마크에서 AI 성능 입증…지난해보다 5배 높은 성과 기록 [관련기사]그래프코어, AI 연산 시스템 IPU-POD 모델군 확대…KT 초대규모 AI 컴퓨팅 환경 지원
그래프코어, 초당 35경 연산하는 반도체 출시
영국 인공지능(AI) 반도체 스타트업 그래프코어가 초당 35경번 연산이 가능한 지능형처리장치(IPU)를 출시했다. 2024년 세계 최초 ‘초지능 AI 컴퓨터’를 출시한다는 로드맵도 발표했다. 설립 6년 만에 대규모 투자 유치에 성공한 그래프코어는 신제품 발표로 투자 유치 속도가 가속화될 전망이다.
그래프코어는 최근 세계 최초 3차원(3D) 웨이퍼 온 웨이퍼(WoW) 기술을 적용한 ‘보우 IPU’를 출시했다. 초대형 보우 POD 1024 모델은 350페타플롭스 AI 연산을 지원한다. 페타플롭스는 1초에 1000조번 수학 연산을 처리한다는 뜻이다. 그래프코어 신제품은 초당 최대 35경번 연산을 할 수 있다.
보우 IPU는 TSMC의 WoW 패키징 기술이 적용된 첫 AI 반도체다. WoW는 반도체(다이) 간 대역폭을 높여 전력 효율을 극대화한 기술이다. 신제품은 미국 에너지부 산하 퍼시픽노스웨스트 국립연구소에 적용됐다. 기존 수일 소요되던 학습과 추론 컴퓨팅 시간을 몇시간으로 단축시켰다. 클라우드 서비스 제공업체 시라스케일과 유럽 지코어랩스 등 고객사를 확보했다.
신제품 출시로 그래프코어의 AI 반도체 시장 공략 속도는 한층 빨라질 전망이다. 2016년 설립한 그래프코어는 초기 대규모 투자 유치로 공격적 연구개발(R&D)을 추진하는 회사로 유명하다. 설립 1년 만에 기술력을 인정받아 실리콘밸리 벤처캐피털로부터 50000만달러 투자를 유치했다. 지난해 하반기까지 7억1000만달러를 유치한데 이어 최근 2000만달러를 추가 투자받아 총 7억3000만달러(약 8800억원)를 달성했다.
그래프코어 관계자는 “추가 투자 협의를 진행 중”이라며 “반도체 스타트업 최초로 1조원 투자 유치에 달성할 수 있을 것으로 기대한다”고 밝혔다. 국내에서는 KT 하이퍼스케일 AI 서비스와 NHN 클라우드 서비스에 그래프코어 제품이 적용됐다. 그래프코어는 2020년 한국 지사를 설립, 국내 슈퍼컴퓨터와 클라우드 데이터센터 시장을 공략 중이다.
그래프코어는 보우 IPU를 포함한 신기술을 추가 확보, 초지능 AI 컴퓨터 ‘굿 컴퓨터’도 개발한다. 초당 10페타바이트 이상 대역폭으로 최대 4페타바이트 메모리를 제공할 수 있다. 출시 목표는 2024년으로 가격은 최대 1억2000만달러에 달할 것으로 보인다.
권동준기자 [email protected]
그래프코어, ETRI와 손잡고 국내 AI 산업 효율화·상용화 돕는다
그래프코어, ETRI와 손잡고 국내 AI 산업 효율화·상용화 돕는다 남시현 [email protected]
[IT동아 남시현 기자] 영국의 인공지능 반도체 기업 그래프코어(Graphcore, 지사장 강민우)가 7월 7일, 기자간담회를 열고 최근 인공지능 시장 동향과 최근 비즈니스 성과, 그리고 한국전자통신연구원(이하 ETRI)과의 새로운 파트너십을 발표했다. 페브리스 모이잔(Fabrice Moizan) 글로벌 세일즈 부사장은 “그래프코어가 한국 지사를 설립한 이후 2년 사이 많은 성장을 이끌어냈다. 설립 당시 그래프코어의 투자 규모는 3억 달러였지만 현재 7억 3천만 달러 수준이며, 세쿼이아캐피탈같은 금융 기관이나 삼성전자 등 전략적 투자자들도 두고 있다”라면서, “그래프코어는 세계 최고 수준의 프로세서와 소프트웨어 툴을 제공함으로써 인공지능 시장에서 차세대 혁신을 이끌고 있다”라고 말했다.2년 간 꾸준히 성장 이뤄낸 그래프코어, 시장 상황은?
2022 그래프코어 기자 간담회. 제공=그래프코어
그래프코어는 2016년 영국에서 설립된 팹리스 기업으로, 인공지능 연산 처리용 프로세서인 IPU(Intelligence Processing Unit, 지능 처리 장치) 등 인공지능 관련 반도체를 개발하고 있다. 팹리스 기업은 반도체를 설계하고, 제조는 위탁하는 기술 전문 기업이다. 이미 한국 진출 이전에도 3억 달러 규모의 투자와 300명가량의 임직원을 갖추고 있었지만, 그사이 2배 이상의 투자 유치와 650명의 임직원 확보는 물론 기업가치 27억 7천만 달러의 기업으로 성장했다. 해외 진출 역시 영국 브리스톨 본사를 포함해 오슬로와 그단스크에 R&D 센터가 있으며, 북미나 유럽, 인도, 동남아, 아시아 시장까지 지사를 설립해 존재감을 키우고 있다.
페브리스 모이잔(Fabrice Moizan) 그래프코어 글로벌 세일즈 수석 부사장. 제공=그래프코어
한국 시장 진출 2년이 지난 지금, 그래프코어는 NHN클라우드와 AI 클라우드 분야 기술협력을 발표하고, KT의 하이퍼스케일 인공지능 서비스에 그래프코어 IPU를 도입하는 등의 성과를 거뒀다. 또 올해 3월, 세계 최초의 3D 실리콘 웨이퍼 스태킹 기술을 적용한 보우(Bow) IPU를 선보였고, 2023년에는 차세대 울트라 인공지능 컴퓨터, ‘굿(Good)’을 가동할 예정이다. 굿의 상용화 시점은 2024년으로 보고 있다. 또한 텐센트 클라우드 서비스 및 지코어랩스 IPU 클라우드 서비스를 출시한데 이어, 미국 아르곤 연구소와 에든버러대학교 슈퍼컴퓨터 센터(epcc), 영국 하트리 센터(hartree center) 등 전 세계의 슈퍼컴퓨팅 센터와 파트너십을 체결했다.
그래프코어, GPU 넘어서는 IPU 효율성으로 승부수
IPU는 CPU, GPU와 전혀 다른 구성으로 설계된 인공지능 개발 전용 반도체다. 출처=IT동아
그래프코어가 내세우고 있는 핵심은 성능이다. 현 시점에서 인공지능 프로세서의 성능을 가장 공신력 있게 측정하는 방법은 ‘MLPerf’다. MLPerf는 △ 이미지 분류 △ 의료용 이미지 분할 △ 저강도 물체 감지 △ 고강도 물체 감지 △ 음성 인식 △ 자연어 처리 △ 추천 △ 강화 학습 등의 항목을 토대로 인공지능의 처리 시간과 품질 등을 확인한다. 이 테스트에서 그래프코어의 최신 IPU인 Bow Pod는 엔비디아의 플래그십 인공지능 프로세서인 DGX-A100 640GB와 비교해 ResNet-50 이미지 분류 성능에서 31% 더 빠른 처리 시간을 보여주었다. 또한 자연어 처리 속도 역시 37% 향상된 성능을 보여주었다. 이는 단순 연산 처리에 특화된 GPU보다 인공지능 처리에 특화된 IPU 특성 덕분에 가능한 결과였다.
그래프코어 MLPerf 결과. 엔비디아 DGX A100이 28분 7초가 걸리는 연산을 19분 6초에 끝냈다는 내용이다. 제공=그래프코어
여기서 주목할만한 부분은 성능보다도 효율성이다. 현재 인공지능 연산의 대다수는 GPU를 기반으로 하는데, MLPerf에 제출된 결과의 약 90%가 엔비디아 GPU 기반 시스템일 정도다. 하지만 GPU는 스케일이 커질수록 그만큼 전력도 많이 소모한다. 반면 IPU는 인공지능 처리에 특화돼있어서 GPU 대비 10배 가량 저전력으로 동작한다. 아울러 경쟁사인 엔비디아의 GPU는 하드웨어와 생태계만 제공되기 때문에 특화된 알고리즘을 구축하기 어렵고 추가 비용이 드는 반면, 그래프코어는 하드웨어는 물론 구축까지 돕는다는 점을 장점으로 내세우고 있다. ESG(환경, 사회, 지배구조)에서 이점이 있는 시스템을 구축하고자 하는 분야에서 그래프코어의 시스템의 주목도가 높아지는 이유다.
국내 인공지능 시장도 활기, 민관 모두 인공지능에 주력
국내 기업 중 자연어 처리에서 선두를 달리고 있는 트위그팜(TWIGFARM)의 경우, 한정된 자원을 효과적으로 활용하기 위해 기존의 GPU 처리 시스템을 메가존 클라우드 기반의 IPU 처리 장치로 이전했다. 덕분에 10배 향상된 성능을 구현하고, 총 소유 비용도 대폭 절감했다. 또한 2025년까지 ETRI와 함께 고효율 인공지능 컴퓨팅 실현을 위한 접근법을 개발하는 파트너십도 체결했다. ETRI와 그래프코어는 컴퓨팅 리소스 관리 부담 최소화와 독립적인 개발 환경 조성, 개발 편의성 향상을 목표로, ETRI는 성능과 효율성, 독립성 향상을 위한 소프트웨어 개발을 주로 담당하고 그래프코어는 기술 검증과 상용화를 위한 가이드를 제공하는 등으로 협력한다.
그래프코어가 한국전자통신연구원(ETRI)와 업무협약을 체결하고 반도체 개발 협력에 나선다. 사진은 왼쪽부터 이윤근 ETRI 인공지능연구소장, 콜린 크룩스 주한 영국 대사, 페브리스 모이잔 부사장. 출처=그래프코어
페브리스 모이잔 글로벌 세일즈 부사장은 “AI 컴퓨팅이나 칩 부문에서는 현재 미국이 가장 주도적인 입장에 있으며, 그 뒤를 중국이 쫓고 있다. 그 다음 시장이 바로 한국과 유럽인데, 한국 시장은 유럽과 맞먹거나 능가하는 모습을 보여주고 있다. AI 혁신에서 한국은 유럽보다 빠르게 발전하고 있기 때문에 앞으로도 그래프코어는 한국 시장에 꾸준히 집중할 것이다”라면서, “이번에 ETRI와 협력 관계를 구축한 것도 한국과의 관계를 더욱 공고하게 구축하기 위함이며, 그 중요도는 앞으로 더욱 더 커질 것이다”라고 답했다.
인공지능은 미래 전략, 그래프코어의 목표는?
영국의 통계학자 어빙 존 굿(Irving John Good)은 1965년 자신의 논문에서 ‘인간의 생존은 초지능 머신의 조기 구축에 달려있다’라면서, 초지능 머신을 인간의 모든 지적 활동을 훨씬 능가할 수 있는 기계로 정의했다. 그리고 초지능 머신이 출연해 기술적 특이점에 도달할 경우, 초지능 머신이 자기 개선을 반복해 성능이 극단적으로 향상되는 지능 폭발이 일어날 것으로 예측했다. 그래프코어가 그의 이름을 딴 세계 최초의 울트라 인공지능 컴퓨터에 ‘굿’이라는 이름을 붙인 이유가 그의 주장과 맥을 같이한다.
실제로 그래프코어가 인공지능을 개발하는 설계 목표는 인간의 뇌에 가까운 인공지능이다. 인간의 뇌 수준의 성능을 구현하기 위해서는 최대 100조 개의 매개 변수가 필요하며, 이를 갖추려면 최대 1페타바이트의 메모리가 필요하다. 또 2주 내 1백만 번의 경사 하강법 구현을 위해서는 최대 2PB의 메모리 대역폭이 필요하다. 연산 처리를 위해서는 처리 장치가 필요한 부분에 맞게 최적화돼야 하고, 이를 개발하는 게 그래프코어의 목적이다. 이들의 목표가 실현 가능한 시점에 대해서는 미지수지만, 확실한 목표 의식을 갖고 나아가고 있다는 점을 엿볼 수 있다.
글 / IT동아 남시현 ([email protected])
그래프코어의 IPU, 얼마나 발전했나
가장 개성있는 뉴스레터 일간 바이라인
매일 아침 바이라인네트워크 기자들의 편지와 최신 기사가 여러분의 편지함으로 배달됩니다. Leave this field empty if you’re human:
영국 AI반도체기업 그래프코어가 자사 인공지능 칩 IPU(Intelligence Processing Unit) 시스템이 최신 MLPerf 1.1 벤치마크 테스트에서 높은 성능을 나타냈다고 밝혔다.
MLPerf AI 벤치마크 테스트를 진행하기 위해서는 엄격한 조건을 만족해야 한다. 그만큼 이 테스트 심사를 거치는 것만으로도 AI 반도체 기업에게는 큰 의미가 있다. 그래프코어에 따르면, 자사 범용 AI프로세서 IPU-POD 16은 엔비디아 DGX A100 성능을 능가했다. 이미지 처리 테스트 ‘레스넷(ResNet) 50’ 훈련 시 엔비디아 DGX A100은 29.1분이 걸린 반면, 그래프코어 IPU POD 16은 28.3분을 기록했다.
또한 그래프코어는 최근 클라우드 하이퍼스케일이나 엔터프라이즈용 AI에 최적화된 ▲IPU-POD 128 ▲IPU-POD 256를 출시했는데, 이에 대한 벤치마크 결과도 공개했다. 그래프코어에 따르면, 해당 칩으로 레스넷 50 모델 훈련을 동일하게 진행한 결과, 각각 5.67분, 3.79분만에 모든 학습을 마쳤다.
자연어 처리 모델 BERT도 진행했다. 페브리스 모이잔(Fabrice Moizan) 그래프코어 글로벌 세일즈 부사장은 “BERT 모델 훈련을 진행한 결과, 전년 벤치마크 성능 대비 IPU-POD 16은 5%, IPU-POD 64는 12%가 각각 향상했다”고 말했다.
칩 개발과 더불어 그래프코어는 지속해서 포플러(Poplar)라는 이름의 소프트웨어 스택도 제공한다. 그래프코어는 포플러를 통해 개발자가 IPU를 더욱 수월하게 사용할 수 있도록 지원한다. 포플러는 2020년 12월부터 올해 상반기까지 총 3번의 업데이트를 거쳤는데, MLPerf 테스트에서도 성능이 향상된 것으로 나타났다.
그래프코어는 지속해서 한국 시장에서도 사업을 확장할 예정이다. 그래프코어는 현재 KT, NHN 등 국내 업체에도 AI 시스템을 제공하고 있다. 패브리스 모이잔 부사장은 “한국은 많은 고객이 활발하게 활동하는 시장”이라며 “오랜 역사를 토대로 파트너사와 지속해서 네트워크를 형성할 것”이라고 말했다.
더불어 그래프코어는 GNN(Graph Neural Network) 모델을 구현하기 위한 아키텍처도 제공한다. GNN은 그래프 구조와 연결성 등을 사용한 인공 신경망을 말한다. 일반 인공 신경망이 벡터나 행렬 형태로 데이터를 처리하는 것과 달리, GNN 모델은 그래프 구조를 가지고 데이터를 처리하고 학습한다. 이는 사회 네트워크나 단백질 분자 분석 등에도 적용할 수 있다.
부사장은 “그래프코어는 IPU를 통해 GNN 모델을 구현하고, 이를 적용한 사례를 만들어 낼 것을 기대한다”고 말했다.
글. 바이라인네트워크
<배유미 기자>[email protected]
[기획] IPU가 AI에 강한 이유 5가지
[테크월드뉴스=서유덕 기자] 4차 산업혁명의 핵심기술이 무엇인지에 대해서는 학자마다 정의가 다르지만, ‘인공지능(AI)’은 늘 포함된다. 인간은 다양한 지식과 정보를 뇌에 저장하고, 그 지식을 토대로 새로운 가치(정보)를 창출하는데, 인간의 지능을 모방한 AI도 인간처럼 ‘학습’과 ‘추론’이 가능해야 한다.AI의 임무는 인간을 대신해 많은 데이터를 빠르게 처리함으로써 초연결과 자동화를 실현하는 것이다. 이를 위해 학습과 추론을 수행해야 한다. 기성 범용 컴퓨터에 쓰인 중앙처리장치(CPU)·그래픽처리장치(GPU)가 초기 AI 학습, 추론에 쓰였지만 효율성에 한계가 있다. ‘그래프코어(Graphcore)’의 ‘IPU’는 그 대안으로서 등장했다.
(출처: 게티이미지뱅크)
2018년, 영국의 AI 반도체 스타트업 그래프코어가 개발한 IPU(Intelligence Processing Unit)는 AI 연산에 특화된 처리기(Processor)다.
기존 범용 컴퓨터는 ‘프로그램’을 처리하는 데 적합한 구조를 갖는다. 프로그램은 프로그래머가 의도한 특정 목적 수행을 위해 만들어진다. PC는 다양한 프로그램을 처리(범용)하는 데 유리하도록 한 번에 명령어 하나씩을 차례로 연산하는 순차처리 방식(폰 노이만 구조)을 사용했다.
반면 방대한 양의 연산을 빠른 시간 내에 처리해야 하는 AI에는 ‘병렬’ 방식이 적합하다. 이미지 처리를 위해 병렬형으로 설계된 GPU가 CPU보다 비교적 AI 연산에 유리한 이유가 그것이다. 허나, 기존 프로세서 설계만으로 점점 증가하는 AI의 요구사항을 충족하기엔 버거워졌다. AI 요구사항이 급증하고 있기 때문이다.
이 때문에 최근 AI를 도입하고자 하는 IT 회사들은 CPU와 GPU를 대신할 로직 반도체를 선택하기 시작했다. 인텔, AMD, 퀄컴, IBM, 엔비디아 등 전통의 반도체 설계·제조사뿐만 아니라 구글, MS, 아마존 등 IT 서비스 사업자들도 AI 반도체 개발에 대규모 투자를 단행하고 있다. 그러나 독자적인 반도체 설계에는 많은 비용이 들어가므로, IPU처럼 AI에 특화된 ‘제품’은 고성능 고효율 AI 시스템을 구축하고자 하는 IT 업체에 좋은 선택지가 된다.
그래프코어의 2세대 콜로서스 MK2 IPU ‘GC200’
그래프코어가 밝힌, IPU가 AI 연산에 유리한 이유는 5가지로 요약된다.
① 높은 ‘병렬’처리 능력: AI 모델은 많은 양의 연산을 동반하므로 병렬처리 지원이 필수다. ② 효율적인 ‘희소’ 연산 처리: 연결고리가 빽빽한 것을 밀집(dense), 끊긴 형태를 희소(sparse)하다고 표현한다. AI 모델의 연산은 점차 희소화 되는 추세다. 과거에는 정확한 결론 도출을 위해 모든 데이터의 연결고리를 전부 찾아 분석할 필요가 있다고 여겼으나, 최근에는 분석에 필요한 데이터만을 연산하는 것으로도 원하는 결론을 도출할 수 있다는 것이 밝혀지며 결론 도출 시간을 절약할 수 있는 희소한 연산이 대세가 됐다. GPU는 그 구조상 밀집된 행렬과 벡터 연산을 처리하는 데는 적합하지만 희소한 연산에 사용할 경우 효율성이 떨어진다. 반면 IPU는 채널을 여러 개의 그룹으로 나눠 독립적으로 연산을 수행하는 그룹 컨볼루션 기법을 사용하므로 희소한 연산을 처리하는 데 유리하다. 그룹 컨볼루션 개념도(출처: Joseph E. Gonzalez, UC버클리대학 RISE Lab / 제공: 그래프코어) ③ 저정밀도의 부동소수점 연산: IPU는 낮은 정밀도의 부동소수점 연산을 사용해 AI 학습과 추론을 효율적으로 처리한다. 과거 기상예측, 유체 흐름 연구 등에 사용된 고성능 컴퓨팅(HPC)에는 부동소수점의 높은 정밀도가 중요하게 작용했으나, AI에는 그렇지 않다. 오히려 HPC에 사용되던 수준의 고정밀도 연산을 AI에 그대로 적용하면 효율성이 떨어진다. IPU는 저정밀도 부동소수점 연산을 하드웨어 수준에서 지원하므로 메모리 사용량을 줄여 효율을 높인다. ④ 고대역폭 메모리 내장: 외부 고대역폭 메모리(HBM)를 주로 활용하는 GPU와 달리, IPU는 칩 내부에 자체 SRAM를 탑재하고 있어 병목 현상을 방지하고, 높은 연산 성능을 뒷받침한다. AI 반도체의 성능을 좌우하는 요소로 연산 속도/처리량과 함께 메모리 대역폭이 거론되는 이유는 저장 공간이 충분하고 통신과 읽기/쓰기 속도가 빠른 저장 공간이 뒷받침돼야 병목(bottleneck) 현상을 방지할 수 있기 때문이다. 즉 연산량(FLOPS)을 뒷받침하는 만큼의 성능을 갖춘 메모리 대역폭이 지원돼야 그 높은 연산 성능을 제대로 활용할 수 있다. ⑤ 소프트웨어 지원: 파이토치(PyTorch), 텐서플로우(Tensorflow) 등 범용 프레임워크(framework)를 활용하는 데 익숙한 AI 개발자와 연구자를 위해, 그래프코어는 범용 프레임워크를 지원함으로써 보다 간단히 IPU를 도입할 수 있도록 한다. 또한 AI 모델들은 대부분 정적인 연산 그래프(static computation graph)의 형태를 띄고 있다는 특성을 활용, 그래프코어는 ‘포플러 그래프 컴파일러(Poplar Graph Compiler)’로 연산그래프를 컴파일해 IPU에 최적화된 상태에서 실행될 수 있도록 지원한다.
따라서 IPU는 다른 AI 반도체 칩보다 높은 성능을 낼 수 있다. 최지웅 그래프코어 코리아 AI 엔지니어는 “IPU-M2000은 ResNet-50에서 GPU 기반의 엔비디아 A100(40GB)보다 2배 많은 학습 처리율(throughput)을 보인다”고 설명했다. 또 “ResNet보다 높은 정확도에 초점을 맞춘 EfficientNet(B4)에서는 학습 처리율이 3.8배 더 높다”며 IPU의 성능을 강조했다.
그래프코어 IPU-M2000과 엔비디아 A100의 AI 학습 처리율 비교(출처: 그래프코어)
이 같은 이점을 활용한 다양한 AI 활용 분야에서 IPU 적용 사례를 찾아볼 수 있는데, 특히 AI 연구에 IPU 채택이 늘고 있다. 최신 AI 모델은 점차 희소하고 효율적인 연산을 강조하는 방향으로 변하고 있다. 이에 맞춰 희소 연산에 강점을 갖는 IPU를 사용한 연구가 활발히 진행 중이다. 또, 과거 GPU 사용이 대세였던 때는 밀집된 연산 위주의 연구가 많았으나, IPU가 등장한 이후로는 희소 연산 관련 연구가 증가하는 추세다.
양적 분석에 기반한 주식 거래 전략인 알고리즘 트레이딩(Algorithmic trading)에도 IPU가 적용되고 있다. 주식이나 채권 거래는 밀리초(㎳) 단위로 가격이 변하고 거래가 성사되는 만큼 많은 양의 데이터를 빠르게 분석해야 할 필요성이 크기 때문에 병렬 연산에 최적화된 IPU가 사용되는 것이다. 일례로, 영국 옥스포드 대학교와 협력하는 산학협력 연구소 Oxford-Man Institute of Quantitative Finance(OMI)는 IPU를 사용해 기존보다 빠른 속도의 시장 예측 모델을 개발했다.
HPC 분야에서도 IPU를 사용하려는 시도가 있다. 영국 브리스틀 대학교(University of Bristol)의 HPC 그룹은 롤스로이스(Rolls-Royce)의 가스 터빈 엔진을 물리학적으로 시뮬레이션하는 데 필요한 기술을 개발하고 있는데, 입자물리학에 쓰이는 연산에 IPU를 적용해 결론 도출에 소요되는 시간을 절약했다.
그래프코어 IPU-M2000
2020년 1월 국내 시장에 진출한 그래프코어는 NHN, KT 등 국내 IT 서비스 대기업과 AI 솔루션을 개발하고 있다. 이처럼 해외는 물론 국내에서도 IPU 도입이 늘고 있으며, GPU 생태계에 잠식돼 있던 AI 시장의 흐름이 변하고 있다. 박운영 그래프코어 프로젝트 매니저는 “정부와 기업의 명확한 전략 수립과 적극적인 투자가 이뤄지는 국내 AI 시장의 가치는 글로벌 5위권 안에 포함된다고 본다”며 “그래프코어 역시 미국과 중국뿐만 아니라 잠재력이 큰 국내 시장을 주목하고 있다”고 언급했다.
한편 AI 산학연 컨소시엄인 MLPerf는 6월 30일(영국 현지시간) 그래프코어의 IPU-POD 64 시스템에 대한 벤치마크 테스트 결과를 발표했다. 해당 발표에는 IPU-POD 64 가 BERT 학습 시간 9분, ResNet-50 학습 시간 14.5분을 기록해 타사 시스템 대비 높은 달러당 성능을 보였다는 내용이 담겼다. 박운영 매니저는 “MLPerf에서 발표한 IPU 벤치마크 테스트 결과로 IPU의 성능이 보다 객관적으로 증명된 만큼, 향후 AI 시장의 판도에 새로운 변화가 있을 것으로 기대한다”며 “앞으로 대기업뿐만 아니라 중견기업에도 AI 개발을 지원할 것”이라고 전했다.
KIPOST(키포스트)- 첨단 산업의 모든 정보
파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장이 4일 열린 기자간담회에서 포즈를 취하고 있다./그래프코어
영국 인공지능(AI) 반도체 스타트업 그래프코어(Graphcore)가 지난 1월 한국 지사를 설립하고 국내 시장 공략에 나섰다.
그래프코어(지사장 강민우)는 4일 기자간담회를 열어 이와 같이 밝히고, 지능 처리 장치(IPU)의 강점을 설명했다.
그래프코어는 알테라, 이매지네이션 등을 거친 나이젤 툰(Nigel Toon)과 브로드컴에 인수된 엘리먼트14(Element14), 엔비디아에 인수된 아이세라(Icera)의 공동 창업자였던 사이먼 놀스(Simon Knowles)가 공동 설립한 스타트업이다. 나이젤 툰은 최고경영자(CEO)로, 사이먼 놀즈는 최고기술책임자(CTO)로 근무하고 있다. 1월 한국과 함께 일본에 지사를 설립했으며, 미국과 유럽, 중국 등에도 지사를 두고 있다.
보쉬 벤처캐피털(Robert Bosch Venture Capital), 삼성전자, 델 테크롤로지 캐피털(Dell Technologies Capital), 아마데우스 캐피털파트너스(Amadeus Capital Partners), C4벤처스, 드라퍼 에스프리트(Draper Esprit), 파운데이션 캐피털, 피탕고 캐피털(Pitango Capital), 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스 하사비스(Demis Hassabis) 등으로부터 3억 달러(약 3500억원)를 유치했으며, 현재 약 15억 달러(약 1조7400억원)의 기업가치를 가졌다고 평가 받고 있다.
그래프코어의 IPU 들여다보기
그래프코어는 중앙처리장치(CPU)와 그래픽처리장치(GPU) 등 현재의 프로세서가 해결하지 못하는 작업들을 처리할 수 있는 반도체를 만들자는 데서 출발했다. CPU는 크기만 있는 스칼라 연산에 최적화됐고 수 개의 고성능 코어가 일을 순차 처리한다면, GPU는 크기와 방향을 갖춘 벡터 연산을 지원하며 수천개의 코어가 대규모의 데이터를 병렬로 처리한다. 이 두 프로세서가 모두 지원하지 못하는 게 점과 선으로 구성된 그래프 연산이었다.
그래프 연산은 소셜네트워크(SNS)에서 인물과의 관계망을 만들거나 화합물, 단백질 구조 등 다양한 종류의 데이터를 처리하기 위해 필요하다. 한 번에 많은 양의 메모리를 활용해 동작하는 GPU와 달리, 각 작업에 필요한 데이터의 양이 서로 달라 GPU로는 효율이 나오지 않는다. 때문에 보통 그래프 연산은 수백 대의 컴퓨터 혹은 서버를 고속 네트워크로 연결한 클러스터 장비를 활용, 병렬로 작업한다. 그만큼 총소유비용(TCO)이 많이 든다는 얘기다.
그래프코어의 IPU 콜로서스(Colossus)는 그래프 기반 아키텍처를 적용해 그래프 연산에 최적화됐다. 그래프 연산은 머신러닝(ML) 등 AI 알고리즘에도 활용되는데, 회사는 IPU를 AI 연산에 활용할 수 있도록 텐서(Tensor) 연산 기능을 추가했다. 특히 자연어처리(NLP) 경계 확장에 중점을 두고 있으며, 머신러닝에도 적합하다. TSMC의 16나노 공정에서 생산됐다.
그래프코어의 콜로서스 IPU 2개를 내장한 콜로서스 C2./그래프코어
‘콜로서스’는 1216개의 독자 IPU 코어로 구성됐는데, 각 IPU에는 256KB의 S램이 탑재돼 총 311MB 가량의 메모리를 내장하고 있다. 각 S램은 물리적으로는 코어에 붙어있지만 종속돼있지 않아 이론적으로는 코어 하나가 수 개의 S램을 활용할 수 있다. 이를 두고 그래프코어는 ‘메모리 랜덤 접근’이 용이하다고 설명했다. GPU는 고대역폭메모리(HBM)나 그래픽D램(GDDR) 등 외부 D램과 데이터를 주고받기 때문에 메모리 병목현상이 발생하는데, 이 제품은 학습 및 추론 모델을 메모리에 적재한 후 바로 연산하기 때문에 지연시간이 짧고 연산 속도가 빠르다.
각 코어 당 연산 성능은 100GFLOPS로, 7000개 이상 최대 1만개의 프로그램을 병렬 실행할 수 있다. 총 연산 성능은 125TFLOPS(@150W)다. 칩 당 메모리 대역폭은 45TB/s로, 콜로서스가 2개 붙은 ‘콜로서스 C2’ 카드는 총 90TB/s 대역폭을 제공한다. HBM2보다 약 100배 이상 높은 수치다. C2의 트랜지스터 수는 236억개고, 칩 간 대역폭은 320GB/s다. 4세대 PCIe 기술이 적용돼 양방향 호스트 통신 대역폭은 64GB/s에 달한다. 두 IPU 사이에는 8TB/s 대역폭의 IPU 익스체인지(Exchange) 블록이 들어가있다.
이 제품은 AI 머신러닝을 위해 고안된 소프트웨어 스텍 ‘포플러(Poplar)’와 함께 작동한다. 구글 텐서플로 프레임워크와 호환 가능한 AI 모델 생태계 ONNX(Open Neural Network Exchange)과 통합됐으며, 페이스북 파이토치(PyTorch)와 호환도 곧 완료한다는 계획이다.
구글 버트 학습 결과, IPU는 GPU보다 월등한 성능을 보여줬다./그래프코어
그래프코어의 IPU를 활용해 마이크로소프트(MS)는 구글 버트(BERT) 모델 학습에서 기존 파이토치, 텐서플로우 프레임워크를 활용한 GPU보다 월등히 높거나 비슷한 수준의 성능을 보엿다. BERT 모델은 일련의 데이터 세트를 사전 훈련해 문장 간의 관계를 학습하는 언어 모델이다. MS는 하나의 서버에 C2 카드 8개를 탑재, 56시간 동안 버트 모델을 학습시켰는데, GPU 대비 추론 처리량은 3배 늘었고 대기 시간은 20% 이상 감소됐다.
지난해 MS는 클라우드 컴퓨팅 플랫폼 ‘애저(Azure)’에 그래프코어 IPU를 탑재했다. MS 애저에 IPU가 적용되면 사용자들은 애저 플랫폼 안에서 머신러닝이나 자연어처리(NLP) 등을 활용해 새로운 서비스나 제품을 개발할 수 있게 된다.
강화학습에서도 강점을 보였다. 강화학습은 알고리즘이 선택 가능한 행동들 중 보상을 최대화하는 방향으로 행동하거나 행동의 순서를 선택하는 머신러닝 유형이다. 신경과학적인 접근방식이기 때문에 대기 시간이 짧아야 하고, 복잡한 상태에서도 빠른 접근 및 판단이 가능해야한다. IPU는 최적화 없이도 처리량을 GPU 대비 13배 개선했다. 배치 사이즈(Batch size)가 32 이상으로 크면 GPU가 강하지만 그 아래 사이즈일때는 IPU가 독보적이라고 파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장은 설명했다.
금융업계에서 활용하는 확률론 학습 모델인 MCMC(Markov Chain Monte Carlo)의 작업 시간도 대폭 줄였다. 기존 하드웨어로는 2시간 걸리던 작업을 단 4분 30초만에 최적화했다.
모이잔 부사장은 “IPU는 기존 프로세서가 하지 못하는 일을 하는 연산 장치로 자리매김할 것”이라며 “그래프코어 IPU는 기존 CPU 및 GPU를 사용하는 것과 비교하여 데이터 처리 속도가 10배에서 최대 100배까지 빠르고, GPU보다 전력 사용량이 2배 이상 적어 데이터를 분석해서 컴퓨터 스스로 판단하고 학습할 수 있는 능력인 ‘머신러닝’에 더 적합하다”고 말했다.
한국 지사, 무슨 일을 할까
강민우 그래프코어 지사장./그래프코어
그래프코어는 한국 지사 설립과 함께 강민우 지사장을 선임했다. 강 지사장은 그래프코어에 합류하기 이전에 오버랜드와 데이터도메인, 블랙아이옵스, 퓨어스토리지, 루브릭, 엑사그리드 등의 글로벌 IT 인프라 업체들의 한국 지사를 이끌었었다.
당장 한국 시장에서 이 회사가 겨냥하는 건 네이버, 다음카카오 등 인터넷 서비스 및 SNS 업체들과 SK, 삼성전자 등 AI 개발에 주력하고 있는 업체들이다. 기존 AI 학습 시장을 쥐고 있는 GPU를 완전히 대체하진 못하겠지만, 그래프 연산 등 GPU가 잘 동작하지 못하는 영역에서는 가능성이 있다. 무엇보다 총 소유비용(TCO)을 줄일 수 있고, MS 등에 납품한 실적(Reference)도 있다는 장점을 갖고 있다.
강 지사장은 “AI 프로젝트를 진행하는 공공 기관을 비롯하여 주요 기업과 연구소에서 사용하는 데이터센터 등에서 필요한 AI프로젝트를 완벽하게 수행하기 위한 컴퓨팅 시스템에 IPU를 공급할 것”이라며 “국내 기업 고객들의 변화하는 수요에 맞춰 공격적으로 시장을 개척하고, 최적의 제품과 서비스 제공을 위해 조직 확대 및 지원에 적극 나설 것이다”라고 말했다.
그래프코어: AI가 IPU를 뿌리칠 수 없는 이유
그래프코어: AI가 IPU를 뿌리칠 수 없는 이유
2020년 03월호 지면기사 / 글│윤범진 기자 _ [email protected]
IPU: New Hardware for “FOR THE AI”
영국의 스타트업 기업인 그래프코어(Graphcore)가 머신러닝(Machine learning, 기계학습) 워크로드를 실행하도록 설계된 IPU(Intelligence Processing Unit)라는 새로운 개념의 프로세서로 벤처캐피털(VC)과 유력 IT 기업으로부터 주목받고 있다. 그래프코어의 콜로서스(Colossus) IPU는 1,216개의 각 IPU 코어마다 프로세서 내 메모리 타일을 탑재했다. 지난 2월 그래프코어는 기자회견을 열고 한국 지사 설립을 공식 선언했다. 이날 기자회견에는 강민우 한국지사장을 비롯해 그래프코어의 파브리스 모이잔(Fabrice Moizan) 미국 영업 및 비즈니스 총괄 부사장이 참석했다.
글│윤범진 기자 _ [email protected]
클라우드 기반 AI(데이터센터)의 경우, 현재 대부분의 컴퓨팅은 CPU나 GPU에 의해 제공된다. 그러나 AI 컴퓨팅의 성능 요구를 충족시키기 위해 칩 아키텍처가 크게 변화하고 있다.
이미지 처리는 신경망에 의해 효율적으로 처리되는 행렬과 관련된 병렬 작업이 필요하기 때문에, GPU가 전통적으로 신경망 구현에 매력적이었다. 반면, 기존 CPU는 AI 작업을 수행하도록 프로그래밍 할 수 있지만 동일한 연산을 실행하는데 더 오래 걸리고 더 많은 전력을 소비한다. 때문에 일각에서는 FPGA나 ASIC의 급성장을 점치기도 한다.
이미 IBM, 인텔, 퀄컴, 자일링스와 같은 반도체 회사들은 전력 효율을 개선하고 처리량(Throughput)을 향상시키기 위해 ASIC를 설계하고 있다. 이 회사들은 효율적으로 훈련될 수 있는 AI 칩 개발에 중점을 두고 있다. 이것은 학습할 수 있는 데이터를 공급하여 머신러닝 모델을 준비하는 단계다. 추론은 이미 훈련된 모델을 가져와서 유용한 예측을 하는데 사용하는 과정이다.
AI는 기존 프로세서 설계 회사들의 지배력을 와해시킬 수 있는 게임 체인징 기술로 부상하고 있다. 초기에 AI는 병렬 처리에 더 적합한 GPU로 이동하기 전에 CPU에서 구동했다. 여전히 GPU는 고밀도 부동소수점 연산에 뛰어나지만, 일부 업체들은 맞춤형 하드웨어로 더 높은 처리량과 에너지 효율을 보고했다. 상당수의 IT 회사들은 그들의 신경망 아키텍처 구현을 위해 CPU 대신 맞춤형 하드웨어를 선택했다. 집적회로(IC) 로직과 메모리 계층을 커스터마이징하면 이전 세대 GPU보다 훨씬 빠르고 에너지 효율이 높은 맞춤형 하드웨어 신경망을 생성할 수 있기 때문이다.
2017년 7월 중국은 오는 2030년까지 세계 1위의 AI 강국으로 도약하겠다는 ‘차세대 AI 발전 계획’을 발표했다. 화웨이(Huawei)는 서버 시장을 위한 새로운 AI 칩 ‘Ascend 910’을 비롯해 AI 학습 클러스터 ‘Atlas 900’을 공개했다. 또한 화웨이는 자체 스마트폰용 AI 칩셋인 ‘Kirin 990’를 발표했다. 알리바 바는 자사 최초의 자체 AI 칩 ‘Hanguang 800’을 발표했다. 호라이즌 로보틱스(Horizon Robotics)는 감시 카메라뿐만 아니라 자율주행 차량용 AI 칩 개발을 하고 있다. 이 회사는 최근 자체 개발한 ‘BPU(Brain Processing Unit)’ 아키텍처를 채용한 2세대 AI 칩 ‘Journey 2.0’을 발표했다. 미국에서는 인텔, IBM, 퀄컴, AMD, 엔비디아 등이 클라우드 AI 칩을 발표했거나 이미 공급 중이다. 클라우드 컴퓨팅 분야에서 입지를 강화하려는 구글, MS, 아마존과 같은 비 반도체 회사들도 클라우드용 AI 칩 개발에 대규모 투자를 하고 있다. 구글, 바이두, 알리바바와 같은 데이터 회사들뿐만 아니라 반도체 공룡 기업들 틈바구니에서 그래프코어와 같은 스타트업도 AI 칩 시장서 경쟁을 펼치고 있다.
현재 학습 부분은 엔비디아의 GPU가 주도하고 있으나, 구글이 ASIC의 한 형태인 자체 TPU(Tensor Processing Unit)를 개발함으로써 업계에 경쟁을 촉발했다. 사실 요즘 반도체 업계를 뜨겁게 달구고 있는 시장은 추론 부분이다. 추론은 클라우드 또는 엣지에서 실행할 수 있다. 기자가 주목한 그래프코어 IPU는 학습과 추론 모두 지원한다.
다음은 그래프코어 모이잔 총괄 부사장의 발표와 일문일답 전문이다.
About Graphcore … 이미지 처리는 신경망에 의해 효율적으로 처리되는 행렬과 관련된 병렬 작업이 필요하기 때문에, GPU가 전통적으로 신경망 구현에 매력적이었다. 반면, 기존 CPU는 AI 작업을 수행하도록 프로그래밍 할 수 있지만 동일한 연산을 실행하는데 더 오래 걸리고 더 많은 전력을 소비한다. 때문에 일각에서는 FPGA나 ASIC의 급성장을 점치기도 한다.이미 IBM, 인텔, 퀄컴, 자일링스와 같은 반도체 회사들은 전력 효율을 개선하고 처리량(Throughput)을 향상시키기 위해 ASIC를 설계하고 있다. 이 회사들은 효율적으로 훈련될 수 있는 AI 칩 개발에 중점을 두고 있다. 이것은 학습할 수 있는 데이터를 공급하여 머신러닝 모델을 준비하는 단계다. 추론은 이미 훈련된 모델을 가져와서 유용한 예측을 하는데 사용하는 과정이다.AI는 기존 프로세서 설계 회사들의 지배력을 와해시킬 수 있는 게임 체인징 기술로 부상하고 있다. 초기에 AI는 병렬 처리에 더 적합한 GPU로 이동하기 전에 CPU에서 구동했다. 여전히 GPU는 고밀도 부동소수점 연산에 뛰어나지만, 일부 업체들은 맞춤형 하드웨어로 더 높은 처리량과 에너지 효율을 보고했다. 상당수의 IT 회사들은 그들의 신경망 아키텍처 구현을 위해 CPU 대신 맞춤형 하드웨어를 선택했다. 집적회로(IC) 로직과 메모리 계층을 커스터마이징하면 이전 세대 GPU보다 훨씬 빠르고 에너지 효율이 높은 맞춤형 하드웨어 신경망을 생성할 수 있기 때문이다.2017년 7월 중국은 오는 2030년까지 세계 1위의 AI 강국으로 도약하겠다는 ‘차세대 AI 발전 계획’을 발표했다. 화웨이(Huawei)는 서버 시장을 위한 새로운 AI 칩 ‘Ascend 910’을 비롯해 AI 학습 클러스터 ‘Atlas 900’을 공개했다. 또한 화웨이는 자체 스마트폰용 AI 칩셋인 ‘Kirin 990’를 발표했다. 알리바 바는 자사 최초의 자체 AI 칩 ‘Hanguang 800’을 발표했다. 호라이즌 로보틱스(Horizon Robotics)는 감시 카메라뿐만 아니라 자율주행 차량용 AI 칩 개발을 하고 있다. 이 회사는 최근 자체 개발한 ‘BPU(Brain Processing Unit)’ 아키텍처를 채용한 2세대 AI 칩 ‘Journey 2.0’을 발표했다. 미국에서는 인텔, IBM, 퀄컴, AMD, 엔비디아 등이 클라우드 AI 칩을 발표했거나 이미 공급 중이다. 클라우드 컴퓨팅 분야에서 입지를 강화하려는 구글, MS, 아마존과 같은 비 반도체 회사들도 클라우드용 AI 칩 개발에 대규모 투자를 하고 있다. 구글, 바이두, 알리바바와 같은 데이터 회사들뿐만 아니라 반도체 공룡 기업들 틈바구니에서 그래프코어와 같은 스타트업도 AI 칩 시장서 경쟁을 펼치고 있다.현재 학습 부분은 엔비디아의 GPU가 주도하고 있으나, 구글이 ASIC의 한 형태인 자체 TPU(Tensor Processing Unit)를 개발함으로써 업계에 경쟁을 촉발했다. 사실 요즘 반도체 업계를 뜨겁게 달구고 있는 시장은 추론 부분이다. 추론은 클라우드 또는 엣지에서 실행할 수 있다. 기자가 주목한 그래프코어 IPU는 학습과 추론 모두 지원한다.다음은 그래프코어 모이잔 총괄 부사장의 발표와 일문일답 전문이다.
그래프코어는 AI 가속기 칩을 개발, 생산하고 있습니다. 저희는 이 그래프 프로세서를 IPU라고 부릅니다. IPU는 Intelligence Processing Unit, 즉 지능처리장치를 의미합니다. 이 프로세서와 함께 소프트웨어 스택(POPLAR)을 공급합니다. 또한 데이터센터와 서버에 사용되는 IPU 모듈과 시스템을 판매합니다.
그래프코어는 신생기업입니다. 그러나 지금까지 유수의 투자사와 기술기업으로부터 3억 1,000만 달러 이상의 투자 유치를 했습니다. 투자사로는 미국 벤처캐피탈 세콰이어 캐피탈을 비롯해 마이크로소프트(MS), BMW, 델(Dell), 삼성, 보쉬 등이 있습니다. 삼성으로부터도 투자를 받았기에, 오늘 이 자리에 있는 것이 아닌가 싶습니다. 삼성은 향후 AI 산업을 주도할 것으로 생각하며, 그래프코어의 주요 고객사이기도 합니다.
머신 인텔리전스(Machine Intelligence)의 진화 단계를 보면, 1단계는 단순히 물체를 인식(Object perception)하는 수준이었습니다. 현재 2단계에는 자연어 처리, 음성인식, 인터넷 검색 등에 적용되고 있습니다. 머신 러닝의 미래인 3단계는 과거를 학습함으로써 미래를 예측하게 될 것입니다. 현재 자율주행 차량은 단순히 이미지를 인식함으로써 의사결정을 내리게 되는데, 향후에는 과거 경험을 기반으로 주변 환경에서 어떤 일이 일어날지 예측하고 판단하는 완전 자율주행 차량으로 진화할 것입니다. 머신 러닝과 딥 러닝의 미래는 사람의 뇌처럼 사고하게 될 것입니다.
머신 러닝 워크로드를 실행하는 과정을 보면, 오래된 기술인 CPU를 사용하는 경우에는 전력 소모가 많습니다. GPU의 경우는 머신 러닝을 처리하는데 있어서 상당히 훌륭한 기술입니다. 하지만 대부분 그래픽적으로 치우쳐 있습니다. 때문에 지능을 처리함에 있어서 약간의 제약 요소가 있습니다. IPU를 설계한 이유가 여기에 있습니다. IPU는 향후 머신러닝이나 딥러닝에서 겪게 될 문제를 해결하는 데 집중하고 있습니다. 지금까지 다양한 프로세서가 소개됐지만 IPU는 사람의 뇌처럼 동작합니다. 저희는 그래프 기반의 기술이라는 점에서 사명(社名)을 그래프코어라고 했습니다.
그럼, IPU와 GPU는 어떻게 다를까요? 한 마디로 아키텍처가 다릅니다. 그래프코어 IPU는 그래프에 기반을 두고 있으며 동시에 여러 가지 문제를 해결할 수 있습니다. 또한 기존의 모델에 대해서 GPU 보다 월등한 성능으로 처리할 수 있습니다. 향후 미래의 기술에 대해서도 처리 능력이 훨씬 뛰어납니다. 현재 GPU로는 불가능하거나 생각하지 못했던 작업을 그래프코어 IPU를 통해 처리할 수 있습니다.
그래프코어 IPU의 효율성을 입증하기 위해, 자연어 처리를 위한 BERT 모델을 훈련(Training)에 적용에 봤습니다. BERT는 업계에서 검색 엔진이나 음성인식을 하는데 있어서 광범위하게 사용하는 언어 모델입니다. BERT 모델로 IPU를 평가했을 때, IPU가 GPU와 동등한 성능을 보이거나 어떤 경우에 더 뛰어난 성능을 나타냈습니다. 여기서 테스트한 것은 모델을 훈련하는 데 걸리는 시간입니다. 예를 들어, 자연어 처리를 함에 있어서 Wikipedia을 기반으로 해서 알고리즘을 완벽하게 하는 데까지 걸리는 시간을 테스트한 결과가 그림에 나와 있습니다.
똑같은 BERT 모델을 추론(Inference)에 적용해 테스트해 봤습니다. 예를 들어, 대개 구글이나 네이버 같은 검색 엔진을 통해 검색하게 되는데, IPU가 뛰어난 검색 결과를 나타냈습니다. 또 다른 사례로, 컴퓨터 비전을 들 수 있습니다. 지금까지 단순히 고양이를 탐지하는 것만으로도 괜찮았습니다. 하지만 이제는 HD 이미지를 활용하며 비디오 분석이 상당히 중요해졌습니다. 이런 상황에서, 새로운 모델에 대해서는 GPU가 올바른 기술이 아니라고 생각합니다. IPU가 이러한 새로운 모델에 대해서는 훨씬 뛰어납니다. 특히, 자율주행 차량에서도 마찬가지입니다.
일반적으로 자율주행 차량은 12개의 고화질(HD) 카메라를 장착합니다. 이밖에도 새로운 기술들을 요구하기 때문에 IPU가 적합합니다. 단순히 데이터센터나 자율주행 차량뿐만 아니라, 금융업계나 헬스케어 분야에서도 적용될 수 있습니다. 또 다른 사례로, 금융업계에서 사용하는 AI 모델로 MCMC(Markov Chain Monte Carlo) 확률 모델이 있습니다. MCMC 확률 모델을 훈련하는데 걸리는 시간이 IPU가 GPU보다 26배 빠릅니다.
현재 가장 큰 고객인 마이크로소프트(MS)가 작년 10월 최초로 IPU 기반의 서비스를 발표했습니다. MS 애저(Azure)의 경우, 스타트업에 투자한 사례가 없음에도 그래프코어의 장기 프로젝트에 투자했다는 점에서 상당히 놀라운 성과라고 할 수 있습니다. MS가 IPU를 선택한 이유는 고객에게 새로운 기술에 대해서 여러 가지 선택지를 제공하기 위해서입니다. 그래프코어 기술을 사용하기 원한다면 MS 애저를 활용하면 됩니다. 또한 서버 차원에서는 델을 사용하면 됩니다.
환상적인 하드웨어를 구동하기 위해서는 소프트웨어가 필요합니다. 현재 AI 플랫폼을 활용해서 모델을 개발하고 있는데, GPU를 사용하는 경우에 주로 많이 사용하는 플랫폼이 TensorFlow, ONNX, PyTorch입니다. 그래프코어 POPLAR라는 아주 간단한 소프트웨어 스택을 사용해 기존의 GPU 플랫폼에서 만든 모델을 최적화할 수 있습니다. 사용하기 쉽습니다. 추가적인 개발이 필요 없으며 상당히 간단하게 사용할 수 있는 소프트웨어입니다. 마치 예술 작품처럼 보이는 이 이미지는 계산 그래프 개념이 그래프코어의 그래프 프로세서(Colossus)와 그래프 프로그래밍 프레임 워크인 POPLAR(포플러)에 어떻게 매핑되는지를 보여줍니다. 강화학습(Reinforcement Learning)을 위한 신경망(Neural network)을 시각화한 이 이미지는 마치 사람의 뇌를 연상케 합니다. 머신러닝과 딥러닝(Deep learning, 심층학습)의 미래는 사람의 뇌처럼 활동할 것입니다. 때문에 저희는 계속해서 혁신을 도모하고 있습니다.그래프코어는 AI 가속기 칩을 개발, 생산하고 있습니다. 저희는 이 그래프 프로세서를 IPU라고 부릅니다. IPU는 Intelligence Processing Unit, 즉 지능처리장치를 의미합니다. 이 프로세서와 함께 소프트웨어 스택(POPLAR)을 공급합니다. 또한 데이터센터와 서버에 사용되는 IPU 모듈과 시스템을 판매합니다.그래프코어는 신생기업입니다. 그러나 지금까지 유수의 투자사와 기술기업으로부터 3억 1,000만 달러 이상의 투자 유치를 했습니다. 투자사로는 미국 벤처캐피탈 세콰이어 캐피탈을 비롯해 마이크로소프트(MS), BMW, 델(Dell), 삼성, 보쉬 등이 있습니다. 삼성으로부터도 투자를 받았기에, 오늘 이 자리에 있는 것이 아닌가 싶습니다. 삼성은 향후 AI 산업을 주도할 것으로 생각하며, 그래프코어의 주요 고객사이기도 합니다.머신 인텔리전스(Machine Intelligence)의 진화 단계를 보면, 1단계는 단순히 물체를 인식(Object perception)하는 수준이었습니다. 현재 2단계에는 자연어 처리, 음성인식, 인터넷 검색 등에 적용되고 있습니다. 머신 러닝의 미래인 3단계는 과거를 학습함으로써 미래를 예측하게 될 것입니다. 현재 자율주행 차량은 단순히 이미지를 인식함으로써 의사결정을 내리게 되는데, 향후에는 과거 경험을 기반으로 주변 환경에서 어떤 일이 일어날지 예측하고 판단하는 완전 자율주행 차량으로 진화할 것입니다. 머신 러닝과 딥 러닝의 미래는 사람의 뇌처럼 사고하게 될 것입니다.머신 러닝 워크로드를 실행하는 과정을 보면, 오래된 기술인 CPU를 사용하는 경우에는 전력 소모가 많습니다. GPU의 경우는 머신 러닝을 처리하는데 있어서 상당히 훌륭한 기술입니다. 하지만 대부분 그래픽적으로 치우쳐 있습니다. 때문에 지능을 처리함에 있어서 약간의 제약 요소가 있습니다. IPU를 설계한 이유가 여기에 있습니다. IPU는 향후 머신러닝이나 딥러닝에서 겪게 될 문제를 해결하는 데 집중하고 있습니다. 지금까지 다양한 프로세서가 소개됐지만 IPU는 사람의 뇌처럼 동작합니다. 저희는 그래프 기반의 기술이라는 점에서 사명(社名)을 그래프코어라고 했습니다.그럼, IPU와 GPU는 어떻게 다를까요? 한 마디로 아키텍처가 다릅니다. 그래프코어 IPU는 그래프에 기반을 두고 있으며 동시에 여러 가지 문제를 해결할 수 있습니다. 또한 기존의 모델에 대해서 GPU 보다 월등한 성능으로 처리할 수 있습니다. 향후 미래의 기술에 대해서도 처리 능력이 훨씬 뛰어납니다. 현재 GPU로는 불가능하거나 생각하지 못했던 작업을 그래프코어 IPU를 통해 처리할 수 있습니다.그래프코어 IPU의 효율성을 입증하기 위해, 자연어 처리를 위한 BERT 모델을 훈련(Training)에 적용에 봤습니다. BERT는 업계에서 검색 엔진이나 음성인식을 하는데 있어서 광범위하게 사용하는 언어 모델입니다. BERT 모델로 IPU를 평가했을 때, IPU가 GPU와 동등한 성능을 보이거나 어떤 경우에 더 뛰어난 성능을 나타냈습니다. 여기서 테스트한 것은 모델을 훈련하는 데 걸리는 시간입니다. 예를 들어, 자연어 처리를 함에 있어서 Wikipedia을 기반으로 해서 알고리즘을 완벽하게 하는 데까지 걸리는 시간을 테스트한 결과가 그림에 나와 있습니다.똑같은 BERT 모델을 추론(Inference)에 적용해 테스트해 봤습니다. 예를 들어, 대개 구글이나 네이버 같은 검색 엔진을 통해 검색하게 되는데, IPU가 뛰어난 검색 결과를 나타냈습니다. 또 다른 사례로, 컴퓨터 비전을 들 수 있습니다. 지금까지 단순히 고양이를 탐지하는 것만으로도 괜찮았습니다. 하지만 이제는 HD 이미지를 활용하며 비디오 분석이 상당히 중요해졌습니다. 이런 상황에서, 새로운 모델에 대해서는 GPU가 올바른 기술이 아니라고 생각합니다. IPU가 이러한 새로운 모델에 대해서는 훨씬 뛰어납니다. 특히, 자율주행 차량에서도 마찬가지입니다.일반적으로 자율주행 차량은 12개의 고화질(HD) 카메라를 장착합니다. 이밖에도 새로운 기술들을 요구하기 때문에 IPU가 적합합니다. 단순히 데이터센터나 자율주행 차량뿐만 아니라, 금융업계나 헬스케어 분야에서도 적용될 수 있습니다. 또 다른 사례로, 금융업계에서 사용하는 AI 모델로 MCMC(Markov Chain Monte Carlo) 확률 모델이 있습니다. MCMC 확률 모델을 훈련하는데 걸리는 시간이 IPU가 GPU보다 26배 빠릅니다.현재 가장 큰 고객인 마이크로소프트(MS)가 작년 10월 최초로 IPU 기반의 서비스를 발표했습니다. MS 애저(Azure)의 경우, 스타트업에 투자한 사례가 없음에도 그래프코어의 장기 프로젝트에 투자했다는 점에서 상당히 놀라운 성과라고 할 수 있습니다. MS가 IPU를 선택한 이유는 고객에게 새로운 기술에 대해서 여러 가지 선택지를 제공하기 위해서입니다. 그래프코어 기술을 사용하기 원한다면 MS 애저를 활용하면 됩니다. 또한 서버 차원에서는 델을 사용하면 됩니다.환상적인 하드웨어를 구동하기 위해서는 소프트웨어가 필요합니다. 현재 AI 플랫폼을 활용해서 모델을 개발하고 있는데, GPU를 사용하는 경우에 주로 많이 사용하는 플랫폼이 TensorFlow, ONNX, PyTorch입니다. 그래프코어 POPLAR라는 아주 간단한 소프트웨어 스택을 사용해 기존의 GPU 플랫폼에서 만든 모델을 최적화할 수 있습니다. 사용하기 쉽습니다. 추가적인 개발이 필요 없으며 상당히 간단하게 사용할 수 있는 소프트웨어입니다.
Questions & Answers
Interviewee: Fabrice Moizan, GM & VP Sales US at Graphcore
Q. 지금까지 GPU가 AI 시장을 이끌어왔다는 점을 생각하면, GPU가 불가능한 작업이 무엇일지 상상하기 어렵다. 충분한 예를 들어 달라. 또한, 그래프 기반 아키텍처가 무슨 의미인지, 인메모리 프로세싱에 대해서도 자세히 설명해 달라.
A. 자연어처리 모델이나 영상처리 모델의 경우, 크기가 점점 더 방대해지고 있습니다. 최근 자연어처리와 관련해 GPT-2라는 대규모 번역 기반 언어 모델이 나왔는데. 이 모델은 15억 개의 파라미터를 가지고 있습니다. 현재 GPU 1천 개를 사용해 단지 모델 하나를 훈련할 수 있는 경우도 있습니다. 때문에 향후에는 모델을 마치 사람의 뇌처럼 학습할 필요가 있습니다. 이는 점차 데이터셋이 많아지고 대규모 데이터센터가 필요함을 의미합니다. 모델이 커지면서 훈련 시간도 점점 더 길어지고 있습니다. 어떤 경우에는 모델 하나를 훈련하는 데도 한 달이 소요됩니다.
데이터 과학자들은 혁신을 원합니다. 훈련 및 추론 시간을 단축할 수만 있다면 많은 긍정적인 혜택을 누릴 수 있습니다. IPU는 훈련 및 추론 시간을 훨씬 빠르게 해줍니다. 그래프코어 IPU는 프로세서에 직접 메모리를 배치했습니다. 따라서 프로세서와 메모리 간의 대기시간 보틀넥(latency bottleneck)을 없앨 수 있습니다. IPU는 학습 및 추론 모델을 메모리에 적재한 후 바로 연산할 수 있기 때문에 지연을 제거하고 연산 속도를 획기적으로 향상시켰습니다. 반면, GPU는 프로세서 외부에 메모리가 존재하기 때문에 대기시간 보틀넥을 피할 수 없습니다.
금융업계에서 사용하는 AI 모델인 MCMC(Markov Chain Monte Carlo) 확률 모델의 훈련에 IPU를 적용해 기존 프로세서로 2시간 이상 걸린 작업을 4분 30초 만에 최적화할 수 있었습니다. 대기시간이 길어지면, 트레이더들이 금융시장에 빠르게 개입하지 못하거나 즉각 반응하지 못하게 됩니다.
그래프코어는 기존 CPU나 GPU와는 전혀 다른 아키텍처를 사용합니다. GPU는 3D 렌더링을 위해 설계됐으며 상당히 많은 양의 픽셀을 동시에 처리합니다. 하지만 머신 러닝은 상당히 방대한 병렬처리에 기반하고 있습니다. 그래프코어 IPU는 ‘스파서티(sparsity, 희소성) 개념에도 잘 부합합니다. 스파서티는 무작위로 메모리에 액세스하는 것을 의미합니다. 어떤 애플리케이션은 여기저기서 끌어온 작은 데이터를 조합해 AI 모델을 구동하므로 방대한 양의 데이터가 필요 없습니다.
그래프코어의 콜로서스(Colossus) IPU에는 1,200개 이상의 프로세서 코어가 내장됩니다. 각각의 프로세서에는 256KB SRAM이 탑재돼 있습니다. 별도의 외부 메모리(DRAM)가 필요 없습니다. 이것이 기존 프로세서와 큰 차이점입니다.
GPU는 외장 메모리로 고대역폭 메모리(High Bandwith Memory, HBM)를 채택합니다. 외부에 있는 데이터를 끌어와야 하기 때문에 대기시간 문제를 야기할 수 있습니다. 메모리 대역폭이나 처리능력(Throughput)은 장점이나, 그 결과로 인해 전력소비가 증가할 수 있습니다.
IPU 프로세서 코어마다 짝을 이루고 있는 SRAM을 다른 프로세서가 사용할 수도 있습니다. 우리는 벌크 동기식 병렬(Bulk Synchronous Parallel, BSP)이라는 개념을 활용합니다. BSP 모델을 사용해 모든 IPU 프로세서 코어 간 통신을 지원합니다. 이는 각각의 프로세서가 동시에 계산 작업을 수행할 수 있다는 의미입니다(Computation, 로컬 계산 단계). 어떤 경우에는 프로세서가 연산을 중단하고 다른 프로세서와 동기화 작업을 실행합니다(BSP Sync, 동기화 단계). 또 다른 단계로 메모리를 교환하는 작업을 실행합니다(Exchange, 교환 단계). 이것은 정적(Static) 기반이기도 하지만 동시에 결정론적인 기반을 가지고 있습니다.[‘시간 결정성(time-deterministic)’, 즉 동기화 후 모든 교환이 특정 시간에 실행된다. 또 ‘그래프’의 ‘정적 특성(Static nature)’, 다시 말해 IPU에 의해 처리된 그래프는 일정 시간을 보장하기 위해 정적이어야 한다.]
Q. IPU가 CPU와 GPU를 모두 대체할 수 있다고 보나.
A. 그렇지 않습니다. CPU와 FPGA는 모두 훈련이 가능합니다. 또 GPU가 IPU보다 월등한 영역도 있습니다. 예를 들어, 아주 큰 이미지 관리에서는 GPU가 유리합니다. GPU는 상당히 큰 사이즈의 벡터(Vector, 디지털 데이터의 묶음) 구성으로 돼 있기 때문에 배치 사이즈가 큰 경우, 예를 들어 1,000개 정도의 배치 사이즈도 관리할 수 있습니다. GPU는 이미지 처리를 위해 설계됐기 때문에 영상의학 분야에서 유리하다고 할 수 있습니다. 반면, IPU는 배치(Batch) 사이즈가 작은 경우에 GPU보다 유리합니다. 또한 자연어 처리를 비롯해 데이터가 분산되어 있는 경우에도 IPU가 유리합니다.
Q. 가격 경쟁력은 충분한가.
A. 구체적인 프로세서 가격을 공개하기는 어렵지만, 가격 경쟁력은 뛰어나다고 할 수 있습니다. GPU와 비교해 가격적으로 문제없습니다. 예를 들어, 같은 가격에 엔비디아 PCI 카드에는 한 개의 GPU가 탑재되는 반면, 그래프코어 PCI 고속 카드 ‘C2’에는 두 개의 IPU(Colossus, 콜로서스)가 탑재됩니다.
Q. 국내 AI 시장 진출 전략은.
A. 그래프코어는 이제 막 한국지사 설립과 함께 한국시장에 진출했습니다. 큰 기대를 걸고 있기는 하나 1년 내에 시장점유율을 크게 높이기는 어려울 것입니다. 앞으로 강민우 지사장과 산하 팀원들이 한국 내 대학이나 연구소와 긴밀한 관계를 구축해 나아갈 것입니다. 한국은 혁신에 기반을 둔 국가라고 생각합니다. 한국에는 SKT, 카카오, 삼성, 네이버 등 다수의 혁신 기업이 있습니다. 이들 혁신 기업이 시장을 선도하기 원한다면, IPU가 제공하는 혁신을 활용하면 도움이 될 것입니다.
데이터센터가 보수적이라고 하는데, 지난해 MS는 클라우드 컴퓨팅 플랫폼 ‘애저(Azure)’에 그래프코어 IPU를 도입해 고객에게 좀 더 편리한 AI 개발환경을 제공한다고 발표했습니다. 우리는 2016년 설립된 신생기업이지만 MS가 그래프코어 IPU에 기반을 한 서비스를 출시한 것은, 고객들이 실용적이면서 혁신을 원한다는 사실을 알 수 있습니다.
Q. 자율주행 차량은 엣지 컴퓨팅의 대표적인 사례다. 엣지 컴퓨팅에서도 IPU를 적용할 수 있는 단계인가.
A. 자율주행 차량의 경우, 차내(In-vehicle) 솔루션을 주로 사용합니다. 이러한 솔루션에 IPU는 너무 크다는 인식이 지배적입니다. 그러나 IPU가 차내 영역에도 진입할 수 있다고 봅니다. 추론도 가능하고 아주 작은 규모로도 사용할 수 있습니다. 클라우드 상에서 모델 훈련에도 사용할 수 있습니다. 컴퓨터 비전이나 지각(Perception)에도 IPU를 사용하게 될 것입니다.
엣지 컴퓨팅의 경우, 1~20와트(W)의 저 전력을 사용합니다. 반면, 그래프코어 솔루션은 이보다 높은 75W의 전력을 소비합니다. 향후에는 엣지 컴퓨팅에서도 더 많은 연산을 요구하는 모델이 등장할 것입니다. 현재 저희가 가진 솔루션은 엣지 컴퓨팅 시장에는 맞지 않지만 2년 후에는 가능할 것입니다. 5G가 자동차 부문에서 상당한 지전이 이루어지고 있습니다. 때문에 2년 후 어떤 일이 일어날지 아무도 예측할 수 없습니다.
Q. Arm과 같이 (IPU) IP 코어 라이선스 모델을 구사할 계획이 있는가.
A. 없습니다. 그래프코어는 엔비디아처럼 프로세서 완제품을 판매하는 비즈니스 모델을 표방하고 있습니다. 첫 상용 제품은 대만 TSMC의 16나노미터 공정으로 제조됐습니다.
Q. 그래프코어가 추구하는 가치와 비전, 그리고 로드맵은.
A. ‘총소요비용(TCO)’과 ‘혁신’이라고 할 수 있습니다. 그래프코어는 칩 당 가격에 대해 언급하지 않습니다. 그다지 중요한 요소도 아닐뿐더러 데이터센터에서는 칩 당 가격이라는 하나의 요소보다는 TCO가 중요합니다. TCO 속에는 칩 가격도 포함되지만, 우리가 중요하게 보는 것은 동일한 IPU로 학습 및 추론 시간을 단축할 수 있다는 것입니다. 때문에 랙이나 서버 숫자도 줄이고 전력소비도 낮출 수 있습니다. 또 데이터 사이언티스트 입장에서는 결과를 훨씬 더 빨리 받아볼 수 있습니다. 이것이 그래프코어가 제공하는 가치입니다.
혁신은 대단히 중요합니다. IPU는 GPU로 구동이 불가능한 모델을 구동할 수 있습니다. 예컨대 MCMC 모델에서 추론을 함에 있어서 일부는 GPU와 FPGA를 사용하고 일부는 IPU를 활용할 수 있습니다. IPU는 의료공학이나 신약 개발에도 활용할 수 있습니다.
그래프코어 공동 창업자 두 분(나이젤 툰_Nigel Toon CEO, 사이먼 놀스_Simon Knowles CTO)은 기존 기술을 대체하기 위한 기술을 내놓겠다는 생각을 하지 않았습니다. 그래프코어는 기술을 개발할 때, 오늘날 존재하는 문제를 해결하기 위한 솔루션이 아니라, 향후 10년 동안 발생할 수 있는 문제를 해결할 수 있는 기술을 개발하자는 차원에서 접근했습니다. 향후 10년 동안 어떤 문제가 발생할지 아무도 알 수 없습니다.
그래프코어는 애초부터 GPU를 대체하자는 차원에서 회사를 설립한 것이 아닙니다. 기존에 없던 새로운 기술과 혁신적인 방식을 통해서 문제를 해결하고자 했습니다. 전 세계의 영향력 있는 업계 전문가들을 만나 머신 러닝과 딥 러닝 관련해서 어떤 문제가 있는지를 이해했고, 상당히 오랫동안 건재할 수 있는 아키텍처를 구축하기 원했습니다. 그 결과물로 ‘온칩 메모리’라는 아이디가 나온 것입니다. 온칩 메모리를 통해서 처리능력을 향상시키고 대기시간을 최적화할 수 있었습니다.
2년 전, 시장이 역동적으로 진화하면서 ‘스케일아웃(Scale-out)’이라는 단어를 많이 사용하게 됐는데, 현재 8개 IPU나 16개 IPU만을 연결하는 것이 아니라 수천, 수만 개의 IPU를 연결할 수 있을 정도로 변화가 빠르게 일어나고 있습니다.
당연히 로드맵이 있습니다. 많은 투자자들이 그래프코어 로드맵을 보고 투자를 결정한 것입니다. 6개월 내에 그래프코어 관련 소식을 많이 접하게 될 것입니다.
Q. 2021년에 AI 칩 업체 중 절반이 사라질 것이라는 전망도 있다.
A. AI를 ‘빅오션(Big ocean)’이라고들 합니다. 응용분야가 많다는 의미겠죠. 스마트폰 자체도 하나의 AI라고 할 수 있습니다. 엣지 단에서 사용하는 AI도 있습니다. 반면, 고성능 AI도 있습니다. 예를 들어, 추론 분야에서는 50개 정도의 회사가 활동하고 있습니다. 현재 고성능 AI 분야에서, 학습 및 추론을 모두 할 수 있는 회사는 엔비디아, 구글, 그래프코어뿐입니다. 그만큼 학습과 추론을 모두 할 수 있는 AI 칩을 개발하기가 어렵습니다. 소프트웨어 또한 상당히 복잡합니다. 인텔은 AI 칩 너바나(Nervana) 개발을 중단하고 (하바나 랩스의 AI 가속기) 하바나(Goya와 Gaudi)에 주력할 것이라고 발표했습니다. 반면, 우리는 혁신을 실현할 수 있는 영역에 집중하고 있습니다.
많은 AI 칩 회사들이 이미 사라졌습니다. 때문에 어떤 회사가 AI 칩을 구매할 수 있는 여력이 있는가를 봐야 합니다. 그래프코어는 하이퍼스케일 데이터센터나 클라우드 서비스 회사가 빅바이어라고 생각합니다. 빅바이어로는 AWS(아마존웹서비스), MS 애저, 알리바바 등을 꼽을 수 있습니다. 운 좋게도 그래프코어는 MS 애저로부터 투자를 받았습니다.
Graphcore Colossus IPU(GC2)의 특징
IPU는 대규모 병렬(Parallel) 및 동형(Homogeneous) 멀티코어 아키텍처를 사용한다. 가장 기본적인 하드웨어 처리장치는 IPU 코어로, 동시에 6개의 스레드를 실행할 수 있는 동시 멀티스레딩(Simultaneous Multi-Threading, SMT) 프로세서다. GPU의 SIMD/SIMT 아키텍처보다 멀티스레드 CPU에 더 가깝다고 할 수 있다. 2018년 출시된 첫 상용 제품인 ‘콜로서스(Colossus) GC2 IPU’는 1,216개의 독립적인 IPU 코어와 각 IPU 코어마다 프로세서 내 메모리(256KB SRAM) 타일을 탑재했다. 따라서 IPU 칩은 약 300 MB의 온칩 메모리를 포함하고 있다. IPU의 칩 당 메모리 대역폭은 45 TB/s이다. IPU 코어 당 최대 100 GFLOPS(1 GFLOP은 초 당 약 10억 부동소수점 연산에 해당) 이상으로 300 MB 메모리와 짝을 이뤄 최대 1만 개의 프로그램을 병렬로 실행할 수 있다.
IPU 타일을 연결하는 상호연결 메커니즘을 IPU-Exchange라고 하는데, 8 TB/s의 총 대역폭으로 차단 없이 모든 통신 패턴을 실현할 수 있다. IPU-Link는 320 GB/s의 칩 간 대역폭으로 상호연결을 가능하게 하며, PCIe는 64 GB/s의 양방향 호스트 통신 대역폭을 제공한다.
IPU는 벌크 동기식 병렬(Bulk Synchronous Parallel, BSP)이라는 병렬 컴퓨팅을 위한 소프트웨어 브리징 모델을 사용한다.
그래프코어의 소프트웨어 스택 POPLAR®는 구글에서 만든 텐서플로(TensorFlow) 프레임워크와 호환 가능한 AI 모델 생태계 ONNX와 통합됐다. 페이스북 파이토치(PyTorch)와 호환도 올초까지 완료한다는 계획이다. <끝>
키워드에 대한 정보 그래프 코어
다음은 Bing에서 그래프 코어 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 그래프코어, AI 컴퓨팅을 위한 IPU
- 동영상
- 공유
- 카메라폰
- 동영상폰
- 무료
- 올리기
그래프코어, #AI #컴퓨팅을 #위한 #IPU
YouTube에서 그래프 코어 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 그래프코어, AI 컴퓨팅을 위한 IPU | 그래프 코어, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.