또깨졌다 세계에서 가장빠른 슈퍼컴 - 인텔 엑사급 슈퍼컴퓨터

또깨졌다 세계에서 가장빠른 슈퍼컴 -

인텔 엑사급 슈퍼컴퓨터

 2011-07-01 12:17 작성 

인텔, 2018년쯤에 엑사급 슈퍼컴퓨터 선보일 예정

8페타플롭(PetaFlop)이 넘는 연산 처리 속도와 비너스 CPU를 탑재한 후지쯔의 K 슈퍼 컴퓨터가 세계에서 가장 빠른 컴퓨터로 선정 되었지만, 인텔은 수퍼컴퓨터 CPU의 왕좌 자리를 포기 할 생각이 없어 보입니다. 인텔은 "엑사스케일(Exascale)" 수퍼컴퓨터를 2010년대 말에는 선보일 계획을 하고 있으며, 이 엑사스케일 슈퍼컴퓨터는 1초에 1조번의 연산을 처리할 수 있습니다. 이를 위해서 인텔은 인텔 Many Integrated Core Architecture(MIC)로 이런 성능을 실현할 계획이며, MIC 차원의 첫 CPU는 코드네임 Knights Corner라는 이름을 가지게 되었습니다. Knights Corner22nm 공정으로 제조 되었으며, 인텔의 3D Tri-Gate 트랜지스터와 싱들 칩에 50개 이상의 코어를 장착하고 있습니다. CPUHPC시장을 대상으로 하고 있으며, Knights Ferry 플랫폼에서 작동하게 됩니다.

인텔, 엑사 컴퓨팅 시대도 주도슈퍼컴용 아키텍쳐 발표

인류는 질병없는 삶을 꿈꾸고 모든 기상들을 예측하고 싶어하는 것이 사실입니다. 제조업체들은 빠른 시뮬레이션으로 경쟁사보다 빠르게 시장에 진입을 하고 싶어하고 각 나라들은 핵심 컴퓨팅 파워를 통해 지속적인 경쟁 우위를 가져가길 원합니다. 이런 요구들은 자연스럽게 슈퍼컴퓨터의 시장 확산으로 이어지고 있습니다.

1980년대 슈퍼컴퓨터들이 기가플롭(초 당 10억 번의 부동소수 연산) 성능을 제공한 반면, 오늘날 가장 강력한 제품들은 이보다 몇 백만 배 더 높은 성능을 구현합니다. 그 결과, 슈퍼컴퓨팅에 사용되는 프로세서에 대한 수요가 증가했다. 2013년경에는 전 세계 상위100대 슈퍼컴퓨터에 100만 개의 프로세서가 사용될 것으로 전망됩니다. 2015년에는 이 수치가 두 배로 증가해 2010년대 말에는 8백만 개의 프로세서가 소요될 것으로 추정됩니다.

2015년에는 상위 50대 시스템 중 성능 면에서 상위 첫 번째 제품의 성능이 100페타플롭을 달성하게 되고 2018년에 엑사플롭의 벽이 무너질 것으로 예상됩니다. 2010년대 말에 이르면 지구상에서 가장 빠른 시스템의 속도가 4엑사플롭에 이를 것으로 전망됩니다.

이런 상황에서 인텔이 슈퍼컴퓨터 시장을 둘러싼 경쟁에서 후발주자들을 떨쳐내기 위한 새로운 무기를 선보였습니다.

최근 몇 년간 AMD나 엔비디아와 같은 경쟁자들은 중앙처리장치(CPU)와 그래픽 카드를 하나로 통합하기 위해 노력해 왔습니다. 인텔도 나라비프로젝트를 통해 이런 대열에 합류했지만 자사의 경쟁력을 지속시킬 수 있는 방향이 아니라고 보고 관련 프로젝트를 중단했습니다. 이후 2010년 국제슈퍼컴퓨팅회의(ISC)에서 PCI 슬롯에 부가 코어들을 장착할 수 있는 MIC(Many Integrated Core Architecture) 아키텍처를 선보인 바 있습니다. 

올해 열린 국제슈퍼컴퓨팅 회의에서는 구체적인 모습이 공개됐습니다.

인텔 MIC 아키텍처는 인텔 제온 프로세서를 비롯한 기존 제품 라인에 추가돼 인텔이 엑사급 컴퓨팅 시대를 선도하는데 중요한 역할을 하게 될 것입니다. 코드명 나이트 코너(Knight Corner)’로 불리는 최초의 인텔 MIC 제품은 3D 트라이게이트 트랜지스터(3-D Tri-Gate transistors)1가 사용된 22나노 공정에서 생산될 계획입니다. 현재 코드명 나이트 페리(Knight Ferry)’로 불리는 인텔 MIC 소프트웨어 개발 플랫폼이 일부 개발 협력업체들에게 공급되고 있습니다.

핵심 메시지는 간단합니다. 인텔 제온 프로세서 기반에서 작성된 슈퍼컴퓨터용 프로그래밍에 몇줄을 간단히 추가해서 새로운 기능을 사용할 수 있도록 했습니다. PCI 슬롯을 이용하기 때문에 원하는 코어도 더 늘릴 수 있도록 했다. 인텔 패러럴 스튜디오 XE 등을 통해서 병렬처리용 소프트웨어 개발도 한층 개선시켰다는 설명입니다.

물론 향후 PCI 슬롯의 I/O 병목 문제를 해결하기 위해 인피니밴드를 적용하는 것도 검토중인 것으로 알려졌습니다.

인텔 데이터센터 그룹을 총괄하는 커크 스카우젠(Kirk Skaugen) 부사장 겸 데이터센터 그룹 총괄 매니저는 국제슈퍼컴퓨팅회의(International Supercomputing Conference:ISC)에서 2010년대 말까지 엑사플롭급 성능을 구현한다는 인텔의 비전을 설명했습니다. 엑사플롭(ExaFLOP)은 초 당 100경 번의 연산을 수행하는 것으로, 현재 가장 빠른 슈퍼컴퓨터 보다 수백 배 더 높은 수준입니다.

사진 설명 : 지난해 국제슈퍼컴퓨팅회의에서 커크 스카우젠(Kirk Skaugen) 부사장 겸 데이터센터 그룹 총괄 매니저가 PCI 슬롯에 장착이 가능한 MIC 제품을 선보이고 있습니다.

그는 상위 500대 슈퍼컴퓨터가 선택한 아키텍처는 바로 인텔 제온 프로세서 기반 시스템들입니다. 인텔은 페타급과 미래형 엑사급 업무에 적합한 인텔의 MIC 아키텍처를 바탕으로 관련 업계를 이끌면서 고성능 컴퓨팅 분야에 더욱 많은 비중을 두고 있다라며, “인텔이 엑사급 성능 구현이라는 목표를 앞당겨 실현시켜 줄 것이라고 전했습니다.

이번 ISC에서 인텔과 독일 국가핵융합연구소, 독일 라이프니츠 슈퍼컴퓨팅 센터, 유럽공동원자핵연구소(CERN), 한국과학기술정보연구원(KISTI) 등의 협력업체들은 나이트 페리플랫폼 작업의 초기 결과물도 선보였습니다.

 미국, 중국슈퍼컴 1위에 냉정한 듯 보이지만....

중국이 슈퍼컴퓨터 성능에서 1,3위를 차지한데 대해 미국의 슈퍼컴퓨팅업계에는 2가지 시각이 존재합니다. 미국의 SW와 부품이 여전히 이분야에서 세계최고라는 점으로 보면서 다른 한편으로는 미국의 고성능 슈퍼컴분야에 경종을 울린 것으로 보고 있습니다

또다른 슈퍼컴 프로젝트인 블루워터프로젝트를 진행 중인 빌 그로프 일리노이어바나샴페인대의 빌 그로프 컴퓨터과학교수는 이는 모든 사람이 예상하던 것이며 중국이 한 것은 이 특별한 슈퍼컴 벤치마크에 적절하게 만들어진 그래픽프로세서(GPU)의 힘을 이용한 것이다라고 말했습니다.

린팩부동소수점 연산 벤치마팅 방식은 초당 부동소수점 연산수를 재는 것으로 이 분야의 모든 전문가들이 이것이 최선이라고 생각하지는 않고 하나의 방법이라고 보고 있습니다

중국은 GPU를 사용해 텐허1A의 성능을 가속시킴으로써 이 기계는 더많은 부동소수점을 기록할 수 있었습니다그로프 교수는 우리 대다수가 중국의 슈퍼컴을 보는 방식은 이 특별한 벤치마크 방식에 있어서 매우 훌륭하다는 점이지만 사용자그룹이 관심을 갖는 문제는 아니다라고 말했습니다

찰리 젠더 미국 어바인대 지구과학교수는 이번 중국 슈퍼컴성능평가결과가 미국의 슈퍼컴 리더십에 일격을 가한 것으로 보고 우려하는 사람들에게는 슈퍼컴부품의 출처를 생각해보면 별 걱정거리는 아니다라고 말합니다. 그는 텐허1A는 인텔과 엔비디아칩으로 만들어진 리눅스컴퓨터라고 말합니다

젠더는 우리는 이번 성과가 실리콘밸리의 노하우없이는 불가능했을 것이며 운영체제(OS)도 대부분 미국과 유럽에 의해 설게됐라는 점에 대해 찬탄을 금할 수 없었습니다라면서 이제 우리가 자극을 받아서 우리의 자원을 꺼내 세계최고의 슈퍼컴을 만들 시간이라고 말했습니다

■ , "내년 6월 최고속 슈퍼컴 이름 다시 쓰여질 것"

제러미 스미스 테네시대 분자생명물리학센터소장은 슈퍼컴퓨터는 해마다 빨라질 것이며 중국이 세계최고 슈퍼컴 500에 든 것이 끝이 아닙니다. 이 리스트는 내년 6월에 다시 쓰여질 것이라고 말했습니다

텐허 1A이전에 재규어로 가동되는 프로젝트를 지켜봐 왔던 스미스는 우리가 슈커컴과 관련해 역사적으로 알고 있는 것은 이들이 5~10년 새 일반컴퓨터가 돼 모두가 사용하는 제품이 된다는 것이라고 말했습니다. 그는 "우리가 놀라마지 않던 재규어 슈퍼컴퓨터도 결국 어느 대학이나 기업에서나 하나씩 갖게 될 것이라고 말했습니다

그리고 물론 이 고성능 컴퓨터시스템은 서로가 경쟁하기 위해 만들어지는 것은 아니라 복잡한 문제를 해결하기 위해 만들어져 기후변화나 대체연료생산 등 실생활에서의 문제를 해결하기 위해 사용되는 것이라고 주장했습니다

스미스는 재규어에서 사용되는 것같은 고온에서의 초전도성 문제를 해결하기 위한 연구는 매우 효율적인 컴퓨팅을 요구하는데다 부수되는 SW를 잘 실현하기도 어렵기 때문에 텐허1A 슈퍼컴퓨터로는 어려울 것이라고 말했다

그로프교수는 그러나 중국이 이룬 것은 여전히 슈퍼컴퓨팅에서 중요하다면서 텐허1A가 이룬 것은 놀랍다고 말했습니다나는 그들이 한 것에 대해 평가절하하고 싶지는 않습니다라고 말한 그는 "그건 마치 오리지널 도요타에 대해 경멸하는 것과 같지요. 최초의 도요타는 버려진 철판을 펴서 만든 것이었지만 몇 년이 지나자 우리의 점심을 빼앗아 먹기 시작했죠라고 말했습니다
그럼에도 중국이 슈퍼컴자원확보에 집중하는 것은 미국이 이분야에서 오랫동안 행사해 왔던 주도권에 위협을 줄 것이라는 우려가 있습니다. 그러나 충분한 돈을 들이면 어느 그룹이라도 아주 쉽게 최고의 점수를 얻을 수 있는 린팩벤치마트에서 최고점수를 얻으려고 하는 것은 근시안적입니다

2004년엔 일본이 슈퍼컴 1위 차지 

미국 이외의 국가가 슈퍼컴톱
10에 오른 것은 처음이 아닙니다. 일본의 NEC가 지난 2004년 톱5001위에 오른적이 있습니다. 미국 첨단산업계는 역시 들끓었습니다. 오늘날 미국은 톱 500의 절반 이상인 275대의 슈퍼컴을 가지고 있습니다. 일본과 독일이 각각 26대를 가지고 뒤를 따르고 있습니다

일리노이대 첨단컴퓨킨애플리케이션기술연구소의 부소장이기도 한 그로프 교수는 중국의 세계최고속 슈퍼컴 13위 기록 발표에 대해 우리가 초점을 맞춰야 하는 것은 우리의 리더십 상실이 아니라 컴퓨팅기술을 보다 광범위한 과학과 공학문제 해결에 접목하는 것이라고 지적했습니다

미대통령과학기술자문위(PCAST)는 지난달 말 이미 이 소식을 접하고 이 정확한 주제에 대해 작업하고 있지만 아직 이에 대해 아무런 반응도 내놓지 않고 있습니다하지만 최근 PCAST는 텐허1A가 급속히 속도를 확장해 나가고 있다는 소식이전해지자 과학컴퓨팅분야의 투자를 늘릴 것을 요구하는 초안을 내놓은 바 있습니다

버락 오바마 대통령도 이 주제에 대해 2주 전에 검토했으며 특히 고성능 컴퓨팅에 대한 과학투자를 늘릴 것을 촉구했습니다

■ , 내년에 1천 배 빠른 슈퍼컴 만든다!

그러나 중국이 바싹 쫓아온 가운데 미국의 슈퍼컴퓨팅업계가 가만히 있는 것 같지는 않습니다. 미국의 연구소에서는 속도면에서 재규어와 텐허1A를 일거에 날려보낼 연구가 진행되고 있기 때문입니다

현재 일리노이 어바나샴페인과 국립과학재단이 블루워터스라는 내년에 세계에서 가장 빠른 슈퍼컴을 내놓기 위한 작업을 진행중입니다

오크리지연구소에 재규머슈퍼컴을 보유하고 있는 미 에너지부는 이미 기존의 페타급 컴퓨팅을 엑사급(1엑사=1000)컴퓨팅으로 바꾸는 문제를 검토하고 있습니다

연구소 측은 향후 5~10년 새 엑사급 컴퓨팅 수준에 이르기 위해서는 한방 가득히 1000만개의 코어가 준비돼야 하는 기술적 문제에 직면하게 됩니다. 이런 하드웨어의 문제 외에 이를 움직일 SW를 만드는 것도 엄청난 도전이 될 겁니다라고 말했습니다

이와는 별도로 고등국방기술연구원(DARPA)이 오는 2018년 완성을 목표로 유비쿼터스고성능컴퓨터(UHPC)프로그램이란 프로젝트를 통한 1엑사플롭스급 슈퍼컴퓨터 개발을 추진 중입니다. 2018년까지 이뤄질 이 UHPC프로젝트에는 인텔,엔비디아,매사추세츠공대(MIT)컴퓨터과학인공지능연구소, 샌디아국립연구소(SNL) 등 총 4개의 회사 및 조직이 가세하고 있습니다. 이 문제를 해결하기 위해 DARPA는 특히 연산시 기존의 컴퓨터에 비해 에너지가 훨씬 더 적게 드는 방식에 주목하고 있습니다.

Cray to build huge, grunting 20-petaflop
'Titan' for US gov labs

Still mightier computer colossi to follow

By Timothy Prickett Morgan

Posted in HPC21st March 2011 14:55 GMT

Oak Ridge National Laboratory, one of the big supercomputer centers funded by the US Department of Energy, has tapped Cray to build a monster cluster that will weigh in at 20 petaflops when it is completed next year.

According to a presentation (pdf) [1] by Buddy Bland, project leader for the Oak Ridge Leadership Computing Facility in the Tennessee burg of that same name, cabinets for the Cray machine, nicknamed "Titan", will start rolling into the facility this year. The plan is for the first petaflops of number-crunching power to be installed this year, with the full 20 petaflops of the Titan machine being up and running in 2012.

Jeff Nichols, associate lab director for scientific computing at ORNL, told [2] the Knoxville News Sentinel, that the Titan machine will cost somewhere around $100m. This is about half the price that ORNL paid in June 2006 to commission Cray to upgrade its XT3 systems and then to build the initial XT4 "Jaguar" machine, which weighed in at 263 teraflops.

The current Jaguar box is a mix of XT4 and XT5 cabinets linked by the SeaStar2+ interconnect to create a 2.6 petaflops system with 256,532 Opteron cores and 362 TB of main memory across the nodes.

The future Titan machine will be based on the much better "Gemini" XE interconnect and will stick with the 3D torus topology that the prior XT3, XT4, and XT5 machines used to lash a hierarchy of nodes together.

The interesting twist is that the Titan box will have what ORNL is calling "globally addressable memory," which you might think (as I did) means something close to the shared memory space like Silicon Graphics has implemented with its NUMAlink interconnect for decades. Shared memory systems are a bit easier to program, but that global addressing is distinct from that hyper-NUMA that SGI offers. (IBM has added global addressing to its Power7 chips as well, by the way. IBM has also supported NUMA memory access with its Power4 and later chips for the past decade.) Advanced Micro Devices has supported NUMA memory access from day one with the Opterons, and it is not clear what changes might be in the works for the future "Bulldozer" Opterons to support global addressable memory. The Titan machine will presumably be based on the 16-core "Interlagos" Opterons due later this summer.

Titan will also make use of GPU co-processors to goose the performance of the machine, and given that ORNLinked [3] a deal with graphics chip maker Nvidia back in October 2009 to add GPUs to supers, everyone expects that Nvidia will be the GPU supplier in the Titan box.

It is not clear how many GPUs the Cray design will allow to be crammed into the box, but Cray told [4] El Reglast September that it would be creating GPU blades for the current XT6 systems based on the "Kepler" line of GPU co-processors due from Nvidia this year.

ORNL says that the Titan box will sport larger main memory and a file system that is three times larger and four times faster than the existing clustered disk array created by DataDirect Networks, which is called "Spider" and which runs the Lustre clustered file system controlled by Oracle. That current array has 10.7 PB of capacity and over 240 GB/sec of disk bandwidth.

The Titan machine will run an updated version of Cray's Linux.

ORNL has much bigger plans and has set its sights on breaking the exaflops barrier before the end of the decade:


ORNL's "Titan" OLCF-3 system is two steps away from exaflops (click to enlarge)

The OLCF-4 system, which is due in 2015, will scale from 100 to 250 petaflops and will be based on the "Cascade" system design that the US Defense Advanced Research Projects Agency is paying Cray [6] to develop right now.

This machine will use the future "Aries" interconnect and will link nodes and co-processors together through PCI-Express links and will support both AMD Opteron and Intel Xeon processors as compute nodes and very likely a variety of co-processors, including GPUs and FPGAs.

And out in 2018, with the OLCF-5 design, Cray is moving to a new ring structure and hopes to hit an exaflops of raw oomph. ??

Eventually, perhaps by the year 2020 or even sooner, nanophotonic supercomputers will exist that approach the Exaflop range in terms of performance. What’s an exaflop? Well, try measuring the aggregate performance of about 1000 Tianhe-1’s or or 250 Blue Waters and that’s what you get. Did your head just explode? No? Because mine just did. zdnet.com

Intel Aims For Exaflop Supercomputer By 2018 and Cray claims current XK6 maxes out at 50 petaflops

In May, 2011, Cray said they can achieve 50 petaflops, or 50 quadrillion floating point operations per second using a maxed out XK6 supercomputer (if they can get a buyer).The Cray XK6 Supercomputer handles it with a combination of AMD's 16-core, x86 Opteron 6200 Series server processors with Nvidia's Tesla 20-Series graphics processors and Cray's Linux-based operating system called Gemini interconnect.The National Security Agency is designing a new $895.6 million supercomputing center that will be constructed at its Fort Meade, Md., headquarters over the next several years, Department of Defense budget  documents reveal. The NSA's new High Performance Computing Center, slated to be complete by December 2015, will be designed to with energy efficiency, security, and lots of "state-of-the-art" computing horsepower in mind, according to unclassified specs found in the  documents. The NSA appears to be making an exaflop supercomputer in 2015.

Oak Ridge National Lab will have 20 petaflop supercomputer soon and the path to exaflop supercomputers 


Oak Ridge presents its path to exascale computing (17 pages, Oct 2010) Their 20 petaflop machine starts getting built this year and will be done in 2012. There is a path to exaflop machines in about 2018.Goals to Overcome the Barriers to Exascale* Power consumption goal: Factor of 5 better than industry Business as Usual (BAU)* Memory and storage bandwidth goal: Factor of 4 above industry BAU* Reliability and resiliency goal: Factor of 10 better than industry BAU* Scalability of systems software goal: Factor of 100 above industry BAU* Programming models and environments goal: Factor of 10 productivity over today’s mixed models while increasing parallelism in applications by a factor of 1,000

그림입니다.원본 그림의 이름: mem000017f4000c.png원본 그림의 크기: 가로 800pixel, 세로 660pixel

Intel laid down its roadmap in terms of computing performance for the next eight or so years in a press release, and revealed its expectations until 2027.A current TFLOPS machine currently consumes around 5 Kilowatts, Intel estimates that an Exascale TFLOPS machine would sip only 20 Watts; in other words, a 1000x performance improvement that's accompanied by a "mere" 10x power increase.Intel also announced that its first MIC (Many Integrated Core) product, codenamed Knights Corner, will be produced using its just announced 22nm 3D Trigate manufacturing process, while its software development platform "Knights Ferry" is already being shipped to selected partners.By 2013 Intel expects the top 100 supercomputers in the world to use one million processors. By 2015 this number is expected to double, and is forecasted to reach 8 million units by the end of the decade.In 2015 we could apparently see a performance of 100 PetaFLOP/s in 2015 and break the barrier of 1 ExaFLOP/s in 2018.If Intel achieves it roadmap for chips and gets to 14 nanometer node in 2013 and 10 nanometers in 2015 and 7 nanometers in 2017, then it will be far easier to achieve the supercomputer goals at earlier dates.

