17 그래프로보는 인텔 CPU 아키텍처와 공정의 진화

이번부터는 이야기를 바꿔서, CPU아키텍처의 변천에 대해 설명해 나가겠다. 아키텍처의 진화에 대해서는 기술별로 이미 설명하고 있으므로, 이번에는 제품별로 설명하고 조금 미래의 이야기까지 추가 해볼 생각이다.

공정과 최대 작동 주파수에서 인텔 CPU의 변화를 되돌아 보면...

첫번째로 인텔 CPU공정의 변천에 대해 해설하자. 대상은 아래 표에 나와있는 5그룹 17개 제품이다.

왜 펜티엄을 넣지 않았느냐고 묻는다면, '아웃 오브 오더를 구현하는 프로세서 이후'라고 하는 전재로 했기 때문이다. 이 부분의 자세한 내용은 후술한다. 덧붙여서, '요나'를 '펜티엄M' 그룹에 넣은 것에 대해 의아한 부분에 대해서는 구조 적으로 '도선'×2에 L2캐시를 공유했을 뿐(+공정 미세화)이므로 이렇게 분류한다.

그러면 공정을 중심으로 각각의 특성을 보자. 우선은 '미세화에 의한 동작 주파수의 향상'이 어디까지 유지될 수 있었는지 그래프 1에서 보여준다. 공정 규칙과 최대 작동 주파수를 플롯 한 그래프이다. 참고로 코어i7 시리즈는 정격 최대 동작클럭이 아니라, 터보부스트 사용시 최대 클럭을 표기하고 있지만, 영향은 없다.


그래프1

그래프에 주황색의 점선으로 나타낸 것이 평균적인 제조공정과 동작 클럭의 관계이다. 여기서 알 수 있는 것은, 250nm (카트마이, 0.6GHz) 근처에서 65nm (콘로, 3GHz) 근처까지는 공정 규칙과 최고 동작 클럭의 관계가 선형 것이다. 무엇보다 그래프1은 공정 규칙이 대수 축이므로 직선으로 보이는 것이다.

가로 축을 일반적인 방식으로 바꾼 그래프2 에서는 그래프가 지수 급수적으로 증가하게 보이고 있으며 점점 동작 주파수가 올라가는 것처럼 보인다. 이것은 그래프의 마술이며, 실제로는 그래프1과 같이 대수 축으로 보는 편이 정확하다.


그래프2

이 그래프를 보다 보면, '펜티엄4'의 구조가 괴상하다는 것을 다시 한번 확인할 수 있다. 이번에 다루고 있는 5가지 제품군은 펜티엄4를 제외하고 모두 P6 아키텍처의 발전 확장형 이다. '펜티엄Pro'에서 시작된 P6아키텍처에서 16bit연산을 강화한 것이 '펜티엄II', 여기에 'SSE'를 탑재한 것이 '펜티엄III'였다.

그 펜티엄III를 기반으로, '클록 게이팅'이나 'MicroOps퓨전'이라는 기술을 추가하여 다시 디자인한 것이 '펜티엄M'이고, 그것을 듀얼코어화 한 것이 '코어 듀오'가 된다. 코어 듀오를 바탕으로, 슈퍼스칼라 명령 실행 수를 늘린 것이 '코어2 듀오'다. 코어2 듀오에 펜티엄4적인 추적캐시 메커니즘을 추가하거나 'AVX'명령 등을 추가한 것이 코어i7 시리즈가 된다. 물론 크게 향상되어 있기 때문에, P6아키텍처와 동일하다는 묶음으로 봐서는 안되지만, 그래도 공정의 미세화와 동작 클럭의 향상이 비교적 직선 근사적으로 대등하게 맞아 떨어지므로, '핏줄은 같다'는 것이다.

단, 그래프1을 보다시피, 4GHz 근처에서 클럭 증가가 명확하게 떨어지고 있다. 이 근처에서 동작 주파수의 향상을 라스트 오더화 하여 GPU코어를 탑재하는 등 방향을 바꾸었지만, 45nm 근처에서 동작 주파수의 성장이 둔화되고 있는 것은 분명하다. 앞으로 예를 들어 14nm 세대가 되어도 동작 클럭은 4GHz를 크게 넘지 않을 것이다라고 추측된다.

100mm2의 다이 크기가 개발의 기준


그래프3

다음으로 그래프3은 공정과 다이 크기의 관계를 정리한 것이다. 기본적으로 동일한 구조에 속하는 제품은 공정의 미세화에 기반하여 다이 크기를 축소 해 나가는 경향이 있다. P6와 펜티엄4, 코어i7 시리즈 등이 그 전형으로써, 세대마다 향상된 기능과 캐시를 증가시키면서도, 다이 사이즈는 착실하게 줄어들고 있다. 이렇게 하면 동일한 웨이퍼에서 사용할 수 있는 코어 수가 증가하기 때문에, 제조 원가는 떨어진다.

예외도 있는데, 펜티엄M과 코어2 세대의 경우, 원래의 다이 크기가 100mm2 전후로 작은 것도 있고, 공정의 미세화로 크기를 줄이는 방향이 아니라 오히려 기능을 추가하여 성능을 개선하는 방향으로 한 것을 알 수 있다. 그래프3을 보면, 100mm2 전후라고 하는 것이 하나의 경계선에 있는 것 같고, 이를 밑돌면 그 이상 다이 크기는 감소하지 않고, 오히려 기능 강화를 주로 하는 것 같다. 또한 100mm2 전후까지 다이 크기가 줄어든 시기에 다음 세대의 제품군이 투입되는 것도 간파할 수 있다.

이 공식으로 설명하자면, 현재 3세대가 코어i7가 등장하고 있는 시점에서 좀 더 다이 크기를 줄이는 방향으로 개선 할 수 있을 것 같은 분위기이다. 순서로 말하면, 현재 22nm공정의 '아이비브릿지'가 투입되어 년 같은 22nm공정에서 '하스웰'이 등장한다. 이후, 14nm로 전환하는 '브로드웰', 다음으로 14nm의 향상된 버전인 '스카이레이크', 그리고 스카이레이크를 10nm로 축소하는 '스카이몬트'라는 코드명이 발표되었다.

하지만 그래프3을 본다면, 아직 코어i 시리즈에서도 미세화 버전이 투입되어도 이상하지 않다는 생각이 든다. 하스웰이 코어i 시리즈의 이름을 이어갈지 여부는 알 수 없지만 200mm2 이상의 다이 크기 제품을 새로운 브랜드로 투입하면서, 코어i 시리즈의 이름을 잇는 메인스트림~저가형 제품을 투입하는 등의 계획을 하고 있을지도 모른다.

무어의 법칙이 끝난다면? 난항을 겪는 14nm공정의 양산


그래프4

그래프 4는 공정 총 트랜지스터의 관계를 비교한 것이다. 이쪽도 근사치를 주황색의 점선으로 나타냈지만 비교적 선형 이어서, 미세화에 따라 트랜지스터 수가 증가하는 추세는 변하지 않는 것을 재확인할 수 있다.

그래프4는 그래프3의 반대이며, 다이 크기가 크게 변하지 않은 상태로 공정을 미세화하면 기본적으로 트랜지스터 수는 점점 늘어나는 것이다. 현재로 말하면, 22nm 공정의 아이비브릿지가 14억개 정도의 트랜지스터를 탑재하고 있지만, 이 상태로 가면 스카이몬트 세대의 10nm 공정에는 100억개에 가까운 트랜지스터를 탑재하는 것이 아닐까라고 생각된다. 그 앞의, 14nm 공정인 브로드웰/스카이레이크 세대는 30~40 억개 근처의 트랜지스터가 될 것이다.

무엇보다 이것은 '무어의 법칙에서 필연적으로 그렇게 된다'기보다는 '무어의 법칙을 억지로라도 지키기 위해 노력한 결과로 이렇게 된다'고 평하는 것이 실정을 제대로 반영하는 것이다. 이제 무어의 법칙을 지키는 것이 아슬아슬하게 되어있는 것은 사실이다. 시끌벅적하게 광고하면서 변경한 22nm 공정도 상황은 아직 수율이 좋다 고는 말할 수 없는 상황이다. 따라서 하이엔드 코어i7/i5는 22nm 프로세스로 변경하면서도, 메인스트림의 코어i5는 아직 그다지 많이 투입되지 않고 있다. 가장 판매량이 많은 코어i3 또는 그 아래의 펜티엄은 여전히 32nm 공정의 제품이 투입되고 있는 상황이다.

최근 인텔의 로드맵에서 볼 때, 이 메인스트림~저가형의 제품이 년 말까지 어떻게든 '22nm로 전환 할 수 있으면 좋겠다'라고 보는 것이 맞고, 아직은 인텔이 모든 제품을 전환할 자신은 없는 것 같다. 사실 2세대 코어i 시리즈와 3세대 코어i 시리즈의 소켓이 호환되는 이유는 이 22nm세대 프로세스의 시작이 불안했기 때문에 22nm가 늦어도 32nm으로 커버 수 있도록 하는 보험의 의미도 있었던 것 같다. 그리고 그 보험이 확실하게 효과가 있는 것이 현재의 상황이다.

더 불쾌한 것은 예정되어있는 14nm과정이다. 개발자 이벤트 'IDF 샌프란시스코'가 개최되므로, 거기서 어느 정도 정보 공개가 있을 것이라고 생각된다. 어쨌든 이 14nm가 정말 발매될 것인지 매우 의심스러운 상태이다. 시험제작에 관해서는 비교적 순조로운 것 같은데, 문제는 양산 때 노출될 것이다.

인텔은 14nm 세대에서, 종래의 'ArF(플루오르화 아르곤)레이저 + 액침 노광 기술'의 조합을 대신하여 'EUV'(극단 자외선 노광 기술)를 이용한다고 하고 있다. 하지만 현재로서는 EUV에서 ArF + 액침 노광 기술과 같은 처리 속도를 실현하려고 하면 '노광 장치가 5 배로 필요하다'라는 상황이 된다. 고가의 노광 장치를 5 배로 설치하지는 않을 테니, 그렇게 되면 처리할 수 있는 매수가 크게 줄어드는 것이 아닐까라는 소문이 나오게 된다.

EUV처리 능력을 향상시키는 것은 좀 더 시간이 걸릴 것 같다. 그렇게 되면 필연적으로 14nm의 양산도 더 늦어 지게 되므로 드디어 무어의 법칙을 유지할 수 없게 되는 것은 아닐까라고 생각된다.

트랜지스터 수의 증가가 CPU의 기능통합을 가능케


그래프5

마지막으로 그래프5는 공정 규칙 및 코어당 트랜지스터 수를 계산한 것이다. 다음 식에서, CPU 코어+1 차 캐시 트랜지스터 수를 산출하고 있다. 그러나 약간 대략적인 계산이다.

(총 트랜지스터 수 - GPU의 트랜지스터 수(있는 경우) - 2 차 / 3 차 캐시 트랜지스터 수) ÷ 코어

코어2 세대까지는 이 식으로 트랜지스터 수 계산은 비교적 간단했다. 그러나 코어i 세대가 되면, CPU코어 이외의 부분인 PCI-Express, 메모리 컨트롤러의 트랜지스터 수는 알 수 없다. 이것은 어쩔 수 없기 때문에, 이들은 그냥 코어에 포함시켜 버렸다.

또한 코어i 1세대는 '코어i7-880'을 사용하여 산출하고 있는 관계로 GPU는 필요 없지만, 2 세대 '코어i7-2700K'과 3세대 '코어i7- 3770K'는 내장 GPU부분을 빼서 계산해야 한다. 그런데, Core i7-2700K는 GPU 부분이 1억 1400만 트랜지스터로 발표되고 있지만, Core i7-3770K는 아직 발표되지 않았다. 이것 역시 어쩔 수 없기 때문에, 'GPU 성능이 대략 2배 니까, 트랜지스터 수는 4배 정도 될 것'이라고 대략적으로 4억 5600만 트랜지스터로 계산했다. 어디 까지나 참고 정도로 하길 바란다.

그래프5 에서 알 수 있는 것은, '프레스캇'이후의 펜티엄4를 제외하면, 최근 CPU 코어 + L1 캐쉬는 3천만 트랜지스터 정도로 실현 수 있다는 것이다. 코어i7은 상기의 이유로 매우 믿을 수 없는 수치지만 총 트랜지스터 수의 절반이 코어부가 아니라고 생각하면 1코어가 3000만~5000만 트랜지스터 정도가 된다. 디코더를 전체 마이크로 코드로 바꾼다고 했던 프레스캇은 모르겠지만, 비교적 규모가 큰 펜티엄4의 '윌라멧', '노스우드'는 3000만 트랜지스터 미만으로 실현되고 있다.

대략적으로 말하면 2명령어 + α의 P6 코어는 1500만 트랜지스터, 3명령어의 펜티엄이 2000만 트랜지스터, 3명령어 + α의 코어2에서 3000만 트랜지스터, 4명령어의 코어i7가 3500만~5000만 트랜지스터 정도면 CPU코어를 구성할 수있는 것을 알 수 있다. 최근에 CPU다이 전체의 트랜지스터 수는 10억 개를 넘고 있다. 즉, CPU에서 GPU와 PCI-Express 등을 빼고 공유 L2 / L3 캐시 등을 생략 해 버리면, 20코어 CPU에서도 비교적 간단하게 계산된다.

물론, 이런 CPU는 메모리 액세스가 늦기 때문에 코어의 수를 이렇게 많게 할 수는 없다. 거기에 공유 L2 / L3 캐시를 넣어도 아직 트랜지스터 수는 여유로우므로, GPU를 통합하는 것은 트랜지스터의 유효 이용의 관점에서 봐도 적절한 방법이라는 생각이다.

단지 반대로 말하면, 장기 적으로는 광대역 메모리 인터페이스 기술인 'WideIO' 같은 솔루션과 함께 사용하면 비약적으로 코어 수를 늘리는 것이 가능하게 된다. 즉, 단순히 GPU통합과 고기능화 이외의 가능성도 있는 것이 현재의 인텔 아키텍처라는 견해도 가능할 것이다.

다음화에는 AMD 코어를 분석해 보겠다.


[OGTITLE]17 그래프로보는 인텔 CPU 아키텍처와 공정의 진화[/OGTITLE]

이 글을 공유하기

댓글(0)

Designed by 테크윈