2017年5月15日 星期一

功耗控制對晶片設計的重要性。

許多人都知道低功耗在晶片設計中是一重要學問,尤其是對高性能運算處理器、行動裝置及嵌入式系統而言。至少在行動裝置的終端產品上,功耗控制造成的溫度變化和續航力差異,皆是十分顯著的使用者體驗。

對於消費性電子產品來說,市場上所反應的使用者體驗固然極為重要,但是功耗對晶片設計的影響絕不僅只在終端產品。容我說句誇張的功耗控制技術的優劣,幾乎可視作後摩爾定律時代的硬體性能關鍵,可惜不少人對此並沒有明確概念或正確認知。

討論功耗控制時,可以從宏觀和微觀兩個不同的角度上大致區分成整體功耗和功耗密度兩部分。功耗密度又稱作單位面積功耗,而功耗密度越大者,意即單位面積內堆積了越多廢熱,更加考驗散熱能力。

愈差的功耗控制將產生愈多的廢熱,堆積的廢熱引起溫度升高,電路受到升溫的影響進而製造出更多的功耗和廢熱,即廢熱和溫度間呈現一正循環關係。若散熱能力不佳,將導致因為功耗過高、電路過熱而出現降頻鎖核、熱當的行為。


上圖是近年來電路的平均功耗密度隨著製程微縮的變化趨勢,可以看到半導體製程在進入um等級的尺寸時分界點大約在1995年,在這之前功耗密度和製程微縮常數成三次方關係,而在1995年之後,功耗密度變成和製程微縮常數成零點七次方關係。製程微縮常數大約是1.4,其數值來自於摩爾定律每世代製程面積要縮小一半的預測。

至於為何在1995年後功耗密度成長趨勢漸緩那是因為半導體業從1995年開始,普遍面臨到不同世代製程間功耗增加過快的問題,不得不放棄過往只考慮到性能而將操作電壓固定在5V的設計方式,開始採用操作電壓隨著製程微縮等比例下降的作法。

1995年開始,在350nm製程中採用3.3V操作電壓,進入180nm後操作電壓降為1.8V130nm的操作電壓更理所當然的降為1.3V了。透過操作電壓隨著製程微縮等比例下降的作法,原本寄望這能有效延緩功耗增加過快的問題。

原本?沒錯,雖然在一開始幾年有效壓低了功耗增加的速度,如從180nm進展到130nm時,尺寸和操作電壓確實是等比例下降,但後來情況並非如此。事實上在製程已經進入到16nm10nm的現在,操作電壓可沒有跟著降到0.16V0.1V

實際上受限於電晶體閥值電壓的最小限制,這亦可看作是矽原子的元素特性,隨著製程尺寸微縮,操作電壓要再跟著大幅下降是非常困難的。在近幾年的先進製程中,甚至再次出現了製程微縮但操作電壓無甚改變的狀況。


說得更直白點就是以整體趨勢來看的話,隨著製程技術不斷的進步,電晶體尺寸不斷的微縮,操作電壓和單位功耗雖然也有在下降,但功耗密度卻是不斷的攀升

要知道功耗密度考驗的是散熱能力其又取決於晶片封裝技術、導熱機構……等。這其中最大的關鍵在於,不論是在商業化還是學術研究的領域,散熱能力的進步趨勢和摩爾定律是不同步的。

也就是說,假設在前一代製程中已經達到目前散熱技術對功耗密度的承受極限,那麼在架構設計都不變的情況下,直接改用新一代製程並不見得能獲得多少效益,面積和單位功耗確實得到了改善,然而功耗密度的惡化將直接限制住晶片性能。如果不想辦法遏止持續成長至可能失控的功耗密度,晶片設計將變得很難往下走。至少在封裝技術上相當困難,除非你完全不考慮晶片封裝的成本。

這就是為什麼台積電的20nm被譽為近年來最糟的製程,原因在於相較於前一代28nm,其面積雖改善近一倍,單位功耗卻只降為75%,功耗密度反而大幅提高到143%,而28nm20nm間功耗密度的增幅是近年來最大的一次。

TSMC製程
28nm
20nm
16nm
面積密度
100%
190%
200%
單位功耗
100%
75%
30%
功耗密度
100%
143%
60%

相較之下16nm即是非常成功的製程,單位功耗和功耗密度皆雙雙下降,不但優於前一代的20nm,更勝過再前一代的28nm。而16nm之所以在功耗部分有如此優異效能,決定性因素是鰭狀電晶體的架構成功改善了先進製程的漏電流問題。


當然了這並不是說20nm毫無可用之處,基本上20nm身為傳統平面電晶體的最後一代,在面積的使用效益上遠勝過16nm之後的鰭狀電晶體,從20nm步入16nm,其面積密度僅改善了10%20nm最大問題還是在於功耗密度的過度增幅,在功耗密度已近承受極限下,晶片在架構設計部分必須改善30%以上才能充分發揮20nm的效能。

如果晶片設計者對功耗控制的技術夠好,20nm不失為一個堪用的製程。但若只是想像過去那樣,架構設計並無太大改變,主要倚仗製程技術的進步帶來效能上的改善,那已經行不通了。我不否認在製程技術的演進上,單位功耗的持續改善是事實,但實在是遠不如面積密度,遠不如製程尺寸上的微縮那般進步快速。

話說回來,這是否可以說只要有辦法解決功耗密度,就能完全享受到製程技術進步帶來的效益?我要很遺憾的說,言之過早。

即使我們無視功耗密度這個大災難,這之後還有整體功耗的限制在。整體功耗和功耗密度就是散熱能力在宏觀和微觀的探討差異,任何終端產品的散熱機構對整體功耗的承受能力都有其極限,以現今的智慧型手機來說大概是落在5W左右。不論功耗密度如何,終端產品整體功耗仍然不可超過其散熱能力。

其實以晶片設計的角度來說,製程微縮帶來的效益早非摩爾定律原先所預測的那般。因為功耗密度和整體功耗對晶片設計的限制就明擺在那,完全不可忽視,已經不是頻率上不去或硬體數量不足的問題。在功耗的限制下,想要提高操作頻率,就得減少操作硬體數量作為代價,反之亦然。

換句話說,晶片設計者不得不面對的現實是,我們希望性能穩定提升,但是功耗卻不能更高,這在摩爾定律尚未終結前,單位功耗仍可改善下都不是件容易的事了。假如操作電壓無法再下降,漏電流也無法再進一步改善時,我們該怎麼解決功耗問題?

所以先進製程下的晶片設計陷入了一個兩難局面,想要更好的性能,勢必得提高操作頻率或增加操作硬體數量,而在此之前,又必須先降低操作頻率和減少操作硬體數量以挪騰出足夠的功耗空間。

回過頭來看在文章開頭所提到的:功耗控制技術的優劣,幾乎可視作後摩爾定律時代的硬體效能關鍵。由於整體功耗和功耗密度必須維持一定以下,所謂的晶片性能,正確來說是在比誰的架構設計對功耗的運用和分配更合理。

而未來的製程技術,不論是繼續以矽為基礎的摩爾定律還是採用新元素促使半導體革命需要的不單只有更高的操作頻率或是更小的面積,愈顯重要的反而是更低功耗的元件。如果同時能有更佳的晶片封裝技術、散熱機構的話是再好不過。



沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。