GeForce GTX 1080
GeForce GTX 1080 – zbudowany na bazie GPU GP104 to drugi najstarszy układ w linii Pascal. P104 w porównaniu do P100 to prawie połowa liczby tranzystorów i powierzchni chipa. Jeśli zaczniemy od linii Maxwell, to nowy chip zajmuje pozycję pośrednią pomiędzy GM204, którego NVIDIA używa w GeForce GTX 970/980, a GM200 (GeForce GTX 980 Ti i GTX 980 TITAN X), zarówno pod względem Parametry „fizyczne” kryształu oraz pod względem liczby rdzeni CUDA i modułów tekstur. Konfiguracja zaplecza GP104 bez wątpienia identyfikuje go jako następcę GM204, ponieważ posiada również 256-bitową magistralę pamięci współdzieloną przez osiem kontrolerów i 64 ROP.
Z punktu widzenia układu jednostek obliczeniowych GPU Architektura Pascala w implementacji GP104 jest ściśle zgodna z zasadami określonymi w Maxwell. Cała logika obliczeniowa skupiona jest w strukturach zwanych Graphics Processing Cluster (GPC) – w tym procesorze jest ich aż cztery. Wewnątrz GPC znajduje się pięć multiprocesorów strumieniowych, z których każdy zawiera 128 rdzeni CUDA, 8 jednostek teksturujących i sekcję pamięci podręcznej L1, która jest zwiększona z 24 do 48 KB w porównaniu do Maxwell. Każdy GPC zawiera także pojedynczy silnik polimorficzny (na schemacie silnik rastrowy), który wykonuje początkowe etapy renderowania: wykrywanie krawędzi wielokąta, projekcję i przycinanie niewidocznych pikseli.
Główne osiągnięcie procesu 16 nm wyraża się tutaj częstotliwościami taktowania, które prawie podwoiły się w porównaniu z GeForce GTX 980: częstotliwość podstawowa to 1607 MHz, taktowanie Boost to 1733 MHz (ponieważ ta ostatnia jest średnią częstotliwością w typowych zastosowaniach, GTX 1080 jest w stanie przyspieszyć do wyższych wartości.
Procesor GP64 wykonuje obliczenia o podwójnej precyzji (FP104) z szybkością 1/32 FP32 - w tym dziedziczy po chipach drugiego i kolejnych szczebli rodziny Maxwell. Architektura Pascala może również wykonywać operacje FP16 z dwukrotnie większą wydajnością niż FP32, podczas gdy Maxwell wykonuje je z tą samą szybkością. Pod względem zużycia energii GeForce GTX 1080 plasuje się w tej samej klasie co GeForce GTX 980 - 180 W. W oparciu o te dane i podaną wydajność TFLOPS dla GTX 980 i GTX 1080, uzyskujemy 63% wzrost efektywności energetycznej dla Pascala w porównaniu do Maxwell. Pojemność pamięci RAM wynosi 8 GB GDDR5X – ilość, która wcześniej była domeną kart graficznych AMD opartych na GPU Hawaii z 512-bitową magistralą pamięci.
Jedną z kluczowych różnic między GDDR5X i GDDR5 jest możliwość przesyłania czterech bitów danych na cykl sygnału (QDR - Quad Data Rate) w przeciwieństwie do dwóch bitów (DDR - Double Data Rate), jak miało to miejsce we wszystkich poprzednich modyfikacjach Pamięć DDR SDRAM. Fizyczne częstotliwości rdzeni pamięci i interfejsu przesyłania danych znajdują się w przybliżeniu w tym samym zakresie, co chipy GDDR5.
Specyfikacja GeForce GTX 1080
|
||||||
Chip
|
||||||
Częstotliwości
|
||||||
Память
|
||||||
Interfejs i TDP
|
Aby nasycić zwiększoną przepustowość chipów danymi, GDDR5X wykorzystuje przyspieszenie pobierania danych zwiększone z 8n do 16n. Przy 32-bitowym interfejsie osobnego układu oznacza to, że kontroler wybiera w jednym cyklu dostępu do pamięci nie 32, a 64 bajty danych. W rezultacie uzyskana przepustowość interfejsu osiąga 10-14 Gbit/s na styk przy częstotliwości CK (zegar poleceń) wynoszącej 1250-1750 MHz - jest to częstotliwość pokazywana przez narzędzia do monitorowania i przetaktowywania kart graficznych - takie jak GPU-Z. Przynajmniej teraz takie wskaźniki są uwzględnione w standardzie, ale w przyszłości Micron planuje osiągnąć liczby do 16 Gbit/s.
Kolejną zaletą GDDR5X jest zwiększona objętość chipów - z 8 do 16 Gbps. GeForce GTX 1080 jest dostarczany z ośmioma układami 8Gb, ale w przyszłości producenci kart graficznych będą mogli podwoić ilość pamięci RAM, gdy pojawią się bardziej pojemne układy. Podobnie jak GDDR5, GDDR5X pozwala na użycie dwóch chipów na jednym 32-bitowym kontrolerze w tzw. trybie clamshell, co umożliwia adresowanie 32 GB pamięci na 256-bitowej magistrali GP104.
Najbardziej rozbudowana jest już architektura Maxwella GPU na rynku ze wsparciem nowych funkcji renderowania w standardzie DirectX 12 (poziom funkcjonalności 12_1). Pascal dodaje do tego arsenału kilka dodatkowych opcji, które mają również potencjał do wykorzystania w dziedzinie VR. Async Compute to jedna z funkcji DirectX 12, dotychczas unikalna tylko dla procesorów AMD na architekturze GCN, która pozwala na dynamiczną alokację zasobów GPU pomiędzy obciążeniem graficznym i obliczeniowym, tak aby zasoby uwolnione po wykonaniu jednego z zadań można było od razu wykorzystać na pozostałe zadanie.
Podczas gdy AMD w wielu konfiguracjach GPU przeszła na synchronizację poprzez magistralę PCI Express, NVIDIA nadal korzysta z osobnego interfejsu w trybie SLI. Jednak tym, co umknęło uwadze opinii publicznej, jest fakt, że przy wystarczająco wysokim poziomie separacji ekranu GPU NVIDIA wymienia także niektóre dane poprzez PCI Express. Sugeruje to, że w formie, która była zaimplementowana w poprzednich architekturach NVIDIA, SLI osiągnęło już swój limit przepustowości. Z tego, co wiemy, jest to 1 GB/s, co już nie wystarcza do wymiany klatek w rozdzielczości 3840x2160 przy 60 Hz.
Zamiast jednak całkowicie przejść na PCI Express, Pascal przeprojektował istniejący interfejs. Tradycyjnie karta graficzna NVIDIA ma dwa złącza SLI, które działają jednocześnie w celu komunikacji GPU z sąsiadami w konfiguracji potrójnej lub poczwórnej, ale tylko jeden kanał jest wykorzystywany do transmisji danych w kombinacji dwuprocesorowej. Użyj dwóch kanałów w tandemie GPU to najbardziej oczywisty sposób na zwiększenie produktywności i dokładnie to wydarzyło się w Pascalu.
NVIDIA wypuściła również specjalny mostek, dostępny w kilku wersjach o różnych długościach, który ma ulepszone właściwości fizyczne, aby umożliwić działanie interfejsu z częstotliwością zwiększoną z poprzednich 400 MHz do 650 MHz.