enfrdepluk
Szukaj, znajdź 4120  disqus społecznościowy  tg2 f2 lin2 in2 Ikona X 3 y2  p2 Tik steam2

Cechy architektury Radeona HD 4870

dvcsdcsc93_86610

Jeżeli w przypadku RV670 (Radeon HD 38x0) zasadność przyporządkowania kolejnej cyfry oznaczającej generację mogłaby budzić wątpliwości, gdyż GPU niewiele różnił się od rdzenia poprzedniej generacji, R600 (Radeon HD 2900), to w przypadku RV770 nie ma już takich wątpliwości – to naprawdę nowy produkt, nawet jeśli odziedziczył większość cech swoich poprzedników. Nowa rodzina nosi nazwę ATI Radeon HD 4800, a schemat nazewnictwa różnych modeli kart graficznych, zastosowany po raz pierwszy przez ATI w rodzinie ATI Radeon HD 3800, został zachowany: pierwsza cyfra oznacza generację architektury graficznej, druga - rodzina, a dwa ostatnie - model konkretnej karty wideo.

Rdzeń RV770 składa się z 956 milionów tranzystorów, co na pierwszy rzut oka robi wrażenie, jednak nie jest to absolutny rekord w branży; Palma w tym obszarze należy do Nvidii z chipem GT200, który ma 1.4 miliarda tranzystorów. Wyższość można nazwać wątpliwą, gdyż konkurent ATI stosuje mniej zaawansowaną technologię procesu 65 nm, co przy ogromnym obszarze i złożoności takiego rdzenia automatycznie oznacza mniejszą liczbę rdzeni na podłożu i niższą wydajność, a także, w konsekwencji znacznie wyższy koszt produkcji, jednak takie podejście jest typową taktyką Nvidii w ostatnich latach. Karty oparte na GT200 raczej nie staną się z czasem tanie, w przeciwieństwie do nowych rozwiązań ATI wykorzystujących RV770. Tym samym strategia obrana przez ATI Technologies na pierwszy rzut oka w pełni się uzasadnia.

Należy zauważyć, że częstotliwości GPU zostały zauważalnie obniżone w porównaniu do kart opartych na GPU poprzedniej generacji, RV670, co jest zrozumiałe ze względu na znacznie zwiększoną złożoność nowego rdzenia. Biorąc pod uwagę zwiększoną moc przetwarzania i tekstur, nie powinno to stanowić żadnego problemu. Kolejny ciekawy szczegół, który zasługuje na uwagę: zastosowanie szybkiej pamięci GDDR4800 w starszym modelu ATI Radeon HD 5 umożliwiło osiągnięcie dużej przepustowości bez uciekania się do rozbudowy zewnętrznej magistrali dostępowej, tak jak zrobiło to ATI w zeszłym roku i robi to teraz Nvidia. Zwiększenie szerokości szyny pamięci powyżej tradycyjnych 256 bitów prowadzi do znacznego wzrostu złożoności płytki drukowanej, a w konsekwencji do wzrostu jej kosztu. Oczywiście pamięć GDDR5 jest droższa od powszechnie stosowanej GDDR3, ale najwyraźniej różnica ta jest więcej niż kompensowana przez prostszą konstrukcję PCB.

Widać wyraźnie, że topologia podsystemu dostępu do pamięci jako całości została zachowana, chociaż teraz nie można go nazwać pierścieniem: prawie każdy kontroler pamięci jest połączony dwukierunkowym interfejsem z innym, jednak sam „pierścień” nie jest już Zamknięte. Interfejs dostępu do pamięci nadal znajduje się na obwodzie kryształu, a obok niego znajdują się bloki funkcjonalne, które są najbardziej krytyczne dla przepustowości:

121951

W tym samym czasie w rdzeniu pojawił się przełącznik, który łączy bloki mniej wymagające pod względem przepustowości - interfejs magistrali PCI Express, interfejs CrossFireX, procesor wideo UVD2, kontrolery wyświetlania itp. Efektywność wykorzystania zasobów podsystemu pamięci w poprzednich generacjach ATI Radeon HD osiągnęła już 85% według ATI, a optymalizacja topologii RV770 umożliwiła prawie maksymalne jej wykorzystanie. Wraz z możliwością zastosowania szybkiej pamięci GDDR5 wyeliminowało to potrzebę stosowania przez programistów zewnętrznej magistrali o pojemności ponad 256 bitów, co pozytywnie wpłynęło na prostotę konstrukcji płytek drukowanych ATI Radeon HD 4800.

Kluczową częścią każdego rdzenia graficznego o nowoczesnej architekturze jest blok menedżera zadań, któremu powierza się pracę polegającą na rozmieszczeniu dostępnych zasobów procesora w taki sposób, aby wszystkie jego części były maksymalnie obciążone, a tym samym wydajność bywa tak wysoko, jak to możliwe.

Blok menedżera zadań po raz pierwszy pojawił się jako część rodziny ATI Radeon X1000, gdzie mógł zarządzać 512 gałęziami kodu po 16 pikseli każda. Druga wersja procesora dystrybucji zadań została wprowadzona w ATI Radeon HD 2000. Nowy handler nie tylko mógł przetwarzać więcej gałęzi kodu, ale także robić to dokładniej i wydajniej - minimalna wielkość gałęzi została zmniejszona z 16 do 5 pikseli.

121940

Część obliczeniowa modeli R600 i RV670 składała się z 64 uniwersalnych modułów, z których każdy zawierał pięć jednostek ALU, jednostkę kontroli przepływu i tablicę rejestrów ogólnego przeznaczenia. Cztery z pięciu jednostek ALU były dość prostymi urządzeniami zdolnymi do wykonania jednej instrukcji FP MAD na cykl, a czwarta była skomplikowana, mogąca pracować ze złożonymi instrukcjami SIN, COS, LOG, EXP itp. W rzeczywistości każdy moduł obliczeniowy był procesorem z pięciostopniowym potokiem.

Teoretycznie taka organizacja pozwalała mówić o obecności 320 siłowników, ale w rzeczywistości dotyczyło to tylko przypadku pełnego obciążenia wszystkich 64 rurociągów, co w praktyce nie zawsze było zapewnione: w trzech- zastosowań wielowymiarowych, wiele operacji zależy od wyników poprzednich operacji, dlatego spójne działanie rurociągu nie jest łatwe do osiągnięcia. Wymaga to znacznych optymalizacji dla konkretnej aplikacji na poziomie sterowników Catalyst, ale nie zawsze jest możliwe uzyskanie dostępu do oprogramowania „nadzienia” gry, przynajmniej do czasu jej oficjalnej premiery.

W efekcie w praktyce często okazywało się, że tylko jedno ALU w każdym module obliczeniowym wykonuje użyteczną pracę, co znacznie ograniczyło potencjał architektury ATI Radeon HD i doprowadziło do lagów w grach z rozwiązań opartych na Nvidia G80/G92 . Te ostatnie miały nie tylko więcej niezależnych jednostek obliczeniowych, ale również te jednostki działały z wyższymi częstotliwościami taktowania. Tworząc RV770, zespół programistów ATI rozwiązał problem możliwej nieefektywności architektury superskalarnej w bezpośredni sposób, a mianowicie poprzez zwiększenie liczby modułów obliczeniowych z 64 do 160. Oczywiście zwiększyło to liczbę tranzystorów na rdzeń jednak zastosowanie technologii procesu 55 nm pozwoliło na utrzymanie jej obszaru w rozsądnych granicach.

Sama architektura modułów nie uległa zauważalnym zmianom i nadal składają się z 5 jednostek ALU, jednostki sterującej przepływem oraz zestawu rejestrów ogólnego przeznaczenia:

121947

Według deklaracji ATI wydajność modułów obliczeniowych została zwiększona o 40%, ale nawet proste zwiększenie ich liczby z 64 do 160 może sprawić, że Radeon HD 4800 stanie się konkurencyjnym rozwiązaniem nawet w warunkach niezbyt sprzyjających tej architekturze. I to nie wszystko; jak wspomniano powyżej, zmiany zachodzą również na bardziej globalnym poziomie – na poziomie topologii rdzenia. Przy częściowym zachowaniu topologii pierścienia zoptymalizowano układ bloków funkcjonalnych. Moduły obliczeniowe RV770 są połączone w 10 rdzeni SIMD (wcześniej były to 4 takie rdzenie), po 16 modułów (80 ALU) każdy.

Głównym wąskim gardłem rdzeni graficznych ATI R600 i RV670 był podsystem procesora tekstur.

Po pierwsze, było ich tylko 16 (4 duże bloki), co wyraźnie nie wystarczało, nawet pomimo tendencji do dominacji matematycznych efektów specjalnych nad stosowaniem złożonych tekstur w wysokiej rozdzielczości, ze względu na orientację twórców gier na multiplatformę . Po drugie, istniała tylko jedna jednostka filtrująca na każde dwie jednostki adresowania tekstur, co znacznie zmniejszyło wydajność jednostek tekstur podczas filtrowania tekstur, zwłaszcza filtrowania anizotropowego, które jest obecnie używane wszędzie, i nie ma powodu zakładać, że jego użycie będzie porzucone w przyszłości.

Podczas opracowywania RV770 uwzględniono te niedociągnięcia, a nowy rdzeń otrzymał nowe procesory tekstur:

121950

Ich konstrukcja została całkowicie przeprojektowana i każdy TMU zawiera teraz 16 jednostek pobierania tekstur FP32, 4 jednostki adresujące i 4 jednostki filtrujące. Wydawać by się mogło, że wydajność próbkowania powinna spaść, jednak rekompensuje to podwojona przepustowość magistrali łączącej TMU i pamięci podręczne tekstur. ATI udało się osiągnąć 2.5-krotny wzrost szybkości filtrowania tekstur 32-bitowych i 1.5-krotny wzrost w teksturach 64-bitowych, co w teorii wygląda bardzo dobrze i z pewnością będzie miało bardzo pozytywny wpływ na wydajność nowego GPU w rzeczywistych warunkach.

Procesory tekstur są nadal łączone w duże moduły po 4 TMU, a każdy taki moduł obsługuje jeden z 10 rdzeni SIMD. Optymalizacja, wyrażona w odrzuceniu niepotrzebnych bloków, umożliwiła zmniejszenie liczby tranzystorów tworzących TMU, a zatem umieszczenie ich większej liczby na chipie przy stosunkowo niewielkim rozlewie krwi, przy jednoczesnym zachowaniu złożoności i powierzchni rdzeń w rozsądnych granicach.

Podsystem pamięci podręcznej jest ważną częścią podsystemu tekstur GPU, a w RV770 przeszedł również znaczną modernizację:

121941

Przede wszystkim należy zwrócić uwagę na zwiększoną przepustowość: teraz szybkość pobierania tekstur z pamięci podręcznych pierwszego poziomu to imponujące 480 GB/s, podczas gdy pamięć podręczna pierwszego i drugiego poziomu może komunikować się z prędkością 384 GB/s. Po drugie, każdy rdzeń SIMD ma teraz własną pamięć podręczną pierwszego poziomu, co ma korzystny wpływ na wydajność przechowywania danych. Po trzecie, pamięci podręczne drugiego poziomu są skoordynowane z kontrolerami pamięci, a wreszcie, po czwarte, RV770 ma oddzielną pamięć podręczną do przechowywania danych wierzchołków. Ulepszenia nie są tak oczywiste, jak w przypadku architektury procesora tekstur, jednak z pewnością przyczynią się do znacznego zwiększenia wydajności ATI Radeona HD 4800 w grach. Można śmiało powiedzieć, że nowy procesor graficzny ATI jest całkowicie wolny od głównego wąskiego gardła architektury ATI Radeon HD i może teraz konkurować na równych warunkach z rozwiązaniami Nvidii, w których te ostatnie były tradycyjnie mocne, a mianowicie w operacjach z teksturami. Tutaj podejście ATI do projektowania procesorów graficznych jest najbardziej widoczne - optymalizacja zamiast bezpośredniego zwiększania mocy.

Procesory rastrowe, nazywane w terminologii ATI back-endami renderującymi, nigdy nie stanowiły dramatycznego wąskiego gardła w architekturze ATI Radeon HD, jednak zostały ulepszone w RV770, chociaż całkowita liczba tych modułów nie uległa zmianie: są wciąż cztery z nich w rdzeniu, co pozwala nam mówić o odpowiedniku 16 klasycznych ROP-ów.

Oprócz innych innowacji zawartych w ATI RV770, powinniśmy zwrócić uwagę na nowe funkcje silnika wideo, w szczególności nowy kontroler dźwięku i kilka ulepszeń oprogramowania.

Ośmiokanałowy kontroler audio firmy Realtek, który obsługuje strumienie audio do 6.144 Mb/s i częstotliwości próbkowania 192 kHz w formatach AC3, DTS, Dolby True-HD i DTS-HD, jest głównym ulepszeniem treści HD. Rozszerzone możliwości nowego rdzenia audio mają ogromne znaczenie dla tych, którzy planują wykorzystać ATI Radeon HD 4000 jako część domowego centrum multimedialnego. Co więcej, karty Radeon HD 4800 firmy ATI są obecnie jedynymi kartami graficznymi na świecie, które natywnie obsługują XNUMX-kanałowy dźwięk HD, z możliwością wyprowadzania go przez HDMI, co stanowi znaczną przewagę nad konkurencyjnymi rozwiązaniami Nvidii.

121952

Do zasilania karty graficznej Radeon HD4870 w ogonie karty znajdują się dwa 6-stykowe złącza, w przeciwieństwie do młodszego Radeona HD4850, który ma tylko jedno złącze. Do stabilnej pracy karty graficznej przy wyższych częstotliwościach wymagany był wzmocniony system zasilania. Tak więc, w porównaniu z kartą graficzną Radeon HD4850, częstotliwość GPU Radeon HD4870 jest o 125 MHz wyższa i równa 750 MHz, a efektywna częstotliwość pamięci wideo GDDR5 to 3600 MHz, czyli znacznie wyższa niż 1986 MHz, z której korzysta pamięć wideo karty graficznej Radeon HD4850. Co prawda warto tu zrobić rezerwację, rzeczywista częstotliwość nowej pamięci GDDR5 to 900 MHz, po prostu w jednym cyklu zegara przesyła nie dwa, a czterokrotnie więcej informacji w porównaniu do „zwykłej” pamięci bez DDR.

226074a7f05ee5587d

 

Dane techniczne ATI Radeon HD 4870

Nazwa Radeon HD 4870
Rdzeń RV770XT
Technologia procesu (µm) 55
Tranzystory (mln) 956
Częstotliwość rdzenia 750
Częstotliwość pamięci (DDR) 900 (3600 QDR)
Typ magistrali i pamięci GDDR5 256-bitowy
Przepustowość (Gb/s) 115,2
Zunifikowane bloki shaderów 800
Częstotliwość zunifikowanych jednostek cieniujących 750
TMU na przenośnik 40
RPO 16
Model cieniowania 4.1
Szybkość wypełniania (Mtex/s) 30000
DirectX 10.1
Pojemność pamięci 512/1024
Interfejs PCIe 2.0

 

Karta graficzna Radeon HD4870 okazała się nie tylko słowami, ale w rzeczywistości najbardziej realnym konkurentem dla karty graficznej GeForce GTX 260 firmy NVIDIA. Dawno tego nie widzieliśmy, bo „topowi” przedstawiciele dwóch poprzednich rodzin kart graficznych AMD mogli konkurować z produktami NVIDII tylko słowami, ale w rzeczywistości byli zbyt wolni. Oczywiście nowa jednostka cieniująca ze zwiększoną liczbą procesorów strumieniowych i zmienioną architekturą okazała się wydajniejsza niż jednostka cieniująca w karcie graficznej GeForce GTX 260. Co prawda nowy produkt nie dorównuje GeForce GTX 280, ale jednocześnie zapewnia wygodną rozgrywkę w prawie wszystkich nowoczesnych grach.

Mass Effect

06974