GeForce RTX 4070 Ti
GeForce RTX 4070 Ti jest oparty na procesorze graficznym AD104 i zawiera 7680 rdzeni CUDA zapewniających 40 teraflopów shaderów z precyzją FP32 do renderowania grafiki, 240 rdzeni tensorowych 641. Architektura Ada z wydajnością 60 RT-TFLOPS dla akceleracji grafiki następnej generacji opartej na ray tracingu i 93 GB pamięci GDDR12X. Podobnie jak wszystkie procesory graficzne z serii GeForce RTX 6, RTX 40 Ti zawiera innowacje firmy Ada, w tym funkcję Shader Execution Reordering (SER), nowy silnik przepływu optycznego, nowe rdzenie RT i DLSS 4070.
Architektura NVIDIA Ada
Architektura NVIDIA Ada to gigantyczny skok wydajności. Liczne ulepszenia czynią go najszybszym i najbardziej zaawansowanym. RTX 4070 Ti jest produkowany przy użyciu niestandardowego procesu 4N firmy TSMC i zawiera 35,8 miliarda tranzystorów oraz 7680 rdzeni CUDA. Śledzenie z akceleracją sprzętową, rdzenie Tensor czwartej generacji poprawiające wydajność sztucznej inteligencji, kodery ósmej generacji z obsługą kodowania i dekodowania AV1 oraz ulepszenia DLSS, które zapewniają wysoką liczbę klatek na sekundę w konkurencyjnych grach i ustawieniach ultra z włączonym śledzeniem promieni.
Multiprocesor strumieniowy NVIDIA Ada
Karty graficzne RTX mają trzy główne procesory: programowalne uniwersalne rdzenie CUDA, które przetwarzają shadery ogólnego przeznaczenia i aplikacje CUDA, rdzenie RT do przyspieszenia obliczania przecięć promieni z trójkątami i ograniczającymi objętościami, rdzenie RT architektury Ada podwoiły szybkość obliczania przecięć z trójkąty, ostatni typ procesora - potok przetwarzania sztucznej inteligencji zwany rdzeniami tensorowymi.
Ada ulepsza wszystkie trzy procesory RTX
Programowalne moduły cieniujące: 40 teraflopów modułu cieniującego w porównaniu do 21,7 teraflopów w przypadku RTX 3070 Ti. Ada Shader Processor zawiera ważną nową technologię o nazwie Shader Execution Reordering (SER), która zmienia kolejność pracy w locie, zapewniając XNUMXx przyspieszenie dla shaderów ray tracingu. SER jest tak samo dużą innowacją dla procesorów graficznych, jak kiedyś wykonywanie poza kolejnością dla procesorów.
Rdzenie Tensor 4. generacji: nowy rdzeń Tensor w Adzie obejmuje silnik transformatorowy NVIDIA Hopper FP8, który zapewnia do 641 teraflopów tensorowych precyzyjnych FP8 na rzadkich macierzach w RTX 4070 Ti do trenowania i wnioskowania AI, w porównaniu ze 174 teraflopami tensorowymi na rzadkich macierzach w RTX 3070Ti. W porównaniu z FP16, FP8 zmniejsza zapotrzebowanie na pamięć o połowę i podwaja wydajność AI.
Gen 3 RT Cores: nowy silnik Opacity Micromap Engine uśrednia dwa razy szybciej obliczenia przecięć dla powierzchni z testem przezroczystości tekstury, gdy programiści używają tej funkcji, a nowy silnik Micro-Mesh Engine zwiększa szczegóły geometryczne bez kosztów składania i przechowywania BVH. Przepustowość Ady w testach crossover wynosi 93 RT-TFLOPS w porównaniu do 42,5 RT-TFLOPS 3070 Ti.
Rdzenie tensorowe czwartej generacji
Rdzenie tensorowe to wysokowydajne rdzenie obliczeniowe wyspecjalizowane i przystosowane do operacji mnożenia i dodawania macierzy, które są wykorzystywane w aplikacjach sztucznej inteligencji i obliczeniach o wysokiej wydajności. Rdzenie tensorowe zapewniają rewolucyjną wydajność obliczeń macierzowych, które mają kluczowe znaczenie dla uczenia wielowarstwowych sieci neuronowych i wnioskowania już wyszkolonych sieci. Przykładowe aplikacje z wnioskowaniem obejmują NVIDIA DLSS 3 dla graczy, gdzie oddzielna sieć neuronowa jest odpowiedzialna za generowanie wysokiej jakości klatek, a wszystko to napędzane jest przez NVIDIA Tensor Core. DLSS stał się tak popularny, że istnieje już ponad 250 gier obsługujących tę technologię, w których gracze mogą podwoić wydajność jednym kliknięciem. Ponadto wiele kreatywnych aplikacji zaczęło korzystać z funkcji sztucznej inteligencji, aby pomóc artystom tworzyć treści szybciej iz lepszą jakością. Obecnie ponad 110 popularnych aplikacji kreatywnych korzysta z akceleracji rdzeni Tensor i RT na kartach graficznych RTX. Oraz ekskluzywne aplikacje NVIDIA, takie jak Nadawanie и Brezentowy, oferują narzędzia do usuwania szumów, tworzenia wirtualnych teł i wielu innych efektów opartych na sztucznej inteligencji do strumieniowego przesyłania wideo i konferencji.
Ada Tensor Core czwartej generacji opiera się na możliwościach poprzednich procesorów graficznych Ampere, które obsługiwały wiele nowych typów danych i dodały strukturalną akcelerację rzadkości, aby podwoić przepustowość poprzednich rdzeni Turing. Rdzenie tensorowe generacji Ada obsługują nowy format danych FP8, wprowadzony po raz pierwszy w architekturze GPU NVIDIA Hopper. W porównaniu z FP16, FP8 zmniejsza wymagania dotyczące pamięci masowej o połowę i podwaja wydajność sztucznej inteligencji. Dzięki nowemu formatowi FP8 i funkcji sparsity, karta GeForce RTX 4070 Ti zapewnia wydajność 641 TFLOPS dla zadań AI.
Rdzenie RT trzeciej generacji
Rdzenie RT trzeciej generacji firmy Ada to dedykowane bloki sprzętowe do przyspieszania obliczeń przechodzenia BVH i przecięć trójkątów promieni, które mają kluczowe znaczenie dla przyspieszenia śledzenia promieni. Rdzenie RT kart graficznych RTX są całkowicie niezależne, wykonują wszystkie obliczenia przechodzenia i przecinania BVH, odciążając w ten sposób multiprocesory strumieniowe SM z rdzeniami CUDA i uwalniając je do innych zadań, takich jak cieniowanie pikseli, cieniowanie wierzchołków i obliczenia ogólnego przeznaczenia.
Rdzenie RT w architekturze Ada zapewniają 2x szybsze testy przecięcia promieni trójkątnych w porównaniu z procesorami graficznymi NVIDIA Ampere, umożliwiając programistom dodawanie większej ilości szczegółów do ich wirtualnych światów. Rdzenie Ada RT zawierają również nowe bloki Opacity Micromap Engine, które przyspieszają śledzenie geometrii w testach alfa o współczynnik 2, co pomoże programistom przyspieszyć nawet 2-krotnie wymagające zasobów sceny z roślinnością i efektami cząsteczkowymi do śledzenia. Nowe rdzenie RT zawierają również bloki Displaced MicroMesh Engine, które generują mikrosiatkę w locie, tworząc dodatkową geometrię.
Wszystkie te ulepszenia wydajności oparte na ray tracingu dają architekturze Ada dużą przewagę na starcie. W miarę pojawiania się nowych gier, które wykorzystują technologie Ada do zwiększania wydajności, karty graficzne z serii RTX 40 bez wątpienia staną się szybsze i dalej wyprzedzają poprzednią generację kart graficznych z serii RTX 30. Przykładem jest niedawny remaster. Portal z RTX oparty na RTX Remix, w którym NVIDIA wykorzystuje nowe funkcje architektury Ada, takie jak silniki OMM i SER (które notabene można wyłączyć w ustawieniach), razem pozwalają RTX 4090 być aż 3 razy szybciej niż RTX 3080 Ti bez użycia DLSS, a przy użyciu generatora ramek DLSS 3 przewaga może być nawet 5-krotna.