Las GPU NVIDIA RTX 40 serán casi un 100% más rápidas que las RTX 30

Nuevos datos al terreno de juego, datos muy interesantes porque hay que hablar de arquitecturas como tal y de posibles rendimientos a la vista, puesto que el supuesto diagrama de bloques de los SM y GPC se ha visto filtrado para las RTX 40, por lo que podemos hacernos una idea más acertada de hacia dónde apunta NVIDIA.

Lo primero que debemos tener claro es que Ada Lovelace es una arquitectura distinta a Hopper como tal. NVIDIA segmentará así sus gamas, potenciando lo mejor de ambas para enfocar los mercados de forma más agresiva y siendo un paso más frente a lo que vimos con Ampere. De alguna manera, la cual vamos a ver a continuación, las hará más competitivas frente a AMD, la cual está siguiendo también pasos similares. Dicho esto, vamos con los cambios que veremos en la arquitectura para gaming Ada Lovelace.

RTX 40 vs RTX 30, ¿hay un salto tan grande de rendimiento?​

NVIDIA-RTX-40-Ada-Lovelace-SM-Diagrama-arquitectura


No, realmente no, al menos si los datos son ciertos (echad como siempre un poco de sal aquí para degustar lo siguiente). Y es que el hype va bajando un poco y pasamos de ese supuesto +2,2X a números más realistas y cercanos, aunque también es cierto que nos faltan datos cruciales como vamos a ver a continuación. En cualquier caso, los pies en el suelo y vamos al lío.

Para no confundirnos, lo que vemos arriba es el diagrama TPC del nuevo AD102, que al mismo tiempo será el que usen todos los chips de las RTX 40 como estructura base, siendo cada SM la estructura fija. Lo principal para entenderlo es que estamos viendo visualmente hablando un SM al lado del otro y no uno encima del otro, no tiene relevancia en el funcionamiento como tal, pero es una manera distinta de representarlos y esto puede llevar a confusión porque parece que hablamos de una arquitectura MCM y no será así, al menos por si hablamos de un chip unitario (otra cosa sería un sistema de matrices SoIC de TSMC)

Esto es importante aclararlo porque NVIDIA siempre muestra un SM y los TPC los muestra apilando SM de forma vertical, pero insistimos en que es solamente una representación como diagrama, no un cambio en la arquitectura. Así que comprendido esto vamos con los cambios. Seguro que sabemos que los GPC de NVIDIA están formados por TPC y estos a su vez por SM en lo que a jerarquía se entiende, y luego dentro de los SM tenemos las distintas unidades.

NVIDIA Ada LoveLace vs Ampere, comparativa entre AD102 vs GA102​

NVIDIA-Ada-Lovelace-SM-AD102

NVIDIA-Ampere-GA102


Sabiendo esto y comparando el nuevo AD102 con el actual GA102 tenemos 12 GPC frente a los 7 de la arquitectura Ampere, pero aunque hay un 70% más de ellos, cada uno en su interior mantiene los 6 TPC que tienen las RTX 30, así como los 2 SM por cada uno de ellos. En otras palabras, se mantiene la jerarquía de los GPC, pero se aumenta el número de ellos.

Ahora vamos con los SM como unidad mínima. Cada uno de ellos tiene lo que NVIDIA llama Sub-Core, donde se mantienen los 4 de Ampere, pero no albergan el mismo número de unidades y aquí empiezan los cambios. NVIDIA ha pasado de tres motores por cada Sub-Core a 4, lo que antes era un grupo para FP32 e INT32, uno independiente para FP32 y los Tensor Cores ahora en este AD102 pasa a formar parte como dos grupos independientes de FP32 y uno de INT32, más los Tensor Cores de cuarta generación.

¿Por qué se hace esto? Porque NVIDIA quiere pasar de 64 unidades FP32 a 128 y pretende desmultiplicar los INT32 añadiendo 64 unidades por cada uno de estos Sub-Cores, dando un total de 192 unidades. Es decir, hay 2 motores FP32 con 64 unidades y un motor INT32 también con 64 unidades. Entonces, ¿cuáles son los cambios aquí? El número de FP32 no aumenta, pero al separarlos de los INT32 para crear un motor independiente el recuento ahora no es 128 en Ampere y Ada Lovelace, sino que ahora son 128 + 64 (FP32 + INT32). El objetivo con esto es añadir músculo al renderizado y posiblemente que los INT32 dediquen sus recursos a cálculos para los RT Cores o para los Tensor Cores, dependiendo de la complejidad de la escena y las necesidades.

Seguramente NVIDIA pretenda ir por el camino hacia un Ray Tracing más puro sin incluir el renderizado del mismo y el trabajo de los algoritmos BVH en el pipeline gráfico, algo que entenderemos y se debería ver en la presentación de la arquitectura, por lo que por ahora solo son especulaciones por nuestra parte.

NVIDIA-Sub-Core-Ada-Lovelace-AD102


Por lo tanto, cada SM tiene Sub-Cores y cada uno de ellos tiene cuatro motores con 2 X 64 unidades FP32 + 1 X 64 INT32, y aparte, los Tensor Cores. Una sumatoria que en total y dados los cuatro Sub-Cores que forman un SM es de 512 unidades FP32 y 256 unidades para INT32, lo que da de forma global 768 unidades por cada uno de los dos SM que tiene un TPC (es complicado de pillar a la primera, lo sabemos). Haciendo matemática simple, son 768 unidades por SM, multiplicado por los dos SM que tiene un TPC, multiplicado por los 12 TPC nos da un recuento ya conocido de 18.432 unidades, que en este caso NVIDIA los trata como Shaders independientes.

Después de comprender esto llegan las cachés y su jerarquía, donde hay importantes cambios. Pasamos de tener una L1D con 128 KB por cada SM con memoria compartida a un sistema mucho más complejo donde cada SM ahora tiene L1D con 192 KB compartidos y una L1I de la cual no sabemos nada. Pero hay más cambios. Y esque lo que antes era una unidad L0 + Warp + Dispatch ahora son tres unidades independientes por cada Sub-Core para un mismo tamaño y bus de archivo de registro.

Son tres motores independientes con 32 Thread por ciclo de reloj (esto último no varía), pero parece que este movimiento tiene que ver no solamente con el reparto visto de INT32 y FP32, sino con el hecho de que la nueva L1I pueda balancear el reparto de la carga de manera más óptima (es común para todos los Sub-Cores) y para eso se necesita desmultiplicar y dividir estos motores principales.

Si creías que los cambios habían terminado... Pues no. Lo que antes eran cuatro unidades de carga y almacenamiento ahora pasan a un solo bloque con la misma función, respetando por supuesto el SFU que no sabemos si ha incrementado su tamaño. Ahora sí, para finalizar, las unidades de textura se mantienen intactas (que sepamos) mientras que los RT Cores serán más complejos dando un salto a su tercera generación, de la cual tampoco tenemos información al respecto, pero seguro que implican modificaciones importantes visto todo lo anterior.

Lo que sí que se ha filtrado es un aumento exponencial de la caché L2, que pasa a un total de 96 MB para el AD102. Al mismo tiempo, no nos podíamos olvidar de los ROPs visto el salto de rendimiento que va a haber y NVIDIA ha sido inteligente dotando a esta nueva arquitectura del doble de unidades, 32 por GPC para ser concretos, lo que nos daría un total de 384 ROPs para la RTX 4090 frente a los 112 de la RTX 3090, el salto es cualitativo.

AD102 vs GA102 vs TU102 vs GA100 vs GH100​

Tras lo explicado, una tabla comparativa:

AD102 RTX 40 vs GA102 RTX 30 vs Hopper GH100 (2)


La tabla es más sencilla para comprender todo lo dicho y además añade el GA100 y el GH100, por lo que es realmente simple de ver comparativamente hablando lo que supondrá Ada Lovelace y su AD102 para las RTX 4090 frente al resto.

¿Qué podemos esperar al respecto en cuanto a rendimiento real? Pues a falta de saber las frecuencias base y Boost, cómo de rápido y eficiente es el nodo 4N frente a los N5 (ambos de TSMC), no podemos sacar conclusiones precipitadas. Solo nos podemos basar en los 1.780 MHz en Boost y 1.500 MHz en base del GH100 que incluye NVIDIA en su versión SXM5 para servidores y que integra el mismo proceso litográfico, pero distinta arquitectura a pesar de compartir Shaders (incluyendo FP64 y FP16 como tal).

Se habla de una potencia en FP32 de 90 TFLOPS, más del doble que en el GA102 actual, pero como bien sabemos los TFLOPS no son una buena unidad de medida y posiblemente de esos +2,2X que se hablaba terminemos en un +2X simplemente, que de igual manera es un salto brutal, como lo es en consumo, pero al mismo tiempo es más eficiente comparativamente hablando, curioso cuanto menos. En cuanto al precio... El precio será otra cosa distinta, pero lo que tenemos que tener claro es que las obleas están disparadas por más de 16.000 dólares, así que baratas no van a ser, eso seguro.

 

La Nvidia GeForce RTX 4090 superaría en rendimiento a 2x GeForce RTX 3090​

Llegan más rumores en torno al rendimiento de la Nvidia GeForce RTX 4090, y como ya habíamos adelantado, los 600W de consumo al fin y al cabo son una buena noticia, ya que se deja claro que para alcanzar el máximo rendimiento poco importa ya el consumo, y es la misma tendencia que está cumpliendo su rival, AMD, tanto en gráficos como procesadores, por no hablar de Intel, sacrificar la eficiencia energética por aportar mayores aumentos de rendimiento.

Según se indica, la GeForce RTX 4090 finalmente llegaría con el chip gráfico AD102-300 bajo la arquitectura Ada Lovelace fabricado por TSMC a 5nm con una configuración limitada a 16128 CUDA Cores junto a 24 GB de memoria GDDR6X prometiendo rendir más que dos GeForce RTX 3090. Eso sí, si bien su consumo máximo de la gráfica y todos sus componentes sería de 600W, su TDP será de 450W.

Especificaciones (rumoreadas) de la serie Nvidia GeForce RTX 40 Series​

Según los rumores, aún quedaría hueco para una nueva Nvidia TITAN con un consumo energético de hasta 800W debido a que usa el chip AD102-300 al completo, lo que le permite acceder a una configuración de 18432 CUDA Cores. Misma configuración que se espera que alcance la Nvidia GeForce RTX 4090 Ti (vs 10752 CUDA Cora de la RTX 3090 Ti). Un peldaño por debajo tenemos a la ya vista GeForce RTX 4090 con 16128 CUDA Cores (vs 10496 Cores de la RTX 3090).

La GeForce RTX 4080 haría uso del chip gráfico AD103 con 10752 CUDA Cores (vs 8704 CUDA Cores de su predecesora), la GeForce RTX 4070 ofrecería 7680 CUDA Cores (vs 5888), la GeForce RTX 4060 ofrecería 4608 CUDA Cores (vs 3584) y la GeForce RTX 4050, que aún se desconoce cuándo saldría al mercado, ofrecería 3072 CUDA Cores (vs 2560).

Disponibilidad de la nueva generación de GPUs Nvidia Ada Lovelace​

La primera en llegar sería la Nvidia GeForce RTX 4090, y es que la GPU tope de gama de la compañía llegaría a principios del mes de octubre. Según las fuentes de la industria, un mes más tarde llegaría la GeForce RTX 4080, mientras que en diciembre llegaría la GeForce RTX 4070 y ya para principios de enero de 2023, durante el CES 2023 de Las Vegas, se espera que llegue el modelo más popular, la Nvidia GeForce RTX 4060.