Tecnologías : Microarquitectura núcleo Tremont en Lakefield Tomado de : https://www.anandtech.com/show/15009/intels-new-atom-microarchitecture-the-tremont-core, https://www.pcworld.com/article/3447343/intel-tells-more-about-tremont-the-atom-core-inside-the-surface- neo-and-lakefield-chip.html,

Intel ha presentado formalmente Tremont, su núcleo de procesador Atom de próxima generación y la mitad del dúo de procesadores que formarán Lakefield y alimentarán el próximo Surface Neo de Microsoft.

La compañía describio el diseño de Tremont en detalle en la Linley Fall Processor Conference. Intel reveló Tremont tan pronto como el pasado mes de enero en el CES showcase, cuando presentó Lakefield, una novedosa arquitectura híbrida con los procesadores Tremont y Core trabajando juntos. Es justo decir que se trata de un caso de misterio envuelto en un enigma, ya que el único producto anunciado que utiliza Lakefield es el Surface Neo de Microsoft, un dispositivo de doble pantalla similar a un PC, que Microsoft mostró brevemente hace unas semanas.

Con Tremont, al menos, podemos empezar a desentrañar más de los misterios que subyacen a Surface Neo y Lakefield. Debido a que Tremont es una arquitectura de procesador, como la arquitectura de Sunny Cove que subyace a los chips Ice Lake Core de Intel de 10ª generación, ciertos detalles específicos, como la velocidad del reloj, por ejemplo, deben esperar hasta que los productos reales salgan al mercado. Pero sabemos los papeles que se le asignan a Tremont: Según Stephen Robinson, ingeniero principal senior de Intel, Tremont está siendo diseñado para dispositivos de red, PC y IO.

Los productos construidos alrededor de Tremont consumirán entre 0.5W y 2W. Lakefield, y los núcleos de Tremont que contiene, se están fabricando utilizando el proceso de 10 nm de Intel. El desempeño de un solo subproceso será un 30 por ciento más alto que su predecesor, Plus, basado en los puntos de referencia SPECint y SPECfp, dice Intel.

Aunque Intel ha estado discutiendo mucho sobre su microarquitectura Core, es fácil olvidar que sus diseños Atom de menor potencia siguen prevaleciendo en muchas verticales comerciales. El año pasado, en la Cumbre de Arquitectura de Intel, la compañía presentó una hoja de ruta ampliada que muestra las próximas tres generaciones de Atom después de : Tremont, Gracemont y `Future Mont'. Tremont está listo para ser lanzado este año, siendo el primero en un diseño híbrido de baja potencia llamado Lakefield para portátiles, y usando una nueva tecnología de apilamiento llamada Foveros construida sobre 10+ nm. En la conferencia de procesadores Linley de hoy, Intel dio a conocer más sobre la microarquitectura detrás de Tremont.

Una breve historia de Atom La microarquitectura Atom de menor potencia de Intel se ha utilizado para una variedad de soluciones: plataformas integradas, redes, teléfonos inteligentes, tabletas, , dispositivos NAS, concentradores de control y una amplia gama de cosas que ni siquiera conocemos. El posicionamiento de Atom en comparación con Core fue pensado para que Atom fuera el diseño de núcleo más pequeño, ocupando menos área de matriz de silicio y siendo de menor rendimiento, pero en última instancia con menor potencia en una época en la que la microarquitectura Core se centraba más en diseños de alto rendimiento. Las últimas generaciones de Atom son fácilmente cuantificables: basado en 22nm fue un gran producto para la compañía, que ha evolucionado hasta convertirse en Airmont, Goldmont, Goldmont Plus y ahora Tremont. Intel's Atom History

Node Tablet Networking Notebook Server

Medfield Saltwell 32nm 2011 Clover Trail Cedar Trail Clover Trail+

Merrifield Bay Trail-M Rangeley Silvermont 22nm 2013 Bay Trail-T Moorefield Bay Trail-D Avoton

Airmont 14nm 2015 'Riverton' Cherry Trail-T Braswell Denverton

Willow Trail Goldmont 14nm 2016 'Broxton' Apollo Lake Apollo Lake

Goldmont+ 14nm 2017 Gemini Lake

Tremont 10+ 2019 Lakefield Lakefield Snow Ridge Las líneas de la familia Atom se confunden un poco con el juego de Intel en todos estos espacios. El núcleo del átomo dentro de una familia dada suele ser idéntico (la configuración de L2 puede cambiar), y debido a la SoC en juego, podría obtener un nombre diferente basado en el mercado al que se dirigía. Intel descartó el programa de teléfonos inteligentes con Broxton en 2016, y el tipo de tableta de SoC también ha desaparecido. Con Lakefield, que combina Core y Atom, podría utilizarse de nuevo en Tablets para 2019/2020, pero lo veremos en Notebooks con el Surface Pro Neo y en mercados de networking/embedded como Snow Ridge.

Cabe señalar que a medida que Intel amplió el alcance de su microarquitectura Core, de 1,5 W por núcleo a más de 20 W por núcleo, ha convertido a Atom en un tipo de producto más especializado. Atom todavía tenía esa ventaja de super-baja potencia, con un área de troquelado mucho más pequeña, pero también ha tenido un rendimiento súper bajo con una función de paso cuantificable por debajo de lo que Core puede proporcionar. Con Tremont, el objetivo principal de Intel era llevar el rendimiento de rosca única del diseño de Atom en paridad a Core en el extremo inferior del rendimiento, con una superposición considerable entre el rendimiento de un diseño de núcleo único y el de un diseño de átomo único. Intel publicó este gráfico para demostrar cómo se ve esto en el silicio temprano:

Ahora, las plataformas Atom de Intel no han tenido la mejor prensa en los últimos años. Además de proporcionar unos portátiles realmente bonitos con una gama de 200 dólares en el lado del consumidor, el lado de la empresa ha estado lidiando con un problema de degradación del reloj que, en última instancia, hace que los sistemas Atom construidos con procesadores C2000 no puedan arrancar, lo que fue una mala noticia para los sistemas Atom integrados, diseñados para funcionar durante 10-20 años. Intel ha corregido desde entonces ese error con una actualización de silicio, pero el objetivo de ese silicio era que no se tocara durante una generación.

Con eso aparte, Intel está buscando revivir su fortuna en Atom con el nuevo diseño de Tremont, y está deseando que llegue Gracemont y más allá. Un mayor rendimiento, el cruce con Core, y con hardware construido sobre el último proceso 10+ de Intel, debería ofrecer una serie de oportunidades. Hasta que tengamos en nuestras manos el hardware, vamos a examinar el diseño.

Metas de diseño para Tremont La peculiaridad del diseño de CPU es que para los ingenieros que han estado incrustados en este espacio durante 20 años, cuando se les enseñó sobre el diseño de procesadores, el enfoque principal era el rendimiento. Se prestó poca atención al poder. Avanzar rápidamente hasta el día de hoy, y la potencia es el punto del que se habla a menudo cuando se trata de dispositivos alimentados por batería, y aprender a diseñar tanto para el rendimiento como para la potencia se convierte en un intenso acto de equilibrio para todos los ingenieros implicados. Hemos hablado con compañías que sólo permiten mejoras en el rendimiento si el aumento de potencia es como mucho igual en porcentaje, o quizás una relación 2:1 de rendimiento/potencia. Es un pastel difícil de hornear. Lo interesante de nuestra reunión informativa con Intel es que afirmaron específicamente que Tremont se construyó teniendo en cuenta el rendimiento, y el objetivo era lograr un aumento considerable en la producción bruta de reloj a reloj en comparación con la generación anterior de Atom, Goldmont Plus. Basado en las propias métricas de Intel, es decir, el uso de SPEC, Intel va a reclamar un aumento promedio del 30% en el rendimiento de isofrecuencia en el rendimiento básico de Tremont sobre Goldmont Plus.

Vale la pena señalar aquí que estos datos son de un diseño temprano de Tremont que se nos dijo, y deberían representar un mínimo de levantamiento. El gráfico está algo sesgado en el extremo superior, con tres de las pruebas SPEC obteniendo un aumento del 65%+, y en el momento de la discusión, Intel no tenía que hacer exactamente las pruebas que eran (probablemente libquantum, lbm). No nos dijeron cómo se compiló el código, sin embargo, Intel declaró que los mismos binarios compilados se usaban tanto en Tremont como en Goldmont Plus. Intel no indicó si en realidad están ajustando el reloj de cada núcleo para que coincida con el de los demás, ni si están haciendo un análisis del desempeño por reloj utilizando la frecuencia como factor de división. Estos resultados deben tomarse al pie de la letra.

Un salto medio del 30% en rendimiento es un salto considerable para cualquier cadencia de generación a generación. Tomarlo como está se siente prematuro: aparte de los avances microarquitectónicos y un salto a 10nm, tiene que haber algo en juego aquí - ya sea el presupuesto de energía de Atom se ha disparado, o el área de la matriz. Con Intel explícitamente fuera de la puerta diciendo que su enfoque en el rendimiento, un cínico va a sugerir que algo más ha pagado ese precio, y con ese fin Intel no estaba preparado para hablar de ventanas de energía o área de morir, aunque señalaron a la ya anunciada CPU de Lakefield, que tiene un 1 x núcleo + 4 x Tremont diseño y se compara con las CPUs de 7 W.

Comparar 14nm Goldmont Plus (que es 14nm estándar, no 14+ o 14+++) con un núcleo de Tremont 10+ va a ser difícil: el núcleo de Tremont tiene más para impulsar ese rendimiento, sin embargo, lo que no se sabe es cuánto espacio se ahorró al pasar de 14nm a 10+ y si las piezas adicionales hacen que el núcleo sea más grande o más pequeño en general. No hace falta decir que Tremont tiene más para impulsar ese rendimiento, que trataremos en las próximas páginas.

Tremont: Una interfaz más amplia y cachés Para los usuarios que han seguido nuestro análisis de la microarquitectura Core, ha sido difícil no darse cuenta de que el diseño de Intel para esa familia ha sido, entre otras cosas, ir cada vez más lejos. Esto significa más instrucciones en vuelo, cachés más grandes, buffers más grandes, TLBs más grandes, más puertos de ejecución y soporte para más instrucciones. Ampliar no es la única cosa: la microarquitectura también tiene que ser inteligente, tratando de maximizar la utilización, ya que ampliarla no hace nada por un simple flujo de comandos.

Con Atom, ir más allá es una parte clave del diseño de Tremont, pero Intel ha dado un par de pasos fundamentalmente diferentes para gestionar exactamente lo que está sucediendo.

Un levantamiento de llaves: Obtener y predecir Otro gran salto para la microarquitectura Atom son los prefetchers y los predictores de ramas. Intel afirma que en lugar de iterar el diseño de Goldmont Plus, han transplantado una gran parte de los prefabricadores y predictores de ramas del diseño Core en Sunny Cove. El diseño no es idéntico según Intel, debido al área de la matriz y la potencia, pero Intel afirma que los principios son similares y los elementos como las tablas de predicción de la historia de la rama son "del mismo orden" que el diseño del núcleo.

Intel afirma que no hay penalización para una predicción L1, y que la penalización de la predicción L2 es menor que la de las generaciones anteriores.

Un diferenciador clave: Decodificar motores A primera vista, tenemos un motor de decodificación de 6 anchos con un motor de asignación/despacho de 4 anchos. Esto es, sobre el papel, muy extraño: normalmente esperaríamos que la decodificación y el envío sean iguales en anchura, o al menos ser capaces de despachar más de lo que se puede decodificar para asegurar que el buffer de reordenación no se desborde. Con la última microarquitectura Core, llamada Sunny Cove, tenemos una decodificación de 4 a 6 de ancho que también soporta una caché microop, que conduce a un gran buffer de reordenación y un envío de 10 de ancho al back-end. Tremont, por el contrario, tiene la proporción opuesta. Decir que se trata de un motor de decodificación de 6 anchos es en realidad un poco incorrecto. Lo que Intel ha hecho aquí es dividir la decodificación en dos motores de 3 anchos.

Cada motor de decodificación, cuando se trata de diferentes predicciones de ramas, puede tomar un flujo de instrucciones separado. Esto permite una utilización media más alta en ambos motores de decodificación de 3 anchos en comparación con un solo motor de 6 anchos, pero cuando una rama no está presente significa que uno de los motores de decodificación puede tener una compuerta de reloj para ahorrar energía. Para un solo flujo de instrucciones, el diseño de Tremont es en realidad sólo 3 decodificación de ancho, con un envío de 4 de ancho. (Técnicamente, Intel afirma que, a través del microcódigo, pueden cambiar los motores de decodificación para que actúen como una implementación única de 6 en lugar de motores duales de 3 en 3). Esto no será configurable para el OEM, pero basado en la demanda Intel puede hacer productos específicos para los clientes que lo soliciten.) Así que sólo para aclarar, Tremont no tiene un caché de micro-op. Al hablar con Intel sobre los beneficios de este diseño de motor de doble decodificación en comparación con tener una caché de microondas, Intel afirmó que una caché de microondas puede ayudar a utilizar mejor un diseño de decodificación amplia, pero con un tamaño de decodificación por motor más pequeño, fueron capaces de ver un aumento del rendimiento, así como de salvar el área de la matriz mediante el uso de este diseño de motor dual. Intel se negó a comentar cuál era mejor, pero nos dijeron que dado el tamaño de la matriz, la envoltura de potencia de Atom y el flujo de instrucciones típico de un núcleo de Atom, este diseño proporcionaba la mejor combinación de rendimiento, potencia y área. Otra mejora para Intel después de los motores de decodificación es el buffer de reordenación. Intel afirma que puede soportar 208 instrucciones, en comparación con 78 en Goldmont y 95 en Goldmont Plus, lo que supone un aumento considerable. Intel no especificó si Tremont tiene la capacidad de fusionar instrucciones en micro-ops para el ROB (Goldmont no lo hizo), sin embargo hay una paridad cercana a 1:1 de instrucciones para micro-ops que nos dijeron. Cachés Intel también ha aumentado el tamaño de su caché de datos L1. La caché de instrucciones L1 dice que es de 32 KiB/core con asociatividad de 8 vías, pero desde la era de los 22nm, Intel ha mantenido una caché de datos L1 de 24 KiB/core en su diseño Atom. Con Tremont, tanto el L1-I como el L1-D son ahora un diseño de 32 KiB/core con asociatividad de 8 vías. Intel afirma que su caché de datos L1 tiene aquí una latencia de 3 ciclos, en comparación con Skylake, que tiene una latencia de 32 KiB L1D con una latencia de 4 ciclos, o Sunny Cove, que tiene una latencia de 48 KiB L1D con una latencia de 5 ciclos. Intel Caches

Tremont Goldmont+ Goldmont Sunny Cove Skylake

Process 10+ 14 14 10+ 14++

Decode 2x3-wide 3-wide 3-wide 4-6 wide 4-5 wide

Allocate 4-wide 4-wide 3-wide 10-wide 8-wide

L1 Instruction 32 KiB/Core 32 KiB/Core 32 KiB/Core 32 KiB/Core 32 KiB/Core 8-way 8-way 8-way 8-way 8-way

L1 Data 32 KiB/Core 24 KiB/Core 24 KiB/Core 48 KiB/Core 32 KiB/Core 8-way 6-way 6-way 12-way 8-way

L1 Latency 3-cycle 3-cycle 3-cycle 5-cycle 4-cycle

L2 Cache 1.5-4.5 MiB 1.0 MiB 0.5-1.0 MiB 512 KiB 256 KiB Per Module Per Core Per Core Per Core Per Core 12-18 way 16-way 16-way 8-way 4-way

L2 Latency 17-cycle 19-cycle 17-cycle 13-cycle 12 cycle

Para la caché L2, para la mayoría de los núcleos de Atom en el pasado, ésta ha sido esencialmente una caché de último nivel dividida entre todos los núcleos de un `módulo'. Dependiendo de la generación dependerá del tamaño del módulo: para Silvermont de 22nm, vimos una caché L2 de 512 KiB/core, que fue incrementada con Goldmont hasta 1.0 MB/core. Con Tremont, Intel ha especificado que L2 variará dependiendo del producto, de 1.5 MiB a 4.5 MiB por módulo. Un módulo para Tremont puede tener hasta cuatro núcleos, por lo que podemos ver diseños con un solo núcleo con 4.5 MiB de caché L2, o un diseño de cuatro núcleos con 1.5 MiB de L2. Dentro de un módulo, todos los núcleos tienen acceso a la caché, sin embargo, un núcleo no tendrá acceso a la L2 en un módulo diferente. El L2 puede configurarse mediante microcódigo como una caché inclusiva o no inclusiva.

Intel afirma que la caché L2 tiene una latencia promedio de 17 ciclos, y la asociatividad será una función del tamaño: 1,5 MB será un diseño de 12 vías, mientras que 4,5 MB será un diseño de 18 vías. (Por lo tanto, asumimos que una L2 de 3.0 MB será de 15 vías.)

Tremont también añade soporte para una caché global L3 en todos los módulos. Tanto la caché L2 como la L3 admiten acuerdos de QoS, lo que permite la priorización de datos y la aplicación de ancho de banda de memoria para subprocesos específicos o máquinas virtuales. Esta es una tecnología que Intel introdujo con Broadwell para ayudar a evitar los entornos "ruidosos vecinos" en los centros de datos.

Un Back End más amplio Más allá de la cola de micro-op, Tremont tiene 8 puertos de ejecución, llenados desde 7 estaciones de reservación. Los dos únicos puertos que utilizan una estación de reserva combinada son las unidades generadoras de direcciones (AGU), lo que contrasta con el diseño Core, que en Sunny Cove utiliza una reserva unificada para todos los cálculos enteros y de coma flotante y tres para las AGU. La razón por la que Tremont utiliza una estación de reserva unificada para las dos AGU, también respaldada por memoria adicional para los microoperadores en cola, es para suministrar a ambas AGU con 2 tiendas de 16 bytes, 2 cargas de 16 bytes o una de cada una. Intel espera claramente que las AGU de Tremont sean bastante activas en comparación con otros puertos de ejecución.

En el lado entero, aparte de las dos AGUs, Tremont tiene 3 ALUs, un puerto de salto, y un puerto de datos de almacenamiento. Cada ALU soporta diferentes funciones, con una función de turno y otra de multiplicación y división. En comparación con el núcleo, estas ALU son extremadamente ligeras, e Intel no ha entrado en detalles aquí.

En el lado de punto flotante, somos un poco más variados - los tres puertos están divididos entre dos ALUs y un puerto de tienda. Las dos ALUs tienen una centrada en las adiciones fusionadas (FADD), mientras que la otra se centra en la multiplicación y división fusionada (FMUL). Ambas ALUs soportan instrucciones SIMD y AES de 128 bits con una latencia de 4 ciclos, así como una sola instrucción SHA256 a 4 ciclos. No hay soporte para vectores de 256 bits aquí. Con el fin de ayudar con ciertos cálculos, se incluye el apoyo de la instrucción GFNI. También hay un TLB L2 más grande de 1024 entradas, que soporta 1024 entradas de 4K, 32 entradas de 2M, u 8 entradas de 1G. Esta es una actualización de la L2 TLB de 512 entradas en Goldmont.

Nuevas instrucciones Como con cualquier generación, Intel añade nuevas instrucciones soportadas para acelerar los cálculos comunes que tradicionalmente requerirían muchas instrucciones o para añadir nuevas funcionalidades. Tremont no es diferente. TITLE

AnandTech Tremont Goldmont Goldmont Airmont Silvermont Plus

Process 10+ 14 14 14 22

Release 2019 2017 2016 2015 2013 Year

CLWB SGX1 RDSEED SSE4.1 New GFNI UMIP SMAP SSE4.2 Instructions ENCLV PTWRITE MPX MOVBE CLDEMOTE RDPID XSAVEC CRC32 MOVDIR* XSAVES POPCNT TPAUSE CLFLUSHOPT CLMUL UMONITOR SHA AES UWAIT RDRAND PREFETCHW

Más allá de lo esencial Nominalmente, la divulgación actual es más sobre la microarquitectura de Tremont que sobre cualquier SoC en el que pueda aparecer, como Lakefield o Snow Ridge. Para ello, Intel no se refería a la compatibilidad con la GPU (Lakefield tendrá gráficos Gen11), pero sí discutió que Tremont sería el primer diseño de Atom en ser totalmente compatible con las banderas de hardware Speed Shift / ACPI de Intel, lo que permitiría un aumento y una reducción de la velocidad de aceleración de las operaciones de alta frecuencia.

Intel también declaró que Tremont es compatible con el cifrado total de memoria para evitar ataques físicos, Rooted Secure Boot y Boot Guard, e instrucciones específicas para la interfaz con aceleradores. Con respecto a Spectre, Meltdown y L1TF, Intel declaró que Tremont tendrá las mismas protecciones que Cascade Lake.

También le preguntamos a Intel sobre el voltaje a nivel de módulo y el control de energía. Nos dijeron que dentro de un módulo de cuatro núcleos con cuatro núcleos Tremont, todos los núcleos comparten el mismo plano de frecuencia, pero cada núcleo puede entrar en estados c separados para reducir el consumo de energía cuando no está en uso.

Reflexiones finales y diapositivas En el pasado, al menos desde mi punto de vista, tratar con las plataformas Atom ha sido divertido. Los dispositivos Atom suelen funcionar muy bien con software hiperenfocado y optimizado que puede aprovechar una carga de trabajo insensible a la latencia, como un equipo de red o un NAS, pero para cualquier uso general los encuentro increíblemente lentos. Quizás estoy demasiado acostumbrado a los grandes núcleos de los dispositivos que utilizo, pero con Intel diciendo que Atom está siendo reorientado hacia el rendimiento, será interesante ver cómo se superponen los dispositivos Tremont y otros dispositivos Core. Este gráfico de Intel es muy llamativo, y si lo entrecierras, se parece mucho a algunos de los gráficos de potencia/rendimiento de los teléfonos inteligentes que hemos producido en el pasado.

Con Intel moviendo el núcleo hacia abajo en potencia al nivel de 1.5W, de nuevo será interesante ver cómo Tremont puede jugar en ese rango de 2mW a 2W en el que Atom ha jugado tradicionalmente. La última generación de dispositivos Goldmont Plus iba más allá, y en este rango de potencia también están entrando en juego los núcleos de los teléfonos inteligentes. Después de mostrarle el juego de diapositivas a Andrei, estábamos discutiendo cómo un Tremont podría apilarse contra un Arm Cortex A76, o un núcleo Kryo. Cuando tengamos a Tremont en nuestras manos, veremos cómo se comparan. Sin embargo, cuando se trata de los productos a los que Tremont aspira, sigue teniendo esa ventaja de x86.

Hicimos algunas preguntas de Intel a las que no obtuvimos respuestas, como el tamaño del troquel y las frecuencias objetivo. La otra cuestión que hay que discutir son los problemas actuales de alta demanda de Intel que presionan a sus tecnologías de fabricación. Tremont sigue siendo un núcleo de bajo coste y baja potencia, por lo que la lógica puede dictar que pasará un tiempo antes de que veamos que los chips de consumo entran en el mercado. En última instancia, los problemas de alta demanda de Intel se sitúan en torno a los 14 nm, y hasta ahora sólo hemos visto a Tremont hablar sobre el proceso 10+ de Intel con Lakefield y Snow Ridge. Lo que sabemos sobre la capacidad de 10nm/10+ de Intel no es mucho, pero los informes varían desde los rendimientos "en camino" hasta "trabajando sólo con socios OEM clave". El driver de Intel para 10+ ahora mismo es Ice Lake, que está llegando a algunos diseños de portátiles premium este año, y Lakefield ha sido anunciado para el Surface Neo. No se sabe cuál será el volumen esperado para el Neo, pero es poco probable que sea grande. Si Tremont verá la luz del día en los procesadores tradicionales Atom y es otra cuestión totalmente distinta: las familias Goldmont Atom han sufrido, mientras que los esfuerzos de Intel en 14nm se centran más en el hardware empresarial que puede venderse por un precio mucho más alto de $$ por milímetro cuadrado. Más allá de Lakefield, es posible que no veamos a Tremont en ningún otro chip de consumo antes de la próxima generación de Atom si Intel no puede resolver sus problemas. Diapositivas Tremont de Intel