Conjunto De Instruções Multimídia

Conjunto de Instruções Multimídia Jonathas Campi Costa Instituto de Computação Universidade Estadual de Campinas - Unicamp Campinas, Brasil RA: 085380 [email protected] ABSTRACT Analisando mais atentamente esse conjunto de opera¸cões Apresenta-se neste artigo uma visãogeral dos diferentes con- multim´ıdia podemos classifica-la, segundo a classifica¸cãopro- juntos de instru¸cões multim´ıdia existentes no mercado de posta por Flynn [3], como pertencentes a um hardware do processadores. Sãoabordados os principais conceitos da tec- tipo SIMD, isto é, Single Instruction Multiple Data; pro- nologia por detrásdo conjunto de instru¸cões bem como seus cessadores em que uma mesma instru¸cãoéaplicada sobre principais representantes; além de análises de desempenho e diferentes fluxos de dados, empacotados (o conceito de em- abordagens de implementa¸cão. pacotamento de dados seráanalisado mais adiante). Es- sas instru¸cões permitem ao hardware a opera¸cãosimultânea General Terms de diferentes ALUs (Arithmetic Logic Unit), ou equivalen- temente, a divisãode uma grande ALU em muitas ALUs SIMD theory, MMX, SSE, 3DNow!, Altivec. menores que podem executar paralelamente [9]. 1. INTRODUÇÃO A idéia dos projetistas de hardware foi unir o melhor de Durante os anos 90 houve um grande aumento no uso da dois mundos, ou seja, unir o paralelismo existente em n´ıvel computa¸cãocomo suporte as opera¸cões multim´ıdia, isto é, de instru¸cões das máquinas tipo SISD com o paralelismo no o uso do computador na cria¸cãode informa¸cãomultim´ıdia n´ıvel dos dados, t´ıpico da máquinas SIMD. (video, imagem, som, etc.); aliado a esse fato, as worksta- tions e os computadores pessoais eram utilizados cada vez O uso de instru¸cões multim´ıdia, referenciado de agora em mais como instrumentos de cálculos avan¸cados. Analisando diante como instru¸cões SIMD também, pode ser visto como essa tendência, os principais fabricantes de processadores uma forma de aproveitamento de situa¸cões em que o par- utilizaram uma idéia jáconhecida para atender a uma nova alelismo estápresente e pode ser utilizado. Como um exem- demanda: o uso de instru¸cões vetoriais. plo do uso de instru¸cões SIMD podemos citar a coerência espacial em aplica¸cões de computa¸cãográfica [4]. A implementa¸cãode uma arquitetura vetorial completa (a presen¸ca de registradores vetoriais em todo os estágios do Em aplica¸cões de computa¸cãográfica, tipicamente aplica¸cões pipeline) sobre uma arquitetura i386, por exemplo, se pos- de rasteriza¸cão e processamento de imagem, a coerência es- s´ıvel (devido a falta de flexibilidade na execu¸cãode códigos pacial estámuito presente, isto é, a probabilidade de que o de propósito geral) ainda seria altamente complexa e cus- conjunto de pixels vizinhos a um certo pixel em questãopos- tosa, do ponto de vista operacional, logo a solu¸cãoencon- sua atributos diferentes émuito pequena [4]. Logo, quando trada pelos fabricantes de processadores foi a implementa¸cão desejamos aplicar uma instru¸cãosobre a imagem, a mesma de um subconjunto das opera¸cões tipicamente existentes em instru¸cãoseráaplicada ao mesmo conjunto de pixels com uma arquitetura puramente vetorial[9], sobre uma arquite- iguais propriedades, portanto utilizando uma única instru¸cão tura do tipo SISD [3]. Para tal conjunto de opera¸cões foi sobre o mesmo conjunto de dados. Se o conjunto de pixels dado o nome de Conjunto de Instru¸cões Multim´ıdia. E´ im- suportado pela opera¸cãoem questãofor de cardinalidade n, portante notar que existem diferen¸cas significativas entre podemos dizer que a instru¸cãoSIMD possui n unidades fun- as instru¸cões multim´ıdia e vetorial [9]; e.g. o número de cionais onde cada unidade opera sobre um pixel a mesma elementos em uma instru¸cãovetorial nãoestápresente no instru¸cão. código da opera¸cão(opcode) como nas instru¸cões multim´ı- dia, e sim em um registrador separado. Um exemplo mais comum éo uso de instru¸cões SIMD para aritmética de vetores; como um vetor pode ser decomposto por suas coordenadas, pode-se efetuar opera¸cões aritméticas como soma, subtra¸cão,etc., sobre as diferentes coordenadas dos vetores envolvidos nas opera¸cões. Por exemplo, para a soma de dois vetores: Z~ = X~ + Y~ pode ser executada diretamente sobre as coordenadas dos vetores: zi = xi + yi, onde cada soma seráefetuada por uma unidade funcional distinta mas a partir da mesma instru¸cão, i.e., a instru¸cão de soma. Figure 1: Diagrama representando a soma entre dois pixels diferentes utilizando os registradores vetori- Figure 2: Diagrama do pipeline básico de execu¸cão ais. da arquitetura P6. Figura retirada de [1]. Nos dois exemplos citados acima podemos observar clara- presen¸ca dessas unidades nas arquiteturas dos processadores mente a maior vantagem do uso das instru¸cões SIMD: a da fam´ılia P6 da Intel (Figura 2), na arquitetura do pro- diminui¸cãoda latência no acesso a memória ao ler todos os cessador Athlon da AMD (Figura 3) e na arquitetura do dados necessários uma única vez e efetuar a mesma opera¸cão processador PowerPC 970 (Figura 4), por exemplo. sobre eles[5]. Uma implementa¸cãointeressante foi a do primeiro conjunto de instru¸cões multim´ıdia da Intel, o MMX [18]. As in- 2. REGISTRADORES VETORIAIS stru¸cões MMX foram implementadas sobre a unidade de A base da arquitetura vetorial e das instru¸cões SIMD são ponto flutuante jádispon´ıvel nos primeiros membros da ar- os registradores vetoriais. Um registrador vetorial éum reg- quitetura P5, isto é, os registradores vetoriais foram im- istrador em que os dados estãoorganizados na forma de um plantados sobre os registradores de ponto flutuante logo, os vetor, isto é, os dados podem ser comparados aos valores dos registradores MMX, como veremos mais adiante, que eram escalares que compõem as coordenadas de um vetor. Assim, implementados com largura de 64-bits para trabalhar com enquanto que em arquiteturas do tipo SISD, a CPU opera dados em precisãointeira, eram representados internamente sobre escalares um a um, em uma arquitetura do tipo SIMD como números em ponto flutuante inválidos, jáque os reg- a CPU opera sobre uma linha desses escalares, todos do istradores de ponto flutuante da arquitetura P5 possuiam mesmo tipo, executando uma mesma opera¸cãosobre todos, largura de 80-bits. Isso era uma forma de diferenciar o con- como uma unidade. teúdo dos registradores também. Esses vetores sãorepresentados em um formato de dados No in´ıcio, cada fabricante de processadores criou e imple- chamado: empacotado (packed data). Por empacotado pode- mentou seu próprio conjunto de instru¸cões SIMD, como por mos entender que os dados sãoagrupados em diferentes for- exemplo os conjuntos MAX, VIS, MDMX, etc; enquanto que matos, por exemplo, para um registrador vetorial de 128- na arquitetura i386 esse conjunto de instru¸cões acabou por bits, podemos empacotar os dados como 4 inteiros de 32-bits tornar-se um padrãode mercado, o padrãoSSE; apesar de cada, ou 8 inteiros de 16-bits cada. atualmente existirem algumas varia¸cões, como veremos mais adiante. Utilizando dessa abordagem de organiza¸cãodos dados, é poss´ıvel efetuar opera¸cões sobre os dados de forma eficiente Para determinar quais seriam as melhores intru¸cões a im- (a latência no acesso aos dados édiminu´ıda, como anterior- plementar, os fabricantes de processadores selecionaram um mente exeplicado). Como abordado anteriormente, a soma conjunto de aplica¸cões multim´ıdia que melhor representava o de dois pixels pode ser efetuada em uma opera¸cãode adi¸cão que eles acreditavam ser um conjunto representativo de apli- apenas, bastando organizar os elementos do pixel (cores ver- ca¸cões multim´ıdia geral [2]. Analisando essas aplica¸cões, cri- melha, verde, azul e o canal de composi¸cão)em um reg- aram, além das instru¸cões básicas de aritmética e instru¸cões istrador vetorial. Podemos observar tal arranjo na Figura de manipula¸cãológica e de alinhamento, instru¸cões para su- 1. portar opera¸cões comuns a muitas das aplica¸cões. Essas opera¸cões variam em número e complexidade de fabricante 3. ARQUITETURA PARA INSTRUÇÕES MUL- para fabricante. TIMÍDIA Em geral, podemos dividir o conjunto de instru¸cões SIMD Em geral, a adi¸cãodas instru¸cões multim´ıdia éefetuada implementadas pelos fabricantes em quatro grandes grupos: através da altera¸cãodo estágio de execu¸cãodas arquiteturas escalares [11, 9, 5, 1], incluindo uma unidade especializada para a execu¸cãodas instru¸cões SIMD. Podemos observar a • Instru¸cões aritméticas – Podemos dividir as instru¸cões aritméticas em dois subgrupos: as de ponto flutuante e as de precisão inteira. Aqui estãoinclu´ıdas as principais oper- a¸cões aritméticas, e.g.: satura¸cão(clampf ), mó- dulo, soma, subtra¸cão,divisãoe multiplica¸cão(al- guns fabricantes implementam essas duas últimas opera¸cões apenas através de shifts para esquerda e direita, respectivamente [6]). Em ponto flutuante podemos citar também opera¸cões espec´ıficas para arredondamento e conversão.

Conjunto De Instruções Multimídia

SIMD Extensions

SIMD: Data Parallel Execution J

Effectiveness of the MAX-2 Multimedia Extensions for PA-RISC 2.0 Processors

Pengju Ren@XJTU 2021

Implications of Programmable General Purpose Processors for Compression/Encryption Applications 1. Introduction

ALEX BENNÉE KVM FORUM 2017 Created: 2017-10-20 Fri 20:46

Msc THESIS Customizing Vector Instruction Set Architectures

The X86 Is Dead. Long Live the X86!

Numerical Applications and Sub-Word Parallelism: the NAS Benchmarks on a Pentium 4

The RISC-V Instruction Set Manual Volume I: User-Level ISA Document Version 2.2

Zynq-7000 All Programmable Soc Architecture Porting Quick Start Guide

Native Signal Processing with Altivec in the Ptolemy Environment