Trend Trend of Technology หนึ่งในความท้าทายที่ส าคัญที่สุดขอ
Total Page:16
File Type:pdf, Size:1020Kb
Trend Trend of Technology หนึ่งในความท้าทายที่ส าคัญที่สุดของ AMD ได้ประสบกับTrinity,มือถือ รุ่นต่อไปของ APU จะสร้างความมั่นใจว่าชิปอยู่ในต าแหน่งที่ถูกต้องเพื่อประโยชน์จากความส าเร็จของ Llano ตอนนี้ข้อมูลใหม่จาก Cyclos เซมิคอนดักเตอร์ได้เป็นส่วนหนึ่งของกลยุทธ์ของ บริษัท ส าหรับการท าธุรกิจ Trinityได้รับการออกแบบการใช้เทคโนโลยีเครือข่าย Cyclos 'timeซึ่งมีรายงานว่าช่วยประหยัดพลังงานได้อย่างมีนัยส าคัญ ไมโครโปรเซสเซอร์ทงั้ หมดพงึ่ พาส ญาณนาฬกิ าซงึ่ จะต้องแพร่กระจายทวั่ พืน้ ผิวของชิป เพราะมนั จะควบคมุ การท างานของไมโครโปรเซสเซอร์ทงั้ สญั ญาณนาฬกิ าจะต้องหลีกเลี่ยง Jitter (เวลาที่ไมส่ อดคล้องกนั ระหว่างสองสญั ญาณนาฬกิ า) และSkew (พลั ส์นาฬกิ าที่มาถึงพืน้ ที่ที่แตกตา่ งจากชิปเวลาที่ตา่ งกนั ) ไมโครโปรเซสเซอร์ระดบั ไฮเอนด์มกั จะใช้สิ่งที่เรียกวา่ เครือขา่ ยนาฬกิ า วิธีนีจ้ ะชว่ ยลดSkew แตใ่ ช้พลงั งานอย่างมีนยั ส าคญั มากกวา่ ต้นไม้นาฬกิ า ประมาณการเกี่ยวกบั วิธีการมากจากการใช้พลงั งานของซีพียเู ป็นโครงการอนั เนื่องมาจากนาฬกิ าของตนแ ตกต่างกัน แต่ทุกคนยอมรับว่าตัวเลขเป็นส าคัญ นั่นคือที่มา บริษัท มีการใช้วงจรตลับ (หรือเรียกว่า LC วงจร) ในการเก็บพลังงานไฟฟ้า ผ่านจากตัวเก็บประจุที่จะเหนี่ยวน าสร้างสนามแม่เหล็ก เมื่อค่าตัวเก็บประจุเป็นศูนย์การไหลของกระแสย้อนกลับ - เปลี่ยนไฟจากตัวเหนี่ยวน าให้ตัวเก็บประจุและสนามแม่เหล็กกระจาย กระบวนการนี้จะคล้ายคลึงกับการเคลื่อนไหวของลูกตุ้มหรือ sloshing ของน ้าในถังซึ่งเป็นที่มาของชื่อ "วงจรตลับ" นี่คือกุญแจส าคัญ: ใช้เวลาอย่างมีนัยส าคัญน้อยกว่าการจ่ายพลังงานที่จะท าให้ลูกตุ้มแกว่งไปเริ่มต้นจากต าแหน่งที่เป็นศูนย์ก ลางวงจรแต่ละรอบ การออกแบบ Cyclos 'ส่งผลให้ตัดการจ่ายพลังงานได้ถึง 24% ขณะที่ยงั คงเป้ าหมายนาฬกิ าSkewต ่าที่จ าเป็นโดยการประมวลผลประสิทธิภาพสูง." Cyclos อ้างว่าใช้เทคโนโลยีที่สามารถตัดการจ่ายพลังงาน IC โดยรวมได้ถึง 10% การใช้เครือข่ายจังหวะส าหรับ Trinity / สว่านกระสุนไม่ใช่เวทมนตร์ แต่การปรับปรุงร่อแร่ที่จะชว่ ยให้เอเอ็มดีถึงการจา่ ยพลงั งานและเป้ าหมายของความเร็วสญั ญาณนาฬกิ า อดีตมีความส าคัญมากกว่าภายหลัง - ข้างต้นผลักดัน 4GHz ไม่มีจุดหมายหาก บริษัท ไม่สามารถให้การใช้พลังงานในระดับที่ตรงกับของ Intel ที่มา http://www.extremetech.com/computing/119507-amd-to-use-resonant-clock-mesh- to-push-trinity-above-4ghz Intel จะผลิต 22nm processor ขาย Intel ได้ประกาศเปิดขาย 22nm FinFET process ซึ่งดีที่สุดในระดับเดียวกันโดยไม่ประทับตรา Intel ให้กับบริษัทอื่น ในขณะนี้ Intel ได้ผันตัวเองเป็นผู้ผลิต เช่นเดียวกับ TSMC, GlobalFoundries, IBM และ Samsung อย่าคาดหวังว่าในอนาคต chip ของ AMD, Nvidia หรือ Qualcomm จะถูกผลิตโดย Intel แม้ว่าพันธมิตรที่ Intel ประกาศ คือ Achronix และ Tabula เท่านั้น ซึ่งทั้ง 2 เป็นผู้พัฒนา FPGA โดย FPGA ไม่มีผลคุกคามต่อ Intel หนึ่งในกระบวนการผลิต chip คือ ใช้ตัวนับขนาดเล็กหาความเป็นไปได้ทั้งหมดเพื่อรีดเอา bug ในการผลิตออกไป แต่ยังมีสิ่งอื่นที่ท าให้มีผลคุกคาม TSMC มีประสบการณ์ในการท าสัญญาการผลิต และมีกระบวนการท างานที่มีมาตรฐาน Intel ห่างจากการบริการในลักษณะนี้มาเป็นปี จึงเป็นเหตุผลที่ Intel ไม่น่าจะก้าวเข้าสู่ธุรกิจในสายการผลิต ต่างจาก Samsung ซึ่งก้าวเข้าสู่ธุรกิจในสายการผลิตมาไม่กีปีก่อนหน้านี้ และมีผลิตภัณฑ์ที่เป็นที่จดจ าคือ การผลิต chip A4 และ A5 ของ Apple Intel ไม่มีความจ าเป็นต้องเพิ่มรายหรือใช้ประโยชน์จากการผลิต ในขณะที่ Samsung ต้องลดต้นทุนในธุรกิจผลิต semiconductor Intel มีผลก าไรเป็นอย่างมากเนื่องจากเป็นผู้น าในอุตสาหกรรมนี้ ในกรณีนี้ การแข่งขันจึงเป็นความคิดที่ไม่ดี แผนงานของ Intel คือต้องการให้ผลิตภัณฑ์ที่ผลิตจาก Qualcomm หรือ Taxas Instruments ซึ่งเป็นผู้ผลิตเช่นเดียวกับ TMSC ท าได้ดียิ่งขึ้น. Intel อยู่ในสถานะที่สามารถเลือกเทคโนโลยีที่จะผลิตออกมาซึ่งมันต้องการ license และบูรณาการเข้ากับ chip ต่างๆได้. ถ้าเทคโนโลยีใหม่ๆที่ออกมาประสบความส าเร็จเมากพอ, Intel ก็จะสามารถซื้อบริษัทเหล่านั้นได้ อีกทางเลือกหนึ่งที่ Intel จะท าเพื่อเพิ่มประสิทธิภาพของ smartphone-and tablet-oriented medfiled platform ก าลังจะเกิดขึ้น. การบูรณาการที่เพิ่มขึ้น ยังคงขึ้นอยู่กับ chip ของ partner อีก 2 ชนิด คือ power management IC และ radio chip. สมมุติว่าถ้า partner ของ Intel เช่น Qualcomm หรือ Broadcom สามารถที่จะผลิต radio chip แบบ 22nm LTE/HSPA+/CDMA ส าหรับ Medfield-power Motorola smartphone ได้ Intel ก็จะมี mobile platform ที่ถูกที่สุดและมี radio chip ที่มีประสิทธิภาพที่สุดในท้องตลาด. ที่มา http://www.extremetech.com/computing/119435-intel-becomes-a-foundry-offers-up- its-22nm-process Trend of Research 1. BOBCAT : AMD’s Low-Power x86 Processor Bobcat เป็น Core Processor ของ AMD ที่ออกแบบมาเพื่อรองรับตลาดความต้องการการใช้ Processor ที่ใช้พลังงานต ่า, โทรศัพท์เคลื่อนที่, และการสิ้นสุดลงของ Desktop x86 โดย Core Processor นี้ต้องใช้เทคโนโลยีใจปัจจุบันมีหลายๆ ส่วน เพื่อให้เกิดความสมดุลกันของ ประสิทธิภาพ, ขนาด และปริมาณการใช้พลังงาน Bobcat รองรับ 64-bit AMD64 ISA, SIMD extensions แบบต่างๆ และ Full virtual machine implementation Bobcat เป็นจุดเด่นของ Processor AMD ตระกูล Fusion และมีแผนงานควบคู่ไปกับการประมวลผลแบบคู่ขนานซึ่งสามารถที่จะปรับแต่งความเร็วในการประมวลผล ได้ Bobcat เป็น x86 Core Processor ที่ใช้พลังงานต ่ารุ่นล่าสุดของ AMD, ถูกออกแบบมาเพื่อตอบสนองความต้องการของ netbook, ความบางและเบา, รูปแบบที่มีขนาดเล็ก, และตลาด PC ต้นทุนต ่า Bobcat มีวัตถุประสงค์เพื่อลดขนาดและความต้องการใช้พลังงานในขณะที่ให้ประสิทธิภาพที่ดีเยี่ยม ยกเว้น Custom memory arrays ที่ Processor จะสังเคราะห์อย่างเต็มที่ ท าให้สามารถเชื่อมต่อได้อย่างรวดเร็วและมีประสิทธิภาพในเทคโนโลยีการประมวลผลที่แตกต่างกัน พลังงาน, ขนาดพื้นที่ และประสิทธิภาพ อุปกรณ์ที่มีประสิทธิภาพสูงและมีขนาดเล็กหรือใช้พลังงานต ่า มักจะได้รับการพิจารณาเป็นด้านตรงข้ามของปลายสเปกตรัมของการออกแบบ การหาความสมดุลจึงเป็นสิ่งท้าทาย แต่คุณสมบัติพื้นฐานหลายอย่างช่วยให้ Bobcat สามารถบรรลุเป้าหมายได้ Microarchitecture ได้รับการพัฒนาเกี่ยวกับประสิทธิภาพในเชิงซ้อนของ micro-operations (COPs) COP เดียวสามารถอ่านจากหน่วยความจ า, ค านวณตรรกะทางคณิตศาสตร์ (ALU) ประมวลผลทางด้านข้อมูล, และเขียนผลลงในหน่วยความจ า COPs ท าให้ผู้ออกแบบสร้างอุปกรณ์ที่เป็น two-instruction-wide decode/rename/retire ลดการใช้พลังงานและพื้นที่ลงอย่างมีนัยส าคัญ, และได้รับประสิทธิภาพที่ยอดเยี่ยมไปพร้อมๆ กัน การ Fetch instruction ของ Bobcat สามารถท าได้ 32 bytes ต่อการ fetch 1 ครั้ง ท านายได้ว่าสามารถมีได้มากสุด 2 ชุดต่อ 1 รอบ, และการรวมเอาความถูกต้องสูงในการท านาย นักออกแบบจึงใช้ส่วนที่เหลือของอุปกรณ์มาใช้ในการท างาน, จึงลดการสูญเสียประสิทธิภาพการท างานและการสิ้นเปลืองพลังงาน การท างานของอุปกรณ์ รองรับการท างานแบบ out-of-order (OoO), รวมทั้งความสามารถในการเรียกและจัดเก็บ out of order ท าให้สารถเพิ่มประสิทธิภาพในการท างานของอุปกรณ์ AMD ได้ใช้เทคนิค microarchitecture และอื่นๆอีกมากมายในการออกแบบเพื่อให้ประหยัดพลังงานและส่งผลกระทบต่อประสิทธิภาพน้อยที่สุด ตัวอย่างเช่นในการออกแบบคิวและการลงทะเบียนไฟล์ จะมีตัวชี้ตามเพื่อลดความจ าเป็นของการคัดลอกข้อมูลหรือการเคลื่อนไหวของข้อมูล ( เปรียบเทียบกับการขยับคิวหรือโครงสร้างของไฟล์ ) ระมัดระวังว่าประสิทธิภาพในการด าเนินงานเกี่ยวข้องกับการใช้พลังงาน Bobcat ใช้ขนาดพื้นที่ประมาณ 1/3 ของสถาปัตยกรรม K8 ถ้าน ามาใช้ในกระบวนการเดียวกัน Feature set แม้ว่า Bobcat จะมีขนาดเล็กและใช้พลังงานอย่างมีประสิทธิภาพ, และสนับสนุนสถาปัตยกรรมขั้นสูงและการก าหนดคุณลักษณะ เช่น สถาปัตยกรรม 32-bit / 64-bit x86 AMD64 การขยายการส่ง SIMD ประกอบด้วย SSE1, SSE2 และ SSE3 และ เสริมการขยายการส่ง SIMD 3 ( SSSE3 ) SSE4A และ 128-bit แบบไม่เรียงข้อมูลเปิดตัวใน AMD Barcelona AMD-V เพิ่มความปลอดภัยแบบเสมือน, รวมทั้งการจัดท าดัชนีเสมือนเพื่อเพิ่มอัตราเร่งในการเดินทางของข้อมูล การสุ่มตัวอย่างที่ใช้ส าหรับการเพิ่มประสิทธิภาพโค้ดแบบไดนามิค คุณลักษณะพลังงานของ C6, โดยขั้นตอนที่ processor บันทึกข้อมูลลงในหน่วยความจ าและหน่วยประมวลผลลดการใช้พลังงานลงโดยไม่ต้องมีการสั่งการจากระ บบปฏิบัติการ ค าสั่งและลักษณะเด่นก าหนดให้ซอฟต์แวร์สามารถเข้ากันได้กับ Barcelona processor Bobcat microarchitrcture Bobcat เป็น processor ที่เป็น OoO, dual-decode, dual-issue, dual-retire รวมถึงการท านายขึ้นสูง, หน่วยปฏิบัติการ 64-bit 2 หน่วย, หน่วยสร้างต าแหน่ง 64-bit 2 หน่วย, 64-bit pipelined floating-point 2 หน่วย และการเรียกข้อมูลและบันทึกข้อมูล OoO แบบเต็มที่ มี Cache ค าสั่ง 32-Kbyte, Cache ข้อมูล 32-Kbyte และ Cache เลเวล 2 ( L2 ) 512-Kbyte ในรูปที่ 1 แสดงให้เห็นถึง microarchitecture ระดับสูงของ Bobcat Fetch unit หน่วยเรียกข้อมูลของ Bobcat ประกอบด้วยค าสั่งตรรกะการเรียกข้อมูล, ค าสั่ง cache, ค าสั่งแปล buffer (ITLB), ขั้นตอนการท านายตรรกะ, และขั้นตอนตรรกะต าแหน่ง ส าหรับประสิทธิภาพสูงสุดและการใช้พลังงานของหน่วยเรียกข้อมูลอาศัยการท านายที่แม่นย าสูงเพื่อให้ Bobcat สามารถท างานได้อย่างมีประสิทธิภาพ Instruction fetch ในการเรียกข้อมูลครั้งถัดไปของหน่วยเรียกข้อมูลของ Bobcat จะเลือกเรียกต าแหน่งที่อยู่จากส่วนแก้ไขต าแหน่งที่อยู่, ส่วนท านายต าแหน่งที่อยู่, ต าแหน่งที่อยู่หมุนเวียน และต าแหน่งที่อยู่เรียงล าดับ การเรียกต าแหน่งที่อยู่จะเข้าไปที่ cache แบบ 32-Kbyte two-way set- associative instruction cache ITLB และ instruction cache มีการเข้าถึงแบบขนาน ITLB มีการแปลต าแหน่งที่อยู่ส าหรับ 2-Mbyte 8 หน้า และได้ถึง 4-Kbyte 512 หน้า เพื่อประหยัดพลังงาน Bobcat พยายามเข้าถึง ITLB เฉพาะเมื่อการเรียกเกิดขึ้นไป 4-Kbyte หน้าที่แตกต่างจากก่อนหน้านี้ การเรียกหรือการแปลอาจจะมีการเปลี่ยนแปลงตั้งแต่การเข้าถึงก่อนหน้านี้ ทั้ง L1 instruction cache และ ITLB มีการป้องกันที่เหมือนกันเพื่อเพิ่มความน่าเชื่อถือ Branch prediction การท านายรวมถึงต าแหน่ง, การท านายทิศทาง, และการท านายต าแหน่งที่อยู่ เนื่องจากชุดค าสั่งของ x86 มีความยาวของชุดค าสั่งที่หลากหลาย ความท้าทายในการท านายคือการระบุต าแหน่งที่อยู่ได้อย่างรวดเร็ว การท านายตรรกะการเก็บข้อมูลของ Bobcat จะเกี่ยวข้องกับการท านาย array Cache lines ส่วนใหญ่จะมีเพียงไม่กี่แขนง แต่บาง line จะมีเยอะ เพื่อที่จะควบคุมทั้ง 2 กรณีได้อย่างมีประสิทธิภาพ Bobcat จะใส่ข้อมูลของทั้ง 2 กรณีลงใน array ต าแหน่งที่มีเครื่องหมาย sparse ของ cache line ใน array นี้มีการจัดท าดัชนีในลักษณะเดียวกันกับ instruction cache และได้รับการพิจารณาขยายตรรกะของ instruction cache ข้อมูลเกี่ยวกับแขนงเพิ่มเจิมที่ค้นพบใน cache line จะถูกเก็ยไว้ในแขนง array ที่มี marker ซึ่งสามารถเก็บข้อมูลได้ 8 bytes 2 branch ใน sparse marker array จะถูกคาดการณ์ในแบบขนาน และในหนึ่งรอบของการ fetch bubble จะถูกแทรกส าหรับคาดการณ์ taken branch sparse array ประกอบด้วยข้อมูลที่มี