Trend

Trend of Technology

หนึ่งในความท้าทายที่ส าคัญที่สุดของ AMD ได้ประสบกับTrinity,มือถือ รุ่นต่อไปของ APU จะสร้างความมั่นใจว่าชิปอยู่ในต าแหน่งที่ถูกต้องเพื่อประโยชน์จากความส าเร็จของ Llano ตอนนี้ข้อมูลใหม่จาก Cyclos เซมิคอนดักเตอร์ได้เป็นส่วนหนึ่งของกลยุทธ์ของ บริษัท ส าหรับการท าธุรกิจ Trinityได้รับการออกแบบการใช้เทคโนโลยีเครือข่าย Cyclos 'timeซึ่งมีรายงานว่าช่วยประหยัดพลังงานได้อย่างมีนัยส าคัญ ไมโครโปรเซสเซอร์ทงั้ หมดพงึ่ พาส ญาณนาฬกิ าซงึ่ จะต้องแพร่กระจายทวั่ พืน้ ผิวของชิป เพราะมนั จะควบคมุ การท างานของไมโครโปรเซสเซอร์ทงั้ สญั ญาณนาฬกิ าจะต้องหลีกเลี่ยง Jitter (เวลาที่ไมส่ อดคล้องกนั ระหว่างสองสญั ญาณนาฬกิ า) และSkew (พลั ส์นาฬกิ าที่มาถึงพืน้ ที่ที่แตกตา่ งจากชิปเวลาที่ตา่ งกนั ) ไมโครโปรเซสเซอร์ระดบั ไฮเอนด์มกั จะใช้สิ่งที่เรียกวา่ เครือขา่ ยนาฬกิ า วิธีนีจ้ ะชว่ ยลดSkew แตใ่ ช้พลงั งานอย่างมีนยั ส าคญั มากกวา่ ต้นไม้นาฬกิ า ประมาณการเกี่ยวกบั วิธีการมากจากการใช้พลงั งานของซีพียเู ป็นโครงการอนั เนื่องมาจากนาฬกิ าของตนแ ตกต่างกัน แต่ทุกคนยอมรับว่าตัวเลขเป็นส าคัญ

นั่นคือที่มา บริษัท มีการใช้วงจรตลับ (หรือเรียกว่า LC วงจร) ในการเก็บพลังงานไฟฟ้า ผ่านจากตัวเก็บประจุที่จะเหนี่ยวน าสร้างสนามแม่เหล็ก เมื่อค่าตัวเก็บประจุเป็นศูนย์การไหลของกระแสย้อนกลับ - เปลี่ยนไฟจากตัวเหนี่ยวน าให้ตัวเก็บประจุและสนามแม่เหล็กกระจาย กระบวนการนี้จะคล้ายคลึงกับการเคลื่อนไหวของลูกตุ้มหรือ sloshing ของน ้าในถังซึ่งเป็นที่มาของชื่อ "วงจรตลับ" นี่คือกุญแจส าคัญ: ใช้เวลาอย่างมีนัยส าคัญน้อยกว่าการจ่ายพลังงานที่จะท าให้ลูกตุ้มแกว่งไปเริ่มต้นจากต าแหน่งที่เป็นศูนย์ก ลางวงจรแต่ละรอบ การออกแบบ Cyclos 'ส่งผลให้ตัดการจ่ายพลังงานได้ถึง 24% ขณะที่ยงั คงเป้ าหมายนาฬกิ าSkewต ่าที่จ าเป็นโดยการประมวลผลประสิทธิภาพสูง." Cyclos อ้างว่าใช้เทคโนโลยีที่สามารถตัดการจ่ายพลังงาน IC โดยรวมได้ถึง 10% การใช้เครือข่ายจังหวะส าหรับ Trinity / สว่านกระสุนไม่ใช่เวทมนตร์ แต่การปรับปรุงร่อแร่ที่จะชว่ ยให้เอเอ็มดีถึงการจา่ ยพลงั งานและเป้ าหมายของความเร็วสญั ญาณนาฬกิ า อดีตมีความส าคัญมากกว่าภายหลัง - ข้างต้นผลักดัน 4GHz ไม่มีจุดหมายหาก บริษัท ไม่สามารถให้การใช้พลังงานในระดับที่ตรงกับของ Intel ที่มา http://www.extremetech.com/computing/119507-amd-to-use-resonant-clock-mesh- to-push-trinity-above-4ghz

Intel จะผลิต 22nm processor ขาย

Intel ได้ประกาศเปิดขาย 22nm FinFET process ซึ่งดีที่สุดในระดับเดียวกันโดยไม่ประทับตรา Intel ให้กับบริษัทอื่น ในขณะนี้ Intel ได้ผันตัวเองเป็นผู้ผลิต เช่นเดียวกับ TSMC, GlobalFoundries, IBM และ Samsung

อย่าคาดหวังว่าในอนาคต chip ของ AMD, Nvidia หรือ Qualcomm จะถูกผลิตโดย Intel แม้ว่าพันธมิตรที่ Intel ประกาศ คือ Achronix และ Tabula เท่านั้น ซึ่งทั้ง 2 เป็นผู้พัฒนา FPGA โดย FPGA ไม่มีผลคุกคามต่อ Intel หนึ่งในกระบวนการผลิต chip คือ ใช้ตัวนับขนาดเล็กหาความเป็นไปได้ทั้งหมดเพื่อรีดเอา bug ในการผลิตออกไป แต่ยังมีสิ่งอื่นที่ท าให้มีผลคุกคาม TSMC มีประสบการณ์ในการท าสัญญาการผลิต และมีกระบวนการท างานที่มีมาตรฐาน Intel ห่างจากการบริการในลักษณะนี้มาเป็นปี จึงเป็นเหตุผลที่ Intel ไม่น่าจะก้าวเข้าสู่ธุรกิจในสายการผลิต

ต่างจาก Samsung ซึ่งก้าวเข้าสู่ธุรกิจในสายการผลิตมาไม่กีปีก่อนหน้านี้ และมีผลิตภัณฑ์ที่เป็นที่จดจ าคือ การผลิต chip A4 และ A5 ของ Apple Intel ไม่มีความจ าเป็นต้องเพิ่มรายหรือใช้ประโยชน์จากการผลิต ในขณะที่ Samsung ต้องลดต้นทุนในธุรกิจผลิต semiconductor Intel มีผลก าไรเป็นอย่างมากเนื่องจากเป็นผู้น าในอุตสาหกรรมนี้ ในกรณีนี้ การแข่งขันจึงเป็นความคิดที่ไม่ดี

แผนงานของ Intel คือต้องการให้ผลิตภัณฑ์ที่ผลิตจาก Qualcomm หรือ Taxas Instruments ซึ่งเป็นผู้ผลิตเช่นเดียวกับ TMSC ท าได้ดียิ่งขึ้น. Intel อยู่ในสถานะที่สามารถเลือกเทคโนโลยีที่จะผลิตออกมาซึ่งมันต้องการ license และบูรณาการเข้ากับ chip ต่างๆได้. ถ้าเทคโนโลยีใหม่ๆที่ออกมาประสบความส าเร็จเมากพอ, Intel ก็จะสามารถซื้อบริษัทเหล่านั้นได้

อีกทางเลือกหนึ่งที่ Intel จะท าเพื่อเพิ่มประสิทธิภาพของ smartphone-and tablet-oriented medfiled platform ก าลังจะเกิดขึ้น. การบูรณาการที่เพิ่มขึ้น ยังคงขึ้นอยู่กับ chip ของ partner อีก 2 ชนิด คือ power management IC และ radio chip. สมมุติว่าถ้า partner ของ Intel เช่น Qualcomm หรือ Broadcom สามารถที่จะผลิต radio chip แบบ 22nm LTE/HSPA+/CDMA ส าหรับ Medfield-power Motorola smartphone ได้ Intel ก็จะมี mobile platform ที่ถูกที่สุดและมี radio chip ที่มีประสิทธิภาพที่สุดในท้องตลาด.

ที่มา http://www.extremetech.com/computing/119435-intel-becomes-a-foundry-offers-up- its-22nm-process

Trend of Research

1. BOBCAT : AMD’s Low-Power Processor Bobcat เป็น Core Processor ของ AMD ที่ออกแบบมาเพื่อรองรับตลาดความต้องการการใช้ Processor ที่ใช้พลังงานต ่า, โทรศัพท์เคลื่อนที่, และการสิ้นสุดลงของ Desktop x86 โดย Core Processor นี้ต้องใช้เทคโนโลยีใจปัจจุบันมีหลายๆ ส่วน เพื่อให้เกิดความสมดุลกันของ ประสิทธิภาพ, ขนาด และปริมาณการใช้พลังงาน Bobcat รองรับ 64-bit AMD64 ISA, SIMD extensions แบบต่างๆ และ Full virtual machine implementation Bobcat เป็นจุดเด่นของ Processor AMD ตระกูล Fusion และมีแผนงานควบคู่ไปกับการประมวลผลแบบคู่ขนานซึ่งสามารถที่จะปรับแต่งความเร็วในการประมวลผล ได้ Bobcat เป็น x86 Core Processor ที่ใช้พลังงานต ่ารุ่นล่าสุดของ AMD, ถูกออกแบบมาเพื่อตอบสนองความต้องการของ netbook, ความบางและเบา, รูปแบบที่มีขนาดเล็ก, และตลาด PC ต้นทุนต ่า Bobcat มีวัตถุประสงค์เพื่อลดขนาดและความต้องการใช้พลังงานในขณะที่ให้ประสิทธิภาพที่ดีเยี่ยม ยกเว้น Custom memory arrays ที่ Processor จะสังเคราะห์อย่างเต็มที่ ท าให้สามารถเชื่อมต่อได้อย่างรวดเร็วและมีประสิทธิภาพในเทคโนโลยีการประมวลผลที่แตกต่างกัน

พลังงาน, ขนาดพื้นที่ และประสิทธิภาพ อุปกรณ์ที่มีประสิทธิภาพสูงและมีขนาดเล็กหรือใช้พลังงานต ่า มักจะได้รับการพิจารณาเป็นด้านตรงข้ามของปลายสเปกตรัมของการออกแบบ การหาความสมดุลจึงเป็นสิ่งท้าทาย แต่คุณสมบัติพื้นฐานหลายอย่างช่วยให้ Bobcat สามารถบรรลุเป้าหมายได้ Microarchitecture ได้รับการพัฒนาเกี่ยวกับประสิทธิภาพในเชิงซ้อนของ micro-operations (COPs) COP เดียวสามารถอ่านจากหน่วยความจ า, ค านวณตรรกะทางคณิตศาสตร์ (ALU) ประมวลผลทางด้านข้อมูล, และเขียนผลลงในหน่วยความจ า COPs ท าให้ผู้ออกแบบสร้างอุปกรณ์ที่เป็น two-instruction-wide decode/rename/retire ลดการใช้พลังงานและพื้นที่ลงอย่างมีนัยส าคัญ, และได้รับประสิทธิภาพที่ยอดเยี่ยมไปพร้อมๆ กัน การ Fetch instruction ของ Bobcat สามารถท าได้ 32 bytes ต่อการ fetch 1 ครั้ง ท านายได้ว่าสามารถมีได้มากสุด 2 ชุดต่อ 1 รอบ, และการรวมเอาความถูกต้องสูงในการท านาย นักออกแบบจึงใช้ส่วนที่เหลือของอุปกรณ์มาใช้ในการท างาน, จึงลดการสูญเสียประสิทธิภาพการท างานและการสิ้นเปลืองพลังงาน การท างานของอุปกรณ์ รองรับการท างานแบบ out-of-order (OoO), รวมทั้งความสามารถในการเรียกและจัดเก็บ out of order ท าให้สารถเพิ่มประสิทธิภาพในการท างานของอุปกรณ์ AMD ได้ใช้เทคนิค microarchitecture และอื่นๆอีกมากมายในการออกแบบเพื่อให้ประหยัดพลังงานและส่งผลกระทบต่อประสิทธิภาพน้อยที่สุด ตัวอย่างเช่นในการออกแบบคิวและการลงทะเบียนไฟล์ จะมีตัวชี้ตามเพื่อลดความจ าเป็นของการคัดลอกข้อมูลหรือการเคลื่อนไหวของข้อมูล ( เปรียบเทียบกับการขยับคิวหรือโครงสร้างของไฟล์ ) ระมัดระวังว่าประสิทธิภาพในการด าเนินงานเกี่ยวข้องกับการใช้พลังงาน Bobcat ใช้ขนาดพื้นที่ประมาณ 1/3 ของสถาปัตยกรรม K8 ถ้าน ามาใช้ในกระบวนการเดียวกัน

Feature set แม้ว่า Bobcat จะมีขนาดเล็กและใช้พลังงานอย่างมีประสิทธิภาพ, และสนับสนุนสถาปัตยกรรมขั้นสูงและการก าหนดคุณลักษณะ เช่น สถาปัตยกรรม 32-bit / 64-bit x86 AMD64 การขยายการส่ง SIMD ประกอบด้วย SSE1, SSE2 และ SSE3 และ เสริมการขยายการส่ง SIMD 3 ( SSSE3 ) SSE4A และ 128-bit แบบไม่เรียงข้อมูลเปิดตัวใน AMD Barcelona AMD-V เพิ่มความปลอดภัยแบบเสมือน, รวมทั้งการจัดท าดัชนีเสมือนเพื่อเพิ่มอัตราเร่งในการเดินทางของข้อมูล การสุ่มตัวอย่างที่ใช้ส าหรับการเพิ่มประสิทธิภาพโค้ดแบบไดนามิค คุณลักษณะพลังงานของ C6, โดยขั้นตอนที่ processor บันทึกข้อมูลลงในหน่วยความจ าและหน่วยประมวลผลลดการใช้พลังงานลงโดยไม่ต้องมีการสั่งการจากระ บบปฏิบัติการ ค าสั่งและลักษณะเด่นก าหนดให้ซอฟต์แวร์สามารถเข้ากันได้กับ Barcelona processor

Bobcat microarchitrcture Bobcat เป็น processor ที่เป็น OoO, dual-decode, dual-issue, dual-retire รวมถึงการท านายขึ้นสูง, หน่วยปฏิบัติการ 64-bit 2 หน่วย, หน่วยสร้างต าแหน่ง 64-bit 2 หน่วย, 64-bit pipelined floating-point 2 หน่วย และการเรียกข้อมูลและบันทึกข้อมูล OoO แบบเต็มที่ มี Cache ค าสั่ง 32-Kbyte, Cache ข้อมูล 32-Kbyte และ Cache เลเวล 2 ( L2 ) 512-Kbyte ในรูปที่ 1 แสดงให้เห็นถึง microarchitecture ระดับสูงของ Bobcat

Fetch unit หน่วยเรียกข้อมูลของ Bobcat ประกอบด้วยค าสั่งตรรกะการเรียกข้อมูล, ค าสั่ง cache, ค าสั่งแปล buffer (ITLB), ขั้นตอนการท านายตรรกะ, และขั้นตอนตรรกะต าแหน่ง ส าหรับประสิทธิภาพสูงสุดและการใช้พลังงานของหน่วยเรียกข้อมูลอาศัยการท านายที่แม่นย าสูงเพื่อให้ Bobcat สามารถท างานได้อย่างมีประสิทธิภาพ

Instruction fetch ในการเรียกข้อมูลครั้งถัดไปของหน่วยเรียกข้อมูลของ Bobcat จะเลือกเรียกต าแหน่งที่อยู่จากส่วนแก้ไขต าแหน่งที่อยู่, ส่วนท านายต าแหน่งที่อยู่, ต าแหน่งที่อยู่หมุนเวียน และต าแหน่งที่อยู่เรียงล าดับ การเรียกต าแหน่งที่อยู่จะเข้าไปที่ cache แบบ 32-Kbyte two-way set- associative instruction cache ITLB และ instruction cache มีการเข้าถึงแบบขนาน ITLB มีการแปลต าแหน่งที่อยู่ส าหรับ 2-Mbyte 8 หน้า และได้ถึง 4-Kbyte 512 หน้า เพื่อประหยัดพลังงาน Bobcat พยายามเข้าถึง ITLB เฉพาะเมื่อการเรียกเกิดขึ้นไป 4-Kbyte หน้าที่แตกต่างจากก่อนหน้านี้ การเรียกหรือการแปลอาจจะมีการเปลี่ยนแปลงตั้งแต่การเข้าถึงก่อนหน้านี้ ทั้ง L1 instruction cache และ ITLB มีการป้องกันที่เหมือนกันเพื่อเพิ่มความน่าเชื่อถือ

Branch prediction การท านายรวมถึงต าแหน่ง, การท านายทิศทาง, และการท านายต าแหน่งที่อยู่ เนื่องจากชุดค าสั่งของ x86 มีความยาวของชุดค าสั่งที่หลากหลาย ความท้าทายในการท านายคือการระบุต าแหน่งที่อยู่ได้อย่างรวดเร็ว การท านายตรรกะการเก็บข้อมูลของ Bobcat จะเกี่ยวข้องกับการท านาย array Cache lines ส่วนใหญ่จะมีเพียงไม่กี่แขนง แต่บาง line จะมีเยอะ เพื่อที่จะควบคุมทั้ง 2 กรณีได้อย่างมีประสิทธิภาพ Bobcat จะใส่ข้อมูลของทั้ง 2 กรณีลงใน array ต าแหน่งที่มีเครื่องหมาย sparse ของ cache line ใน array นี้มีการจัดท าดัชนีในลักษณะเดียวกันกับ instruction cache และได้รับการพิจารณาขยายตรรกะของ instruction cache ข้อมูลเกี่ยวกับแขนงเพิ่มเจิมที่ค้นพบใน cache line จะถูกเก็ยไว้ในแขนง array ที่มี marker ซึ่งสามารถเก็บข้อมูลได้ 8 bytes 2 branch ใน sparse marker array จะถูกคาดการณ์ในแบบขนาน และในหนึ่งรอบของการ fetch bubble จะถูกแทรกส าหรับคาดการณ์ taken branch sparse array ประกอบด้วยข้อมูลที่มี 8-byte ของ cache line ที่มี dense branch หาก sparse branch ที่ท านายไว้ไม่ถูกใช้ dense branch อื่นจะท างานครั้งเดียวต่อ 1 รอบ โดย dense marker จะถูกจัดสรรแบบไดนามิคส าหรับโครงสร้าง 1024 รายการ ทั้งการท านาย sparse และ dense จะมีข้อมูลเกี่ยวกับชนิดของ branch , byte สิ้นสุดของ branch, และเป้าหมาย offset ของ branch ข้อมูล branch ระบุว่าโครงสร้างและตรรกะมีความจ าเป็นในการประมวลผล และเฉพาะโครงสร้างเท่านั้นที่มีการ clocked Algotithm ที่มีความแม่นย าสูงๆ จะถูกน ามาใช้ในการคาดการณ์ทิศทางของ branch. การคาดการณ์เป้าหมายของ branch ขึ้นอยู่กับ ชนิดของ branch instruction. ส าหรับ branch ที่มีความสัมพันธ์กัน การวิเคราะห์จาก application ปกติ จะบอกได้ว่า เป้าหมายส่วนใหญ่ จะอยู่ที่ page ของ branch เดียวกัน. ส าหรับ branch เช่นนี้ marker array จะมี page offset ของเป้าหมายไว้อยู่แล้ว โดยที่ marker array ชี้โดยแบ่ง out-of-page array ที่จะใช้ในการคาดการณ์ page เป้าหมายด้วย address. ต่อมา ใน fetch pipeline, จะน า address เป้าหมายที่คาดการณ์ไว้แล้วนั้น ไปเช็คกับ address ของเป้าหมายที่ค านวณได้. ถ้าไม่ตรงกัน address ของเป้าหมายนั้นจะถูกแก้ไขโดยไม่มีผลอะไรกับค่าคาดการณ์ branch อื่นๆ ส าหรับ branch ที่ถูกคาดการณ์ไว้นั้น instruction จะถูก fetch ขึ้นมา 32 byte ต่อ 1 cycle และส่ง 16 byte memory เข้าไปจัดเรียงใน 12 entry ก็จะได้ 16 byte ต่อ 1 entry instruction buffer ซึ่งสิ่งนี้จะท าให้มี queue ของ instruction เพื่อให้ decoder สามารถท างานและแยกออกจาก instruction fetch pipeline ได้

x86 instruction decode โครงสร้างของ x86 processor จะมีส่วนที่เป็น instruction ที่กว้างและจะมี prefix ที่ไม่แน่นอน. เวลาเป็นปัญหาที่เกิดขึ้นในการ deocde instruction เพื่อที่จะก าหนดขอบเขตของ instruction. AMD x86 processor ที่มีประสิทธิภาพสูงๆ ได้ถูกออกแบบให้ใช้การเพิ่ม bit ที่ instruction cache เป็นตัวก าหนดจุดที่เกิดปัญหาเรื่องเวลา เพื่อให้ 1 clock cycle สามารถที่จะตรวจจับ instruction ได้ 3 instruction หรือมากกว่านั้น. การจะกระท าดังกล่าวต้องใช้ secondary decoder pipeline เพื่อตรวจจับ บรรทัดที่ไม่ได้ถูกก าหนดไว้ โดยการเพิ่มสถานะ L1 ใน instruction cache โดยอาจจะเก็บตัวชี้วัดไว้ที่ L2 cache ก็ได้ (การเพิ่ม 1 bit ทุกๆ byte ของ instruction) และตรวจสอบที่ pipeline เพื่อให้แน่ใจว่าเป็นจุดที่ก าหนดไว้. Bobcat จะส่ง instruction ที่มีความกว้างสั้นลง เมื่อเทียบกับรุ่นก่อนหน้า และให้ก าจัด bit ที่สร้างขึ้นมาทิ้งเพื่อให้ได้รับข้อมูลที่มีความหมาย ความกว้างของการถอดรหัส Bobcat นั้น จะเพิ่ม decoder 16 byte ไว้ที่ instruction ที่จะ fetch เป็นตัวแรก และ 6 byte ที่ instruction ที่จะ fetch ตัวถัดไป. Block ของการถอดรหัส จะถอดรหัส instruction 2 ตัว ในเวลาเดียวกัน จนกระทั่ง instruction ตัวแรก ที่ fetch ขึ้นไปประมวลผลเสร็จ. Decoder 6 byte ที่เพิ่มเข้าไป ท าให้ Bobcat สามารถที่ถอดรหัสทั้ง instruction ตัวแรก และ ขยายไปยัง instruction ตัวถัดไปได้ด้วย. Instruction ที่จะถูกถอดรหัสจะถูกย้ายไปไว้ใน instruction queue, ที่ผลการบัฟเฟอร์ในกรณีของความดันกลับจาก microengine และขั้นตอน pipeline ต่อมา เมื่อเปรียบเทียบกับโครงสร้างของ AMD K8, การลดความกว้าง dispatch เป็นการจัดสมดุลด้วยการขจัดข้อจ ากัด instruction dispatch land การตัดส่วน decoder ที่เพิ่มเข้าใน instruction และลดวงจรที่ใช้ใน K8 decoder ลง 1 ใน 3 ส่วน ท าให้เข้าใจโครงสร้างของ memory ได้ง่ายขึ้น (ตัวอย่างคือ จ านวน port ใน instruction queue ซึ่ง read port จะลดลงจาก 4 port เหลือ 2 port และ write port จะลดลงจาก 3 port เหลือ 2 port). นอกจากนี้ ยังเป็นการก าจัด secondary decoder pipeline, checker pipeline, และ marker storage, และเกี่ยวข้องกับการท างานหลายอย่างและกลไกการแก้ไข Microengine และ microcode Decoded instruction บางส่วน จะถูกแปลไปอยู่ใน COPs และถูก dispatch ด้วย microengine. COPs, เป็น x86 instruction ซึ่งเป็นส่วนประกอบที่ส าคัญที่สามารถปรับเปลี่ยนจาก simple register ไปเป็น complex multipart operation เช่น load-op-stores ไปยัง memory. โดยปกติจะใช้ instruction ในการ decode ด้วย fast-path decoder ไปยัง 1-2 COPs จะถูกแปลความหมายภายใน cycle เดียว. การวิเคราะห์ dynamic instruction execution ข้าม application แสดงให้เห็นว่า 89% ของ x86 instruction จะถูกแปลงไปยัง COPs เพียงอันเดียว และ อีก 10% จะถูกแปลงไปยัง COPs อีกตัวหนึ่ง และ ประมาณ 1% จะถูก implement โดยใช้ microcode. ทั้ง microcode และ fast-path COPs, ถ้า resource ที่ต้องการมีการใช้งาน microengine จะเป็นตัวขัดขวางการ dispatch เพื่อให้ได้ resource นั้นมาใช้งาน ถ้าเป็น AMD รุ่นก่อน, Bobcat จะใช้ microcode ของ x86 architecture ในการ implement fast-path COPs ไม่ใช่เรื่องง่าย. Microcode จะถูกเก็บไว้ใน ROM ซึ่งแต่ละ entry ใน ROM จะชี้ไปที่ COPs 2 ตัว พร้อมทั้งข้อมูลของ sequence ด้วย. การไหลของข้อมูล Microcode สามารถมีได้หลาย entry และ sequence ในแต่ละ ROM entry จะมี microsequencer ซึ่งมันจะสามารถหาได้ว่า entry ต่อไปของ microcode คือตัวใด. Microcode server จะแบ่งการประมวลผลที่ซับซ้อนของ x86 instruction การขัดจังหวะและข้อยกเว้นการท างาน และการจัดการพลังงาน (ยกตัวอย่างเช่น C6 power state) Integer execution unit ส่วนส าคัญของ integer execution unit (EXE) ประกอบด้วย ALU 2 ตัว และ AGU(address generation unit) 2 ตัว. ช่วงเวลาในการเปลี่ยน process COPs ต้องการ resource ของ ALU เพื่อที่จะเขียน 16 entry เข้าไปใน queue เพื่อรอการ process ณ จุดนี้ จะมีมากกว่า 2 operation ต่อ 1cycle ที่จะถูกน าไปประมวลผล ซึ่ง ALU ส่วนใหญ่ ต้องการเพียงแค่ 1 operation ต่อ 1 cycle เท่านั้น. การคูณต้องใช้ 3-7 cycle ขึ้นอยู่กับขนาดของข้อมูล. AGU จะสร้าง memory address ที่ใช้ในการโหลด และ เก็บข้อมูล ซึ่งจะแบ่ง queue เป็น 8 entry. AGU 1 ตัวจะถูกแบ่งมาเพื่อท าการโหลดข้อมูล และอีก 1 ตัวจะใช้ในการเก็บข้อมูล ดังนั้น address ที่ถูกสร้างขึ้นมา ในแต่ละ cycle จะมี 1 ตัวส าหรับโหลดข้อมูล และ อีก 1 ตัวส าหรับเก็บข้อมูล. ทั้ง ALU และ AGU สามารถที่จะให้ COPs หยุดการท างานได้ ถ้า COPs ประมวลผลเสร็จแล้ว. การออกแบบ integer execution unit ที่เป็นเอกลักษณ์ของ Bobcat คือ ทั้ง AGU และ ALU scheduler queue มีผลกับ pointer และลดการใช้พลังงาน. วิธีอื่นๆที่จะใช้ในการประหยัดพลังงานคือ ขนาดข้อมูลบน clock gating. ถึงแม้ว่า integer unit ทุกชนิดจะรองรับผลลัพธ์จากการใช้งานบน 64 bit processor แต่ก็ไม่ใช่ Software ทุกตัวที่จะใช้ 64 bit ในการประมวลผล. Therefore, the upper and lower halves of all result buses and forwarding logic are clocked independently, saving power during non-64- bit operations. Physical register file หลักส าคัญของการที่ Bobcat ประหยัดพลังงานมาจาก การออกแบบ integer execution unit (EXE) โดยใช้ 64-entry physical register file(PRF). การออกแบบ PRF ขึ้นอยู่กับการ update pointer ไปที่ PRF register มากกว่าการที่จะเก็บค่าการเคลื่อนย้ายของข้อมูลไปยังที่ต่างๆ. การใช้ clock gater ในการเก็บข้อมูลลง register จะลดการใช้พลังงาน เมื่อมีความต้องการที่จะ update ข้อมูลหลายๆตัว. Reorder buffer Bobcat ประกอบด้วย 56 reorder buffer(ROB). ROB เพิ่มประสิทธิภาพมากกว่าโครงสร้างแบบ AMD K8 โดยจะดูว่าส่วนประกอบใดของ COPs ที่สามารถตัดทิ้ง หรือต้องตัดออกไปพร้อมๆกัน อย่างน้อย 2 COPs ต่อ cycle สามารถที่จะ ตัดทิ้ง และ update ค่า pointer ไปที่ PRF ยกเว้น retire-time จะถูกเก็บไว้ที่จุดนี้. Floating-point unit Bobcat’s floating-point unit(FPU) เป็น coprocessor คล้ายกับ AMD รุ่นอื่นๆ ซึ่งใช้ code ตัวเดียวกับ K8 และ core ของ Barcelona. การเปลี่ยนแปลงหลักๆของ Bobcat floating-point microarchitecture จะปรับปรุงเรื่องพลังงานและประสิทธิภาพของสมรรถนะ ดังนี้ Bobcat แบ่ง 128;bit SIMD instructions เป็น 64-bit execution chunks ความกว้าง floating-point decoder จะลดลงจาก 3 COPs ต่อ 1 cycle เป็น 2 COPs ต่อ 1 cycle. ในท านองเดียวกัน จ านวนของ execution pipeline ก็จะลดลงจาก 3 เป็น 2. เป็นไปได้ที่ Bobcat จะมีหน่วยด าเนินการที่เป็นทศนิยมที่มี execution pipelines ที่สั้นกว่า ซึ่งสอดคล้องกับ core ที่มีความถี่ต ่า Control logic queue จะลดลง เพื่อให้ได้พลังงานที่สมดุลกับประสทิธิภาพมากขึ้น และเพื่อให้การใช้พลังงานลดลง. Floating-point scheduler 18 entry จะท าให้ไม่เกิดการขยับและสามารถใช้ memory ได้หลาย address มี 2 pickers ที่เก่าแก่ที่สุด (หนึ่งในนั้นเป็น execution pipe) และสามารถรองรับการท างานแบบ single cycle instruction ด้วย back to back scheduling FPU จะสนับสนุนการจ ากัดจ านวน word ได้ดีกว่าการ rounding-mode อย่างรวดเร็ว. Queue ในการออกจาก floating-point ซึ่งจะเก็บ retire-time ล่าสุดไว้นั้นถูกปรับเปลี่ยนเป็นคิวต่อการด าเนินการมากกว่าที่จะเป็น than three-wide line-based ดังเช่นการออกแบบครั้งก่อน การปรับปรุง queue packing และ ROB เป็นขนาด 56 entry ท าให้ผู้ออกแบบต้องลด ขนาด queueในการ retire ของ floating-point เป็น 40 entry โดยที่ประสิทธิภาพไม่ได้ลดลง. การคูณทศนิยมถูกออกแบบใหม่ให้ใช้ multiplier tree ที่น้อยลง (76 bit x 27 bit) เพื่อประหยัดพื้นที่และพลังงาน. การกระท าแบบนี้ท าให้ได้ประสิทธิภาพของพลังงานที่ดี แต่ให้ประสิทธิภาพของ multiply double- and extended-precision(DP/EP) ที่ต ่า นั่นคือ มี latency อยู่และท าให้ throughput ของ instruction ต ่า. ตารางที่ 1 แสดง throughput ของ instruction หลายๆแบบ. หน่วบปฏิบัติการอื่นๆ ที่ถูกปรับให้น้อยกว่าการลดขั้นตอน pipeline โดยการท า repipelining และสรุปผลใน FPU instruction latency และ throughput table ส่วนขยายของ instruction set ของ SSSE3 ถูกเพิ่มขึ้นมาเพื่อรองรับ SSE1 ที่มีอยู่แล้วผ่านทาง SSE3 และ SSE4 (ได้มีการน ามาใช้กับ Becelona). จากการที่ต้องการประหยัดพื้นที่ที่เพิ่มขึ้นมา instruction ของ 3DNow! จึงถูกตัดออกไป.

ในส่วนของข้อมูล, execution unit จะแบ่งออกเป็น 3 กลุ่ม คือ ทศนิยม, จ านวนเต็ม และส่วนเก็บข้อมูล. กลุ่มของ ทศนิยม ประกอบด้วย ตัวคูณทศนิยม และ ตัวบวกทศนิยม. กลุ่มของจ านวนเต็ม ประกอบด้วย ALU และ ตัวคูณของจ านวนเต็ม. การส่งข้อมูลระหว่างแต่ละกลุ่มจะท าให้มี cycle ของ bypass latency เพิ่มขึ้นมา. Load/Store unit, data cache and table walk engine Bobcat ประกอบด้วย OoO load/store unit (LSU) ขนาดเล็กที่มีประสิทธิภาพ. ความสามารถในการ tracking เป็น 26 load unit และ 22 store unit, Bobcat เป็น processor ตัวแรกที่ AMD ใช้ OoO LSU อย่างเต็มตัว ซึ่งรองรับทั้งการ โหลดตัวที่เก่ากว่า และ เก็บตัวที่เก่ากว่าได้. Bobcat LSU มี 8 byte ส าหรับโหลดและ 8 byte ส าหรับเก็บข้อมูลใน ทุกๆ cycle, และรองรับ การโหลด 3 cycle โดยใช้ pipeline. Data cache รองรับได้ถึง 8 cache misses เช่นเกียวกับ hits ภายใต้ misses การส่งต่อค าส าคัญที่ใช้ใน cache misses เพื่อลดประสิทธิภาพ cache miss latency Bobcat ประกอบด้วย data cache ขนาด 32 kbyte แบบ 8-way set associative. L1 DTLB(data translation look-aside buffer) ขนาด 40 4-kbyte page และ 8 2-Mbyte page ซึ่งเป็น fully associative. L2 DTLB ขนาด 512 4-kbyte pages และ 64 2-Mbyte page ซึ่งเป็น 4-way set associative. Table walk engine(TWE) จะคอยดูแลจัดการความผิดพลาดของ TLB ซึ่งรองรับ page ขนาด 1 Gbyte แต่ TWE จะแบ่งออกเป็น 2-Mbyte page. TWE รวม cache directory เพื่อเร่งอัตราการเดินทางของข้อมูล และสนับสนุนดัชนีการท างานแบบเสมือน (รู้จักในชื่อ nested page tables) ช่วยลดความยุ่งยากในการจัดการ host ของ guest page tables และเพิ่มประสิทธิภาพการท างานเสมือนจริงอย่างมีนัยส าคัญ

การโหลดด้วย pipeline แสดงใน Figure 2. AGU จะค านวณ address และส่งไปทั้ง data tag(DTags) และ L1 DTLB ใน DC1(data cache 1) cycle. L1 DTLB จะแปลง address ไปเป็น physical address, ซึ่งจะเอามาเปรียบเทียบกับ 8 physical tag address ที่อ่านมาจาก DTags จะมีเฉพาะ cache เดียวที่ตรงกันเท่านั้นที่จะถูกอ่าน. ข้อมูลจะถูกจัดเรียง และถ้าจะมีการขยายข้อมูลก็จะถูกส่งค่าไปเขียนที่ register file ไว้ด้วย. การออกแบบของ DTag/DTLB/cache pipeline แบบนี้จะเป็นการประหยัดพลังงาน. Pipeline ได้ถูกออกแบบให้ขึ้นอยู่กับ operation และสามารถที่จะก าหนดให้ใช้ข้อมูลบน cycle ได้หลังจาก DC2. Load/store operation ส่วนมากจะเจอใน TLB และ cache และสามารถประมวลผลให้เสร็จได้ใน 3 cycle. Operation ที่ยังไม่เสร็จก็จะยังคงอยู่ใน LSU และจะถูกน ามาประมวลผลใหม่อีกครั้ง. นอกจากการเพิ่ม OoO picker แล้ว Bobcat LSU ยังมีการเพิ่มประสิทธิภาพอีกหลายอย่างคือ throughput เพิ่มขึ้น และจ านวน instruction ต่อ 1 cycle เพิ่มขึ้นด้วย. การส่งต่อการเก็บข้อมูลและการโหลดข้อมูลจะได้รับการสนับสนุนจากการบันทึกข้อมูลที่เสร็จแล้วและที่ถอ นตัวออกทั้งหมดไปยังทุกการโหลดเข้ามา, ซึ่งอาจช่วยให้โหลดเสร็จก่อนที่ cahce จะถูกเขียน Bobcat รองรับ 16 byte internal misalignment, ดังนั้น การโหลดหรือการเก็บข้อมูล จะอยู่ภายใน 16 byte ซึ่งจะใช้การเข้าถึง cache เพียงครั้งเดียวเท่านั้น. ถ้าต้องการที่จะโหลดหรือเก็บข้อมูลข้าม 16 byte ที่มีรองรับไว้ จะต้องเข้าถึง cache ทั้งไปและกลับ. อย่างไรก็ตาม ข้อแตกต่างของ Bobcat กับ AMD processor รุ่นก่อนๆ คือ Bobcat ยอมให้เกิดข้อมูล SSE ที่ไม่เรียงล าดับได้ (เช่น MOVUPD) จะถูกด าเนินการได้อย่างรวดเร็วส าหรับการเข้าถึงหน่วยความจ าที่มีการเรียงล าดับข้อมูลเช่นเกียวกับ aligned counterparts (เช่น MOVAPD) ซึ่งสิ่งนี้ท าให้ software สามารถปรับเปลี่ยนเพื่อใช้กับ instruction ได้โดยไม่เกิดปัญหา. ส่วนประกอบที่เพิ่มขึ้นมาของ data cache unit ที่เรียกว่า prefetcher นั้น, สามารถ track และ prefetch ได้ถึง 8 data stream. Data cache prefetch จะเริ่มต้นขณะที่เกิดการ miss ครั้งที่ 2 (เพื่อเป็นการยืนยันทิศทาง) และสามารถท างานได้ 1 ถึง 4 misses ข้างหน้า Bobcat จะรองรับทุกๆ segment ของ x86 processor. ถ้าต้องการเพิ่ม segment ก็สามารถเพิ่ม SegAdd pipeline stage เข้าไประหว่าง AGU cycle และ DC1 cycle ได้เลย เพราะว่า software รุ่นใหม่ๆส่วนใหญ่จะเจอการแบ่ง segment ไม่บ่อยนัก, แต่ Bobcat ได้ท าให้มีกรณีที่ segment เริ่มต้นเป็น 0 ซึ่งสามารถที่จะเพิ่ม SegAdd stage ได้เมื่อต้องการ. ทุกๆ unit ใน Bobcat pipeline, ได้ออกแบบ LSU ส าหรับการใช้พลังงานต ่า. ทุก queue หลักๆใน block จะไม่มีการสลับที่, ซึ่งเป็นการลดพลังงานที่เกิดจากการเคลื่อนที่ของ entry ในแต่ละ queue. Fine- grained clock gaters จะประหยัดพลังงานเมื่อพื้นที่ของ logic หรือ queue entry เป็น invalid. การลดการใช้พลังงานก็เช่นเดียวกัน, operation ที่มีโอกาสที่จะประมวลผล เสร็จเท่านั้นที่จะถูกน ามาประมวลผลอีกครั้ง. ด้วยคุณสมบัตินี้จะช่วยให้ Bobcat ที่ประสิทธิภาพสูงและมีการใช้พลังงานที่น้อย. Bus interface unit and L2 cache Bus unit จะเป็นตัวจัดการดูแล memory และ I/O transaction และยังควบคุมการท างานของ L2 cache อีกด้วย. Bus จะรับการร้องขอของ instruction fetch และ และรับการ eviction จาก instruction cache เช่น การโหลด, การเก็บข้อมูล, และ dirty eviction จาก data cache และ combinable write จาก LSU. Bus สามารถรองรับ load/store request 8 ครั้ง และ instruction fetch request 2 ครั้ง. Bus จะเก็บ transaction ที่ ก าลังใช้งานไว้ใน set ของ queue อีกทั้ง bus ยังเป็นตัวตัดสินว่าจะให้ resource ตัวไหน active resource ที่กล่าวถึงเช่น L2 cache, การ request ไปยัง north bridge, data cache probes และ instruction cache probe. Bus จะคอยป้องกันความเสี่ยงไม่ให้ transaction อื่น active ในระหว่างที่มีอีก transaction หนึ่ง active อยู่. Busจะเก็บที่เปรียบเทียบของแต่ละ transaction ไว้ เพื่อเป็นข้อมูลในการจัดว่าจะให้ transaction ไหน active ต่อไป. L2 cache มีขนาด 512 kbyte, แบบ 16-way set associative. ในส่วนของการประหยัดพลังงานนั้น, bus จะประมวลผลทุกๆ ครึ่งความถี่ของ core, ด้วยกรณีที่ดีที่สุดของ pipeline latency นั่นก็คือ L2 cache จะ hit 17 cycle. L2 miss จะถูกโหลดเข้าไปอยู่ใน L2 และ primary requester, ถึงแม้ว่ารูปแบบจะไม่แน่นอนก็ตาม แต่ L2 cache มีการป้องกัน data และ tag ด้วยวิธี error- correcting code.

Physical design Bobcat ถูกพัฒนาด้วยกระบวนการอัตโนมัติ และใช้ synthesis auto place and route(SAPR). Core และ L2 cache จะถูกแบ่งเป็น 2 ส่วน. Core จะมีทั้งหมด 7 custom macro array อีกทั้งยังมี custom circuit อื่นๆอีก เล็กน้อย และยังรวมถึง clock spin ด้วย. Macro array element สร้างขึ้นด้วย โครงสร้างเล็กๆ หลายๆ element ได้แก่ data cache, instruction cache, tags, TLBs, branch predictors และ microcode ROMs. องค์ประกอบบางอย่างที่เดิมถูกก าหนดให้เป็นมาโครได้ถูกแปลงเป็น guided flip-flop array บนผลสะท้อนกลับของการด าเนินการขั้นพื้นฐาน Array ใช้เนื้อที่ของ core ประมาน 40% ส่วนที่เหลืออีก 60% จะจัดการโดยใช้การสังเคราะห์เซลล์มาตรฐานและต าแหน่งอัตโนมัติ จาก Figure3 แสดงว่า core ถูกสร้างมาเป็น single monolithic tile ซึ่งน าไปสู่ความผิดปกติของ amoeba เหมือน blocks ที่สามารถผสมเพื่อเพิ่มประสิทธิภาพ การใช้งาน SAPR ส าหรับกลุ่มขนาดเล็กและการออกแบบที่เร็วกว่าจะมีวิธีการออกแบบที่แตกต่างกัน SAPR สามารถท าความเร็วได้ดีกว่าตอนเริ่มต้นโครงการและสามารถบรรลุเป้าหมายที่สูงกว่าด้วยการจัดการส าหรั บซิลิกอน 1.6 GHz การผสมผสานระหว่าง microarchitecture optimization และ SAPR tools ก่อให้เกิด core ขนาด 4.9 มิลลิเมตร โดยใช้ 40-nm process, ซึ่งใช้เนื้อที่เป็น 1 ใน 3 ของพื้นที่ที่ใช้ใน K8 ด้วยกระบวนการเดียวกัน

Bobcat core ที่แสดงใน Figure 4, จะแนะน าการใช้ Ontario/Zacate accelerated processing unit ซึ่งระบบนี้จะประกอบไปด้วย 2 Bobcat processor core ที่มี L2 cache, DX11 graphics unit, universal video decoder, 64 bit DDR3(double data rate three) memory interface, configurable PCI Express I/O unit. อุปกรณ์ส่วนใหญ่ที่อยู่บนแม่พิมพ์ สามารถควบคุมการใช้พลังงานได้ เพื่อประหยัดการใช้พลังงานเมื่อไม่ได้ใช้งาน โครงสร้างของ AMD Fusion ยอมให้ application เช่น video transcode และ image processing ใช้ muliple SIMD processing elements ของ graphics unit ในการเพิ่มประสิทธิภาพได้. บนพื้นฐาน AMD model โดยใช้ benchmark simulation และ ขนาดที่เล็กลง ท าให้ Bobcat มีประสิทธิภาพประมาณ 90% ของ K8 processor

2. ขัน้ ตอนวิธีการปรับความถ่ีพลวัตสา หรับการปรับปรุงประสิทธิภาพการใช้พลังงานซีพียู ในรายงานนี้ได้น าเสนอแนวทางในการปรับปรุงประสิทธิภาพการใช้พลังงานของศูนย์บริการเซิร์ฟเวอร์ของ CPU โดยการประมวลผลความถี่แบบไดนามิค ซึ่งจะมีผลกระทบกับประสิทธิการค านวณของ CPU และการใช้พลังงาน ดังนั้นจึงมี 2 อัลกอริทึ่มที่ได้รับการออกแบบมาเพื่อแก้ไขปัญหานี้ คือ immune inspired algorithm และ fuzzy logic Immune inspired algorithm ใช้แอนติเจนของมนุษย์เป็นต้นแบบในการออกแบบการใช้พลังงานไฟฟ้าของ serve และประสิทธิภาพการใช้งาน โดยใช้ชุดของเครื่องตรวจสอบแอนติเจนเป็นตัวจัดกลุ่มเอง โดยแอนติเจนจะสามารถจัดสรรการใช้พลังงานด้วยตัวเองได้ หรือ ไม่จัดสรรด้วยตัวเองก็ได้ Fuzzy logic พื้นฐานของอัลกอริทึ่มนี้จะมีการปรับเปลี่ยนตามการเปลี่ยนแปลงตามภาระการท างานของ CPU พร้อมทั้งสามารถกรองภาระการท างานเพื่อให้เกิดประโยชน์ในการเปลี่ยนแปลงค าแนะน าและการท างานที่ เกี่ยวข้อง ในหลายปีที่ผ่านมา สาขาคอมพิวเตอร์ได้มีการใช้งาน Web-based และบริการออนไลน์เป็นจ านวนมาก ซึ่งเป็นการเปลี่ยนแปลงความเจริญเติบโตของโครงสร้างพื้นฐาน ซึ่งได้รับความนิยมเป็นอย่างสูง GAMES(Green Active Management of Energy in IT Service Centers) ได้มีโครงการวิจัยซึ่งมีวัตถุประสงค์เพื่อพัฒนานวัตกรรมวิธีการบริการตัวชี้วัดและเครื่องมือส าหรับการจัดก ารการใช้พลังงานของศูนย์บริการไอที ปัญหาทางด้านพลังงานเป็นสิ่งที่ท้าทายทั้งที่ Server กลาง และระดับ server ท้องถิ่น ที่ Server กลางจะมีการจ าลองการท างานแบบเสมือน เพื่อให้ปริมาณงานที่จะรันบนเครื่องที่แตกต่างกันมีจ านวนที่เหมาะสมกับทรัพยากรคอมพิวเตอร์ที่ใช้อยู่เสม อ CPU, HDD หรือ RAM จะใช้พลังงานมากที่สุดในเซิร์ฟเวอร์ ในรายงานนี้จะน าเสนอการพัฒนา immune inspired algorithm และ fuzzy logic ตามพื้นฐานอัลกอริทึมความถี่ในการปรับปรุงแบบไดนามิคพลังงานของซีพียูเซิร์ฟเวอร์ โดยพยายามรักษาระดับประสิทธิภาพที่จ าเป็นส าหรับเซิร์ฟเวอร์ที่ใช้งานอัลกอริทิมที่ใช้กับการท างานแบบเ สมือนเป็นนามธรรมส าหรับการจัดการชุดของเซิร์ฟเวอร์ที่ใช้งาน โดยไม่ต้องกังวลในเรื่องการขึ้นต่อกันและรายละเอียดในระดับต ่า งานแบบเสมือนจริงถือว่าเป็นบันทึกย่อของ Quality-of-Service(QOS) ซึ่งร้องขอรูปแบบการท างานอย่างมีประสิทธิภาพ อัลกอริทึมทั้งสองจะขึ้นอยู่กับการก าหนดค่าขั้นสูงและการประหยัดพลังงานของฮาร์ดแวร์ ACPI อนุญาตให้ CPU สามารถปรับเปลี่ยนความถี่ในการท างานได้เพื่อให้การใช้พลังงานซีพียูลดลง เทคนิค Human Inspired DFS คล้ายกับระบบภูมิคุ้มกันเทียมของร่ายกายมนุษย์ ที่มีปฏิสัมพันธ์กับเซิร์ฟเวอร์ และสามารถตรวจสอบการใช้งานเซิร์ฟเวอร์ได้ และใช้เวลาในการด าเนินการที่เหมาะสม Immune Inspired DFS ส่วนต่อไปนี้จะน าเสนอ Human immune system ที่เกี่ยวข้องกับแนวคิดและกระบวนการร่วมกันกับการใช้งานเพื่อเพิ่มประสิทธิภาพการใช้พลังงาน CPU และ DFS เพื่อเพิ่มประสิทธิภาพการใช้พลังงานซีพียูโดยใช้ DFS โดย Adaptive immune System จะป้องกันระบบความคิดที่เฉพาะเจาะจงและมีการประยุกต์ใช้งาน ดังตารางต่อไปนี้

ถ้าการค านวณสูงกว่าเกณฑ์ immune cell จะกระท า DFC มิฉะนั้น การกระท าของ DFS จะต้องมีการใช้ Clonal algorithm ดังนี้

เพื่อทดสอบและตรวจสอบขั้นตอนวิธีการ DFS ที่น าเสนอ จึงได้มีการใช้เซิร์ฟเวอร์ของไอบีเอ็มที่มีหน่วยประมวลผล Intel i7 ขนาด 3GHz และ 6 GB ให้ผลลัพธ์ความถี่ที่แตกต่างกันดังนี้

3. ANA ‟ Black Box (Optical CPU) บทคัดย่อ งานเขียนชิ้นนี้น าเสนอถึงตัวแบบ Black Box CPU ซึ่งเป็นส่วนหนึ่งของสถาปัตยกรรมเครือข่าย PC ขั้นสูง (ANA) Black Boxไม่ต้องใช้อุปกรณ์อิเล็กทรอนิกส์หรือเครื่องใช้ไฟฟ้าใด ๆ แต่จะใช้อุปกรณ์แสงส าหรับการประมวลผลและจัดเก็บข้อมูล ANA Black Box จะใช้ส าหรับการด าเนินงานเครือข่ายขั้นสูงและเป็นส่วนหนึ่งของเครื่องคอมพิวเตอร์ ANA ซึ่งท าหน้าที่เป็น CPU โดยจะมีการประมวลผลที่รวดเร็วและการจัดเก็บข้อมูลขนาดใหญ่ ความแตกต่างขั้นพื้นฐานระหว่าง CPU ทั่วไปและ CPU Black Box คือการจัดเก็บ Procedures อุปกรณ์ I/O ซึ่งเป็นอุปกรณ์ที่ใช้ในการประมวลผลข้อมูลและการท างานของ Black Box CPU หลักการพื้นฐานที่อยู่เบื้องหลังคือการลด (ส่วนใหญ่ที่จ าเป็นต้องก าจัด) อุปกรณ์อิเล็กทรอนิกส์ที่ใช้โดย CPU ส าหรับการประมวลผลและการเข้าถึงข้อมูลที่มีกลไกการจัดเก็บที่มีประสิทธิภาพ "ข้อมูลจะอยู่ในรูปของแสงส่งไปทั่วทั้งเครือข่ายและผ่านออกจากระบบ ซึ่งจะแทนที่อุปกรณ์ไฟฟ้าและอิเล็กทรอนิกส์ทั้งหมดด้วยอุปกรณ์แสง Black boxจะประกอบไปด้วยอุปกรณ์แสงทั้งหมดที่ใช้ส าหรับการจัดเก็บข้อมูลจ านวนมากและเรียกใช้ที่รวดเร็วขอ งข้อมูลจาก Black Box ในรูปแบบของแสงเมื่อไหรที่เชื่อมต่อกับอุปกรณ์ใด ๆ หรือระบบอื่น ๆ . I. บทน า

ข้อมูลที่ให้บริการแก่ผู้ใช้จะถูกให้บริการด้วยอินเทอร์เน็ตซึ่งอินเทอร์เน็ตเป็นสื่อในการแบ่งปันข้อมูลไปยังระ บบที่มีการเชื่อมโยงถึงกันทั้งหมดโดยปัจจุบันนั้นระบบการค านวณอิเล็กทรอนิกส์บางครั้งต้องใช้การสื่อสาร ผ่านทางเส้นทางสารกึ่งตัวน าแสง ในการส่งข้อมูลผ่านชั้นสารกึ่งตัวน าแสงนั้น สัญญาณอิเล็กทรอนิกส์ทั้งหมดจะถูกแปลงเป็นรังสีแสงเลเซอร์ผ่านหรือ LED เพื่อการอ่านสัญญาณขาเข้าหรือข้อมูลจากเครือข่ายแสงที่เราจ าเป็นต้องแปลงสัญญาณแสงเป็นสัญญาณ ไฟฟ้าที่เรามีอยู่ทั่วไปซึ่ง CPU สามารถเข้าใจ ขั้นตอนการแปลงระหว่างสัญญาณอิเล็กทรอนิกส์และสารกึ่งตัวน าแสงซึ่งต้องใช้เวลาและเพิ่มความซับซ้อน ให้กับอุปกรณ์ ในเครือข่ายแสงข้อมูลจะอยู่ในรูปของแสงผ่านออกเครือข่ายและการถ่ายโอนข้อมูลที่มีความรวดเร็ วเมื่อเทียบกับเครือข่ายแบบมีสายอื่น ๆ หากต้องการที่จะเข้าถึงข้อมูลนี้และส่งข้อมูลเพิ่มเติมไปยังเครือข่ายเราจ าเป็นต้องใช้อุปกรณ์หนึ่งที่มีความ สามารถในการตอบสนองความต้องการระบบเครือข่ายในปัจจุบัน การจัดเก็บข้อมูลเป็นหนึ่งในปัญหาที่เกิดขึ้นในสถานการณ์ปัจจุบัน การจัดเก็บไฟล์มัลติมีเดีย (เสียง \ วิดีโอ) ขึ้นอยู่กับปริมาณของหน่วยความจ าระบบที่เกี่ยวข้องที่มี การเข้าถึงไฟล์เหล่านี้เป็นอีกครั้งที่ขึ้นอยู่กับหน่วยความจ าแรมของระบบ ซึ่งการส่งหรือดาวน์โหลดไฟล์มัลติมีเดียเป็นอีกหนึ่งปัญหาที่ส าคัญที่จะเข้ามาเกี่ยวข้อง ไวรัสยังเป็นแนวคิดที่ท าลายอุปกรณ์หน่วยความจ าในซีพียูทั่วไป เครื่องคอมพิวเตอร์ล้วนประกอบไปด้วย registers,logic gates,วงจรทรานซิสเตอร์ ฯลฯ .. และเราจ าเป็นต้องมีพลังงานเพื่อการท างานอุปกรณ์เหล่านี้ทั้งหมด ซีพียูจะจัดเก็บข้อมูลในรูปแบบของ format 0s และ 1s (สัญญาณเปิดปิดไฟฟ้า) ในหน่วยความจ า เรามีอุปกรณ์หน่วยความจ า RAM และ ROM ที่สามารถเก็บเป็นกิกะไบต์ \ เทราไบต์ของข้อมูล ปัญหาที่เกี่ยวข้องกับพลังงานคอมพิวเตอร์ขนาดใหญ่ที่ช่วยให้เราพิจารณาแก้ปัญหาด้านเทคนิคใ หม่ที่ไม่เพียง แต่ในแง่ของการเพิ่มประสิทธิภาพของ CPU แต่ยังอยู่ในแง่ขององค์ประกอบอื่น ๆ เช่นอุปกรณ์หน่วยความจ า แผ่นซีดีสามารถเก็บข้อมูลได้ถึง 700 เมกกะไบต์, DVD-ROM - ถึง 17จิกะ ไบต์ ความจุของฮาร์ดดิสก์ในเครื่องคอมพิวเตอร์เดสก์ทอปเก็บได้ถึง 40-250จิกะ ไบต์ หรือสูงกว่านั้น แต่ในอนาคตคอมพิวเตอร์มีการประมวลผลหลายร้อยกิกะไบต์หรือแม้แต่เทราไบต์ ซึ่ง มากกว่าซีดีปัจจุบันหรืออาร์ดดิสก์สามารถรองรับได้ การให้บริการส าหรับคุณสมบัติข้อมูลดังกล่าวและอัตราการถ่ายโอนนั้นส าหรับการประมวลผลโดย หน่วยประมวลผลความเร็วสูงต้องใช้แนวทางใหม่ที่สมบูรณ์แบบเมื่อมีการสร้างอุปกรณ์จัดเก็บข้อมูล II. ระบบที่มีอยู่ ในระบบปัจจุบันเราไม่สามารถส่งข้อมูลในความเร็วสูงเมื่อเทียบกับอัตราข้อมูลที่ถูกน าไปบนเส้นท าง เรามีอุปกรณ์หน่วยความจ าซึ่งไม่สามารถ เปรียบเทียบ กับการประมวลผลของ CPU ปัจจุบันและข้อมูลข้อมูลที่ส่งไปบนเส้นทาง หากปริมาณของข้อมูลที่จะถูกประมวลผลมีมากซึ่งอุปกรณ์ขนาดเล็กเช่นอุปกรณ์ไฟฟ้า \ อิเล็กทรอนิกส์ก็จะร้อนขึ้น „หน่วยความจ าในปัจจุบันของเราไม่สนับสนุนการเข้าถึงข้อมูลแบบขนาน; „Virus; „ฮาร์ดไดรฟ์เกิดปัญหาล้มเหลว; „หน่วยความจ าไม่เพียงพอ; „ความเร็วการเข้าถึงข้อมูล; „ความคล่องตัว; „ความปลอดภัย; และ „การแปลงข้อมูล (ไฟฟ้าเป็นแสงและกลับกัน) คอมพิวเตอร์ท างานได้อย่างสมบูรณ์จะต้องประกอบไปด้วยทรานซิสเตอร์หลาย,ตัวเก็บประจุ ซึ่งอย่างน้อยที่สุดมี 1,000,000 ทรานซิสเตอร์ที่จะต้องท างานประมวลผลทั่วไป ปัญหาด้านการออกดูเหมือนจะมาจากการก าจัดการแปลงจากโปรตรอนไปเป็นอิเล็กตรอนไปมา การแปลงนี้ยังจ าเป็นอยู่เพราะเราไม่มีรูปแบบการท างานแบบแสงที่จ าเป็นต่อการท างานของคอมพิวเตอร์ทุ กส่วน ดังนั้น ANA-CPU จะช่วยเราในการวิเคราะห์และแก้ปัญหาที่กล่าวามาของ CPU แบบที่มีทั่วไป III ระบบที่เสนอ แนวคิดเบื้องหลังระบบ ANA นั้นคือการก าจัดอุปกรณ์ไฟฟ้าหรือที่เกี่ยวกับไฟฟ้า ที่ใช้ส าหรับการประมวลผลข้อมูลบนระบบ Host ANA จะช่วยในเรื่องขององค์ประกอบให้เป็นดังองค์ประกอบเดิม เราสามารถใช้คีย์บอร์แบบ ANA เมาท์ ANA และ จอภาพแบบ ANA ซึ่งงานเขียนชิ้นนี้กล่าวถึงหัวใจของ ANA CPU ANA CPU คือ กล่องด า เหตุผลที่ใช้กล่องด าก็คือข้อมูลภายใน CPU จะท างานในรูปแบบของแสง ดังนั้นเพื่อหลีกเหลี้ยงรังสีของแสงเราจึงใช้กล่องด า กล่องด า (Black Box) ท างานได้เหมือน CPU ทั่วไปและสามารถเชื่อมต่อโดยตรงกับการสื่อสารเพื่อส่งข้อมูลโดยปราศจากการแปลงใดๆ การจัดเก็บในกล่องด าอยู่ในรูปแบบของแสงดังนั้น เวลาที่ใช้ไปของ CPU ทั่วไปจะใช้ไปเพื่อแปลสัญญาณไฟฟ้าไปเป็นสัญาณแสง แต่ในทางกลับควรที่จะลดขั้นตอนดังกล่าว คุณลักษณะที่น่าใจของ ANA คอมพิวเตอร์ คือเส้นแสง ซึ่งสามารถส่งผ่านไปในความถี่ต่างๆกันบนเส้นแสงแต่ละอันและตัวตรวจจับแสงสามารถกรองการตอบสน องของแต่ละความถี่โดยอิสระและยือดหยุนด้วย topology ที่ก าหนด การประมวลผลด้วยแสงมีประโยชน์มากมาย เช่น ขนาดเล็ก มีความจุมาก ความเร็วสูง ความร้อนต ่า และอีกอย่างคือสามารถปรับแต่งใหม่ได้อย่างเป็นพลวัตร ปรับขนาดให้ใหญ่หรือเล็กตามมาตรฐานและสามารถค านวณเป็นแบบคู่ขนานขนาดใหญ่ได้ อนาคตของการประมวลผลแบบแสงมีแนวโน้มจะเป็นลักษณะอเรย์ขนาดใหญ่ของข้อมูลที่ใช้ภาพ มากกว่าใช้ไฟฟ้า การค านวณแบบแสงใช้ความคล้ายของหลักการมีอยู่และไม่มีอยู่ของสัญญาณที่ได้รับ ซึ่งมีหลากหลายความถี่ของแสงเลเซอร์บนเส้นแสงกล่องด านี้ถูกใช้เพื่อขยัดปัญหาการจัดเก็บข้อมูล การเรียกใช้ข้อมูล และ ความปลอดภัยด้านการคุกคาม กล่องด านี้เป็นพื้นฐานของหลักการของแสงและภาพ กล่องด า (Black Box) กล่องด าควรที่จะถูกออกแบบให้มีขนาด 12x12x12 นิ้ว ซึ่งจะป้องกันรังสีของแสงกล่องนี้ประกอบไปด้วยการจัดเตรียมอุปกรณ์แสงทั้งหมดส าหรับจัดเก็บและเรียกใ ช้ข้อมูล หลอดแสงเลเซอร์ (Laser Diode) หลอดแสงเลเซอร์ถูกใช้เพื่อก าเนิดแสงส าหรับการประมวลผลข้อมูล แก๊ซเลเซอร์ที่มีความประหยัดที่ใช้ประโยชน์ได้คือ ฮีเลี่ยม นีออน (HeNe) สิ่งที่ส่งออกมาสามารถอยู่ในอัตราส่วนระหว่าง แสงอินฟราเรด และ แสงสีเขียว แสงที่ใช้โดยทั่วไปคือช่วงสีระหว่าง 632.8 nm ซึ่งปล่อยแสงสีแดงออกมาตัวแบ่งล าแสง ตัวแบ่งล าแสงถูกใช้เพื่อแบ่งแสงเลเซอร์ที่เข้ามาเป็นสองส่วนเราใช้ล าแสงที่แบ่งเป็นจัตุรัสขนาด 20 mm

SLM อุปกรณ์ Spatial Light Modular (SLM) สามารถจ าลองการใช้ผลึกของเหลว โดยมี 2 มิติของอุปกรณ์ไฟฟ้าที่ท าหน้าที่โปรงแสงและน ากับมาใช้ใหม่บนความหลากหลายของพื้นที่หรือระยะทางรู ปแบบสามารถอยู่ในรูปแบบไฟฟ้าได้ บ่อยครั้งที่สัญญาณที่ส่งออกมานั้นจากคอมพิวเตอร์

SLM ส าหรับการจัดเก็บข้อมูลแบบภาพจ าเป็นต้องเป็นแบบ Binary และ ไม่จ าเป็นต้องใช้ข้อมูลแสง มันสามารถถูกสลับระหว่างสถานะที่แตกต่างกันกับความมืดและสว่างส าหรับทั้งสี่รูปแบบของข้อมูลดิจิตอ ล และค่าความผิดพลาดที่ยอมรับได้ ในทางทฤษฏีความเร็วของการแปลงข้อมูลสามารถปรับได้สูงถึง 1000 เฟรมต่อวินาที

เราสามารถที่จะแปลข้อมูลฐานสองไปเป็น array ที่เก็บค่าขาวด า ด้วยตัวแปลงแสงเชิงพื้นที่ (SLM) เราสามารถจัดเก็บข้อมูลได้หลากหลายในส่วนของการสร้างภาพผลึกสามมิติ เราสามารถอ่านค่ากลับไปยังหน้า page ผ่านล าแสงที่อ้างอิง

ผลึกเหลวLiquid Crystal Lithium Niobate (LiNbO3) ได้ถูกใช้อย่างกว้างขวางในส่วน electro-optic modulator lasers เช่นเดียวกับตัวแปลแบบเส้นใยแก้วน าแสง ตัวแปลแนวขวางส่วนใหญ่ก็จะใช้ผลึก LiNbO3 ถูกใช้เหมือนกับ เส้นใยภาพส าหรับจัดเก็บข้อมูล การเข้ารหัสแบบขนาน Parallel Decoder เรามีตัวเข้ารหัสแบบคู่ขนาน 1 ตัว เข้ารหัสสัญญาญจากกล่องด า ขณะที่เราก าลังเข้ารหัสข้อมูลแบบขนาน คู่ขนานจะต้องแปลสัญญาคู่ขนานในรูแบบสุดท้ายที่ระบบเข้าใจ IV. ค าอธิบายวิธีการ กล่องด าใช้หลักการสามมิติจัดเก็บข้อมูลและใช้ทฤษฏีรังสีแสงส าหรับการประมวลข้อมูล เป็นเรื่องง่ายส าหรับเทคนิคภาพแสงที่จัดเก็บข้อมูลดิจิตอลผ่านความลึกของสื่อกลางจัดเก็บข้อมูลในกล่อง ด า เทคนิคภาพนี้ท าให้สามารถเพิ่มขนาดความจุหน่วยจัดเก็บมากกว่าเทคโนโลยีปัจจุบันในขณะเดี่ยว กันสามารถประยัดค่าใช้จ่ายจากการใช้หน่วยจัดเก็บข้อมูลที่มากมายในระบบดิจิตอลได้ การใช้แสงหรืออุปกรณ์แม่เหล็กส าหรับเทคโนโลยีจัดเก็บข้อมูลจะใช้ bits 0 , 1 ซึ่งจะถูกจัดเก็บบนผิวของสือจัดเก็บ การจัดเก็บสารสนเทศผ่านปริมาณของอุปกรณ์จัดเก็บมากกว่าจัดเก็บบนผิว และให้ความจุขนาดใหญ่

กล่องด าประกอบด้วย 2 port ส าหรับการอ่านและเขียนข้อมูล port เหล่านั้นถูกเชื่อมต่อเข้ากับอุปกรณ์ ouput ส าหรับส่งและรับข้อมูล

V. ประโยชน์ สื่อการจัดเก็บแบบเดิมอย่าง hard disks, CD และ DVD นั้นเข้าถึงข้อมูลได้ครั้งละ 1 bit ต่อการเข้าถึงหนึ่งครั้ง แต่การเข้าถึง bit ของ memory แบบสามมิตินั้น ข้อมูลทั้งหมดบน page สามารถถูกเข้าถึงได้ในอัตราครั้งละ megabit ความเร็วในการค านวณของส่วนประมวลผลเพิ่มขึ้นเป็นสองเท่าในทุกๆ 18 เดือน ส่วนประมวลผลที่เราใช้กันอยู่ปัจจุบันใช้พลังงานมากและปฏิบัติงานเป็นล าดับที่สอง เรามาสามารถที่จะใช้ประโยชน์จากความเร็วในการประมวลผลจากส่วนประมวลผลขณะที่หน่วยจัดเก็บข้อ มูลและส่วนประกอบอื่น มีอัตราส่งข้อมูลที่ต ่าเมื่อเทียบกับความเร็วส่วนประมวลผล ปัญหานี้เป็นผลให้การใช้ประโยชน์ของส่วนประมวลผลได้น้อย หน่วยสื่อสารการประมวลผลกับอุปกรณ์รอบนอกเป็นเป็นไปอย่างเชื่องช้าส่งผลให้ความเร็วของหน่วยประม วลผลช้าไปด้วย ในโลกปัจจุบัน อุปกรณ์ที่จ าเป็นในการจัดสรรค์ขนาดการจัดเก็บข้อมูลและตอบสนองได้รวดเร็วเพื่อตอบสนองต่ออุปกรณ์อ ย่าง Compact disk ซึ่งเก็บได้ 700 Mb ถึง 800 MB , DVD จัดเก็บได้ 17 GB และ Hard disks จัดเก็บได้ 250GB อุปกรณ์เหล่านั้นได้สร้างความพึงพอใจและความต้องการก็มากขึ้น แต่ขณะที่ความต้องการของอุปกรณ์ที่ความและการตอบสนองด้านความเร็วควรจะดีขึ้น อุปกรณ์จัดเก็บข้อมูล อยู่บนพื้นฐานของเทคนิคอุปกรณ์จัดเก็บแบบแสงพิจารณาเพื่ออนุญาติให้ส่วนจัดเก็บข้อมูลใหญ่ขึ้นประมา ณ 1000 GB ภายในขนาดเนื้อที่ 1x1x1 cc (ขนาดเท่ากับผลึกน ้าตาล) ซึ่งอุปกรณ์นี้จะมีความเร็วในการตอนสนองการเข้าถึง ในอัตราทีความเร็วเทียบได้กับอุปกรณ์จัดเก็บปัจจุบัน อุปกรณ์จัดเก็บข้อมูลแบบแสงถูกน าไปใช้ในลักษณะ ANA และหน่วยความจ า ANA ระบบการจัดเก็บข้อมูล ANA สามารถจัดเก็บได้ page ที่บันจุ bit 1 ข้อมูลได้ถึง ล้านล้าน bit ในพื้นที่ขนาดเล็กของผลึก และไม่มีสนามแม่เหล็ก การเข้าถึงส่วนจัดเก็บข้อมูลเมื่อเทียบกับสื่อที่มีปัจจุบันเร็วกว่า 20-50 เท่า ข้อมูลขนาดใหญ่สามารถเข้าถึงได้ในครั้งเดียว ข้อมูลที่บรรจุในลักษณะหน่วยความจ า ANA นั้นเชื่อถือได้และความผิดพลาดแทบจะไม่มี “การจัดเก็บข้อมูล 1000 GB ในผลึกขนาด 1 นิ้ว” เมื่อเราบันทึกข้อมูล 1 page ด้วยภาพสามมิติ เราสามารเปลี่ยนมุมล าแสง ความยาวคลื่น หรือต าแหน่ง และ บันทึกข้อมูลในรูปแบบสื่อสามมิติ ด้วยวิธีนี้ ความหลากหลายของข้อมูล 1 page อาจจะจัดเก็บในรูปแบบสามมิติชิ้นเดียว ความเร็ว: 40-เมตร ต่อวินาที ศักยภาพการส่งข้อมูล: 1 GB ต่อวินาที ขนาด sector ขนาดเล็กที่สุด 128 KB (นี้เป็นจ านวนที่เล็กที่สุดที่สามารถอ่านและเขียนในการท างาน 1 ครั้ง) ศักยภาพในการจุ: 1 TB (1000 GB ในผลึกขนาด 1 cm) พลังาน : 1 วัตต์ต่อตารางมิลลิเมตรของขนาดสามมิติ ตั้งแต่รูปแบบที่เสนอได้เติมสารเขาไปนั้นยังให้ปรโยชน์อย่างอื่นในรูปแบบหน่วยความจ า 3 มิติ รวมถึงความน่าเชื้อถือของสารสนเทศที่บันทึก การจัดเก็บข้อมูลในรูปแบบของแสงนั้น การเรียกใช้ข้อมูลจะอยู่ในรูแบบที่ไม่จ าเป็นต้องแปลงข้อมูลให้อยู่ในรูปแบบสัญญาไฟฟ้า เพื่อจะส่งข้อมูลบนเส้นทางของแสง แม้กระทั้งในกรณีของ Virus แสงสามมิติจะไม่ได้รับผลกระทบจากมุ่มที่อาจจะต่าง จะไม่มีการเสียหายของภาพสามมิติ VI. การน าไปใช้ การติดตั้งทั่วไปของกล่องด า องค์ประกอบพื้นฐานที่จ าเป็น ในการสร้างกล่องด าคือ „ แสงเลเซอร์ HeNe „ ตัวแบ่งล าแสง Beam splitter (ใช้เพื่อแบ่งล าแสงเลเซอร์) „ SLM „ กล่องด า „ เข็ม diodes „ กระจกเพื่อน าทางล าแสง „ เลนซ์ส าหรับหาจุดโฟกัสล าแสง „ Photopolymer (Lithium-Niobate crystal) „ ตัวตรวจจับภาพ

กล่องด าประกอบไปด้วย port 2 port คือ ANAW และ ANAR ขนาด 8 เข็ม ANAW ใช้ส าหรับการเขียนข้อมูลในหน่วยจัดเก็บ และ ANAR ใช้ส าหรับการอ่านข้อมูล port เหล่านี้ฝังตัวในกล่องด า และก็ต่อเข้ากับ SLM1 และ SLM2 ตามล าดับ ส่วนติดต่อถูกเขียนเพื่อการประมวลผลของกล่อง ส่วนการติดต่อจะถูกท างานโดยระบบ นี้คือส่วนเชื่อต่อระหว่างกล่องด าและอุปกรณ์ทั่วไป มันท างานเหมือนตัวขับอุปกรณ์ส าหรับกล่องด า ซึ่งจ าเป็นจะต้อง run ส่วนติดต่อเพื่อปรับแต่งพอร์ต USB ของ PC ส าหรับการเขียนและอ่านข้อมูล

การเขียนข้อมูล เมื่อส่วนการเขียนได้ถูกเลือก ส่วนเชื่อมต่อจะเตรียมพร้อม file ที่จะเขียนในกล่องด า ส่วนของการส่งข้อมูลของ file ที่เลือกจะอยู่ในรูปแบบ 0 และ 1 ส าหรับการปรับแต่ง port usb จะถูกอ่านโดย port ANAW อันซึ่ แปลงสัญญานเข้า ไปที่ SLM1 ทันทีที่ข้อมูลถูกแปลงเป็น SLM1 หลอดแสงเลเซอร์จะเริ่มส่งล าแสง เราใช้ตัวแบ่งล าแสงเพื่อแบ่งแสงที่เข้ามาเป็น 2 ส่วน อันที่ 1 เป็นส่วนของแสงข้อมูลที่ถูกเรียกและท าเพื่ออ่าน SLM1 และน าทางโดยกระจกและเลนส์ ผ่านผลิก ส่วนอีกอันจะถูกเรียกด้วยตัวก าเนิดแสง ดดยน าทางโดยกระจกเงาและเลนส์ที่ตกกระทบไปยังผลึกเหลวเพื่อท าการแทรกรูปแบบของแสงข้อมูลแสง ก่อนที่ตัวก าเนิดแสงจะถึงผลึก แสงจะถูกแบ่งไปเป็น 2 ส่วนแส่งส่วนหนึ่งจะถูกน าไปตกที่ตัวตรวจจับภาพ(ตรวจแสงที่เข้ามาและแปลงไปให้ SLM2) และอีกอันจะเข้าไปในผลึก SLM2 จะถูกท าให้ร้อนของมุมที่เกิดขึ้น SLM2 นี้จะสามารถถูกใช้ส าหรับการอ่านข้อมูลกลับมา แสงจะโฟกัสไปที่ SLM1 โดยอ่านสัญญาน าเข้าและผ่านส่วนต่างๆกันของผลึก นั้นจะเป็นรูปแบบการแทรกในผลึก การแทรกสอดในรูปแบบนี้ถูกบรรจุโดยตัวก าเนิดและล าแสงความร้อนข้อมูลในผลึก รูปแบบการแทรกนี้ เป็นรูปแบบข้อมูลที่สนับการเขียนของเรา

การอ่าน เมื่อไหรที่เราเลือการอ่านสัญญาณถูกสั่งไปที่พอร์ต USB เพื่อกระตุ้น SLM ล าดับที่ 2 ส าหรับ ANAR เป็น port ที่เชื่อมต่อ จากนั้นเลเซอร์หลอดที่ 2 ส่งแสงไปยัง SLM2 และ ล าแสงสัญญาณจะถูกส่งไปที่ผลึก ผลึกนี้จะอ่านสัญญาณที่เข้ามาและ Page ข้อมูล จะถูกให้มีการตรวจสอบภาพ ตัวตรวจสอบภาพส่งสัญญาณกลับไปที่ SLM2 นี้เป็นการให้จังหวะการส่งกลับข้อมูลไปยัง PC ซึ่งเราจะสามารถเห็นข้อมูลใน data page อย่างที่เก็บในกล่องด า การเลือก ไฟล์ที่จะถูกอ่านนั้น port USB จะส่งชือ file ในรูปแบบ 0 , 1 ไปยัง พอร์ต ANAR ซึ่งส าหรับการแปลไปที่ SLM2 หลอดเลเซอร์ 2 หลอดจะถูกน าเข้าเหมือนล าแสง ตัวกรองเป็นตัวก าเนิดแสง ตัวก าเนิดแสง SLM2 นี้จะช่วยก าเหนดไฟฟ้าต้นฉบับโดยการตรวจสอบนี PC

ANAW

การดูข้อมูล

การเข้าถึงไฟล์ที่ก าหนด กล่องสามารถเชื่อมต่อโดยตรงกับเส้นทางของแสงที่ซึ่งสัญญาณขาเข้าได้รับโดย port ภายใน และถูกแปลงโดย SLM

รูปแสดงสถาปัตกรรม กล่องด า VII. บทสรุป กล่องด าสามารถบูรณาการเข้ากับ สถาปัตยกรรมเครือข่ายปัจจุบันได้ ข้อมูลที่จะถูกส่งสามารถเก็บในกล่องด าและกล่องนี้สามารถเชื่อมโดยตรงกับ ส่วนอื่นๆ ของเครือข่ายเพื่อส่งข้อมูลบนเส้นทางของแสง กล่องด า สามารถบูรณาการกับ CPU ปัจจุบันส าหรับการเรียกใช้และจัดเก็บข้อมูลขนาดใหญ่ VII. งานในอนาคต กล่องด าควรจะได้รับการสนับสนุนให้มีความน่าเชื่อถือ อย่างในกรณีการน าเสนอนิยาม เราไม่สามารถลบจ านวนอุปกรณ์ไฟฟ้า อันซึ่งจ าเป็นต่อการประมวลผลข้อมูลแม้ว่าส่วนประมวลผลจะถูกเปลี่ยนไปเป็นการประมวาลผลแบบแสงก ารพิจารณา จ านวนงานซึ่งจ าเป็นที่จะถูกบรรจุเพื่อการเติมเต็มกับค าจ ากัดความที่แท้จริงของ ANA CPU ยิ่งไปกว่านั้นเราสามารถเปลี่ยนอุปกรณ์พวก keyboards, mouse และจอภาพ เป็นแบบแสงอย่างสมบูรณ์อย่าง ANA PC ดังนั้นกล่องด าสามารถก าหนดให้ใช้ช่วงคลื่น 2550 nm ซึ่งช่วงคลื่นนี้สามารถถูกใช้สหรับการอ่านและเขียนบนหน่วยความจ า และ อุปกรณ์ WDM สามารถ multiplex และ อ่าน เขียน ข้อมูลได้อย่างง่ายดาย

4. การค านวนแมตริกระยะห่างดีเอ็นเอ ให้เร็วขึ้นโดยอาศัยความสามารถของหน่วยประมวลผลกราฟฟิค GPU-Accelerated DNA Distance Matrix Computation บทคัดย่อ การค านวช่วงเวลาแบบแมทริกซ์ในวิวัฒนาการของคอมพิวเตอร์เริ่มมีการใช้กันมากขึ้นเรื่อยๆ การเติบโตของปริมาณล าดับชุดข้อมูลบังคับให้ต้องหาวิธีการท าให้คอมพิวเตอร์ท างานเร็วขึ้น โครงงาน Felsenstein's DNADIST ของโปรแกรมชิ้นนี้จะเป็นการเร่งความเร็วโดยการใช้ OpenCL (Open Computing Language) โดยใช้ประโยชน์ในด้านของขนาดในการประมวลผลของหน่วยประมวลผลกราฟฟิค การเร่งความเร็วของหน่วยประมวลผลกราฟฟิคในโปรแกรม DNADIST ประสบความส าเร็จในการเร่งความเร็วในการประมวลผลแบบอนุกรมได้มากกว่า 12 เท่าบนเครื่องคอมพิวเตอร์ส่วนบุคคลที่ใช้หน่วยประมวลผลกลาง 2.66GHz Quad-Core CPU ของ Intel และ AMD HD5850 ที่เป็นหน่วยประมวลผลทางด้านกราฟฟิค และการเพิ่มปริมาณหน่วยประมวลผลกราฟฟิคขึ้นเป็นสองเท่าบนแพลตฟอร์มเดิมท าให้การประมวลผลสา มารถเร่งความเร็วขึ้นได้ถึง 24 เท่าในการวัดผลแบบเชิงเส้น ในรายงานจะแสดงให้เห็นถึงการมีประสิทธิภาพที่ดีซึ่งลดระยะเวลาการประมวลผลลงได้ถึง 16 เท่าร่วมกับการ์ดประมวลผลกราฟฟิค NVIDIA Tesla C2050 Keywords- GPU, OpenCL, distance matrix, phylogeny

บทน า ระยะทางของเมทริกซ์ถูกใช้ในวิวัฒนาการ เผื่อสร้างแผนผังแสดงความสัมพันธุ์ทางวิวัฒนาการซึ่งเป็นพื้นฐานของการวิเคราะห์วิวัฒนาการและได้ถูก น ามาใช้ในการวิจัยในหลายพื้นที่ รวมไปถึงการค้นพบยาชนิดใหม่ๆ เวลาที่ซับซ้อนของการค านวนหาช่วงเวลาในเมทริกซ์ของจ านวน N รูปแบบ ก็คือ O (N2) จ านวนของล าดับขั้นตอนเพิ่มขึ้นน่าตกใจในปีที่ผ่านมาเนื่องจากความคืบหน้าของการหาล าดับเบสเทคโนโ ลยีที่น าไปสู่การเพิ่มขึ้นอย่างมากจากภาระการค านวณช่วงเวลาการค านวณหาช่วงเวลาของเมทริกซ์ในสมั ยใหม่มีความคล้ายคลึงกันระหว่างล าดับกลุ่มของข้อมูลที่ตั้งอยู่บนเวิร์คสเตชั่น CPU-based สามารถใช้เวลาเพียงชั่วโมงหรือวันก็ค านวนได้ ในขณะที่การพัฒนาอย่างรวดเร็วของฮาร์ดแวร์ Graphics Processing Units ให้ส่งผลให้เกิดประสิทธิภาพและความสามารถในการค านวณอัตราส่วนที่สูง ประสิทธิภาพความแม่นย าสูงสุดของทุกวันนี้ การ์ดหน่วยประมวลผลภาพแบบเดี่ยวสามารถประมวลผลไปได้สูงถึงหลายพันล้านค าสั่งต่อวินาทีซึ่งเทียบเ ท่าได้กับ หน่วยประมวลผลกลางขนาดเล็กที่เป็นแบบคลัสเตอร์ ในขณะเดียวกันวิธีการที่ใช้ในการเขียนโปรแกรมให้ท างานร่วมกับหน่วยประมวลผลภาพอาทิเช่น CUDA [1] และ OpenCL [2] มีความเป็นไปได้ที่จะได้ประโยชน์โดยการใช้การพัฒนาโปรแกรมเพื่อดึงความสามารถในการค านวณของห น่วยประมวลผลกราฟิกส าหรับการใช้งานที่ใช้งานทั่วไปโดยไม่ต้องมีความซับซ้อนของทักษะการเขียนโปรแ กรมกราฟิคโปรแกรม DNADIST จาก PHYLIP (Phylogeny Inference Package) [3] ใช้ล าดับของ nucleotide มากค านวนหาระยะห่างระหว่างเมทริกซ์ภายใต้ความแตกต่างกันของรูปแบบในการเข้าแทนที่ของ nucleotide แต่ละระยะทางคือค่าความน่าจะเป็นสูงสุดที่ประเมินจากเวลาที่แตกต่างระหว่างสองชนิดที่ก าหนดภายใต้รู ปแบบที่เฉพาะเจาะจงแทน ในรายงานฉบับนี้จะถูกก าหนดรูปแบบของค่าเริ่มต้นเป็นแบบ F84 [4][5] ถูกใช้ในรายงาน DNADIST บนการประมวลผลด้วยหน่วยประมวลผลภาพโดยใช้ OpenCL โดยพิจารณาถึงคุณสมบัติโครงสร้างสถาปัตยกรรมของหน่วยประมวลผลกราฟฟิค เราปรับแต่งล าดับขั้นตอนของอัลกอลิทึมและโปรแกรมของเราได้บรรลุเป้าหมายจาก 12 ถึง 24 เท่าในการเร่งความเร็วมากกว่า โปรแกรม DNADIST ในเวอร์ชั่น CPU ส่วนที่เหลือของรายงานฉบับนี้มีโครงสร้างดังนี้ ส่วนที่สองของรายงานฉบับนี้จะพูดถึงเบื้องหลังที่มาของรายงานฉบับนี้ วิธีการค านวนช่วงเวลาและวิธีติดตั้งในส่วนของหน่วยประมวลผลภาพ ได้อธิบายไว้ในส่วนที่ 3 และ 4 ตามล าดับ ส่วนที่ 5 จะกล่าวถึงผลลัพธ์ของการค านวนในรูปแบบที่แตกต่างกันรวมไปถึงส่วนสรุปของส่วนที่ 4

ที่มา แผนผังแสดงความเชื่อมโยงของโครงสร้างบนพื้นฐานของพิสัย แผนผังแสดงความสัมพันธุ์ทางวิวัฒนาการแสดงถึงความสัมพันธ์กับโหนด (ชนิดหรือประชากร) โดยทั่วไปแล้วพิจารณาถึงความสัมพันธุ์ของช่วงเวลาบนพื้นฐานของลักษณะการเรียงตามตัวอักษรของการ ปรับปรุงโครงสร้างต้นไม้ (tree-reconstruction)[6] เช่น ประหยัดสูงสุด (parsimony)[7] โอกาสสูงสุด(maximum likelihood)[8] และวิธีการอนุมาน (Bayesian Method) [9] โดยใช้ nucleotides หรือกรดอะมิโน (amino acids) เพื่อให้เหมาะสมกับโครงสร้างต้นไม้ และวิธีการที่ควรจะเป็นสูงสุดคือสถิติที่แม่นย าที่สุดของการฟื้นฟูความสัมพันธ์ของโครงสร้างต้นไม้ อย่างไรก็ตามจุดอ่อนของวิธคือการค านวนด้วยวิธีดังกล่าวแทบจะเป็นไปไม่ได้ถ้าหากขนาดของชุดล าดับข องข้อมูลมีขนาดที่ใหญ่หลายโหล พิสัยเริ่มต้นใช้ clustering algorithms เพื่อแปลงเมทริกซ์ของพิสัยร่วมระหว่างชนิดไปเป็นโครงสร้างต้นไม้ การหาพิสัยร่วมสามารถท าได้หลายวิธี [10][11] ข้อดีของพิสัยเริ่มต้นด้วยวิธีนี้คือสามารถจัดการกับข้อมูลที่มีขนาดใหญ่ได้ดีและท างานได้เร็วกว่าวิ ธีการใช้ตัวอักษร โปรแกรม DNADIST ถูกใช้ในการหาความเชื่อมโยงกันระหว่างวิธีการปรับปรุงโครงสร้างต้นไม้และใช้เป็นต้นแบบที่ประเมินค่าหา ความแม่นย าที่สุดโดยการค านวนด้วยวิธีการใช้ตัวอักษร

GPGPU Programming วัตถุประสงค์ทั่วไปเกี่ยวกับการค านวนของหน่วยประมวลผลกราฟิก (GPGPU) เป็นเทคนิคในการใช้ GPU เพื่อจัดการกับปัญหาของการค านวนเกิดขึ้นโดยทั่วไปในการด าเนินการของ CPU ในการช่วงเริ่มต้นของการใช้ GPGPU สามารถกล่าวย้อนไปได้ถึงช่วงปี 2000 ว่าเมื่อโปรแกรมเมอร์ได้มีการเริ่มใช้ช่องทางในการเขียนโปรแกรมเพื่อเชื่อมต่อกับหน่วยประมวลผลภาพเช่ น DirectX และ OpenGL เพื่อเร่งความเร็วของ Application การเขียนโปรแกรมในลักษณะนี้เป็นเรื่องที่ค่อนข้างยากเพราะโปรแกรมเมอร์จะต้องค านึงถึงการออกแบบแ ละการวางแผนในการใช้งานโอเปอร์เรชั่นทางคณิตศาสตร์เพื่อด าเนินการทางกราฟฟิค สถานการณ์นี้ไม่ได้ถูกปรับปรุงจนกระทั่งผู้จ าหน่ายรายใหญ่ได้และกลุ่มผู้มีผลกระทบได้เรียกร้องให้มีการป รับปรุงเพื่อลดการท างานที่ยุ่งยากและซับซ้อน NVIDIA CUDA (Computer Unified Device Architecture) [1] ได้เปิดตัวขึ้นในปี คศ. 2006 เพื่อสนับสนุนการเขียนโปรแกรมด้วยภาษา C บนหน่วยประมวลผลภาพ AMD ได้ตามกระแสด้วยการเปิดตัว SDK (Software Development Kit) [12] ในปี คศ. 2007 ซึ่งสนับสนุนภาษา C เป็นไปตามมาตรฐานของ ANSI (American National Standard Institute) ที่ต้องการให้เข้าถึงโครงสร้างพื้นฐานในการพัฒนาโปรแกรม ที่ด าเนินการทั่วทั้งแพลตฟอร์มที่ต่างกันรวมทั้งซีพียู หน่วยประมวลผลภาพ และหน่วยประมวลผลอื่น ๆ เช่น DSPs และมือถือ Khronos Group ได้เผยแพร่ OpenCL [2] ในปี คศ. 2008 OpenCL ประกอบด้วย ช่องทางในการเชื่อมต่อหลายช่องทาง (APIs) เพื่อใช้ในการจัดการกับแพลตฟอร์มที่แตกต่างกันและโปรแกรมมิ่งภาษา C ใช้เพื่อเขียน Kernel function เพื่อใช้สั่งการบนอุปกรณ์ที่รองรับ OpenCL แนวคิดของสถาปัตยกรรมบนอุปกรณ์ที่รองรับ OpenCL เป็นไปดังภาพตัวอย่างที่ 1

เร่งประสิทธิภาพการค านวนทางชีววิทยาและงานที่เกี่ยวข้องด้วยหน่วยประมวลผลภาพ ตามแนวคิดของ GPGPU ที่ยังมีประวัติมาไม่นานนั้นผลงานส่วนใหญ่จะใช้ประโยชน์จากการขนาดของการค านวนโดยหน่วยประมวล ผลภาพหลายๆหน่วยพร้อมกันส าหรับการค านวนทางชีววิทยา การวิเคราะห์ล าดับโดยเฉพาะอย่างยิ่งการจัดเรียงล าดับซึ่งเป็นพื้นฐานของการศึกษาทางชีววิทยาหลาย ซึ่งต้องเสียเวลาและความต้องการในการเร่งประสิทธิภาพของอุปกรณ์ที่มากขึ้น Schatz [13] ได้เสนอการจัดเรียงข้อมูลในปริมาณมากด้วย โปรแกรม MUMmerGPU ซึ่งใช้ หน่วยประมวลผลภาพซึ่งบรรลุเป้าหมายด้วยการเร่งความเร็วได้มากกว่า โปรแกรมที่ใช้ CPU 10 เท่าตัว Ligowski [14] ได้ด าเนินการอย่างมีประสิทธิภาพด้วย Smith Waterman algorithm ด้วยหน่วยประมวลผลภาพซึ่งสามารถดึงประสิทธิภาพของอุปกรณ์ได้ถึง 70% ตามทฤษฏี ยังมีงานอื่นๆที่สามารถพบได้ในงานส ารวจ Sarkar’s [15] การปรับปรุงโครงสร้างต้นไม้ในวิวัฒนาการการวิจัยเป็นอีกหนึ่งกระบวนการเสียเวลาในคอมพิวเตอ ร์ ชีววิทยา ซึ่งก็ยังคงถูกเร่งประสิทธิภาพโดยหน่วยประมวลผลกราฟฟิกในรูปแบบที่แตกต่างกัน Charalambous [16] ได้น าโอกาสสูงสุดของการปรับปรุงโครงสร้างต้นไม้ผ่านโปรแกรม RAxML เพื่อให้หน่วยประมวลผลภาพเร่งความเร็วจาก 1.2x ไป 3x Suchard [17] ด าเนินการตามขั้นตอนวิธี Bayesian ฟื้นฟูสายวิวัฒนาการเกี่ยวกับ หน่วยประมวลผลภาพ และประสบความส าเร็จในการ เร่งความเร็วจาก 90x ไป 250x ซึ่งมากกว่าโปรแกรม CPU นอกจากนี้ยังมีความพยายามบางอย่างเกี่ยวกับวิธีการที่ใช้ค่าพิสัยที่สามารถจัดการชุดข้อมูลขนาดใหญ่ Chang น าวิธีการหาพิสัยอย่างง่าย เช่น Euclidean และ Manhattan บนหน่วยประมวลผลภาพซึ่งประสบผลส าเร็จที่ดีในระดับนึง อย่างไรก็ตามในทางสถิติยังไม่มีวิธีการค านวนหาพิสัยที่แม่นย าบนหน่วยประมวลผลภาพและนี่คือเหตุผลที่ จะท าในรายงานฉบับนี้ III วิธีตามอนุกรม โมเดลทางสถิติ Felsenstein [5] ได้อธิบายถึงทฤษฏีและวิธีที่ใช้ในการค านวน คือ DNAML และ DNAMLK ในโปรแกรม PHYLIP [3] เพื่อค านวนโอกาสสูงสุดในการพัฒนาโครงสร้างต้นไม้ที่มีวิวัฒนาการที่เป็นไปตามรูปแบบ Markov ที่ซ่อนไว้ วิธีที่โปรแกรม DNADIST นิยมใช้ในการค านวนหาพิสัยระหว่างสองล าดับซึ่งโอกาสสูงสุดที่กิ่งจะยาวได้มากที่สุดมีเพียงแค่ สองโหนด แตกต่างก็คือความยาวเพียงหนึ่งกิ่งของโหนดที่ดีที่สุดระหว่างคู่ของแต่ละล าดับจะถูกค านวณในโปรแกรม DNADIST แทนที่จะค านวณทุกกิ่งของต้นไม้เป็นไปได้ทั้งหมดในโปรแกรม DNAML และ DNAMLK r ถ้า Ci หมายถึงหมวดหมู่ของต าแหน่งที่ตั้งของ i อัตราส่วนของ i คือ c จะให้ข้อมูล D ที่จัดเก็บไว้ในต าแหน่ง n ดังนั้นโอกาสสูงสุดที่จะให้ข้อมูลความสัมพันธ์ของกันและกันจะได้ดังนี้

ความน่าจะเป็นตามรูปแบบของ Markov จะเป็นช่วงการเปลี่ยนจากสถานะ x กับ y ขึ้นอยู่กับความยาวกิ่งทั้งสองข้างของ V ขึ้นอยู่กับอัตราการเติบโตของ r ซึ่งสามารถกับหนดได้เช่น 푀푀ij (푣푣, 푟푟), คือ

ตามรูปแบบที่ให้ไว้ระบุความน่าจะเป็นที่แตกต่างกันจะเปลี่ยนแปลงล าดับ S1 เป็น S2 เป็นล าดับในระหว่างการวิวัฒนาการไปตามข้อมูลของกิ่งสาขาที่แตกต่างกัน โอกาสสูงสุดที่จะหาได้โดยท าการประเมินโอกาสของความยาวกิ่งทั้งหมดซ ้า กระบวนการนี้ต้องใช้ปริมาณการค านวนเป็นจ านวนมาก อย่างไรก็ตามวิธีที่สามารถค านวนได้เร็วมากกว่าคือการใช้วิธีของ Newton-Raphson ซึ่งเป็นการใช้ปริมาณของความยาวกิ่งสาขาที่น้อยในการค านวน ซึ่งมีสมการดังนี้

ที่ Α และβเป็นตัวแทนของอัตราสองเหตุการณ์การเปลี่ยนแปลงของยีน [5] และ

กระบวนการการลดรูปของสมการสามารถพบได้ในรายงานของ Felsenstein [5] [8] [20]

การท างานของโปรแกรม

การท างานโดยรวมของโปรแกรม DNADIST แบบอนุกรมที่สามารถประยุกต์ดังภาพที่ 1 จุดที่แสดงให้เห็นถึงผลลัพธ์ของโปรแกรมแสดงในภาพตัวอย่างที่ 3 เราสามารถรู้จุดหลักของโปรแกรมใช้ makev function ซึ่งจะค านวนหาพิสัยของล าดับคู่เปรียบเทียบที่ดีที่สุด กระบวนการเหล่านี้มีความเป็นอิสระซึ่งท าให้ปัญหานี้เป็นปัญหาหนึ่งที่ไม่ดี กระบวนการหลักของ makev function นั่นก็คือการน าวิธีการของ Newton-Raphson ในข้างต้นมาใช้ pseudo code ของกระบวนการท าซ ้าจะแสดงให้เห็นในภาพตัวอย่างที่ 4 และจะมีการปรับปรุงในส่วนถัดไป

IV. GPU IMPLEMENTATION A. Task Mapping พิจารณารูปแบบการจับคู่ OpenCL สนับสนุนกลุ่มรูปแบบงานที่ใช้ในการจับคู่บนอุปกรณ์ ดังเช่นรูปตัวอย่างที่ 3 รายการที่เป็นงานด าเนินการขั้นพื้นฐานและหลายรายการงานสามารถจัดเป็นกลุ่มงานที่พวกเขาสามารถส นับสนุนการท างานที่มีประสิทธิภาพของกลุ่มเวกเตอร์ที่เหมือนกันและมีความเร็วสูงในการแบ่งแต่ถูกจ ากัด ด้วยขนาดพื้นที่ของหน่วยความจ า

การค านวณเมทริกซ์ระยะทางจากการป้อนข้อมูลตัวอย่างของ N ล าดับดีเอ็นเอโปรแกรมต้องท า N * (N-1) / 2 เพื่อค านวนหาระยะพิสัย เพื่อประกอบการพิจารณา มันเป็นธรรมชาติที่จะรักษางานทั้งหมดเป็นรายชื่อและแบ่งเท่า ๆ กันเป็นชิ้น ๆ (กลุ่มงาน) ส าหรับใส่ตัวอย่างของแปดล าดับดีเอ็นเอ ในภาพตัวอย่างที่.6 พบนี้ลักษณะเชิงเส้นของการจับคู่งานที่ d (x, y) มอบงานการค านวณระยะห่างของล าดับ x และ y และบล็อกขนาดใหญ่ซึ่งมีเก้าส่วนสี่เหลี่ยมเล็ก ๆ ที่แสดงถึงการท างานกลุ่มของโปรแกรม OpenCL

ในทางกลับกันถ้าเราพิจารณาเกี่ยวกับหน่วยความจ าที่ติดตั้งเราจะได้วิธีในการจับคู่แบบเมทริกดัง ภาพที่แสดงในตัวอย่างที่ 7 เมื่อขนาดงานกลุ่มคือ (BLOCK_SIZE * BLOCK_SIZE), กลุ่มงานในแต่ละเมทริกซ์แบบการเข้าถึงข้อมูลโดยวิธีการที่มากที่สุด 2 * ล าดับ BLOCK_SIZE ในขณะที่เส้นการท างานเป็นกลุ่มแบบเส้นตรงอาจจะต้องใช้มากถึงล าดับ BLOCK_SIZE * BLOCK_SIZE การพิจาณาแบบหลายการ์ดประมวลผลภาพ ข้อดีของการประมวลผลด้วยหน่วยประมวลผลกราฟฟิค การประมวลผลนั้นมีความละเอียดสูงมากและในความเป็นจริงคือยังสะดวกที่จะสามารถขยายขนาดปริมา ณที่ใช้ในการค านวนได้โดย การเพิ่มจ านวนของหน่วยประมวลผล กราฟฟิคดังนั้นการปรับขยายประสิทธิภาพการท างานของโปรแกรมนี้ยังมีการพิจารณาที่ส าคัญของโปรแก รมหน่วยประมวลผลกราฟฟิค โปรแกรมประมวลผลภาพที่ได้กล่าวไว้ในรายงานฉบับนี้เป็นกระบวนการง่าย เพื่อให้บรรลุถึงวัตถุประสงค์ของการใช้หน่วยความจ าแบบคู่ขนานได้อย่างมีประสิทธิภาพ และเป็นวิธีการกระจายงานในรูปแบบเมทริกซ์คือการแบ่งออกเป็นเมทริกซ์ N ออกเป็นสี่เหลี่ยมผืนผ้าตามพื้นที่ของพวกเขาให้เป็นดังในรูปตัวอย่างที่ 8

B. Task Mapping แม้ว่าวิธีในการจ าคู่ของเมทริกซ์ด้ลดลงเวลาในการเข้าถึงหน่วยความจ าภายในเวิร์กกรุ๊ป สามารถท างานในปริมาณมากขึ้นได้อย่าโดยการดึงศักยภาพของหน่วยความจ าภายในที่มีความเร็วสูงมา ท าให้การใช้งานของโปรแกรมมีประสิทธิภาพสูงสุด เ มื่ อ ม อ ง เข้าไปในการค านวณความลาดชันของในวิธีการของ Newton-Raphson ซึ่งแสดงให้เห็นในภาพตัวอย่างที่ 10 เราจะเห็นได้ถึงความถี่ในการเข้าถึง global memory เพราะตัวแปร sitevalues จะถูกจัดเก็บไว้ใน global memory และตัวแปร endsite หมายถึงความยาวของล าดับ DNA ซึ่งสามารถมีได้หลายพันหรือมากกว่า พิจารณาเกี่ยวกับประเด็นที่ว่าหน่วยความจ า global memory สามารถถกู อา่ นได้มากกวา่ หนงึ่ พนั สญั ญาณรอบนาฬิกาและระยะเวลาที่ใช้ในการด าเนินการค านวนทางค ณิตศาสตร์ต้องใช้ถึงหลายรอบสัญญาณ พฤติกรรมในการเข้าถึงหน่วยความจ าในรูปแบบนี้จึงเป็นเรื่องที่ต้องพิจารณาอย่างจริงจัง

แนวคิดพื้นฐานของการเข้าถึง global memory เพื่อเพิ่มประสิทธิภาพ คือการใช้หน่วยความจ าที่ฝังไว้บน ชิพให้น้อยและหันไปใช้ Cache ส าหรับ global data เพื่อลดการใช้งาน memory บนชิพให้น้อยที่สุด ดังที่แสดงไว้ในภาพตัวอย่างที่ 11 แสดงให้เห็นถึงรูปแบบกระบวนการที่ปรับปรุงในส่วนขั้นตอนของการค านวน

ดังนั้นระยะเวลาในการเข้าถึงหน่วยความจ าในภาพตัวอย่างที่ 10 คือ 2 * endsite * Global Read และระยะเวลาในการเข้าถึงหน่วยความจ าในภาพตัวอย่างที่ 11 คือ 2*(endsite/BS) + endsite * Local Read

C. Optimizing Newton-Raphson Method เช่นเดียวกับภาพตัวอย่างที่ 3 พบว่า โปรแกรมที่ใช้ CPU ประมวลผลโดยวิธีของ Newton- Raphson จะสามารถหาค่าของระยะพิสัยได้ดีที่สุด แต่รหัสโค๊ดต้นฉบับอาจจะท าให้เกิดสถานการณ์รายการของงานที่ท างานแตกต่างกันอาจจะท าให้เกิดการ ท าซ ้าในอีกหลายครั้ง ซึ่งมันจะไม่มีประสิทธิภาพบนหน่วยประมวลผลกราฟฟิคซึ่งโดยทั่วไปแล้วใช้สถาปัตยกรรมแบบ SIMD หรือ SIMT เพื่อที่จะจัดการกับปัญหานี้เราจะปรับแต่งวิธีของ Newton-Raphson มาใช้ส าหรับหน่วยประมวลผลกราฟฟิคดังภาพตัวอย่างที่ 12 ในวิธีการนี้จะสามารถหาค่าพิสัยที่ดีที่สุดได้โดยใช้การค้นหาแบบไบนารี แต่ละกลุ่มงานจะถูกวนรอบเพียงครั้งเดียว ใช้ด าเนินการในแต่ละชิ้นงานจะเหมือนกันในเวลาเดียวกัน และค่าความละเอียดของการปรับแต่งรหัสโค๊ดต้นฉบับท าให้ได้ความละเอียดในการค านวนที่มากขึ้นเป็น 1.49E-7 (10/226) ซึ่งโค๊ดต้นฉบับท าได้ที่ (2.0E-7)

V. RESULTS การทดสอบเริ่มด้วยการใช้กลุ่มของข้อมูล ที่มีการใส่ ไวรัสตับอักเสบบี เข้าไปใน DNA ด้วย เครื่องคอมพิวเตอร์ที่ถูกน ามาใช้ในการทดสอบคือ quad-core CPU (Intel i7 920), 6GB RAM และ multi PCIE slots ในการทดสอบด้วยการ์ดประมวลผลกราฟฟิคเดี่ยว AMD HD5850 ซึ่งมี 1440 stream processing units ติดตั้งไว้บนเครื่องมีขณะที่อยู่ในการทดสอบการ์ดแบบหลายตัว HD5850 จะถูกน ามาใส่ เพื่อตรวจสอบประสิทธิภาพของโปรแกรม NVIDIA Tesla C2050 ซึ่งมี 448 ถูกติดตั้งแยกเพียงเดี่ยว

Locality Is the Key ตาราง I แสดงให้เห็นถึงประสิทธิภาพที่แตกต่างกันระหว่างโค๊ดต้นฉบับ CPU และ GPU โค๊ด ซึ่งในโค๊ดของ GPU จะเป็นการจับคู่กันในรูปแบบเชิงเส้นและ โค๊ดของ GPU จะใช้กลยุทธ์ในรูปแบบเมทริกซ์และหน่วยความจ าพื้นฐาน จะเห็นได้ว่าโค๊ด GPU จะประสบความส าเร็จในการเร่งประสิทธิภาพได้ถึง 3.5 เท่า โดยไม่ต้องมีการปรับแต่งที่ซับซ้อน และการเพิ่มความเร็วประสิทธิภาพของโค๊ด GPU สามารถเพิ่มขึ้นอย่างมากเมื่อจะน ามาเทียบพิจารณา กับโค๊ด CPU แบบอนุกรม

Instruction Alignment Matters พิจารณาคุณสมบัติของ SIMD or SIMT บนหน่วยประมวลผลกราฟฟิค ในบทที่ IV.B ซึ่งน าเสนอในเรื่องของการปรับปรุงวิธีของ Newton-Raphson ซึ่งถูกใช้ในรหัสแบบอนุกรม และตารางที่ II แสดงให้เห็นถึงประสิทธิภาพอย่างเด่นชัดเมื่อมีค าสั่งจัดเรียงกิ่งในแต่ละรายการ

ประสิทธิภาพโดยรวมของรุ่นต่างๆของโปรแกรมจะแสดงให้เห็นในภาพตัวอย่างที่ 12

Performance Scalability and Portability ตารางที่ 3 แสดงให้เห็นเมื่อเราใช้ หน่วยประมวลผลกราฟฟิคหลายตัว ด้วยวิธีการจับคู่ที่ได้อธิบายรายละเอียดไว้ในบทที่ IV.A และมีการเรียกใช้โค๊ดที่ได้มีการปรับแต่งแล้วบนหน่วยประมวลผลกราฟฟิค รุ่น HD5850 แบบคู่ ประสิทธิภาพได้ถูกเร่งขึ้นไปจนเกือบจะเป็นลักษณะเชิงเส้น นี้เป็นหลักเนื่องจากการค านวณจากระยะทางไม่ขึ้นอยู่กับตัวอื่น ๆ และการ์ดแต่ละตัวสามารถมีการอ่านส าเนาเหมือนกันเฉพาะข้อมูลที่ป้อนเข้า

เหตุผลหลักว่าท าไมเราเลือก OpenCL เป็นภาษาส าหรับการใช้หน่วยประมวลผลภาพแบบขนาน คือมันเป็นมาตรฐานเปิดที่รองรับบนอุปกรณ์จ านวนมากโดยผู้ค้าอุปกรณ์ทั้งหลาย การทดลองของเราแสดงให้เห็นว่าโค๊ดที่สามารถด าเนินการบน Tesla C2050 โดยไม่มีการเปลี่ยนแปลงใด ๆ และด้วยการปรับแต่งเล็กน้อยโปรแกรม OpenCL ประสบความส าเร็จเป็นอย่างดี ดังแสดงให้เห็นในตารางที่ IV

ประสิทธิภาพการท างานของโปรแกรมบนแพลตฟอร์มที่แตกต่างกันจะถูกแสดงให้เห็นในภาพตัวอย่าง 13

VI. CONCLUSION เราได้น าเสนอให้เห็นถึงการเร่งประสิทธิภาพในการหาระยะพิสัยของ DNA ด้วยโปรแกรมบนหน่วยประมวลผลกราฟฟิค ผลของเราแสดงให้เห็นว่าความเร็วอย่างมีนัยส าคัญสามารถท าได้โดยการท าแผนที่งานอย่างถูกต้อง โดยการใช้หน่วยความพื้นฐานและการใช้ค าสั่งที่ระบุถึงการจัดต าแหน่งของกิ่ง ผลยังแสดงให้เห็นว่าการทดสอบของมีประสิทธิภาพการท างานที่ดีและความสามารถในระดับประสิทธิภาพ ดีต่อการท างาน ผลงานในอนาคตรวมถึงการบูรณาการโมเดลอื่นทดแทนส่วนที่ไม่ได้ใช้ในโปรแกรมและใช้โปรแกรมการจัดก ลุ่มบางประการเกี่ยวกับหน่วยประมวลผลกราฟฟิกในการเร่งกระบวนการปรับปรุงโครงสร้างต้นไม้

ACKNOWLEDGMENT การทดลองนี้ท างานบนโปรแกรม DNADIST จาก PHYLIP ซึ่งพัฒนาโดย J.Felsenstein [3].

REFERENCES [1] N. Corporation, “Nvidia cuda Programming guide,” Changes, 2009, p. 179. [2] K. Opencl, “OpenCL Specification,” ReVision, vol. V, 2010, pp. 1-377. [3] J. Felsenstein, “PHYLIP (Phylogeny Inference Package) version 3.69,” 2005. [4] H. Kishino and M. Hasegawa, “Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea,” Journal of Molecular Evolution, vol. 29, Aug. 1989, pp. 170-179. [5] J. Felsenstein and G.A. Churchill, “A Hidden Markov Model Approach Evolution to Variation Among Sites in Rate of Evolution,” Molecular Biology, vol. 13, 1996, pp. 93- 104. [6] Z. Yang, Computational molecular evolution, 2006. [7] W.M. Fitch, “Toward Defining the Course of Evolution: Minimum Change for a Specific Tree opology,” Systematic Zoology, vol. 20, 1971, pp. 406 - 416. [8] J. Felsenstein, “Evolutionary trees from DNA sequences: a maximum likelihood approach.,” Journal of molecular evolution, vol. 17, Jan. 1981, pp. 368-76. [9] B. Rannala and Z. Yang, “Probability distribution of molecular evolutionary trees: A new method of phylogenetic inference,” Journal of Molecular Evolution, vol. 43, Sep. 1996, pp. 304-311. [10] W.M. Fitch and E. Margoliash, “Construction of Phylogenetic Trees,” Science, vol. 155, Jan. 1967, pp. 279-284. [11] L.L. Cavalli-Sforza and A.W. Edwards, “Phylogenetic analysis. Models and estimation procedures.,” American journal of human genetics, vol. 19, May. 1967, pp. 233-57. [12] “ATI Stream Technology,” http://www.amd.com/US/PRODUCTS/TECHNOLOGIES/STREAMTECHNOLOGY/Pages/s tream-technology.aspx. [13] M.C. Schatz, C. Trapnell, A.L. Delcher, and A. Varshney, “Highthroughput sequence alignment using raphics Processing Units.,” BMC bioinformatics, vol. 8, Jan. 2007, p. 474. [14] L. Ligowski and W. Rudnicki, “An efficient implementation of Smith Waterman algorithm on GPU using CUDA, for massively parallel scanning of sequence databases,” 2009 IEEE International Symposium on Parallel & Distributed Processing, May. 2009, pp. 1-8. [15] S. Sarkar, T. Majumder, A. Kalyanaraman, and P.P. Pande, “Hardware accelerators for biocomputing: A survey,” Proceedings of 2010 IEEE International Symposium on Circuits and Systems, May. 2010, pp. 3789-3792. [16] M. Charalambous and P. Trancoso, “Initial experiences porting a bioinformatics application to a graphics processor,” Advances in Informatics, 2005. [17] M. a Suchard and A. Rambaut, “Many-core algorithms for statistical phylogenetics.,” Bioinformatics (Oxford, England), vol. 25, Jun.2009, pp. 1370-6. [18] D. Chang, N. Jones, and D. Li, “Compute pairwise Euclidean distances of data points with GPUs,” Proceedings of the IASTED International Symposium Computational Biology and Bioinformatics, 2008, pp. 278-283. [19] D.-J. Chang, A.H. Desoky, M. Ouyang, and E.C. Rouchka, “Compute Pairwise Manhattan Distance and Pearson Correlation Coefficient of Data Points with GPU,” 2009 10th ACIS International Conference on Software Engineering, Artificial Intelligences, Networking and Parallel/Distributed Computing, 2009, pp. 501-506. [20] J. Felsenstein, “Maximum Likelihood and Minimum-Steps Methods for Estimating Evolutionary Trees from Data on Discrete Characters MAXIMUM LIKELIHOOD AND MINIMUM-STEPS METHODS FOR ESTIMATING EVOLUTIONARY TREES,” Systematic Zoology, vol. 22, 1973, pp. 240-249.

5. Performance Evaluation of Intel and Portland Compilers Using Intel Westmere Processor ไม่กี่ปีที่ผ่านมานั้นเราได้เห็นพัฒนาการที่น่าสนใจ ในการเพิ่มประสิทธิภาพการท างานแบบขนานของคอมพิวเตอร์โดยอาศัยการออกแบบพัฒนาทั้งทางด้าน Hardware design และ การพัฒนาโปรแกรมหรือ Programming paradigms การพัฒนาการนี้ได้รับแรงหนุนมาจากความจริงที่ว่าด้วย Microchip Technology นั้นใกล้จะถึงขีดจ ากัดในการพัฒนาในแง่ของการแผ่ความร้อนและการใช้พลังงาน แนวโน้มปัจจุบันของประสิทธิภาพ และ Grid Computing แสดงให้เห็นว่าในอนาคตในการเพิ่มประสิทธิภาพของระบบวิธีโดยการเพิ่มจ านวนขององค์ประกอบต่าง ๆ โดยการขยายของระบบสามารถเข้าถึงได้หลายช่องทาง โดยใช้จ านวนขององค์ประกอบที่มีขนาดใหญ่ โดยการสนับสนุนด้วยโปรแกรมควบคุมการท างานแบบขนาน หรือ Scalable parallel programming ในบทความนี้จะท าการวัดประเมินผลประสิทธิภาพของ complier 2 ชนิดที่นิยมใช้โดยทั่วไป Intel และ Portland’s PGI โดยใช้ HPC cluster และ Intel Westmere การวัดประเมินผลจะขึ้นอยู่กับการการทดลอง 2 อย่างคือ การวัดประสิทธิภาพการ compile โดยใช้ MPI-based code และ OpenMP ผลการทดสอบแสดงให้เห็นว่าส าหรับการใช้งานกับโปรแกรมทางวิทยาศาสตร์ขึ้นอยู่กับโปรแกรมแต่ละโปร แกรม จะใช้ MPI และ Open MPI ของ Intel แทน PGI กับ HPC Cluster

บทน า ไม่กี่ปีที่ผ่านมานั้นเราได้เห็นพัฒนาการที่น่าสนใจในการเพิ่มประสิทธิภาพการท างานแบบขนานขอ งคอมพิวเตอร์โดยอาศัยการออกแบบพัฒนาทั้งทางด้าน Hardware design และ การพัฒนาโปรแกรมหรือ Programming paradigms การพัฒนาการนี้ได้รับแรงหนุนมาจากความจริงที่ว่าด้วย Microchip Technology นั้นใกล้จะถึงขีดจ ากัดในการพัฒนาในแง่ของการแผ่ความร้อนและการใช้พลังงาน แนวโน้มปัจจุบันของประสิทธิภาพ และ Grid Computing แสดงให้เห็นว่าในอนาคตในการเพิ่มประสิทธิภาพของระบบวิธีโดยการเพิ่มจ านวนขององค์ประกอบต่าง ๆ โดยการขยายของระบบสามารถเข้าถึงได้หลายช่องทาง โดยใช้จ านวนขององค์ประกอบที่มีขนาดใหญ่ โดยการสนับสนุนด้วยโปรแกรมควบคุมการท างานแบบขนาน หรือ Scalable parallel programming เพราะฉนั้น แนวโน้มของการขยายของ computer นั้นค่อนข้างที่จะเป็นแนวโน้มที่ชัดเจน

ในแง่ของ Hardware Multi-Core CPUs และความเร็วในการเชื่อต่อในปัจจุบันนี้เหมาะส าหรับระบบคอมพิวเตอร์ที่สมรรถนะสูง(High Computing System) Intel และ AMD ยังคงเป็นผู้น าในวงการอุตสาหกรรมการผลิต CPU มีอ านาจเหนือองค์กรชั้นน า 500 องค์กร รายการทั้งหมดเป็นคอมพิวเตอร์ที่ทรงพลังที่สุดในโลก และ 80% เป็น HPC Cluster ส่วนใหญ่จะใช้ CPU Multi-core ของ Computer ในแต่ละโหนด Node และใช้ 2 ถึง 4 Core ต่อโหนด ในขณะที่ 6-Core Socket จะกลายเป็นเรื่องปกติของ Clusters ของ Intel และ AMD ในแต่ละรุ่น

Westmere and Phenom II multi-core CPUs ต่างก็ถูกน าไปใช้กับ HPC ซึ่งเป็นการเชื่อมต่อเข้าด้วยกันกับหลาย ๆ เน็ตเวิร์คและรองรับการท างานด้วยความเร็วสูงมีช่องทางในการรับส่งข้อมูลด้วยความเร็วสูง(High Bandwidth) การเชื่อมต่อบางเน็ตเวิร์คอาจจะให้ความยืดหยุ่นโดยการก าหนดระดับการเข้าถึงของ user กับ Network Interface card และยังรองรับการการเข้าถึงการกระบวนการ Remote processes’ memory address space ตัวอย่างของการเชื่อมต่อแบบนี้เช่น Myrinet จาก Myricom, Quadrics และ Infiniband ผลการทดลองในงานวิจัยนี้ทดลองกับสถาปัตยกรรม Infiniband ซึ่งเป็นหนึ่งในมาตรฐาน มีความเร็วในการรับส่งข้อมูลและมี bandwidth สูง เช่นเดียวกับคุณลักษณะขั้นสูงอย่างเช่น Remote Direct Memory Access(RDMA), Atomic Operations, Multicast และ Qos ในปัจจุบันผลิตภัณฑ์ของ Infiniband สามารถใช้ประสิทธิภาพการรับส่งข้อมูลด้วยความเร็ว 200 nanosecounds กับ small messages และ bandwidth สามารถใช้งานได้ถึง 3-4 GB/s ดังผลลัพธ์เป็นผลท าเทคโนโลยีการเชื่อมต่อด้วยความเร็วสูงกลายเป็นที่นิยมน ามาเป็นตัวเลือกส าหรับการ สร้าง High performance clusters ในระดับ Parallel programming MPI และ OpenMP ได้กลายเป็นมาตรฐานที่ยอมรับกันโดยปริยายเพื่อใช้แสดงเปรียบเทียบการท างานของโปรแกรม OpenMP ได้เตรียม fork-and-join execution model ซึ่งในโปรแกรมเริ่มต้นท างานแบบ Single process หรือ เทรด (Thread) ท างานแบบเป็นล าดับจนกระทั่งมีกระบวนการท างานแบบ parallel ถูกตรวจพบ Thread จะสร้างทีม และจะกลายเป็นทีมหลัก(Master Thread) ของ Thread ทีม Thread ทั้งหมดจะประมวลผลชุดค าสั่งจนกระทั้งสิ้นสุดกระบวนการการท างานแบบ Parallel ระบบสั่งการท างานร่วมกัน Work-Sharing directive จะแบ่งการท างานของชุดค าสั่งในระหว่างเธรด(Thread) ข้อดีของ OpenMP คือ ง่ายต่อการน าไปก าหนด Code บน OpenMP ข้อเสียคือมันเป็นปัญหาในการเพิ่ม OpenMP Code กับ Processor ที่มีจ านวนมากขึ้น เป็นขีดข้อจ ากัดของ code แบบ loop nest ในระดับเดียว

โปรแกรม Parallel แบบอื่น ๆ สามารถท าได้โดยวิธีการเขียนโปรแกรม ซึ่งสามารถท างานได้หลาย (Node) MPI หรือ Message Passing Interface เป็นไลบราลีมาตรฐานส าหรับเขียนโปรแกรมแบบ message passing ข้อได้เปรียบของ MPI Programming คือ ผู้ใช้สามารถควบคุมกระบวนการ data distribution การ synchronization การอนุญาติให้เพิ่มประสิทธิภาพขอข้อมูลและ Data workflow ข้อเสียคือโปรแกรมมีต้องการความต่อเนื่องของการปรับโครงสร้างและต้องขึ้นอยู่กับ MPI

วัตถุประสงค์เพื่อที่จะท าการประเมินผลประสิทธิภาพของ 2 Parallel Complier Intel และ Portland’s PGI โดยใช้ HPC cluster ตามที่อธิบายไว้ในส่วนการประเมินผล การประเมินผลจะขึ้นอยู่กับ 2 การทดลอง ครั้งแรกประเมินผลของ Complier โดยใช้ MPI Based code ระหว่าง Cluster Node ครั้งที่สองใช้ OpenMPI Based code โดยใช้ Single Cluster Node กับ Dual hexa-cores Westmere socket นี่คือบทความแรกที่กล่าวถึง ประสิทธิภาพของ Intel and PGI compilers’ ทดสอบกับ Intel’s Westmere เทคโนโลยีล่าสุดของ Intel และเทคโนโลยีการเชื่อมต่อของ Infiniband QDR interconnect ในส่วนที่สองจะกล่าวคร่าวถึง Compiler เทคโนโลยีของ Infiniband Interconnection สถาปัตยกรรมของ Intel Westmere CPU และ MPI ที่ใช้เป็นมาตรฐานในการวัด Compiler ในส่วนที่ 3 จะวิเคราะห์และประเมินผลการทดลอง และจะได้ทราบข้อสรุปในส่วนนี้

ส่วนที่ 2 ความเป็นมา ในส่วนนี้จะอธิบายคุณสมบัติของ Intl และ PGI compilers อย่างคร่าว ๆ ไว้ด้วย ได้แก่ Intel และ PGI Compliers, Infiniband Architecture, รายละเอียดของ Intel Westmere และ MVAPICH MPI implementation

Intel and PGI Compiler สนับสนุนการท างานกับ CPU IA-32, Intel 64, Itanium 2 และยัง สนับสนุน CPU ที่ไม่ใช่ Intel อย่าง CPU ของ AMD Intel compiler รองรับการท างานของ OpenMP3.0 และ SMP กับการเพิ่ม(Add-on) ความสามารถ Cluster OpenMPI Compiler สามารถสร้าง MPI ได้โดยอัตโนมัติจาก Open MPI directive เหมือนกับ Intel compiler PGI C/C++ ได้รวมพื้นฐาน parallel ไว้ด้วย นอกจากนี้ PGI Server version ก็ได้รวม OpenMP กับ MPI parallel graphical debugger (PGDBG) OpenMP MPI parallel graphical debugger (PGDBG) และ OpenMP MPI parallel graphical performance profiler (PGPROF) สามารถแก้ไขและเข้าถึง profile ได้ 16 local process MPI processes. PGI Server ยังมีการ precompiled MPICH message ผ่านทาง library อีกด้วย Intel และ Portland ได้ปรับปรุ่งพัฒนา Compiler ของตนเองอย่างต่อเนื่องส าหรับรองรับ Hardware และสร้าง Code ที่มีรอบการ executes ให้น้อยที่สุด โดยทั้งสอง Intel และ Portland จะคอยแบ่งปันข้อมูลทางทางด้านเทคนิคการเพิ่มประสิทธิภาพซึงกันและกัน เช่นการเพิ่มประสิทธิภาพ Interprocedural (IPO), profile-guided optimization (PGO) และ high-level optimizations (HLO) High-level optimizations เป็นการเพิ่มประสิทธิภาพการท างานของโปรแกรม Version ต่าง ๆ ซึ่งจะมีความใกล้เคียงกับ source code เช่น loop interchange, loop unrolling, loop distribution และ data-prefetch ในการเพิ่มประสิทธิภาพเหล่านี้มักจะมีค่าใช้จ่ายแพง และอาจใช้เวลามากในการท า การน า Interprocedura optimization ไปเพิ่มประสิทธิภาพให้กับ compiler โดยทั่วไปนั้นอาจจะส่งผลกระทบกับขั้นตอนอื่น ๆ หลายขั้นตอน หลาย ๆ ไฟล์หรือโปรแกรมทั้งหมด IPO มีวัตถุประสงค์เพื่อจ ากัดหรือลดการค านวนซ ้า การใช้งานที่ไม่มีประสิทธิภาพของหน่วยความจ า และการลดความซ ้าซ้อนของการท าซ ้าเช่น Loop นอกจากนี้ IPO ท าการจัดลับดับขั้นตอนในการใช้หน่วยความจ าให้ดีขึ้น นอกจากนี้ IPO ยังเพิ่มประสิทธิภาพให้กับ Compiler ยกตัวอย่างเช่นการก าจัด Code ที่ไม่ได้ใช้งานออกไป Profile-guided optimization ในอีกทางหนึ่งหมายถึงโหมดการเพิ่มประสิทธิภาพที่ Compiler เรียกใช้ตัวอย่างในการรันของโปรแกรมก่อนท าการแสดง Input set ข้อมูลก็จะแสดงให้เห็นว่าส่วนไหนของโปรแกรมที่ถูก execute บ่อย และส่วนไหนที่มีการใช้งานน้อย การเพิ่มประสิทธิภาพทั้งหมดเป็นผลมาจาก profile-guided feedback ขบวนการดังกล่าวจะไม่อาศัยทางเลือกที่คิดว่าได้ผลดีที่สุดในการตัดสินใจ Infiniband Architecture คือเทคโนโลยีการสื่อสารที่ตอบสนอง bandwidth I/O ความเร็วสูงกว่า High speed serial data bus ซึ่งใช้ switched fabric topology เทียบได้กับล าดับชั้นของเครือข่าย Internet มันถูกออกแบบมาเพื่อรับส่งข้อมูลจากจุดหนึ่งไปยังจุดอื่นโดยผ่านสวิตช์ การรับส่งจะเริ่มต้นหรือสิ้นสุดที่ Chanel adaptor(HCA) ซึ่งแต่ละ Infiniband processor ประกอบด้วย Host chanel adapter (HCA) และแต่ละอุปกรณ์ต่อพ่วงจะมี target channel adapter(TCA) การเชื่อมต่อแบบ Infiniband serial connection รับส่งด้วยความเร็ว 2.5 Gbit/s บนเทคโนโลยี Single data rate (SDR) และความเร็ว 5.0 Gbit/s บนเทคโนโลยี quad data rate (QDR) ของแต่ละทิคทางการเชื่อมต่อ นอกจากนี้ Link จะถูกรวมอยู่ในหน่วยจาก 4 กับ 12 และถูกก าหนดให้เป็น 4X กับ 12X อย่างไรก็ตาม Infiniband ใช้การเข้ารหัสแบบ 8B/10B ซึ่งท าให้เห็นถึง 4 ใน 5 ของช่องทางการสื่อสาร(Traffic)ที่อาจจะเป็นประโยชน์ ดังนั้น DDR 4X ความเร็วในการโอนย้ายเท่ากับ 20 Gbit/s raw data หรือ 16 Gbit/s useful data ตารางที่ 1 แสดงให้เห็นถึงความแตกต่างระหว่าง Infiniband technologies กับตัวเลขประสิทธิภาพตามทฤษฎีที่เกี่ยวข้อง

IB technology SD IB Data Rate DD IB Date Rate QDR IB Data Rate 1x 2Gbps 4Gbps 8Gbps 4x 8Gbps 16Gbps 32Gbps 12x 24Gbps 48Gbps 96Gpbs

ตารางที่ 1 ตัวเลขประสิทธิภาพและความแตกต่างของ Infiniband technologies Infiniband ใช้โปรโตคอล hardware-offload protocol stack ในการส าเนาหน่วยความจ าแบบพิเศษซึ่งส่งมาจากโปรแกรมไปยัง infiniband adapter that are sent from the application to an โดยใช้กลไก Zero copy ในการเพิ่มประสิทธิภาพเวลาในการโอนย้ายข้อมูล ยิ่งไปกว่านั้น Infiniband อนุญาติให้โอนถ่ายข้อมูลจาก Local memory ไปยัง remote memory โดยใช้ RDMA (Remote Direct Memory Access) ซึ่งอนุญาติให้ใช้กลไก Zero copy โดยที่ไม่มีผลเกี่ยวข้องกับฝ่ายรับข้อมูล จ านวนของ User-Kernel ในการสลับการท างานและการคัดลอกข้อมูลในหน่วยความถูกลดจ านวนลงโดยการเข้าเข้าถึงโดยตรงโดย Infiniband HCA เป็นการเปิดการใช้งานการสื่อสารระหว่าง Host และ อุปกรณ์โดยไม่ต้องใช้ทรัพยากรระบบแบบเดิมกับ Network protocols การย้ายข้อมูลโดยวิธี off-loads data จาก Server CPUs ไปยัง Infiniband HCA ผ่าน Virtual lanes(VLs) Infiniband ได้จัดเตรียมระบการจัดการ Traffic สร้างหลาย Virtual links ใน single physical link ซึ่งอนุญาติให้แยกการสื่อสารออกจากการเชื่อมต่อกับอุปกรณ์อื่นโดยใช้อุปกรณ์แบบคู่ Intel Westmere Specifications Westmere คือชื่อรหัสของล่าสุดของ CPU Multi-Core ของ Intel ซึ่งเป็น Hexa-core โปรเซสเซอร์ โดยการแบ่ง L2 Cache ใช้ในการสร้างการเชื่อมต่อและใช้สถาปัตยกรรม Quick Path Interconnect (QPI) โดยการแยกการเชื่อมต่อระหว่าง CPU กับ ออกจากกัน เทคโนโลยี QPI ช่วยให้ CPU รับส่งข้อมูลแบบ Parallel เหมือนสถาปัตยกรรมเดิมที่ใช้ single external bus ซึ่ง external bus ใช้งานทั้ง Input และ Output ในการท างานอ่านและเขียนซึ่งไม่สามารถท างานได้พร้อมกัน QPI รุ่นล่าสุดท างานด้วยความเร็ว 3.2 GHz รับสง่ ข้อมลู ได้สองข้อมลู ตอ่ หนงึ่ สญั ญาณนาฬกิ า(Clock rate) ท าให้ bus ท างานเหมือนกับใช้ความเร็วClock rate 6.4 GHz นอกจากนี้ Intel Westmere เป็นอุปกรณ์ที่มีเทคโนโลยี Turbo Boost ซึ่งจะช่วยให้ Core Processor ท างานได้เร็วกว่าเดิมถ้าหากมันท างานด้วยพลังงานที่ต าจะท าให้ไม่เกิดข้อจ ากัดทางด้านอุนหภูมิ การเปลี่ยนแปลงความถี่นั้นขึ้นอยู่กับการใช้งานของจ านวน Core เมื่อ Processor ท างานต ่ากว่าขีดจ ากัดและความต้องการการใช้งานของ User เพิ่มขึ้นความถี่ของ Processor จะเพิ่มขึ้นแบบไดนามิกจาก 133 MHz ในระยะเวลาอันสั้นและอยู่ในช่วงเวลปกติจนกว่าจะถึงขีดจ ากัด Core Processor จึงจะถูกเปิดขึ้นมาท างานเพิ่ม MVAPICH MPI Implementation Message Passing Interface (MPI) คือ รูปแบบการเขียนโปรแกรมที่ใช้งานทางวิทยาศาสตร์แบบ Parallel ได้ก าหนด MPI library ไว้เป็นต้นแบบในการสื่อสารของโปรแกรม Library จะต้องมีความยืดหยุ่นในแง่ของการใช้ทรัพยากรและประสิทธิภาพการปฏิบัติงาน ในการทดลองนี้จะใช้ MVAPICH ซึ่งเป็นหนึ่งในวิธีการที่นิยมใช้กันในงานอุตหกรรม HPC การประยุกต์ใช้ MVAPICH สนับสนุน Infiniband Interconnect ซึ่งเป็นที่รู้จักกันดี รวมทั้งมีการขยายประสิทธิภาพเพื่อสนับสนุนการท างานแบบ Cluster แบบหนึ่งพัน Core ส าหรับ Intel MPI, MPI MVAPICH ยังสนันสนุนการท างานในสภาพแวดล้อมต่าง ๆ เช่น SLURM และ PBS

การวัดและการประเมินผล การประเมินมาตรฐานของ Dell Cluster PowerEdge M610 Blade Servers โดยที่ Cluster ประกอบไปด้วย 32 จุดการเชื่อมต่อและใช้ Intel Hexa-Core x5670(Westmere) 2.93 GHz precessors ใช้ RedHat Enterprise Linux Server 5.3 Kernel 2.6.18-128e15 เป็นระบบปฏิบัติการในแต่ละโหนด และใช้ Host Channel Adapter (HCA) ของ Infiniband สนับสนุนการเชื่อมต่อ 4x Quad Data Rate (QDR) ด้วยความเร็ว 32 Gbps แต่ละโหนดจะมีหน่วยความจ า 24 GB(6x4GB) DDR3 1333MHz ดังนั้นปริมาณหน่วยความจ าของระบบจะอยู่ประมาณ 768GB รูปแบบทางกายภาพของ Cluster ประกอบไปด้วยสอง Chassis ซึ่งแต่ละประกอบด้วย 16 Host blade แต่ละ node จะเชื่อมต่อกันด้วย 4x-QDR Infiniband connection ซึ่งต่อกับ Qlogic Infiniband Switch ซึ่งเป็นจุดศูนย์กลางในการเชื่อมต่อดังรูปที่ 1 แสดงการออกแบบการเชื่อมต่อของ Infiniband สิ่งที่ส าคัญที่จะกล่าวถึงการออกแบบนั้น ถือเป็น non-blocking ของแต่ละโหนดซึ่งจะรับประกันได้ว่าจะได้รับความเร็วในการเชื่อมต่อ 4x QDR 32 Gbps การเชื่อมต่อความเร็วสูงนี้จะใช้เป็นตัวติดต่อกันระหว่าง cluster ซึ่งมีประโยชน์มาก ตามแนวคิดในทางทฤษฎี Diskless ในการทดลองนี้จะใช้สวิตช์ 3 ตัวในการเชื่อมต่อ topology A เป็นสวิทช์ระดับบนสุด และ อีก 2 สองตัวที่เหลือเป็นสวิทช์ที่ใช้เชื่อมต่อมายัง A ภายใต้การก าหนดค่านี้ การสื่อสารระหว่าง node IPC 12 cluster จะเป็นหนึ่งในสมาชิกของสวิทช์แต่ใช้ส าหรับ Cluster 16 node ในระดับ top-level switch มีส่วนในการสนับสนุนหลาย ๆ node

รูปที่ 1 DDR Infiniband Interconnect for 32 node cluster

เพื่อที่จะประเมินผลการท างานของทั้งสอง complier มาตรฐานที่ใช้งานบน node cluster จะเริ่มกับ 1 thread และขยายไปจนถึง 12 thread กับการทดสอบ OpenMP และเพิ่มจาก 1 node ไปจนถึง 12 node ส าหรับการทดสอบ MPI ในการทดสอบนี้จะใช้2อัลกอลิทึมในการทดสอบเป็นภาษาเครื่องกับการวนลูป O(n3) เลือกใช้ Multiple matrix ซึ่งเป็นพื้นฐานในหลาย ๆ โปรแกรมประยุกต์ พิชคณิต ซึ่งมีประสิทธิภาพในการน าไปใช้งานกับ Parallel

รูปที่ 2 Matrix multiplication เขียนโดยภาษา C บน OpenMP directives

รูปที่ 2 แสดง Code OpenMP ภาษา C ของ matrix multiplication ในการท างานของ Code ในบรรทัดที่ 15 omp_get_num_threads มีหน้าที่ในการรับส่งค่าจ านวนของ threads ที่มีอยู่ใน team executing ของ Parallel ที่ท างานอยู่ ณ ขณะนั้น

รูปที่ 3 แสดงการท างานระหว่าง Intel และ PGI โดยใช้ OpenMP directive กับ matrix multiplication OpenMP code ท าการ compiled โดยค าสั่ง ‟openmp และ mp ส าหรับ Intel และ PGI comilers ตามล าดับ ในขณะที่ตัวเลือกที่มีประสิทธิภาพอื่น ๆ ไม่ถูกน ามาใช้ในการเปรียบเทียบ รูปที่ 3 แสดงมาตรฐานการท างานของ Intel และ PGI ขนาด 4000x4000 และ 5000x5000 matrix ช่วงเวลา run time ของ Intel compiled code เวลาโดยเฉลี่ยเพิ่มขึ้น 79% ในขณะที่ PGI complier code เวลาโดยเฉลี่ยเพิ่มขึ้น 85 % ในชุดการทดสอบของ OpenMP

รูปที่ 4 การทดสอบระหว่าง Intel กับ PGI โดยใช้ MPI กับ matrix multiplication

รูปที่ 4 แสดงถึงประสิทธิภาพการท างานของ Intel และ PGI Compiled code โดยใช้ MPI ในการทดลองนี้ Code ภาษา C ถูก compiled โดย MVAPICH กับ Intel และ PGI parallel mpic compilers เหมือนกัน ตัวเลือกพิเศษจะไม่ถูกน ามาใช้งาน เป็นที่สังเกตุว่า Intel ท างานกับ MPI ใน single node/core ใช้เวลาประมาณ 165 วินาที แต่ในขณะที่เมื่อรันกับ OpenMP single core ใช้เวลา 150 วินาที นี่คือความจริงที่ว่า MPI-Based multiplication C code มีการท างานและเรียกการใช้งานท าให้ code มีความซับซ้อนขึ้นและใช้เวลาในการรันมากขึ้น สิ่งที่น่าสังเกตุอีกประการหนึ่งคือการเพิ่มเวลา runtime ขึ้นเล็กน้อยเมื่อท างานงานกับ matrices ขนาด 4000x4000 กับ 11 และ 12 core เวลาที่เพิ่มขึ้นมานั้นจะเกี่ยวข้องกับเวลาที่เสียไปกับการสื่อสารข้อมูลระหว่างกัน ช่วงเวลาในการติดต่อสื่อสารจะลดลงเมื่อใช้ทดลองการท างานกับ matrices ขนาด 5000x5000 คล้ายกับการทดสอบของ OpenMP ผลการทดสอบ Intel compiler ท างานได้ดีกว่า PGI ทั้งการทดสอบการท างานกับ matrices ขนาด 4000x4000 และ 5000x5000 เพื่อท าการขยายผลของ MPI เราจะท าการขยาย MPI matrix multiplication เป็น 32 nodeดังรูปที่ 5 ซึงแสดงให้เห็นถึงผลกระทบของการการเชื่อมต่อกันระหว่าง node และการเพิ่มจ านวนขึ้นของ node

รูปที่ 5 การขยาย MPI 5000x5000 และ 4000x4000 cell matrix multiplication โดยใช้ 32 node

บทสรุป Intel และ Portland ได้ออกแบบ Parallel compilers เพื่อจะยกระดับ Parallel compilers ให้มีประสิทธิภาพให้กับ CPU และระบบ Parallel เพิ่มประสิทธิภาพโดย OpenMP directives และ advanced MPI โดยการสร้าง multithreaded code เพื่อน าไปใช้ในการท า parallelism ในระดับต่าง ๆ ในรายงานฉบับนี้ ได้ท าการประเมินผลการปฏิบัติงานของสอง parallel complier ที่นิยมใช้งานกันทั่วไปคือ Intel และ Portland’s PGI โดยใช้ Intel Westmere กับ HPC cluster ประเมินผลจะขึ้นอยู่กับการการทดลอง 2 อย่างคือ การวัดประสิทธิภาพการ compile โดยใช้ MPI-based code และ OpenMP ผลการทดสอบแสดงให้เห็นว่าส าหรับการใช้งานกับโปรแกรมทางวิทยาศาสตร์ขึ้นอยู่กับโปรแกรมแต่ละโปร แกรมที่จะก าหนดให้ใช้กับ HPC ในอนาคตเราจะท าการทดสอบ compiler ทั้งสองโดยใช้ Hybrid OpenMP และ MPI codes และจะท าการประเมินผลการขยายความสามารถและประสิทธิภาพของ HPC cluster.

ค าจ ากัดความอื่น ๆ

Grid Computing : เป็นเทคโนโลยี(Grid Technology) หรือนวัตกรรม(Innovation) ที่ได้ผ่านการวิจัยและพัฒนาขึ้นมา เพื่อให้ระบบท าการค านวณหรือประมวลผลข้อมูลที่ซับซ้อน ด้วยสมรรถนะสูง โดยได้จัดเอาทรัพยากรด้านค านวณหรือทรัพยากรประมวลผลด้านคอมพิวเตอร์ ซอฟต์แวร์ เครื่องมือ อุปกรณ์ต่างๆ มาท าการต่อเชื่อมโยงให้ถึงกัน ให้ท างานร่วมกันเป็นระบบเครือข่ายขนาดใหญ่เพียงระบบเดียว ในรูปแบบของ Grid เพื่อท าการค านวณหรือประมวลผลข้อมูลพร้อมกันในเวลาเดียวกัน โอนถ่ายข้อมูลระหว่างกัน ไม่ว่าทรัพยากรดังกล่าวจะมีลักษณะแตกต่างกัน รุ่นเก่า หรือรุ่นใหม่ ไม่ได้ใช้งานบางช่วงเวลา หรือไม่ถูกใช้งาน จะอยู่ใน Cluster เดียวกัน หรืออยู่คนละ Cluster อยู่ในสถานที่คนละแห่งที่ห่างไกลกันแค่ไหน ก็สามารถจะท าการประมวลผลร่วมกันได้ โดยระบบเครือข่ายขนาดใหญ่ระบบเดียวที่ได้ดังกล่าวนี้ จะท างานเสมือน เป็น ซุปเปอร์คอมพิวเตอร์ ขนาดใหญ่เครื่องเดียว ที่มีราคาต้นทุนต ่า ประมวลผลข้อมูลตามแบบของ Grid Computing คือจัดให้ประมวลผลแบบขนาน(Parallel Processing หรือ Parallel Computing)เพื่อให้ท างานพร้อมกัน หากส่วนใดในระบบขัดข้องหรือไม่ท างาน ระบบก็ยังท างานต่อไปได้ เพราะมีซอฟต์แวร์กลางพิเศษช่วยจัดการดูแลตรวจสอบสถานะของระบบกริดตลอดเวลา ซึ่งเรียกว่า Middleware HPC ย่อมาจาก High Performance Computing บางครั้งเรียกว่า High Productivity Computing มักใช้กล่าวถึงในงานค านวณของแอพลิเคชั่นที่มีความซับซ้อนเช่นการพยากรณ์อากาศ แบบจ าลองทางกลศาสตร์ชีวสารสนเทศ การจ าลองสถานการณ์แบบสุ่ม หรือการเรนเดอร์ภาพยนตร์แอนนิเมชั่น งานเหล่านี้ต้องใช้อัลกอรึทึมที่อาศัยพลังการประมวลผลมาก จนเครื่องคอมพิวเตอร์ธรรมดาไม่สามารถประมวลผลได้ หรือใช้เวลานานเกินกว่าจะยอมรับได้ จึงส่งผลให้เกิดแนวคิดที่จะเพิ่มประสิทธิภาพของงานเหล่านี้ด้วยการสร้างระบบคอมพิวเตอร์ประสิทธิภาพสู งในยุคแรกนั้น มีการสร้างระบบ Supercomputer ส าหรับงานเฉพาะทางเหล่านี้ ซึ่งมักมีสถาปัตยกรรมของหน่วยประมวลผลที่ออกแบบมาเฉพาะทาง จึงมักมีข้อจ ากัดในเรื่องของงานที่สนับสนุนที่ใใช้ในวงแคบเท่านั้น อีกทั้งยังมีระบบยังมีราคาสูงด้วย ปัจจุบันมีทางเลือกของระบบ HPC มากขึ้น หนึ่งในนั้นคือ การสร้างระบบประมวลผลประสิทธิภาพสูงจากคอมพิวเตอร์ธรรมดาหลายๆ เครื่องมาเชื่อมต่อกันหรือที่เรียกว่า Cluster ซึ่งเป็นทางเลือกที่ดีส าหรับงานประมวลผลประสิทธิภาพสูงในราคาที่สมเหตุสมผล Cluster คือกลุ่มของคอมพิวเตอร์ที่ตั้งค่าให้ท างานร่วมกัน เพื่อให้ได้ประสิทธิภาพในการท างานสูงขึ้น ในทางกายภาพ Cluster จะประกอบด้วยคอมพิวเตอร์หลายเครื่อง ส่วนใหญ่แล้วมักจะอยู่ในพื้นที่เดียวกัน(ตู้ rack เดียวกัน, ห้องเดียวกัน) และเชื่อมต่อกันด้วย ethernet ความเร็วสูง สถาปัตยกรรมโดยทั่วไปของ ระบบคลัสเตอร์ จะประกอบด้วยเครื่อง Frontend ที่ท าหน้าที่เป็นส่วนติดต่อรับงานจากผู้ใช้ (User Manangement) จัดการงาน (Job Scheduler) และติดตามสถานะขเองเครื่องลูกในระบบ(Node Management) เพื่อให้การตั้งค่าและดูแลระบบเป็นไปอย่างมีประสิทธิภาพ จึงมีระบบปฏิบัติการณ์เฉพาะส าหรับระบบ Cluster เช่น ROCKS ซึ่งพัฒนาต่อจาก CentOS หรือ Windows Server 2008 HPC ซึ่งอยู่บนพื้นฐานของ Windows Server 2008 MPI ย่อมาจาก Message Passing Interface เป็นไลบราลีมาตรฐานส าหรับเขียนโปรแกรมแบบ message passing บนแพลตฟอร์มประสิทธิภาพสูง(HPC) เช่น เครื่อง ซุปเปอร์คอมพิวเตอร์ ระบบคลัสเตอร์ หรือกริด เป็นต้น

Products

AMD แอดวานซ์ ไมโคร ดีไวซ์, Inc. หรือ เอเอ็มดี เป็นบริษัทสัญชาติอเมริกัน ก่อตั้งเมื่อ ปี ค.ศ. 1969 โดยพนักงานเก่าจากบริษัท Fairchild Semiconductor โดย เอเอ็มดี ผลิตสินค้าเกี่ยวกับ เซมิคอนดัคเตอร์ มีส านักงานใหญ่อยู่ที่[[มลรัฐแคลิฟอร์เนีย] โดยเป็นผู้พัฒนา ซีพียู และเทคโนโลยีต่างๆ ออกสู่ตลาด และ ผู้ใช่ทั่วไป.โดยที่สินค้าหลักของบริษัทคือ ไมโครโพรเซสเซอร์,เมนบอร์ดชิปเซ็ต,การ์ดแสดงผล,ระบบฟังตัว ส าหรับคอมพิวเตอร์เซิร์ฟเวอร์ ,คอมพิวเตอร์ส่วนบุ คคล และ ระบบฝังตัวต่าง โดยที่ผลิตภัณฑ์ของเอเอ็มดีที่เป็นที่รู้จักได้แก่ไมโครโพรเซสเซอร์ตระกูล APU,Phenom II,Athlon II, , บนคอมพิวเตอร์ส่วนบุคคล APU Mobile,Duron, Turion,ในคอมพิวเตอร์แบบพกพา , ส าหรับเซิร์ฟเวอร์ และชิปกราฟิก Readeon เอเอ็มดี เป็นผู้ผลิตอันดับ 2 ในตลาดของไมโครโพรเซสเซอร์ ที่มีพื้นฐานอยู่บน x86 อีกทั้งยังเป็นหนึ่งในผู้ผลิตชิปกราฟิกการ์ดรายใหญ่ของโลก และ ยังผลิตหน่วยความจ าแบบแฟลช [2] โดยในปี 2010 AMD เป็นผู้ผลิตเซมิคอนดัคเตอร์ อันดับที่ 12 ของโลก [ 3 ] เ อ เ อ็ มดีนับเป็ นคู่แข่งที่ส าคัญของ อิ น เ ท ล ในตลาดไมโครโพรเซสเซอร์ และมีคดีความฟ้ องร้องกันอยู่ในหลายประเทศ เรื่องอินเทล ผูกขาดการค้า ปัจจุบันได้ท าการยอมความกันไปแล้ว[4] ค ว า ม เ ป็ น ม า ข อ ง โ พ ร เ ซ ส เ ซ อ ร์ เ ป็ น สิ่ ง ที่ น่ า ส น ใ จ อ ย่ า ง ห นึ่ ง ซึ่งเต็มไปด้วยการแข่งขันและความก้าวหน้าทางเทคโนโลยี เราจะเริ่มต้นกันที่ Processor 8086 ที่ความถี่ 5MHz และ ปัจจุบัน เราก็ได้เห็น processor ที่ความถี่ 1.8GHz ไปจนถึง 2.0 GHz. เราจะมาดูว่าอะไรคือความแตกต่างที่เกิดขึ้นตลอดเวลา 20 ปีที่ผ่านมา Processor เกิดการเปลี่ยนแปลงขึ้นในไม่กี่ปี หลังจากที่ Intel ได้เปิดตัวออกมาเป็นที่แรก IBM ได้เลือก processor 8088 ของ Intel ในการเป็นตัวหลักในการท างานของ PC เครื่องแรก และการเลือกของ IBM ครั้งนี้ ท าให้ Intel กลายเป็นผู้น าในตลอดของ CPU และ Intel ก็ยังเป็ นผู้น าในการพัฒนาไมโครโพเซสเซอร์อีกด้วย ขณะที่คู่แข่งได้พัฒนาเทคโนโลยีของโพเซสเซอร์ของตัวเอง Intel ก็ยังเป็นแหล่งของเทคโนโลยีใหม่ในตลาด CPU with the ever-growing AMD nipping at their heels โพรเซสเซอร์ของ Intel ในยุคที่ 4 ออกมาในชุดเลข “8” ซึ่ง ประกอบไปด้วย ชิพ รุ่น 8088, 8086 และ 80186 และพัฒนาไปจนถึง 80486 ชิ พ นี้ ไ ม่ ไ ด้ ใ ช้ กั บ PC ต้ น ฉ บับ แต่ถูกใช้ไม่มากนักกับเครื่องคอมพิวเตอร์รุ่นหลังจากนั้น ชิพนี้เป็นโพรเซสเซอร์ 16 บิท และมีติดต่อด้วย data wire connection ทั้งหมด 16 เส้น ชิพชนิดนี้ประกอบด้วยทรานซิสเตอร์ 29,000 ตัว และ 20 address line ซึ่งมีความสามารถในการติดต่อกับ RAM ได้มากถึง 1 MB สิ่งที่น่าสนใจคือ ไม่เคยมีใครต้องการ RAM ที่มากกว่า 1 MB ชิพมีหลายเวอร์ชัน เช่น 5,6,8,10 MHz ชิพรุ่น 8088 มีวัตถุประสงค์เพื่อประโยชน์เดียวกันกับรุ่น 8086 สิ่งที่แตกต่างคือ address line ชิพรุ่น 8088 เป็นชิพที่ถูกเลือกใช้ใน PC เครื่องแรกของ IBM ซึ่งสามารถท างานร่วมกับ ชิพ math coprocessor รุ่น 8087 ได้ ชิพเลียนแบบของ ชิพรุ่น 8088 และ ชิพรุ่น 8086 ซึ่งเร็วกว่าของ Intel ประมาน 30% ชิพรุ่น 186 เป็นชิพที่ได้รับความนิยมมาก ชิพมีมากมายหลายรุ่น ผู้ซื้อสามารถเลือกได้จาก CHMOS หรือ HMOS หรือ รุ่น 8บิท หรือ รุ่น 16 บิท ขึ้นอยู่กับความต้องการ ชิพรุ่น CHMOS สามารถใช้งานได้ที่ clock speed เป็น 2 เท่า และมีก าลัง เป็น 1 ใน 4 ของ ชิพรุ่น HMOS ในปี 1990, Intel ได้น าซีรีย์ 186 ออกสู่ตลาด ซึ่งมี 1 micron core design และใช้งานได้ที่ 25 MHz ที่ 3 โวลต์ 80186 ประกอบด้วยการบูรณาการที่ระดับที่สูงขึ้น และมี system controller, interrupt controller, DMA controller และ วงจร timing อยู่บน CPU แต่ 186 ไม่เคยถูกใช้กับ PC ชิพรุ่น 16 บิท ประกอบด้วย ทรานซิสเตอร์ 134,000 ตัว และมีความสามารถในการ addressing RAM มากถึง 16 MB นอกจาก memory ทางกายภาพที่เพิ่มขึ้นแล้ว ยังสามารถท างานด้วย virtual memory ชิพรุ่น 286 เป็นโพรเซสเซอร์ที่real mode รุ่นแรก ที่น าเสนอ เกี่ยวกับแนวคิดของ protected mode ชิพรุ่นนี้ สามารถใช้งาน multitask ได้ นั่นคือ สามารถรันโปรแกรมที่แตกต่างกันได้ ในเวลาเดียวกัน ความสามารถนี้ไม่ได้เป็นประโยชน์ กับ DOS แต่ใน OS ในอนาคต เช่น windows สามารถใช้มันเป็นรูปแบบใหม่ได้ ข้อเสียของ multitask คือ ขณะที่เปลี่ยนจาก real mode ไปยัง protected mode (real mode ตั้งใจที่จะให้ใช้งานร่วมกับ ชิพชุด8088 ได้) มันไม่สามารถที่จะเปลี่ยนกลับไปยัง real mode ได้ โดยที่ไม่ได้ reboot ชิพรุ่นนี้ใช้ใน PC/AT และใช้มากในอุปกรณ์ของ IBM ชิพนี้จะท างานได้ที่ 8, 10 และ 12.5 MHz แต่ การปรับปรุงล่าสุด สามารถ ท างานได้สูงถึง 20 MHz ชิพรุ่น 386 เป็นก้าวส าคัญของเทคโนโลยีจาก Intel 386 เป็นโพรเซสเซอร์ 32 บิท นั่นหมายความว่ามี data throughput มากกว่า รุ่น 286 เป็น 2 เท่า ซึ่งประกอบด้วยทรานซิสเตอร์ 275,000 ตัว โพรเซสเซอร์ 80386DX มาในหลายความถี่ เช่น 16, 20, 25 และ 33 MHz 32 บิท address bus ยอมให้ชิพท างานได้เต็มที่ที่ 4 MB ของ RAM และ staggering ที่ 64 TB ของ virtual memory 386 เป็นชิพรุ่นแรกที่ใช้ pipelining instruction ซึ่งยอมให้โพรเซสเซอร์ท างาน instruction ถัดไป ก่อนที่ instruction แรกจะเสร็จสมบูรณ์ AMD มีส่วนร่วมในอุตสาหกรรมคอมพิวเตอร์ โดยเป็นบริษัทผลิตหน่วยประมวลผลของเครื่องคอมพิวเตอร์ โดยเริ่มตั้งแต่หน่วยประมวลผลรุ่น 8088 ที่ใช้ในเครื่องคอมพิวเตอร์เครื่องแรกของ IBM จนถึงปัจจุบัน ซึ่งเป็นหน่วยประมวลผลรุ่นที่ 7 คือ AMD Athlon processor บริษัท AMD เริ่มต้นโดยการผลิต logic chip ในปี ค.ศ. 1969 ต่อจากนั้นจึงเริ่มขยายตัวเข้าสู่วงการธุรกิจ RAM ในปี ค.ศ. 1975 โดยในปีเดียวกันนี้ AMD ถูกกล่าวหาว่าได้ลอกเลียนแบบโครงสร้างของ Intel 8080 microprocessor ในความเป็นจริง Athlon ถู ก ม อ ง ว่ า เ ป็ น หน่วยประมวลผลตัวแรกในประวัติศาสตร์ของสถาปัตยกรรมแบบ x86 ซึ่ ง Intel ได้ยอมจ านนต่อเทคโนโลยีที่ก้าวหน้ากว่าของคู่แข่ง ในทศวรรษที่ผ่านมาก่อนหน้านี้ หน่วยประมวลผล AMD 386DX-40 มีความเร็ว, ประสิทธิภาพ และราคาดีกว่า หน่วยประมวลผล Intel 486SX ในช่วงต้นปี ค.ศ. 1982 AMD ได้ท าสัญญากับ Intel ในการเป็น ผู้ผลิตหน่วยประมวลผล 8086 และ 8088 ร่วมกันอย่างถูกกฎหมาย เนื่องจาก IBM ต้ องการใช้ Intel 8088 เป็นหน่วยประมวลผลภายในเครื่องคอมพิวเตอร์ แต่นโยบายของ IBM ในขณะนั้นต้องการให้มีแหล่งผลิตอย่างน้อย 2 แห่ง ต่อมา AMD ได้ผลิตหน่วยประมวลผล 80286 หรือ 286 ภายใต้เงื่อนไขข้อตกลงเดิม แต่ Intel ได้ยกเลิกสัญญา ในปี ค.ศ. 1986 และปฏิเสธที่จะเปิดเผยรายละเอียดทางด้านเทคนิคของ i386 ในช่วงต้นปี ค.ศ. 1990 Cyrix และ AMD ได้ผลิตหน่วยประมวลผล Intel 486DX ในเวอร์ชั่นของตัวเอง แต่เป็นที่รู้จักในนาม 486DX2 เลียนแบบ โดยเลียนแบบ 486DX2-66 ( น าเสนอโดย Intel ในปี ค.ศ. 1992 ) และเพิ่มความเร็วเป็น 80MHz. 486DX2-80 สร้างบนพื้นฐานของความเร็ว bus ที่ 40MHz และมีความร้อนในขณะท างานที่ 3.3V ซึ่ง แตกต่างจากชิป DX2 ของ Intel รุ่นก่อนหน้าที่มีความร้อนในขณะท างานที่ 5V นี่คือจุดเด่นในเรื่องของการจัดการพลังงานของชิป AMD ซึ่งเป้นนวัตกรรมที่ Intel ใช้เวลา 2 ปี ในการพัฒนา. เวอร์ชั่นที่เพิ่มความเร็วเป็น 3 เท่า ของหน่วยประมวลผล 486 40Mhz ซึ่งมีความเร็ว 120MHz ได้ถูกน าเสนอในเวลาต่อมา. ถึงแม้ว่า Intel ได้หยุดการพัฒนาหน่วยประมวลผล 486 ที่ DX4-100, AMD และ Cyrix ยังคงพัฒนาอย่างต่อเนื่อง. ในปี ค.ศ. 1995, AMD ได้น าเสนอ 5x86 ซึ่งมีความเร็วเป็น 4 เท่า, 486DX 33MHz สามารถท างานได้ที่ความเร็ว 133MHz. ชิป AMD สามารถเปรียบเทียบประสิทธิภาพได้กับ Intel Pentium/75, จึงเรียกว่า 5x86-75. แต่ก็ยังคงเป็น 486DX, รวมทั้งการเพิ่มเข้ามาของ 16K Level 1 cache ( cache ถูกสร้างอยู่ในหน่วยประมวลผล ) ที่ Intel ได้น าเสนอใน DX4 ในยุคก่อน Pentium, AMD ออกแบบตามความต้องการของตลาด, โดยเฉพาะอย่างยิ่งในเรื่องของราคาที่ต ่า, PC พื้นฐานตามส่วนของตลาด. ในขณะที่ Intel ให้ความส าคัญในเรื่องการออกแบบ Slot 1 และ Slot 2, เป้าหมายของคู่แข่ง คือ การท าให้ประสิทธิภาพในการใช้งานคงเดิม โดยใช้การออกแบบใหม่ของ Intel โดยไม่ต้องปรับปรุงเทคโนโลยีของหน่วยประมวลผลใหม่. ผลพวงของอายุขัยของ Socket 7 เป็นปัจจัยใจหลักในการขยาย, ผู้ผลิต motherboard และ chipset ได้ท างานร่วมกับคู่แข่งของ Intel ในการท าให้ Socket 7 เป็นพื้นฐานของระบบ เพื่อให้สามารถใช้คุณสมบัติหลายๆ อย่างได้ เช่น 100MHz frontside bus และรองรับ AGP ช่วงกลาง ค.ศ. 1999 ได้เห็นพัฒนาการที่ส าคัญบางอย่างในการแข่งขันกันในตลาดของหน่วยประมวลผลมากกว่าปีที่ผ่านมา. สืบเนื่องจากการเข้าซื้อกิจการใน 2 ปีก่อน, Cyrix ได้หลุดออกจากธุรกิจ PC desktop เมื่อบริษัทมีปัญหารทางด้านการเงิน, บริษัทแม่ National Semiconductor ได้ขายสิทธิ์ในหน่วนประมวลผล x86 ให้กับบริษัท Taiwan-based chipset manufacturer VIA Technologies. การพัฒนาอย่างมีนัยส าคัญอีกอย่างหนึ่งคือ AMD ได้น าเทคโนโลยีของ Intel มาใช้ในการสร้างหน่วยประมวลผล Athlon ตัวใหม่ ( มีชื่ออย่างเป็นทางการว่า K7 ). Intel ได้ประกาศถึงความล่าช้าของ Coppermine 0.18 micron Pentium III ซึ่งเป็นขณะเวลาเดียวกับที่ AMD เปิดตัวหน่วยประมวลผลตัวใหม่, น่าสนใจว่าบริษัทจะสามารถใช้ประโยชน์จากโอกาสในการครองความได้เปรียบและผลกระทบต่อ Athlon ที่จะตามมาในภายหน้า AMD486DX Series(1994-1995) Intel ไม่ได้เป็นผู้ผลิตรายเดียวที่พัฒนา processor ในเวลานั้น AMD ได้น า AM486 series ออกสู่ตลาดเพื่อแข่งขันกับ Intel AMD ได้น า processor เวอร์ชั่นต่างๆ ออกสู่ตลาด เช่น AM486DX4/75, AMD486DX4/100 และ AMD486DX/120 ซึ่งเป็น processor ที่เป็น on-board cache และใช้ไฟเลี้ยง 3 โวลท์

AMD AM5x86 (1995) Processor รุ่นนี้ท าให้ AMD ได้ขึ้นมาเป็นคู่แข่งกับ Intel อย่างเป็นทางการ ซึ่ง processor รุ่นนี้ออกมาเพื่อเป็นคู่แข่งของ Pentium-class Processor ของ Intel ผู้ที่ใช้ Intel 486 Processor จะต้องใช้ processor ที่มีแรงขับสูงๆ หรือเลิกใช้ motherboard ที่ใช้อยู่เพื่อเปลี่ยนไปใช้ Pentium board เพื่อให้สามารถใช้งาน Pentium-class ได้อย่างมีประสิทธิภาพ AMD เล็งเห็นตรงจุดนี้ จึงออกแบบ AM5x86 เพื่อรองรับการใช้งาน Pentium-class อย่างเต็มประสิทธิภาพ โดยใช้ 486 motherboard เดิม 5x86 processor ถูกออกแบบให้สามารถท างานที่ความถี่ 133MHz ด้วย clock-quadrupling ที่ 33 MHz ซึ่งสามารถท างานบน 486 board ได้ และรองรับ PCI bus ที่ 33 MHz และมี on-board cache ขนาด 16 KB ที่กล่าวมานั้นเป็นสิ่งที่ท าให้ 5x86 ได้ดีกว่า Pentium-75 จึงกลายเป็นทางเลือกของ ผู้ใช้ที่เลือกใช้ 486 board แต่ไม่ต้องการทิ้ง 486 board ของตัวเอง เพื่อให้ได้ใช้ประสิทธิภาพของ Pentium-class

AMD K5(1996) ถึงแม้ ว่า AMD จะเป็นคู่แข่งกับ 5 x86 CPU ของ Intel แต่ก็ยังไม่ได้เป็นตัวเลือกที่สามารถแข่งขันกับ Pentium ได้ ในปี 1996 AMD ได้เปิดตัว K5 processor ซึ่งถูกออกแบบมาเพื่อท้าชนกับ Pentium processor ซึ่งถูกออกแบบให้สามารถใช้งานกับ motherboard ที่เป็น Socket 7 (Socket ที่มี pin เพิ่มขึ้นมาจาก Socket 5 สามารถรองรับ processor ที่แตกต่างกันตามแต่ละผู้ผลิต ) ได้ รวมทั้งผู้ใช้สามารถน า K5 processor ไปวางบน motherboard ที่มีอยู่แล้วได้เลย processor นี้ถูกออกแบบให้สามารถท างานร่วมกับ software ของ x86 processor ได้ ส่วนในด้านความเร็วในการประมวลผล AMD จะใช้ระบบ P-rating (หรือ PR rating) ซึ่ง เป็นตัวเลขที่ใช้เปรียบเทียบความเร็ว กับ Intel Pentium K5 processor จะท างานอยู่ที่ความถี่ 75 MHz ถึง 166 MHz K5 processor ประกอบด้วย L1 cache ขนาด 24KB และ ทรานซิสเตอร์ประมาณ 4.3 ล้านตัว

AMD K6 (1997) AMD K6 ถูกเปรียบเทียบด้านประสิทธิภาพกับ Intel Pentium II แต่ K6 processor ยังคงใช้กับ board ที่เป็น Socket 7 ท าให้ยังคงเป็นตัวเลือกของ Pentium เช่นเดิม K6 processor รองรับเทคโนโลยี MMX ที่ Intel เป็นผู้พัฒนา เพื่อให้มีความสามารถใกล้เคียงกับ Pentium MMX บนพื้นฐานของโครงสร้าง RISC86 K6 processor ประกอบด้วย หน่วยประมวลผล 7 หน่วยขนานกัน และ สามารถท านายผลการประมวลผลล่วงหน้าได้ 2 ระดับ และ มี L1 cache ขนาด 64 KB ประกอบด้วย data ขนาด 32 KB และ instruction 32 KB K6 processor มีหลายเวอร์ขั่น ในช่วงความถี่ 166 MHz ถึง 300 MHz K6 processor ใช้ด้วยเทคโนโลยีขนาด 0.35 ไมครอน 5 layer ซึ่งมีขนาดเล็กกว่า Pentium Pro ประมาน 20% ประกอบด้วยทรานซิสเตอร์มากกว่า 3.3 ล้านตัว ความสามารถในการค านวณทศนิยม ยังเป็นจุดอ่อนของ K6 processor เมื่อเทียบกับ Intel Pentium Pro และ Pentium II processor

AMD K6-2 (1998) AMD K6-2 ประกอบด้วยทรานซิสเตอร์ประมาณ 9.3 ล้านตัว โดยใช้เทคโนโลยี 0.25 ไมครอน 5 layer K6-2 processor เป็นการรวมนวัตกรรมและประสิทธิภาพของโครงสร้าง RISC86 รวมทั้ง มี L1 cache ขนาด 64 KB ประกอบด้วย data ขนาด 32 KB, instruction ขนาด 32 KB อีกทั้งยังมีการพัฒนาการค านวณทศนิยมอีกด้วย เวอร์ชั่นแรกที่ออกมาจะอยู่ในช่วงความถี่ 300 MHz และได้ออก processor ที่ความถี่ 450 MHz ในเวลาต่อมา Package ของ K6-2 จะเป็น package แบบ ceramic (CPGA) ซึ่งจะมี 321 pin และสามารถใช้กับ board แบบ Socket 7 ได้

AMD 3DNow (1999) 3DNow processor เป็นการติดตั้งเทคโนโลยี 3DNow โดยการเพิ่ม instruction 21 ชุดเข้าไปใน MMX instruction set บน K6-2 processor ซึ่งเป็นการเพิ่มความสามารถในการค านวณเลขทศนิยม เทคโนโลยี 3DNow เป็นการเพิ่มประสิทธิภาพในการประมวลผล graphic อีกทั้งยังเป็นการแก้ไขปัญหาคอขวดของ 3D graphic pipeline

AMD K6-3 (1999) K6-3 CPU จะมีใช้สถาปัตยกรรมแบบ TriLevel Cache (cache 3 ระดับ) ซึ่งประกอบด้วย cache ภายใน (L2 cache) ขนาด 256 KB ซึ่งประมวลผลที่ความเร็วเต็มความสามารถของ K6-3 processor และ L1 cache ขนาด 64 KB K6-3 มีการออกแบบเป็น multiport ภายใน cache ซึ่งสามารถจะอ่านและเขียน L1 cache และ L2 cache พร้อมกันได้ที่ 64 bits ซึ่งการที่เป็นแบบ multiport นี้ ท าให้สามารถประมวลผลข้อมูลได้เร็วขึ้นและมีประสิทธิภาพมากกว่าการออกแบบในลักษณะที่ไม่มี port K6-3 ซึ่งสามารถอ่านและเขียนได้ทั้งใน L1 cache และ L2 cache และมี cache บน motherboard ซึ่งถูกมองว่าเป็น cache ภายนอกซึ่งมีขนาดระหว่าง 512 KB ไปจนถึง KB K6-3 และจะเข้าถึง L2 cache ด้วยวิธี 4- way set associative

AMD Athlon (1999) หน่วยประมวลผล Athlon เปิดตัวในช่วงฤดูร้อนของปี ค . ศ . 1999, ซึ่งเป็นหน่วยประมวลผลที่ปฏิวัติการออกแบบของ AMD. ท าให้ AMD สามารถพูดได้ว่าเป็นครั้งแรกที่มีการสร้างหน่วยประมวลผลรุ่นที่ 7 ซึ่งมีสถาปัตยกรรมแตกต่างกันอย่างสิ้นเชิงระหว่าง Athlon core กับ Pentium II / III และ K6-III ได้รับการยกย่องว่าเป็ น next-generation processor แต่ยังหมายความว่าพวกเขาเป็นผู้น าทางด้านเทคโนโลยีเช่นเดียวกับ Intel Athlon เป็นค าที่มีรากศัพท์มาจากภาษากรีกโบราณ หมายถึงถ้ วยรางวัล Athlon เป็นหน่วยประมวลผลของ AMD ที่ถูกมองว่าเป็นการแข่งขันในภาคธุรกิจของตลาดเกม 3D Athlon มีขนาด 102 mm2 และมี transistor 22 ล้านตัว องค์ประกอบหลักของ Athlon ประกอบด้วย : Multiple Decoders : มีชุดแปลงค าสั่งส าหรับ x86 3 ชุด ซึ่งแปลงค าสั่งลงใน MacroOPs เพื่อให้ได้ผลลัพธ์มากขึ้น ในการรันค าสั่งบน x86 ซึ่งมีความยาวตั้งแต่ 1 ถึง 15 bytes Athlon processor ท างานที่ MacroOPs คงที่ ขณะที่โปรแกรมยังคงท างานได้อย่างมีประสิทธิภาพบน x86 Instruction Control Unit : MacroOPs ถูกแปลงเป็น 3 MacroOPs ส่งไปประมวลผลที่ Instruction Control Unit (ICU) ICU เป็นล าดับ buffer 72 รายการ ที่จัดการด าเนินการของ MacroOPs ทั้งหมด โดย register แต่ละตัว ต้องมีตัวด าเนินการและควบคุมเงื่อนไขข้อยกเว้นใดๆ และ instruction retirement operations ICU ส่ง MacroOPs ไปยังหน่วยก าหนดการท างานหลายอย่างของ processor Execution Pipeline : Athlon ประกอบด้วยรุ่น หน่วยก าหนดการ MacroOP 18-entry integer/address และ 36-entry floating-point unit(FPU)/multimedia ตัวจัดการด าเนินการจะแบ่ง MacroOPs ออกเป็น 9 execution pipelines ที่แยกอิสระจากกัน 3 ส าหรับการค านวณ integer, 3 ส าหรับการค านวณ address, และ 3 ส าหรับการประมวลผลของ MMX, 3DNow!, และ x87 floating- point instructions.

Superscalar FPU : CPU รุ่นก่อนๆ ของ AMD มีประสิทธิภาพของ floating-point ด้อยกว่าเมื่อเปรียบเทียบกับ Intel จุดอ่อนนั้นมากกว่าการจัดต าแหน่งใน Athlon ซึ่งมีคุณสมบัติขั้นสูงในการแบ่งแยก 3 superscalar บน 3 pipeline ที่ออกค าสั่งหน่วยปฏิบัติการ FMUL, FADD และ FSTORE superscalar หมายถึงความสามารถของ CPU ที่ ส า ม า ร ถ ด า เ นิ น ก า ร ไ ด้ ม า ก ก ว่ า ห นึ่ ง ค า สั่ ง ต่ อ ห นึ่ ง ร อ บ สั ญ ญ า ณ น า ฬิ ก า และในขณะที่หน่วยประมวลผลไม่ได้ท างานในบางขณะ Athlon แสดงให้เห็นถึง application แรกของเทคโนโลยีในระบบย่อยของ FPU ประสิทธิภาพ superscalar ของ Athlon FPU เป็นส่วนหนึ่งใน pipeline กระบวนการในการส่งข้อมูลและค าสั่งใน virtual pipe ดังนั้นส่วนต่างของ pipe สามารถประมวลผลได้พร้อมกัน ในบรรทัดสุดท้าย คือ Athlon มีความสามารถในการส่งข้อมูลมากที่สุดส าหรับ 32 bits ความแม่นย า floating point ตอ่ หนงึ่ รอบสญั ญาณนาฬกิ า ให้ประสิทธิภาพสงู สดุ ของ 2.4 Gflops ที่ 600MHz Branch Prediction : AMD Athlon processor มีตรรกะแบบไดนามิคที่มีความซับซ้อนในการท านายเพื่อลดความล่าช้าอันเนื่องมากจากค าสั่ง (jumps, calls, returns) ที่พบบ่อยใน x86 software System bus : Athlon system bus เป็น system bus 200MHz ตัวแรกของ platform x86 บนพื้นฐาน Digital’s Alpha EV6 bus protocol front side bus (FSB) ได้มีการปรับปรุงเพื่อให้ถึง 400MHz ขึ้นไป และไม่มีการให้ bus ร่วมกับ SMP (Symmetric Multi-Processing) เหมือน Pentium III Cache Architecture : สถาปัตยกรรม cache ของ Athlon เป็นก้าวกระโดดที่ส าคัญจาก CPU 6 รุ่นก่อน cache level 1 มีความจุรวม 128KB ซึ่งมากกว่า Pentium III 4 เท่า และ cache level 2 ที่มีความเร็ว 64 bit สามารถรองรับความจุได้ตั้งแต่ 512KB ถึง 8MB Enhanced 3D Now! : การตอบสนองของ Intel Pentium III 3DNow! ด าเนินการปรับปรุง เพิ่ม 24 ค าสั่งใหม่ให้กับ 21 3DNow! เดิม 19 เพื่อปรับปรุงการค านวณเพื่อเพิ่มความเร็วในการส่งข้อมูลทาง internet และ 5 DSP ส าหรับ soft modem, soft ADSL, dolby digital และ mp3 Athlon ใช้การออกแบบโมดูล AMD ที่ใช้งานร่วมกับเมนบอร์ด Slot 1 แต่มีการเชื่อมต่อไฟฟ้าต่างกัน หมายความว่า CPU Athlon จะไม่ท างานบนเมนบอร์ด Slot 1 Slot A ถูกออกแบบมาเพื่อเชื่อมต่อกับไฟฟ้าเพื่อใช้งาน 200MHz bus บน Alpha EV6 bus protocol ซึ่งมีประสิทธิภาพสูงกว่า Slot 1 รวมทั้งการมี chipset AMD-750 ที่บริษัทท างานร่วมกับ 3 ผู้ผลิตรายใหญ่เพื่อผลิต chipset ให้ AMD Athlon เป็นตัวแรกที่มีความเป็น 500, 550 และ 600MHz และ 650MHz ก็ตามมาหลังจากนั้นเพียงเล็กน้อย โดยทั้งหมดใช้เทคโนโลยี AMD 0.25-micro processor สิ้นปี 1999 AMD ได้เพิ่มความเร็วขึ้นไปถึง 750MHz K75 core เป็น processor ตัวแรกที่สร้างโดยการใช้เทคโนโลยี อลูมิเนียม 0.18-micro, six-layer metal ซึ่งสามารถพูดได้ว่าเป็น x86 CPU ที่มีความเร็วสูงสุดในสหัสวรรษ ในขณะที่ Intel ได้ตอบสนองอย่างรวดเร็ว โดยการเปิดตัว 800MHz Pentium III แต่ AMD ได้กลับเป็นผู้น าในด้านความเร็วอีกครั้งข่วงต้นปี 2000 ด้วยการเปิดตัวรุ่น 800MHz และ 850MHz และประสบความส าเร็จในการเอาชนะ Intel ซึ่งมีก าแพงกั้นที่ความเร็ว 1GHz ในไม่กี่สัปดาห์ต่อมา ในความเป็นจริง หน่วยประมวลผลที่ใช้ K75 มี จุ ด ที่ น่ า ผิ ด ห วั ง เ ล็ ก น้ อ ย คื อ ในการเพิ่มความเร็วสญั ญาณนาฬิกาแต่ละครัง้ จะลดความถี่ของ L2 cache ลง ซึ่งไม่เคยเกิน 350MHz ข้อจ ากัดทางสถาปัตยกรรมนี้ถูกแก้ไขโดยการเปิดตัวการเชื่อมต่อสายใน Athlon ใหม่ หรือ Thunderbird พร้อมความเร็วเต็มที่ของ L2 cache

AMD Duron (2000- present) AMD ได้เปิดตัว AMD Duron เพื่อมาแข่งขันกับ Intel Celeron ซึ่งราคาถูก และเน้นเป้าหมายไปที่ ผู้ใช้ตามบ้าน และธุรกิจขนาดเล็ก Duron มี L1 cache ขนาด 128 KB และ L2 cache ขนาด 64 KB, system bus แบบ EV6 ที่ความถี่ 200 MHz และเทคโนโลยี 3DNow เข้าไป L2 cache ขนาด 64 KB ของ Duron จะถูกเปรียบเทียบกับ Athlon ขนาด 256 KB และ Intel Celeron ขนาด 128 KB ด้วยประสิทธิภาพที่กล่าวมา AMD เชื่อว่า จะสามารถท าให้ผู้ใช้ยอมรับในประสิทธิภาพ และความคุ้มค่า เมือเทียบกับ Intel Duron CPU รุ่นแรก จะใช้ CPU แบบ Spitfire ซึ่งสามารถท างานบนความเร็วที่ 600 MHz, 650 MHz และ 700 MHz และ ผลิตด้วยเทคโนโลยี 0.18 ไมครอน และ Duron เป็น CPU แบบ package ซึ่งมี 462 pin

AMD Thunderbird (2000) AMD ได้พัฒนา Athlon processor ให้ดีขึ้น และใช้ codename ว่า Thunderbird Thunderbird ใช้ เทคโนโลยี 0.18 ไมครอน จากเดิมที่เป็น L2 cache ภายนอก ขนาด 512 KB เปลี่ยนเป็น on-board L2 cache ขนาด 256 KB และท างานที่เร็วเท่ากับความเร็วของ clock ของ processor เมื่อเทียบกับ Athlon processor ซึ่งมี L2 cache ภายนอก จะท างานได้มากที่สุดที่ความถี่ 330 MHz Thunderbird จะใช้ mainboard เป็น 462 pin Socket A และรองรับ PC133 memory สามารถท างานได้ที่ความถี่ ตั้งแต่ 750 MHz จนถึง 1 GHz การที่ Thunderbird น า L2 cache ไปในภายในท าให้ ขนาดของตัว processor เพิ่มขึ้น ประมาณ 20% นั้นคือ จาก เดิมขนาด 102 ตารางมิลลิเมตร ไปเป็น 120 ตารางมิลลิเมตร แต่ก็ยังเล็กกว่า Athlon ซึ่ ง ผ ลิ ต ด้ ว ย เ ท ค โ น โ ล ยี 0 . 2 5 ไ ม ค ร อ น ซึ่ ง มี ค ว า ม ก ว้ า ง 1 8 4 ต า ร า ง มิ ล ลิ เ ม ต ร อีกทั้งยังเพิ่มจ านวนทรานซิสเตอร์ เป็น 37 ล้านตัว ซึ่งเพิ่มขึ้นมา 15 ล้านตัว

AMD Palomino () AMD Palomino ผลิตด้วยเทคโนโลยี 0.18 micron copper interconnection ประกอบด้วยทรานซิสเตอร์ 37.5 ล้านตัว บน die ขนาด 128 ตารางมิลลิเมตร ซึ่งเพิ่มขึ้นจากเดิม 0.5 ล้านตัวต่อ 8 ตารางมิลลิเมตร อีกทั้งยังลดปริมาณความร้อนที่ลง 20% Palomino processor จะมี L1 cache ขนาด 128 KB ซึ่งประกอบด้วย data ขนาด 64 KB และ instruction ขนาด 64 KB และมี on-board L2 cache ขนาด 256 KB Palomino processor รองรับชุดค าสั่ง SSE (Streaming SIMD Extension) และมีการเพิ่มเติม 3 จุดหลัก ได้แก่ เพิ่ม SIMD ตัวใหม่ เข้าไป 52 ชุดค าสั่ง, บรรจุ SIMD พื้นฐาน 21 ชุดค าสั่ง เกี่ยวกับ 3DNow และ และเพิ่มเติมการท างานของ 3DNow Palomino ผลิตด้วย OPAG (Organic Pin Grid Array) packaging แทนจากใช้ CPGA (Ceramic Pin Grid Array) packaging ซึ่งใช้ใน processor รุ่นก่อนๆ OPGA packing สามารถติดตั้งบน 462-pin socket A ได้ นั่นหมายความว่า Palomino สามารถใช้บน Socket A motherboard ได้ Palomino รองรับ FSB ที่ 133 MHz ในขณะเดียวกัน Athlon XP model ซึ่งใช้ Palomino core ได้ก าหนด XP model number ซึ่งใช้ในการเทียบเคียงกับความถี่ clock ของ Pentium เช่น Athlon XP 1800+ ก็จะเทียบเท่ากับ Pentium 4 1.8 GHz Athlon XP มีหลาย model ด้วยกัน เช่น 1500+, 1600+, 1700+, 1800+ จะท างานที่ความเร็ซ clock ที่ 1.33 GHz, 1.40 GHz, 1.47 GHz และ 1.53 GHz ตามล าดับ และปี 2002 ได้มีการผลิต XP 2000+ ซึ่งอาจจะเปรียบเทียบประสิทธิภาพได้ พอกับ 2 GHz ของ Intel Pentium 4 processor เลยทีเดียว

AMD Thoroughbred (2002) Thoroughbred processor เป็น desktop processor รุ่นแรกที่ผลิตด้วย เทคโนโลยี 0.13 micron fabrication ภาพของ processor, ให้ความร้อนลดลง และ die มีขนาดเล็กลง ในความเป็นจริง thoroughbred processor ไม่ได้มีการเปลี่ยนแปลงโครงสร้างภายใน และไม่ได้ไม่ได้ท างานได้เร็ซขึ้น เมื่อเปรียบเทียบที่ความเร็วของ clock เท่ากัน แต่อย่างไรก็ตาม thoroughbred processor ใช้ไฟเลี้ยงแค่ 1.65 โวลท์เมื่อเทียบกับ Palomino processor ซึ่งใช้ไฟเลี้ยงที่ 1.75 โวลท์ และขนาดของ die ที่เล็กลงนั้นท าให้ AMD ได้เปรียบเหนือ Intel Pentium 4 ซึ่งมีขนาดใหญ่กว่าคือ 128 ตารางมิลลิเมตร thoroughbred processor มี L1 cache ขนาด 128 KB และ on-board L2 cache ขนาด 256 KB การเชื่อมต่อกับ mainboard เป็นแบบ Socket A และผลิตด้วยเทคโนโลยี 0.13 micron copper

AMD (2003) Athlon 64 และ Athlon 64 FX-51 ที่ออกมาได้ครองตลาดในช่วงนั้น ตลาดบนจะเป็น Athlon 64 ส่วน Athlon 64 FX-51 จะมุ่งเป้าหมายไปที่ gamer และ technophiles. ในช่วงต่อเนื่องของการใช้ระบบ AMD model numbering ในรุ่นต่างๆของ AMD นั้น, Athlon 64 3200+ อ้างว่า ความเร็วของ clock อยู่ที่ 2 GHz ซึ่งน้อยกว่า FX-51 ซึ่งอยู่ที่ 2.2 GHz. รูปลักษณ์ทางกายภาพของทั้ง 2 ตัว แตกต่างกัน, FX-51 จะอยู่ที่ 940-pin Opteron ขณะที่ ตัวหลักอยู่ที่ 754-pin. ส่วนประกอบของ CPU core ทั้ง 2 model เหมือนกัน, สิ่งหนึ่งที่เป็นโครงสร้างที่ส าคัญคือการเพิ่ม hub(MCH) เข้าไปที่ตัว processor. นั่นหมายความว่า motherboard ไม่จ าเป็นต้องแบ่งเนื้อที่การวาง Northbridge chip มากนัก. อย่างไรก็ตาม ท าให้หลักการของ FSB หายไป ท าให้ปัญหาเรื่อง bottleneck เกิดขึ้น. ในโครงสร้างของ K8 processor ได้ใช้ HyperTransport link เชื่อมต่อ CPU ไปยัง external chip เช่น Southbridge, AGP controller หรือ CPU ชนิดอื่นๆ เป็นต้น. สิ่งนี้ท าให้ memory สามารถท างานได้ที่ความเร็วสูงสุดของ processor. การผสมผสานกันนี้น าไปสู่การลด latency และ เพิ่มประสิทธิภาพของ memory. 1 2

4 3

โครงสร้าง Athlon 64 ขยายความที่ 1 : AMD 64 coreมีประสิทธิภาพในการท างานกับ 32 bit application รองรับการท างานกับ 64 bit application ขยาย lifecycle เพื่อให้สามารถท างานทั้ง 32 bit และ 64 bit application บน platform เดียวกันได้ ขยายความที่ 2 : Integrated DDR memory controller ลดการเกิด bottleneck ในระบบ เพิ่มประสิทธิภาพในประมวลผล application ที่ต้องใช้ memory มากๆ รองรับ PC3200, PC2700, PC2100, PC1600, DDR และ SDRAM ขยายความที่ 3 : HyperTransport System bus ที่ใช้เทคโนโลยี HyperTransport จะท าให้สามารถติดต่อกับ I/O ได้เร็วขึ้น เพิ่ม banwidth เป็น 6.4 Gbps ขยายความที่ 4 : L2 cache เป็น on die cache ที่ใหญ่ที่สุดใน PC processor L1 instruction cache ขนาด 64KB L1 data cache ขนาด 64KB Effective cache ทั้งหมดขนาด 1152KB เพิ่มประสิทธิภาพในการท างานกับ application ที่มีใหญ่มากๆ AMD 64 instruction set, x86-64 ไม่สามารถใช้งานได้กับ instruction ของ Intel IA-64 architecture ซึ่งรองรับ Itanium server processor. อย่างไรก็ตาม ผลประโยชน์ที่เกิดจากการที่ AMD พยายามผลักดันเรื่องนี้อย่างมาก คือ ท าให้ instruction ของ AMD 32 bit x86 สามารถรองรับทั้ง Intel และ AMD desktop processor วันเดียวกันกับที่ AMD ได้เปิดตัว Athlon 64, Microsoft ได้เปิดตัว Windows XP 64-bit beta ซึ่งสามารถท างานได้บน AMD Athlon 64 processor-powered desktop และ AMD Opteron processor-powered workstations. การที่จะปรับเปลี่ยนให้สามารถรองรับ 32-bit application และอุปกรณ์ที่เป็น 32-bit ได้นั้นจะต้อง update และ recompile ใหม่ แต่ถ้า Athlon 64 ประสบความส าเร็จในตลาดของ Intel นั้น อาจจะท าให้ AMD ตกอยู่ในที่นั่งล าบากกับการเปิดตัว K8 chip ที่จะน ามาใช้ใน Window XP 64-bit นั่นเอง. ในปี 2004 AMD ได้น าเสนอ processor packaging, ซึ่งเป็นสัญญาณที่จะเข้าสู่การเป็น high-end desktop Athlon 64 processor. ความแตกต่างระหว่าง Socket 939 และ คือ dual-channel 128-bit memory controller. การเพิ่มขึ้นของ throughput เป็น 2 เท่าระหว่าง Athlon 64 และ main memory นั้น, จะยอมให้ใช้ unbuffered memory ในการ configure dual channel ของทั้ง Athlon 64 และ Athlon 64 FX processor. ข้อดีของการใช้ CPU interface ตัวใหม่นี้นั้น คือ การเพิ่มขึ้นของความเร็วของ HyperTransport link ซึ่ง processor ใช้ในการติดต่อกับระบบ. Socket 939 รองรับการใช้ bandwidth มากที่สุด นั่นคือ 8Gbps, ซึ่งก่อนหน้านี้จะใช้ได้เพียง 6.4Gbps. จะเห็นได้ว่า AMD วางแผนที่จะน า Athlon 64 บน Socket 939 ออกสู่ตลาดตั้งแต่แรก แต่ติดที่ว่าไม่สามารถที่จะท าโครงสร้างใหม่ให้ส าเร็จทันเวลา. CPU รุ่นใหม่ที่ได้เปิดตัวเวลาเดียวกับที่ Socket interface แบบใหม่ได้เปิดตัวนั้นมีด้วยกัน 3 ตัว คือ 3700+ ซึ่งเป็น chip ตัวสุดท้ายที่ใช้ Socket 754. 3500+ และ 3800+ จะใช้ประโยชน์บนโครงสร้างใหม่, แต่เฉพาะ flagship FX-53 เท่านั้น ที่สามารภใช้ประโยชน์ทั้งหมดของมันได้อย่างเต็มที่ นั่นคือ ความเร็ว clock ที่ 2.4GHz, L2 cache ขนาด 1MB, HyperTransport link 1,000MHz และ dual-channel memory controller.

AMD Opteron (2003) Opteron เป็น server-class processor บนพื้นฐานโครงสร้างของ K8. Opteron ในเวลานั้นจะใช้ แบบเดียวเท่านั้นและ ต้องใช้ motherboard ที่มี expensive registerd RAM. Opteron ประกอบด้วย DDR memory controller ที่เป็น single channel และมี HyperTransport link 3 ตัว. Processor ตัวนี้จะรวมเทคโนโลยี AMD 64-bit, รองรับ SSE และ SSE2 instuction และ L2 cache ขนาด 1MB. Opteron processor รุ่นแรก ผลิตด้วยเทคโนโลยี 0.13 micron ซึ่งเป็นเทคโนโลยีที่ใช้ใน K7 processor ตัวล่าสุด. Operton processor จะท างานที่ความถี่ที่ต ่ากว่า Athlon XP processor และมี TDP ที่สูงกว่า และ TDP จะลดลงเมื่อมีการใช้เทคโนโลยี 0.09 micron ใน Opteron CPU ในปี 2005. Processor นี้จะรองรับ SSE3 instruction และเพิ่มความถี่มากที่สุดของ HyperTransport link จาก 800 MHz ไปเป็น 1GHz. Opteron processor จะท างานได้เร็วกว่า Athlon 64 processor ซึ่งมี unbuffered RAM น้อยกว่าและมี Hypertransport link แค่ 1 ตัว เท่านั้น.

AMD Sempron (2004) Sempron processor มีจุดเริ่มต้นมาจากความส าเร็จของ Duron CPU และเป็นคู่แข่งโดยตรงกับ Intel Celeron D processor ขนาด 90 มิลลิเมตร, Sempron processor จะมีช่วงความถี่ที่ซ้อนทับกับ ช่วงความถี่ของ AMD Athlon XP และเป็นสัญญาณถึงความก้าวหน้าของทั้ง desktop CPU และ mobile CPU.

Sempron processor ผลิตด้วยเทคโนโลยี 130 nm และมี interface แบบ Socket 754 ซึ่งอนาคตจะถูกแทนที่ด้วย Socket 939 ที่ใช้ใน Athlon 64. รุ่นของ AMD Sempron, ขนาด L2 cache และความถี่ของ CPU มีรายละเอียดดังนี้ ค ว า ม ถี่ รุ่น (GHz) L2 cache (KB) 3100+ 1.8 256 3000+ 2.0 512 2800+ 2.0 256 2600+ 1.833 256 2500+ 1.750 256 2400+ 1.667 256 2300+ 1.583 256 2200+ 1.5 256

ภายในปี 2005 Sempron จะเปลี่ยนไปใช้ Socket แบบ 939 และใช้เทคโนโยลี 90 nm ในการผลิต อีกทั้งยังเพิ่ม ความเร็ว clock เพิ่มขึ้นด้วย

AMD (2005) AMD เป็นผู้ผลิตรายแรกที่ทดลองการท างานของ dual-core processor ในปี 2004, แต่กลับกลายเป็นว่าคู่แข่งอย่าง Intel ได้เปิด dual-core processor ตัวแรกออกสู่ตลาดในปี 2005. อย่างไรก็ตาม, ไม่ใช่แค่ AMD X2 ตัวเดียวเท่านั้นที่เปิดตัวหลังจากที่ Intel Pentium Extreme Edition และ Pentium D CPU ได้เปิดตัวออกมา แต่สิ่งที่ส าคัญกว่าคือประสิทธิภาพของมัน Athlon 64 XP ได้รวบรวมคุณลักษณะทั้งหมดที่อยู่บน single-core Athlon 64 เช่น เทคโนโลยี HyperTransport และ Enhanced Virus Protection(EVP) . ถ้าใช้ Windows XP SP2, EVP กั้นในส่วนที่เป็น memory ของ data ว่าข้อมูลในส่วนนี้จะอ่านและเขียนได้เท่านั้น ไม่สามารถ execute ได้. ซึ่งวิธีการนี้ EVP จะป้องกันไวรัสที่เป็นอันตราย, ซึ่งเป็นสาเหตุของการความเสียหายใน memory. Model เริ่มต้นของ X2 ได้แก่ 4200+, 4400+, 4600+ และตัวสูงสุดที่ 4800+. Dual-core chip จะท างานได้ช้ากว่า single core ในกรณีที่เปรียบเทียบกับ processor ชนิดเดียวกัน. AMD อ้างว่า X2 processor จะมีประสิทธิภาพเพิ่มขึ้น 80% เมื่อเปรียบเทียบกับ single-core ที่ความถี่เดียวกัน และ ท างานบน digital media software application. โครงสร้างพื้นฐานและคุณสมบัติของ X2 core 1 ชิ้น นั้นเหมือนกับการออกแบบของ Athlon 64. ความแตกต่างคือ X2 ที่ผลิตบน single die ขนาด 199 ตารางมิลลิเมตร และประกอบด้วยทรานซิสเตอร์มากกว่า 330 ล้านตัว และผลิตด้วยเทคโนโลยี AMD 90nm. ระดับการบูรณาการของ X2 dual core จะมากกว่า การออกแบบของ Intel. AMD ทั้ง 2 core สามารถติดต่อกันโดยตรงโดยไม่ต้องใช้ external motherboard chipset และสามารถที่จะใช้ memory controller ร่วมกันได้. ดังนั้น Athlon X2 จะมีอยู่ที่ 3500+, 3700+, 3800+ และ 4000+ โดยที่จะมี L2 cache และ ความเร็วของ clock หลายค่าด้วยกัน . รุ่นที่มี cahce ขนาด 512KB ต่อ 1 core จะออกแบบบนพื้นฐานของ Manchaster dual core ในขณะที่รุ่นที่มี L2 cache ขนาด 1MB จะใช้ Toledo ในการออกแบบ. และในเวลาต่อมา ก็มีการขยาย chip เป็นรุ่นต่างๆดังนี้ Model Number Frequency L2 cache(per core) 4800+ 2.4 GHz 1MB 4600+ 2.4 GHz 512KB 4400+ 2.2 GHz 1MB 4200+ 2.2 GHz 512KB 3800+ 2.0 GHz 512KB

ในด้านของความเร็ว, การออกแบบของ AMD สามารถใช้งานร่วมกับ Intel dual-core processor ได้. อย่างไรก็ตาม, Intel CPU ได้ออกแบบ chipset ตัวใหม่ ให้มีพลังงานมากขึ้น โดนใช้ไฟเลี้ยงลดลง จาก 1.5V เป็น 1.35V ต่อ core. AMD ได้ออกแบบ dual-core chip เพื่อให้สามารถวางลงบน 939 pin ได้เหมือน single core processor, เพื่อท าให้สามารถใช้ร่วมกับ Athlon 64 90nm บน motherboard ที่มีอยู่แต่ต้องท าการ update BIOS ก่อน.

Barcelona, AMD’s native Quad Core CPU (2007) ปลายปี 2007 AMD native Quad-Core Opteron processor ได้ออกสู่ตลาด โดยเริ่มต้นถูกออกแบบไว้เพื่อใช้ใน server และ workstation โดยใช้ codename ว่า Bacelona, รุ่นก่อนหน้าที่จะท างานที่ความถี่ clock ประมาณ 2 GHz และรองรับความถี่มากกว่านี้ตามออกมา. เมื่อเทียบกับคู่แข่งอย่าง Intel ในยุคเดียวกันนั้น Bercelona จ าเป็นรุ่นที่ออกแบบว่าเป็นพิเศษ, เป็น version มาตรฐานและใช้พลังงานต ่า AMD ได้ออกแบบวาง core 4 ชิ้น ไว้บน silicon ชิ้นเดียวกัน เป็นความก้าวหน้าของการผลิต processor เลยก็ว่าได้. Intel ได้เจอกับปัญหาที่วาง core 4 ชิ้นไว้ด้วยกัน โดยการเชื่อม duel-core processsor2 ตัวติดกัน. วิธีการของ Intel ดูเหมือนจะเป็นวิธีง่ายๆ(และเป็นความพยายามของ AMD ที่เคยท ามาแล้วตอนที่น า quad-core processor ออกสู่ตลาดมาก่อนหน้านี้), ปัญหาเกี่ยวกับ resource sharing เป็นปัญหาที่เกิดขึ้น ได้แก่ shared cache เป็นสาเหตุของการเกิด bottleneck ขณะที่ bus เชื่อมต่อกับ core 2 ชิ้นเมื่อต้องการเพิ่มประสิทธิภาพของ multi-threaded application. จากโครงสร้างของ multi-core processor เ ป็ น วิ ธี ที่ จ ะ ค ว บ คุ ม จั ด ก า ร , ป ร ะ ม ว ล ผ ล และแก้ปัญหาข้อจ ากัดทางการประมวลผลแบบ sequential อีกทั้งยังสามารถที่จะจัดการเกี่ยวกับ application ได้เป็นอย่างดี. Application ที่ มี multiple threads จะเป็นประโยชน์ในการค านวณเลขทศนิยมให้มีประสิทธิภาพยิ่งขึ้น. Software ที่ใช้การประมวลผลมากๆ เช่น การแก้ไขและการ encode ของ video และ รูปภาพ, การตรวจจับรังสี จะท างานได้ดีขึ้น. Application ง่ายๆ ที่เคยท างานบน core เดียวก็ไม่ได้ลดประสิทธิภาพลงไป. แต่ AMD ได้กล่าวอ้างว่า สามารถที่จะท างานได้เร็วกว่า clock ที่ เร็วที่สุดของ dual-core Opteron(Santa Rosa, 3GHz clocked Opteron 2222) ถึ ง 65-70%, ซึ่ ง เ ห็ น ไ ด้ ชัด ว่ า quad core เป็นการแก้ปัญหาที่ถูกต้องและท าให้เกิดการเปลี่ยนแปลงครั้งใหญ่.

AMD Bercelona ถูกออกแบบให้พัฒนาจาก Opteron’s SSE ในหลายๆด้านให้ประสิทธิภาพเพิ่มขึ้นเป็น 2 เท่า. ตารางด้านล่างแสดงการเปรียบเทียบระหว่าง Barcelona และรุ่นที่มีก่อนหน้า

Metric Pre-Barcelona Bercelona SSE execution width 64 bits wide 128 bits wide Instruction fetch bandwidth 16 bytes/cycle 32 bytes/cycle Data cache bandwidth 2x64 bit loads/cycle 2x128 bits loads/cycle L2 cache/memory controller bandwidth 64 bits/cycle 128 bits/cycle 36 dedicated x 64-bit 36 dedicated x 128-bit Floating-point scheduler depth ops ops

Barcelona processor จะใช้ cache 3 level. L1 cache และ L2 cache(ขนาด 64KB และ 512KB ตามล าดับ) ซึ่งลดลงจาก และ Athlon CPU รุ่นก่อนหน้า, ขณะที่ L3 cache (ขนาด 2MB) จะใช้ร่วมกันในทุกๆ core. หัวใจส าคัญของการพัฒนา chip ที่คล้ายๆกันออกมาของ Intel เพื่อที่จะลดพลังงานที่ต้องใช้ในการท างาน. ขณะที่ Pentium chip ตัวล่าสุด จะร้อนมากเมื่อเทียบกับ Penryn chip. จากการที่อุปกรณ์เคลื่อนที่ต่างเป็นสิ่งที่สะดวก และ chip จะกลายเป็นสิ่งที่อิทธิพลมาก, การรักษาพลังงานไว้ใช้และให้ความร้อนที่เหมาะสมจึงกลายเป็นปัญหาที่น่าสนใจมาก. Barcelona processor ถูกผลิตด้วยเทคโนโลยี 65nm SOI, ซึ่งใช้ voltage ที่ต ่ากว่า และ TDP(Thermal Design Power : อัตราการใช้พลังงานสูงสุด) ต ่ากว่ารุ่นก่อนหน้าเท่าที่จะเป็นไปได้. Barcelona ที่น าออกสู่ตลาด จะมี TDP อยู่ที่ประมาณ 95 วัตต์. เทคโนโลยีของ AMD จะยอมให้กระจายพลังงานไปยัง CPU core และ memory controller ได้. พฤติกรรมนี้เปลี่ยนแปลงได้และขึ้นอยู่กับ application, ดังนั้น ถ้า processor ตรวจพบว่า memory ถูกใช้งานหนัก แต่ น้อยกว่า core(หรือในทางกลับกัน) มันจะเปลี่ยน voltage ไปยังอีกตัวหนึ่งตามล าดับ. Version เสริมของเทคโนโลยี AMD PowerNow ซึ่งยอมให้แต่ละ core สามารถที่จะท างานที่ ความถี่ clock ที่ต่างกันได้ ขึ้นอยู่กับความต้องการของแต่ละตัว. AMD พยายามที่จะหาสิ่งที่ดีที่สุดเพื่อให้ แน่ใจว่า hardware และ software ที่มีอยู่สามารถที่จะใช้ร่วมกันได้ ซึ่งเป็นการท างานบน AM2 motherboard ที่มีอยู่ด้วยการ upgrade bios ผ่าน AM2+ slot board ซึ่งจะท าให้ processor ท างานได้อย่างเต็มความสามารถ.

Intel

Intel Pentium (Code Name:- P54C) ก าเนิด Intel Pentium นั้น เห็นจะเป็นในช่วงปี 1993 หรือ พ.ศ. 2536 ทาง Intel ได้เปิดตัวโปรเซสเซอร์ใหม่ในนาม Intel Pentium ซึ่งตอนนั้นก็กระหึ่มวงการเป็นอย่างมาก เนื่องจากเป็นโปรเซสเซอร์ที่เร็วขึ้นมาอย่างก้าวกระโดด ซีพียู Intel Pentium นี้ถือเป็นซีพียูตัวแรกในตระกูล P5 แรกเริ่มเดิมทีได้ออกความเร็วมา 2 รุ่นด้วยกัน คือ 60 และ 66 MHz ในตอนนั้น Intel Pentium ได้ใช้เทคโนโลยีการผลิตขนาด 0.80 ไมครอน ในที่สุดแล้ว Intel Pentium ได้มีความเร็วต่างๆ ออกตามมา ตั้งแต่ 60-200 MHz โดยมีความเร็วบัสที่แตกต่างกันทั้ง 50/66/75 MHz ส าหรับแพ็คเกจที่ใช้ใน Intel Pentium ใช้ได้กับ Socket4, Socket5 เรียกว่าเป็นแพ็คเกจแบบ SPGA ซึ่ง Intel Pentium ในตอนแรกมีจ านวนทรานซิสเตอร์ในตัวเพียง 3.1 ล้านตัวเท่านั้น Intel Pentium PRO ซีพียู Intel Pentium PRO นี้จัดเป็นซีพียูรุ่นแรกในตระกูล P6 ออกแบบมาให้มีแคชระดับสอง หรือ L2 Cache ฝังอยู่ในตัวซีพียู โดยเริ่มที่ขนาด 256-KB ในรุ่นความเร็ว 150/166/180 MHz และขนาด 512- KB ในรุ่น 200 MHz จุดเด่นจริงๆ ของ Intel Pentium PRO เห็นจะเป็นการฝังแคชไว้ในตัวีพียูเลย แต่ก็ไม่ได้รับความนิยมในตลาด desktop เราจึงไม่ค่อยเห็น Pentium PRO กันมากนัก จะหนักไปทางตลาด server ซะมากกว่า อย่างไรก็ตาม Pentium PRO จัดเป็นต้นแบบของซีพียูที่จะพัฒนาไปเป็น Pentium II, Pentium III ต่อไป

Intel Pentium MMX (Code Name:- P55C)

Intel Pentium MMX เป็ นซีพียู Intel Pentium ที่ได้เพิ่มเอาความสามารถหรือชุดค าสั่งในด้านมัลติมีเดียเข้าไป เรียกว่าเป็นชุดค าสั่ง MMX (MultiMedia eXtension) ถือเป็นการเปลี่ยนแปลงของซีพียูครั้งใหญ่ โดยการมาของ Intel Pentium MMX นี้จะไม่ส่งผลต่อผู้ใช้งาน Intel Pentium ในปัจจุบันที่จะต้องท าการอัพเกรดระบบใหม่ เนื่องจากซีพียู Intel Pentium MMX สามารถที่จะท างานเข้ากั บระบบเดิมได้เป็นอย่างดี (ไม่เหมือนกับในปัจจุบันที่เอะอะก็ต้องเปลี่ยนเมนบอร์ด, เปลี่ยนชิพเซ็ต) ใน Pentium MMX นี้ มีจ านวนทรานซิสเตอร์ทั้งสิ้น 4.5 ล้านตัว ใช้เทคโนโลยีการผลิตขนาด 0.35 ไมครอน มีความเร็วตั้งแต่ 150 - 233 MHz ตอนนี้คิดว่าหลายๆ คนก็ยังคงมีกรุสมบัติ intel Pentium MMX อยู่ที่บ้าน และก็ยังคงหาซื้อได้ไม่ยากนักตามท้องตลาดมือสองทั่วไป

Intel Pentium II (Code Name:- Klamath)

ในปีเดียวกัน (1997) ที่ทาง Intel ได้ออก Intel Pentium MMX ออกมา ก็ยังไม่หยุดนิ่ง เนื่องจาก intel ได้น าเอาซีพียูตระกูล P6 อย่าง Pentium PRO มาเพิ่มเอาชุดค าสั่ง MMX เข้าไป โดยเปิดตัวมาในชื่อของ Intel Pentium II ซึ่ง Intel Pentium II ตัวแรกที่ออกมานั้น มีแคช L2 สูงถึง 512-KB เลย ใช้แพ็คเกจแบบ SECC โดยมีรูปร่างซีพียูเอาไว้เสียบเป็น slot ลงเมนบอร์ด หรือที่เราเรียกว่า Slot 1 (SC242) ใช้ระบบบัส 66 MHz มีความเร็วซีพียูตั้งแต่ 233 - 333 MHz Intel Pentium II (Code Name:- Deschutes) ยังคงอยู่กับ Intel Pentium II อยู่ แต่ว่าคราวนี้ Intel ได้ปรับปรุงระบบบัสจาก 66 MHz มาเป็น 100 MHz แล้ ว มีการเปลี่ยนแปลงที่รหัสพัฒนาจาก Klamath เป็ น Deschutes และยังใช้เทคโนโลยีการผลิตเล็กลงเหลือ 0.25 ไมครอน โดยหลายๆ อย่างยังคงเหมือนเดิม ทั้งการที่เป็น Slot 1 และมีแคชระดับสองที่ 512-KB ส าหรับความเร็วซีพียูของ PentiumII - Deschutes นี้จะมีตั้งแต่ 350 - 450 MHz Intel Pentium III (Code Name:- Katmai)

ถัดมา ในปี 1999 อินเทลประกาศเปิดตัวซีพียูใหม่อีกครั้งในนาม Pentium III (หรือบางคนอาจเขียนเป็น Pentium !!!) ซึ่ง Pentium III ตัวแรกที่เปิดตัวมานี้ ยังเป็น Pentium III แบบ Slot 1 อยู่ จริงๆ แล้ว Pentium III ก็คือ Pentium II ที่ได้จับเอามาเพิ่มชุดค าสั่ง SSE เข้าไป (Streaming SIMD Extension) แต่ก็ยังคงผลิตด้วยเทคโนโลยี 0.25 ไมครอน ใช้ความเร็วบัส 100 MHz และภายหลังได้เพิ่มเอาความเร็วบัส 133 MHz เข้าไปด้วย... Intel Pentium III Kaimai บัส 100 มีความเร็วตั้งแต่ 450 - 600 MHz และ Pentium III Katmai บัส 133 มีความเร็ว 533 และ 600 MHz ถึงตรงนี้ก็เริ่มเกิดความสับสนว่า Intel Pentium III 600 MHz นั้นมีทั้ง ความเร็วบัส 100 และ 133 MHz ทางอินเทลจึงได้ก าหนดเอา Intel Pentium III บัส 133 MHz จะมีรหัส B ต่อท้ายความเร็ว เราจึงเห็น Pentium III 533B และ 600B ในท้องตลาด บ่งบอกว่าใช้บัส 133 MHz นั่นเอง ชุดค าสั่ง SSE (Streaming SIMD Extension) ชุดค าสั่ง SSE ที่ทาง Intel ได้เพิ่มเข้ามาใน Intel Pentium III นี้ประกอบไปด้วยค าสั่ง 70 ค าสั่ง เพื่อเพิ่มความเร็วในการท างานกับข้อมูลที่มีการเรียกใช้ซ ้าๆ กัน จึงเรียกว่า SIMD หรือ Single Instruction Multiple Data ซึ่งเป็นการวิจัยจาก Intel ถึงพฤติกรรมการท างานของซีพียูว่าโดยทั่วๆ ไปแล้ว ซีพียูจะท างานที่ค าสั่งซ ้าๆ กันเป็นจ านวนมาก หากมีชุดค าสั่งมาลดการท างานรงจุดนี้ จะช่วยให้ซีพียูสามารถท างานได้อย่างเร็วและมีประสิทธิภาพมากขึ้นนั่นเอง Intel Pentium III (Code Name:- Coppermine) - Slot 1 เทคโนโลยีการผลิตที่ก้าวล ้าไป ท าให้อินเทลสามารถผลิตซีพียูที่ขนาด 0.18 ไมครอนได้ จึงท าให้เกิด Intel Pentium III รหัสใหม่อย่าง Coppermine ขึ้น (บางคนอาจเขียนว่า Cu-Mine) มันก็คือ Intel Pentium III ที่ผลิตด้วยเทคโนโลยี 0.18 ไมครอนนั่นเอง ซึ่งจะขออนุญาตค่อยๆ อธิบายไปทีละเล็กน้อย เพราะอาจเกิดความสับสนได้ ในตอนแรกที่ออกมานี้ Intel Pentium III Cu-Mine ได้ท าออกมาเป็นแพ็คเกจแบบ Slot 1 เหมือนกับ Pentium II และ Pentium III Katmai โดยมีทั้งระบบบัส 100 และ 133 MHz มีความเร็วตั้งแต่ 550 - 1000 MHz ใช้แคชระดับสอง 256-KB Intel Pentium III E (Code Name:- Coppermine) - Socket 370 หลังจากที่ทางอินเทลได้ใช้แพ็คเกจซีพียูแบบ Slot 1 มานาน ก็ได้ถึงคราวที่จะต้องปรับเปลี่ยนกัน โดยมาใช้ในรูปแบบของ FC-PGA Socket 370 ซึ่งชื่อก็บอกแล้วว่าเป็นพิน-กริด-อาเรย์ 370 ขา โดยที่คุณสมบัติต่างๆ ของซีพียูก็ยังคงเหมือนเดิม แต่ผมได้แบ่งเอา Pentium III E มาไว้ก่อน ในรุ่น E (มีรหสั E ต่อท้ายความเร็ว) เช่น Pentium III 500E, Pentium III 550E จะเป็น Pentium III ที่ใช้ระบบบัส 100 MHz มีความเร็วตั้งแต่ 500 - 1100 MHz ส่วนรุ่นที่ใช้บัส 133 MHz

Intel Pentium III EB (Code Name:- Coppermine) - Socket 370

เช่นเดียวกับ Pentium III E แต่ว่าเป็นตัวที่ใช้ความเร็วบัส 133 MHz ท าให้ต้องมีรหัส EB ต่อท้าย (ในกรณีที่ความเร็วนั้นๆ มีหลายแพ็คเกจ หรือหลายรุ่น) ส่วนรุ่นที่ความเร็วสูงๆ และไม่ไปซ ้ากับรุ่นอื่นก็ไม่จ าเป็นต้องมีรหัส EB ต่อท้าย เช่น Pentium III 533EB, Pentium III 1.13 GHz เป็นต้น ซึ่งก็ยังคงใช้เทคโนโลยีการผลิต 0.18 ไมครอน และเป็น FC-PGA Socket 370 ต้องบอกว่า Pentium III รุ่นที่นิยมและแพร่หลายที่สุดเห็นจะเป็นเจ้า Pentium III Cu-Mine ในซีรี่ย์นี้แหละ ความเร็วก็เริ่มตั้งแต่ 533 MHz ไปจนถึง 1.13 GHz Intel Pentium III (Code Name:- Tualatin) โค้งสุดท้ายของ Pentium III หลังจากที่อินเทลเกิดปัญหาไม่สามารถพัฒนา Pentium III ให้มีความเร็วสูงไปกว่าหลัก 1.13 GHz ไ ด้ อาจด้วยเหตุผลทางด้านขนาดของเทคโนโลยีการผลิตและความร้อนที่เกิดขึ้น จึงท าให้เกิด Pentium III รหัสสุดท้าย คือ Tualatin หรือที่เรียกว่า ถั่วลันเตา (ใครเป็นคนบัญญัติเนี่ย บอกมาซะดีดี..) โดยการเปลี่ยนแปลงที่ส าคัญก็คือการเปลี่ยนมาใช้เทคโนโลยีการผลิตขนาด 0.13 ไมครอน แต่ก็ยังคงใช้แพ็คเกจ Socket 370 อยู่ ใช้ไฟ VCORE น้อยลง เหลือเพียง 1.475 V จึงส่งผลให้เมนบอร์ด Socket 370 รุ่นเก่าๆ ไม่สามารถน า Pentium III ถั่วลันเตามาใส่ได้ ตอนนั้นก็ได้มีเมนบอร์ด Socket 370 ออกมาอย่างครึกโครมและโฆษณาว่า Tualatin Support กันเป็นยกใหญ่ ความเร็วของ Pentium III ถั่วลันเตาจะอยู่ที่ 1.00 GHz ถึง 1.33 GHz มีแคชระดับสองที่ 256-KB เช่นเดิม ใช้ไฟน้อยลง ร้อนน้อยลง ข้อแตกต่างที่เห็นได้ชัดจากตัว Coppermine อีกจุดหนึ่งก็คือการน าเอา heat-spreader มาใช้ ก็คือที่ตัวซีพียูจะมีแผงกระจายความร้ อนครอบตัวคอร์อยู่ ซึ่งนอกจากจะป้ องกันความเสียดายที่อาจเกิดขึ้นกับคอร์ซีพียูได้แล้ว ยังกระจายความร้อนจากคอร์ได้ดียิ่งขึ้นด้วย ซึ่ง heat-spreader นี้ได้น ามาใช้ในซีพียู Intel Pentium 4 ต่อไปถึงปัจจุบัน

Intel Pentium III-S (Code Name:- Tualatin)

เท่านั้นยังไม่พอ กับ Pentium III ถั่วลันเตา ได้ออกรุ่นที่เรียกว่าเป็นรุ่นพิเศษมาอีกหนึ่งรุ่น ก็คือ PentiumIII-S พิเศษตรงที่ว่ามีแคชระดับสองหรือ L2-Cache สูงถึง 512-KB เลย และยังใช้ไฟเพียง 1.450V ด้วย ความเร็วที่ออกวางจ าหน่ายก็มีตั้งแต่ 1.13 GHz - 1.40 GHz ถือเป็นซีพียู Intel Pentium III ความเร็วสูงสุดที่มีวางจ าหน่าย ถึงตอนนี้ก็คือจบกับรุ่นทั้งหมดของ Intel Pentium III แล้ว ซึ่งก็จัดว่ายุ่งวุ่นวายพอควร และสร้างความสับสนกันค่อนข้างมาก แต่ว่าที่ยุ่งกว่าเห็นจะเป็น Pentium 4 ที่จะพูดถึงกันต่อไปนี่แหละ หลายคนยังสับสนกันอยู่ ค่อยๆ ไปดูกันทีละนิด และจะหาย Intel Pentium 4 (Code Name:- Willamette)

วันที่ 20 พฤศจิกายน ปี 2000 ก็ได้เกิดศักราชใหม่ของวงการซีพียูก็คือการเปิดตัวของ Intel Pentium 4 ครั้งแรก การมาของ Intel Pentium 4 ได้พลิกประวัติศาสตร์ซีพียูหลากหลายประการ เริ่มจากการเพิ่มเทคโนโลยี Hyper Pipelined Technology, Rapid Execution Engine และเพิ่มชุดค าสั่ง SSE2 เข้าไป ซึ่งซีพียู Intel Pentium 4 ตัวแรกๆ นั้น คิดว่าหลายคนยังจ าได้อยู่ ก็คือเป็นซีพียู Socket 423 (มี 423 ขา) ตัวใหญ่ๆ ประมาณ Pentium III และก็เรื่องมากสุดๆ คือคนที่จะใช้ Pentium4 ต้องอัพเกรดเครื่องใหม่ทั้งหมด รวมไปถึง Power Supply ด้วย และยังใช้ได้เฉพาะ RDRAM เท่านั้น ซึ่งแรกๆ ก็มี RDRAM แถมมาในกล่องซีพียูเลย ตอนนั้นทางอินเทลก็โดนด่าไปไม่น้อย มาพูดถึง Pentium 4 รหัส Willamette กันก่อน เป็นซีพียูที่ใช้เทคโนโลยีการผลิตขนาด 0.18 ไมครอน ใช้ระบบบัสแบบ Quad- Pumped Bus 400 MHz มีแคชระดับสองในตัวขนาด 256-KB ใช้ไฟ VCORE ที่ 1.700-1.750 V ซึ่งหลังจากที่ Pentium 4 รหัส Willamette Socket 423 ออกมาไม่นาน ทางอินเทลก็ได้ปล่อย Pentium 4 ในแพ็คเกจ Socket 478 ออกมา ซึ่งก็ยังคงเป็นรหัสพัฒนา Willamette เหมือนเดิม แต่มีความเร็วสูงขึ้น โดยรวมแล้ว Pentium 4 Willamette มีความเร็วตั้งแต่ 1.30 GHz - 2.00 GHz สังเกตว่ายังคงไม่มีรหัสใดๆ ต่อท้ายความเร็วส าหรับ P4 Willamette นี้ เทคโนโลยี Hyper Pipelined Technology อินเทลได้แบ่งไปป์ไลน์ในซีพียู Pentium รุ่นแรกไว้ 5 ส่วน และเพิ่มเป็น 10 ส่วนใน Pentium PRO เมื่อพัฒนามาถึง Pentium 4 ทางอินเทลก็ได้เพิ่มไปป์ไลน์ขึ้นเป็น 20 ส่วน หรือ 20-stage พร้อมเรียกใหม่ว่าเป็น Hyper Pipelined Technology ซึ่งขออธิบายง่ายๆ ว่า การที่ความยาวของไปป์ ไลน์เพิ่มมากขึ้น หากซีพียูท างานได้อย่างต่อเนื่องโดยไม่มีการเปลี่ยนแปลงค าสั่ง บ่ อ ย ๆ เครื่องก็จะสามารถท างานได้อย่างรวดเร็วขึ้น แต่โดยปกติแล้วซีพียูจะท างานไม่ต่อเนื่องแบบค าสั่งต่อค าสั่งเสมอไป พอมีการเปลี่ยนแปลงค าสั่งก็จะมีการข้ามไปท าชุดค าสั่งอื่นๆ แตกต่างกัน ก่อให้เกิดการกลับไปเริ่มต้นไปป์ไลน์ใหม่อยู่ตลอดเวลา มาถึงตอนนี้หลายคนก็อาจจะสงสัยว่า อย่างงี้ Pentium4 ที่มีจ านวนไปป์ไลน์มากกว่า ก็ต้องท างานช้ากว่าน่ะสิ.. ซึ่งก็ถูกต้อง แต่ว่า Pentium4 อาศัยความที่มีความถี่สัญญาณนาฬิกาสูงมาทดแทน แต่ว่าก็มีสถาปั ตยกรรม NetBurst มาช่วยจัดการในเรื่องของไปป์ไลน์ให้ท างานได้อย่างมีประสิทธิภาพมากขึ้นเช่นกัน Intel Pentium 4 (Code Name:- Northwood A)

และหลังจากที่อินเทลประสบความส าเร็จกับเทคโนโลยีการผลิตขนาด 0.13 ไมครอน ก็ได้จัดแจงปล่อยซีพียู Pentium 4 ที่ผลิตด้วยเทคโนโลยี 0.13 ไมครอนมาทันที โดยใช้โค้ดเนมว่า Northwood ซึ่งการเปลี่ยนแปลงนอกจากที่จะปรับมาเป็น 0.13 ไมครอนแล้ว เจ้า Pentium4 Northwood ยังมีแคชระดับสองสูงถึง 512-KB ด้วย และก็ยังกินไฟน้อยลงเหลือเพียง 1.500-1.525 V แรกเริ่มเดิมที อินเทลได้ปล่อยออกมา 3 ความเร็วด้วยกัน คือ 1.60 GHz, 1.80 GHz และ 2.00 GHz โดยได้ใช้รหัส A ต่อท้ายความเร็ว เพื่อป้องกันการสับสนกับ P4 Willamette เราจึงเห็นซีพียู Intel Pentium4 1.60A, 1.80A และ 2A ในท้องตลาด ภายหลังได้มีการปล่อย Northwood A ออกมาเพิ่มเติมที่ความเร็ว 2.20 GHz, 2.40 GHz และ 2.60 GHz ซึ่ง 3 ความเร็วครั้งหลังนี้ ไม่มีรหัสใดๆ ต่อท้ายนะ ย ้าว่า ไม่มีรหัสใดๆ ต่อท้ายเลย ส าหรับ Northwood A หรือ Northwood ชุดแรกที่ออกมานี้ ยังคงใช้ระบบบับส QPB (Quad-Pumped Bus) 400 MHz อยู่เหมือนเดิม Intel Pentium 4 (Code Name:- Northwood B)

ในปีเดียวกันนั้นเอง (2002) อินเทลก็พัฒนา Pentium 4 ไปอีกขั้น โดยขยับจากระบบบัส QPB 400 MHz มาเป็น QPB 533 MHz เป็นจุดก าเนิดของ Northwood B ซึ่งก็เหมือนกับ Northwood A แทบทุกประการ ต่างกันที่ระบบบัสที่เร็วขึ้นเท่านั้น มีความเร็วที่วางขายดังนี้ 2.26 GHz, 2.40B, 2.53 GHz, 2.66 GHz และ 2.80 GHz สังเกตว่าที่ความเร็ว 2.40B นั้นจะมีรหัส B ต่อท้าย นั่นหมายความว่าเป็นตัวที่ใช้ QPB 533 MHz นั่นเอง ป้องกันไม่ให้ไปสับสนกับ 2.40 GHz ซึ่งเป็นของ Northwood A ที่ใช้ QPB 400 MHz อย่างไรก็ตาม ขึ้นชื่อว่าเป็น Northwood ก็ต้องมีแคชระดับสองที่ 512- KB และผลิตด้วยเทคโนโลยี 0.13 ไมครอนแน่นอน Intel Pentium 4 HT (Code Name:- Northwood B)

ในปีเดียวกันอีก ปลายๆ ปี วันที่ 14 พฤศจิกายน 2002 อินเทลประกาศเปิดตัวเทคโนโลยี Hyper-Threading เป็นครั้งแรก กับซีพียูรุ่นใหม่ ซึ่งใช้รหัสพัฒนาเดียวกับ Northwood B แต่มีความเร็วสูงถึง 3.06 GHz ออกมาเพียงรุ่นเดียวเท่านั้น เพราะฉะนั้นซีพียู Pentium4 3.06 GHz จึงใช้ระบบบัส QPB 533 MHz แต่พ่วงเอา Hyper-Threading Technology เข้าไปด้วยนั่นเอง และนี่ก็เป็นครั้งแรกที่ซีพียูแตะหลัก 3GHz อีกด้วย

Hyper-Threading Technology

ไฮเปอร์-เธรดดิง เทคโนโลยี เป็นเทคโนโลยีที่ทางอินเทลปล่อยออกมาครั้งแรกกับตลาด desktop ที่ Pentium 4 3.06 GHz ความจริงแล้ว Hyper-Threading technology หรือ HT นี้ได้ถูกน ามาใช้นานแล้วกับซีพียูในตลาดกลุ่ม Server/Workstation อย่าง intel Xeon processor โดย HT จะเป็นเทคโนโลยีที่ช่วยให้ซอฟต์แวร์มองเห็นซีพียูในลักษณะของ multi-thread นั่นก็คือซอฟต์แวร์ที่รองรับจะมองเห็นซีพียูเป็น 2 ตัว และท างานกันอย่างขนานหรือ parallel ให้ผลลัพธ์ในการท างานที่มีประสิทธิภาพสูงขึ้นหากซอฟต์แวร์รองรับ หรือจะมีประโยชน์มากหากท างานหลายๆ application ในเวลาเดียวกัน เช่นท าการ render ภาพ 3 มิติ ไปพร้อมๆ กับการ rip ไฟล์ DVD หรือท าการ presentation ไปด้วย แต่ถ้าหากน ามาใช้ในการรัน application เดี่ยวๆ โดดๆ อย่างเช่น เล่นเกมส์ ก็อาจไม่เห็นถึงความเร็วที่เพิ่มขึ้นแต่อย่างใด Intel Pentium 4 HT (Code Name:- Northwood C)

ยังไม่จุใจกับ Pentium 4 Northwood ทางอินเทลยังคงปล่อยซีพียู Northwood มาอีกหนึ่งเจเนอเรชัน มาในโค้ดเนม Northwood C ซึ่งมีการปรับปรุงเปลี่ยนแปลงค่อนข้างมาก นั่นคือขยับขึ้นมาใช้ระบบบัสแบบ QPB 800 MHz และซีพียู Pentium 4 ในรหัส Northwood C ทุกตัวจะมี Hyper-Threading technology ติดตัวมาด้วย ... แหงล่ะ ของเขาพัฒนามาแล้ว ก็ต้องน ามาขายเป็นธรรมดา ส าหรับ Northwood C นี้มีจ าหน่ายกันที่ความเร็ว 2.40C, 2.60C, 2.80C, 3C และ 3.2C ซึ่งทุกตัวจะมีรหัส C ต่อท้าย และที่กล่องซีพียูก็จะมีระบุว่ารองรับ Hyper-threading Technology ด้ วย รุ่ น ที่ ไ ด้ รั บคว ามนิ ยมอ ย่าง มาก เห็น จะเ ป็ น 2.40C เนื่องจากท าการโอเวอร์คล๊อกไปได้มาก และมีราคาไม่แพงนัก ล่าสุดเห็นว่าก าลังจะปล่อย Northwood C ที่ความเร็ว 3.40C มาด้วย ต้องติดตามชมกันต่อไป

Intel Pentium 4 Extreme Edition (Code Name:- Prestonia)

เมื่อไม่นานมานี้ ทางอินเทลได้คั่นรายการโดยการปล่อยซีพียู Pentium4 รุ่นพิเศษ เอาใจกลุ่มลูกค้า super hi-end มาในชื่อของ Pentium 4 Extreme Edition หรือย่อว่า Pentium4 EE หรือบางคนอาจเรียกว่า Pentium4 XE ซึ่งซีพียู Pentium4 EE นี้เป็นซีพียู Pentium4 Socket 478 เหมือนกับตัวอื่นๆ มีพื้นฐานมาจากซีพียูคอร์ Northwood ใช้ระบบบัส QPB 800 MHz มาพร้อมกับ Hyper- Threading Technology ที่ส าคัญที่สุดก็คือในส่วนของแคช ที่แม้ว่าจะพ่วงแคชระดับสองมา 512-KB เท่ากัน แต่ใน Pentium 4 EE จะมีแคชระดับสาม หรือ L3 Cache ติดมาอีกเต็มๆ 2-MB ด้วยกัน ใช้รหัสพัฒนา Prestonia ราคาแพงหูฉีก กระเป๋าฉีก ปัจจุบันออกมา 2 ความเร็วคือ 3.20 GHz และ 3.40 GHz สามารถน ามาใช้กับเมนบอร์ด Pentium 4 ทั่วไปได้เลย ในสองความเร็วนี้ไม่มีรหัสต่อท้าย แต่ก็ เป็ นที่ รู้กัน เพราะว่าต้องระบุกันแน่นอนอยู่แล้วว่าเป็น Extreme Edition และราคาก็ไม่อยู่ในเกณฑ์ที่จะต้องสับสนกับรุ่นทั่วๆ ไป Intel Pentium 4 HT (Code Name:- Prescott)

และล่าสุด... อินเทล เพนเทียม 4 ที่ผลิตด้วยเทคโนโลยีการผลิตขนาด 0.09 ไมครอน หรือ 90 นาโนเมตร เป็นครั้งแรกที่ก้าวมาถึงในขั้นที่เรียกว่าเป็น นาโนเทคโนโลยี (0.09 um = 90 nm) โดยการเปลี่ยนแปลงที่เกิดขึ้นกับ Pentium 4 โค้ ดเนม Prescott นี้ ก็จะเป็นในส่วนขนาดของเทคโนโลยีการผลิต, การเพิ่มขนาดแคช, เพิ่มชุดค าสั่ง SSE3 และจ านวน stage ของไปป์ไลน์มากขึ้น แต่ยังคงใช้แพ็คเกจแบบ Socket 478 เช่นเดิม กินไฟน้อยลงเหลือเพียง 1.250 - 1.400 V เท่านั้น เมนบอร์ด Socket 478 ที่จะน ามาใส่ต้องรองรับ Prescott ซึ่งสังเกตได้ว่าโลโก้ Prescott Rrady หรือตรวจสอบจากเว็บไซต์ของผู้ผลิตเมนบอร์ดก็ได้ ไม่ว่ากัน ส่วนส าคัญสุดๆ ที่มากับ Prescott ก็คือในส่วนของแคชที่เพิ่มขึ้นอีกเท่าตัว ทั้งระดับหนึ่งและระดับสอง (ไม่มีระดับสามนะจ๊ะ..) นั่นคือ Prescott จะมีแคช L1/L2 อยู่ที่ 16-KB/1024-KB หรือว่ามีแคชระดับสองสูงถึง 1-MB เลยทีเดียว ตอนนี้ก็ออกมายั่วยวนกวนเงินในกระเป๋าตามท้องตลาดแล้ว มีความเร็วที่จะวางขายทั้งหมดที่ 2.80E, 3E, 3.20E และ 3.40E ก็เห็นชัดเจน ว่าใน Prescott นี้จะใช้รหัส E ต่อท้ายความเร็วเพื่อบ่งบอกถึงความเป็น Prescott ตอนซื้อก็อย่าสับสนก็แล้วกัน เพราะราคาใกล้เคียง Intel Pentium 4 no-HT (Code Name:- Prescott)

ตัวสุดท้ายที่เอามาให้ดูกันวันนี้ เป็นตัวที่สร้างความสับสนมากพอควร นั่นก็คือ Intel Pentium 4 รหัส Prescott อีกหนึ่งตัว ที่ดันไม่มี Hyper-Threading technology และใช้ระบบบัส QPB 533 MHz เท่านั้น แต่กลับมีแคชระดับสองเป็น 1 MB เทียบเท่า Intel Prescott ตัวอื่นๆ ปัจจุบันเห็นออกจ าหน่ายเพียงความเร็วเดียวคือ 2.40A ... นั่นไงล่ะ ท าไมกลับมาใช้รหัส A ก็ไม่รู้ แต่ว่าอย่าสับสนก็แล้วกัน 2.40A นี้เป็น Prescott QPB 533 MHz และไม่มี HT ซะด้วย

Intel® Core™ 2 Duo สร้างขึ้นจาก Intel® Core™ microarchitecture อันเป็นนวัตกรรมใหม่ เดสก์ท็อปหน่วยประมวลผลกลาง Intel® Core™ 2 Duo มอบประสิทธิภาพระดับ Dual-core และสมรรถนะในการใช้พลังงานที่โดดเด่น ดีไซน์ที่เปลี่ยนไปในหน่วยประมวลผลกลาง Intel® Core™ 2 Duo ช่วยเพิ่มประสิทธิภาพและยังเพิ่มสมรรถนะด้านการใช้พลังงานโดยการท างานที่ความถี่ต ่าซึ่งใช้พลังงานน้อ ย ก ว่ า ใ น ก า ร รั น ด้วยหน่วยประมวลกลางที่มีสมรรถนะด้านการใช้พลังงานที่เหนือกว่านี้ท าให้สามารถสร้างเดสก์ท็อปพีซีที่มี ขนาดเล็กกว่า, มีความสามารถสูงกว่าและเงียบกว่าเพื่อช่วยสงวนพลังงานที่มีค่าไว้ เวอร์ชั่นล่าสุดนี้สร้างขึ้นภายในเทคโน โลยี การผลิต 45nm ของ Intel ที่ท าให้ผลิตภัณฑ์นี้ก้าวไปสู่อีกระดับ เทคโนโลยีใหม่นี้ใช้ทรานซิสเตอร์ Hafnium-infused-Hi-k ที่ช่วยเพิ่มประสิทธิภาพของหน่วยประมวลผลกลางโดยการเพิ่มความหนาแน่นของทรานซิสเตอร์เป็นสองเท่ า ช่วยเพิ่มสมรรถนะและความเร็วเมื่อเทียบกับรุ่นก่อนหน้า และช่วยเพิ่มขนาดแคชให้สูงขึ้นถึง 50 เปอร์เซ็นต์ เทคโนโลยีการผลิต 45 nm ของ Intel ช่วยให้หน่วยประมวลผลกลาง Intel® Core™ 2 Due มอบประสิทธิภาพเพิ่มมากยิ่งขึ้นโดยไม่ต้องใช้พลังงานมากขึ้น หน่วยประมวลผลกลาง Dual-core นี้แสดงถึงความเป็นผู้น าอย่างต่อเนื่องของ Intel และความมุ่งมั่นที่จะผลักดันการประมวลผลแบบ Multi- core

Intel® Core™ 2 Quad หน่วยประมวลผลกลาง Intel® Core™ 2 Quad ซึ่งมีพื้นฐานจากการปฏิวัติทางนวัตกรรมของ Intel® Core™ microarchitecture มอบหน่วยประมวลผลสี่แกนหลักในหน่วยประมวลผลกลางตัวเดียว น ามาซึ่งประสิทธิภาพและการตอบสนองที่รวดเร็วอย่างที่ไม่เคยมีมาก่อนส าหรับการใช้งานแบบมัลติเธรดแ ละมัลติทาสกิ้งในสภาพแวดล้อมการท างานที่บ้านและในส านักงาน เวอร์ชั่นล่าสุดนี้สร้างขึ้นภายในเทคโนโลยีการผลิต 45mm ของ Intel ที่ท าให้ผลิตภัณฑ์นี้ก้าวไปสู่อีกระดับ เทคโนโลยีใหม่ นี้ ใ ช้ ท ร า น ซิ ส เ ต อ ร์ Hafnium-infused Hi-k ที่ช่วยเพิ่มประสิทธิภาพของหน่วยประมวลผลกลางโดยการเพิ่มความหนาแน่นของทรานซิสเตอร์เป็นสองเท่ า ช่วยเพิ่มสมรรถนะและความเร็วเมื่อเทียบกับรุ่นก่อนหน้า และช่วยเพิ่มขนาดแคชให้สูงขึ้นถึง 50 เปอร์เซ็นต์ เทคโนโลยีการผลิต 45 nm ของ Intel ช่วยให้หน่วยประมวลผลกลาง Intel® Core™ 2 Quad มอบประสิทธิภาพเพิ่มมากยิ่งขึ้นโดยไม่ต้องใช้พลังงานมากขึ้น หน่วยประมวลผลกลาง Intel® Quad-core นี้แสดงถึงความเป็นผู้น าอย่างต่อเนื่องของ Intel และความมุ่งมั่นที่จะผลักดันการประมวลผลแบบ Multi- core

Intel® Core™ i3 ประสิทธิภาพการท างานที่ชาญฉลาด ช่วยลูกค้าของคุณให้ท าสิ่งต่างๆ ได้มากขึ้นด้วยหน่วยประมวลผลกลาง ® Core™i3 พร้อมด้วยเทคโนโลยี Intel® Hyper-Threading และ Intel® Smart Cache ด้วยสถาปัตยกรรมใหม่ล่าสุดและ Intel® HD Graphics ในตัว ลูกค้าจะได้สัมผัสกับอีกระดับของการท างานที่ชาญฉลาดและคุณสมบัติด้านมีเดียและกราฟิกที่ล ้าสมัย พร้อมทั้งสมรรถนะด้านพลังงานที่ยอดเยี่ยม

Intel® Core™ i5-700 series ประสิทธิภาพที่ชาญฉลาดและความสามารถในการเร่งความเร็วในการท างานได้ น าลูกค้าคุณไปสู่อีกระดับ แนะน าลูกค้าให้รู้จักกับหน่วยประมวลผลกลาง Intel® Core™ i5-600 series ที่มาพร้อมกับ Intel® HD Graphics ในตัวด้วยสถาปัตยกรรมที่ได้รับการออกแบบใหม่ ลูกค้าจะได้พบกับอีกระดับของประสิทธิภาพการท างานที่ชาญฉลาด, คุณสมบัติด้านมีเดีย, กราฟฟิกที่ล ้าหน้า และความสามารถในงานด้านธุรกิจที่สูงกว่าเดิม ทั้งหมดนี้ภายในสมรรถนะด้านการใช้พลังงานที่ยอดเยี่ยม ด้วยเทคโนโลยีที่ชาญฉลาดอย่างเทคโนโลยี Intel® Turbo Boost, Intel® Smart Cache และเทคโนโลยี Intel® Hyper-Threading คุณสามารถน าเสนอประสิทธิภาพที่เหนือกว่าที่จ าเป็น

Intel® Core™ i5-700 series พบอีกก้าวส าคัญของพลังพีซีที่เพิ่มขึ้นด้วยประสิทธิภาพการท างานที่ชาญฉลาดของหน่วยประมวลผลกลา ง Intel® Core™ i5 ซึ่งจะจัดสรรพลังในการประมวลผลโดยอัตโนมัติเมื่อจ าเป็นต้องใช้ คุณจะท างานได้เร็วขึ้นเมื่อสร้างสรรค์วิดีโอ HD, เรียบเรียงเพลงดิจิตอล, ตัดต่อแก้ไขภาพถ่าย และเล่นเกมพีซียอดนิยม ด้วยหน่วยประมวลผลกลาง Intel Core i5 ใหม่ คุณสามารถท างานมัลติทาสก์ได้ง่ายและมีประสิทธิภาพในการท างานสูงกว่าที่เคย

หน่วยประมวลผลกลาง Intel® Core™ i5 เพิ่มความเร็วให้กับการท างาน, เติมแรงบันดาลใจให้การสร้างสรรค์ดิจิตอล และช่วยเติมความสุขในการรับชมวิดีโอที่ราบรื่นไม่มีสะดุดและพบคุณภาพเพลงที่แตกต่างบนเครื่องที่ใช้หน่ วยประมวลผลกลาง Intel® Core™ i5 ตัวเลือกที่ชาญฉลาดส าหรับการใช้งานที่บ้านและส านักงาน

Intel® Core™ i7-800 โปรเซสเซอร์ Series สวรรค์ของผู้ชื่นชอบมัลติมาสก์ หน่วยประมวลผลกลาง Intel® Core™ i7 มอบขีดสุดของพลังประมวลผลเพื่อตอบสนองเมื่อมีความต้องการใช้งานสูงสุด คุณจะสามารถท าทุกอย่างบน พีซีของคุณได้อย่างรวดเร็ว รวมไปถึงการเล่นเกม 3D ที่ซับซ้อนจนถึงการสร้างสรรค์และแก้ไขดิจิตอลวิดีโอ, เพลง และภาพถ่าย ด้วยเทคโนโลยี Intel® Turbo Boost1 และเทคโนโลยี Intel® Hyper-Threading Technology คุณจะได้พบกับการท างานที่ชาญฉลาดที่ให้ประสิทธิภาพเต็มที่เมื่อคุณต้องการใช้

Intel® Core™ i7-900 โปรเซสเซอร์ Series ด้วยเทคโนโลยีมัลติคอร์ที่ท างานได้อย่างรวดเร็วและชาญฉลาดที่จะท าหน้าที่ปรับใช้พลังประมวลผลอย่าง ยืดหยุ่นเมื่อถึงเวลาจ าเป็นต้องใช้ หน่วยประมวลผลกลางตระกูล Intel® Core™ i7 มอบประสิทธิภาพในการใช้งานพีซีที่โดดเด่นน่าทึ่งพร้อมคุณสมบัติเต็มเปี่ยม ครอบครองสุดยอดอาวุธส าหรับการเล่นเกมด้วยหน่วยประมวลผลกลาง Intel® Core™ i7-980X Extreme Edition หน่วยประมวลผลกลาง Intel® Core™ i7-980X Extreme Edition ไม่เพียงแต่เหลือเฟือส าหรับการรับมื อกับเกมใหม่ล่าสุดที่ซับซ้อนที่สุดในปัจจุบัน แต่ยังทรงพลังพอที่จะรองรับเกมที่ล ้าหน้าในอนาคตได้อีกด้วย สัมผัสการเล่นเกมที่ราบรื่นกว่าและสมจริงยิ่งกว่าด้วยการกระจายการประมวลผล AI, ฟิสิกส์ และการเรนเดอร์ไปยังแกนหลักทั้งหกและกระจายเป็น 12 เ ธ ร ด น าความสมจริงดุจมีชีวิตมาสู่การเล่นเกมบนเดสก์ท็อป ป ร ะ สิ ท ธิ ภ า พ โ ดดเด่นแตกต่างส าหรับงานด้านการสร้างดิจิตอลมีเดีย น าการสร้ างสรรค์เนื้อหาข้อมูลดิจิตอลไปอีกระดับ และเพลิดเพลินไปกับการเข้ารหัสวิดีโอและการเรนเดอร์ภาพที่รวดเร็ว รวมถึงประสิทธิภาพที่น่าทึ่งในการรีทัชภาพและการตัดต่อภาพ ถ่ า ย ไม่ว่าคุณจะเป็นผู้ใช้งานมัลติทาสก์ที่จริงจัง หรือผู้คลั่งไคล้มัลติมีเดีย ประสิทธิภาพเป็นสิ่งส าคัญ ท า ไ ม จึ ง ต้ อ ง จ า กั ด ตั ว คุ ณ เ อ ง ? ปลดปล่อยความเป็นไปได้ด้วยตระกูลหน่วยประมวลผลกลางที่ยอดเยี่ยมที่สุดของ Intel และสัมผัสกับอิสรภาพในการสร้างสรรค์อย่างแท้จริงที่ถูกจ ากัดโดยจินตนาการของคุณเพียงแค่นั้นสวรรค์ข องผู้ที่ชื่นชอบมัลติทาสก์ หน่วยประมวลผลกลาง Intel® Core™ i7-900 series มอบขีดสุดของพลังประมวลผลเพื่อตอบสนองเมื่อมีความต้องการใช้งานสูงสุด คุณจะสามารถท าทุกอย่างบนพีซีของคุณได้อย่างรวดเร็ว รวมไปถึงการเล่นเกม 3D ที่ซับซ้อนจนถึงการสร้างสรรค์และแก้ไขดิจิตอลวิดีโอ, เพลง และภาพถ่าย ด้วยเทคโนโลยี Intel® Turbo Boost และเทคโนโลยี Intel® Hyper-Threading Technology คุณจะได้พบกับการท างานที่ชาญฉลาดที่ให้ประสิทธิภาพเต็มที่เมื่อคุณต้องการใช้ Intel® Core™ i7 Processor ไม่ว่าจะเป็นการเล่นเกม, การใช้งานมัลติทาสก์อย่างหนักหน่วง หรือการสร้างสรรค์ดิจิตอลมีเดีย จะได้รับประสิทธิภาพสูงสุด ต้องขอบคุณ Intel® Turbo Boost Technology1 และ Intel® Hyper- Threading Technology

Comparison between technologies or products

Intel AMD

High-End Processors

Intensive Statistical Analysis, Profesional Video/Audio Creation, Advanced 3D Graphics

Intel Core i7 AMD Phenom II X6

Core i7 คือ processor ตัวใหม่ของ Intel เป็น CPU ตัวใหม่ล่าสุดของ AMD สามารถใช้ได้ทั้งใน PC และ Notebook นอกจากนี้ i7 และมีประสิทธิภาพสูงสุดของ AMD ในขณะนี้ มี ยังมีทั้งแบบ 2 และแบบ 4 core processor ในระดับ 6 core รวมทั้งยังรองรับการท างานในแบบ HyperThreading รองรับการท างานแบบ Turbo Core Technoloty และ Intel Turbo Boost Technology

Intel Core i5 AMD Phenom II X4 Core i5 มีโครงสร้างและการท างานเหมือนกับ i7 Phenom II X4 เป็น processor ตัวล่าสุดของ มีทั้งแบบ 2 และ 4 core เป็น processor ที่อยู่ใน AMD ที่ประมวลผลแบบ 4 core class เดียวกับ i7 แต่มีราคาถูกกว่า และ i5 ส าหรับตัวนี้มีจุดเด่นในเรื่องของการแสดงผลของ รองรับการท างาน Intel Turbo Boost และ Hyper- HD quality video ได้อย่างมีประสิทธิภาพ Threading Technology แต่มี cache memory ท างานได้รวดเร็ว และประหยัดพลังงาน น้อยกว่า i7 ไม่ร้อนมากขณะท างานเมื่อเทียบกับ processor ตัวอื่น

Intel Core i3 AMD Phenom II X3

Core i3 มีโครงสร้างเช่นเดียวกับ i5 และ i7 แต่ i3 เป็น Phenom X3 และ X2 เป็น processor แบบ 3 processor แบบ dual core รองรับการท างานในแบบ และ 2 core ตามล าดับ HyperThreading แต่ไม่รองรับ Turbo Boost สามารถท างานในเรื่องของการแสดงผลของ HD Technology quality video ได้อย่างมีประสิทธิภาพเหมือนกับ แต่ยังสามารถท างานได้เร็วและมีประสิทธิภาพมากกว่า Phenom X4 นอกจากนี้ยังท างานได้เงียบ Core 2 Duo และราคาถูกกว่า และไม่ร้อนมากขณะท างาน

Core 2 Quad - มีโครงสร้างเหมือนกับ Core 2 Duo แต่มี 4 processing core เพื่อรองรับการใช้งานส าหรับ gaming, video, image processing

Core 2 Extreme

มีทั้งแบบ 2 และ 4 core มีลักษณะเฉพาะของรุ่น - Extreme รวมทั้ง bus speed ที่เร็วกว่ารุ่น non- extreme นอกจากนี้ยังมี unlocked clock multiplier เพื่อให้สามารถท าการ customization เพื่อเพิ่มประสิทธิภาพของ processor ได้

Mid-Range Processors

Speed & Multi-tasking, Basic 3D Graphics

Intel Core 2 Duo Phenom I X4 & Phenom I X3

มี process 2 core มี 4 และ 3 core processor ตามล าดับ เพื่อเพิ่มประสิทธิภาพในด้านของ gaming, เป็นแบบ 64-bit และท างานได้ดีเหมือนกับ video, image processing ส าหรับ Notebook AMD’s Hyper Transport bus technology ที่ใช้ processor ตัวนี้มักจะบางและประหยัดพลังงาน

Intel Pentium Dual Core AMD Turion II Ultra / AMD Turion II

เป็น dual core processor ที่เป็นแบบ core เป็น dual core processor micro-architecture เป็น processor ที่มี class ที่มีประสิทธิภาพด้าน multimedia เช่น HD ต ่ากว่า Core 2 Duo video มักจะใช้ร่วมกับ AMD/ATI graphic เพื่อรองรับการงานด้าน 3D graphic และ gaming

Intel Core Duo / Intel Core Solo AMD Athlon II X2

เป็น processor แบบ dual และ single core เป็น processor 2 core ซึ่งท างานเร็วกว่าแบบ ตามล าดับ มีโครงสร้างขนาดเล็กแบบ core single core ประมาณ 80% เป็น processor เหมาะส าหรับการใช้งานทั่วไปด้าน office, รุ่นประหยัด เหมาะส าหรับผู้ใช้งานด้าน multimedia multitasking, multimedia ทั่วไป

Economy Processors

Email, Internet Browsing, Microsoft Office, Simple Graphics and Games

Intel Centrino/Centrino Duo AMD Sempron

เป็น mobile-oriented processor Sempron ถือว่าเป็น processor แบบ single core ที่ใช้หลักการออกแบบเดียวกับ Pentium M หรือ ที่มีประสิทธิภาพที่ดีเมื่อเทียบกับราคาที่ประหยัด Core Duo โดย Centrino ได้รวมเอา wireless และนอกจากนี้ยังมี feature ที่เกี่ยวข้องกับ security networking technology เข้ามาด้วย และมักพบ ที่ช่วยในเรื่องการป้องกัน virus หรือ malware processor ตัวนี้ใน notebook ขนาดเล็ก

Intel Atom AMD Athlon Neo/Neo X2

Atom มักจะเป็น processor ที่พบใน notebook Athlon ถือว่าเป็น processor แบบ single core และ Atom ที่มีประสิทธิภาพที่ดี ยังมีคุณสมบัติเด่นในเรื่องของการประหยัดพลังงาน ที่สามารถรองรับการใช้งานพื้นฐานได้อย่างครบถ้วน ถ้าเปรียบเทียบกับ processor รุ่นอื่นๆ ของ Intel ถือว่ารุ่นนี้ใช้พลังงานน้อยที่สุด

Intel Celeron

Celeron เป็น processor ที่ Intel ออกแบบมาเพื่อใช้ใน model แบบประหยัดโดยเฉพาะ สามารถรองรับการท างานพื้นฐานทั้งหมดได้ แต่จะมีความเร็วต ่า และ cache น้อยกว่า processor รุ่นอื่นๆ ของ Intel ถึงแม้ว่าจะมีจ านวน Ghz เท่ากันแต่ความเร็วก็ต ่ากว่า

ตารางการเปรียบเทียบตามคุณสมบัติ

User Intel AMD Requirement

Power มีประสิทธิภาพมากกว่า AMD ทาง Intel มีประสิทธิภาพน้อยกว่า Intel Consumption มีประสิทธิภาพด้านนี้มาโดยตลอด ท าให้เป็นจุดแข็งของทาง Intel เลยก็ว่าได้

Cooling Factor Processor จนถึงขณะนี้ AMD ไม่ร้อนมากแม้ว่าจะเปิดเป็นระยะเวลานาน ยังมีข่าวเกี่ยวกับปัญหาเรื่องความร้อนของ CPU อยู่

แม้ว่าปัจจุบันจะแก้ไขเรื่องนี้บ้างแล้ว

Price Range สูงกว่า ต ่ากว่า

Processing เร็วกว่า ช้ากว่า แต่ประสิทธิภาพใกล้เคียงกับ Speed processor ของ intel ที่ความเร็วสูงกว่า

Gaming and ประสิทธิภาพด้าน gaming และ มีประสิทธิภาพที่ดีกว่าในด้าน gaming Multimedia multimedia จะน้อยกว่า AMD และ multimedia แต่สามารถอัพเกรด graphic core ของ

Ivy Bridge ได้เพื่อเพิ่มประสิทธิภาพ

Performance : High : High High : Low Price

ตารางการเปรียบเทียบ Market Share ในแต่ละปี

อ้างอิงจาก : http://www.cpubenchmark.net

Special Features Explained ในเรื่องของ CPU หรือ processor มีค าศัพท์เฉพาะบางค าที่ใช้ในการอธิบายการท างานและ function ต่างๆ โดยที่ Intel และ AMD มีค าเฉพาะที่ต่างกันตามตารางด้านล่างนี้

Intel Features

Special eatures Uses Processors Hyperthreading OS จะใช้ processor 2 ตัวแทนการใช้ processor Pentium 4, Core i7 เพียงแค่ตัวเดียว เพื่อเพิ่มความเร็วในการท างานของคอมพิวเตอร์

Turbo Boost เทคโนโลยีนี้คือ processor สามารถ overclock Core i7, Core i5 ตัวเองให้ท างานเร็วขึ้นได้ ในขณะที่ความร้อนและคุณสมบัติอื่นๆ ยังอยู่ในมาตรฐานของ processor

ViiV technology เทคโนโลยีนี้ท าขึ้นมาเพื่อรองรับการท างานด้าน Pentium D, Extreme, multimedia โดยที่รองรับ 1080i high-def TV รุ่นล่าสุดคือ Core Duo, Core 2: 1.7 Duo, Extreme, Quad.

Execute เป็นเทคโนโลยีที่ท าขึ้นมาเพื่อป้องกัน virus ไปติดยัง Intel processors Disable Bit system โดยมีการท าให้ข้อมูลบางส่วนเป็นแบบ รุ่นที่ใช้อยู่ในปัจจุบัน “executable” vPro เทคโนโลยีอันนี้ดีส าหรับคนที่ต้องท างานหลายๆ เครื่อง Core Duo, Core 2 Duo Vpro สามารถตรวจสอบ system ได้แม้ว่าจะอยู่ในสถานะ “power-off states” นอกจากนี้ยังสามารถท าการ Synchronizes remote desktop, security, และ feature อื่นๆ ส าหรับการท างานแบบ multi-station

AMD Features

Special eatures Uses Processors HyperTransport เป็นเทคโนโลยีที่ท าให้ processor AMD processors มีความเร็วสูงขึ้นและยังประหยัดพลังงาน รุ่นที่ใช้อยู่ในปัจจุบัน

Cool’n'Quiet เป็นเทคโนโลยีในการลดความร้อนและเสียงดังขณะที่ Phenom I & II, Athlon processor ท างานและยังประหยัดพลังงาน

CoolCore เป็นเทคโนโลยีที่ช่วยให้ notebook สามารถท างานด้วย Phenom I & II, Turion battery ได้นานขึ้น โดยจะท าการปิด feature บางอย่างของ processor ที่ไม่ได้ใช้ไป

Dynamic Power เป็นเทคโนโลยีที่ช่วยในเรื่องของการประหยัดพลังงาน Phenom I & II, Turion Management และลดอัตราการใช้พลังงาน

อ้างอิงบทความจาก : www.kb.wisc.edu/showroom/page.php?id=492

Intel AMD High End Processors Intensive Statistical Analysis, Professional Video and Audio Editing, and Advanced 3-D Gaming Core i7 Phenom II X4

Core i7 คือ processor ตัวใหม่ของ Intel Phenom II X4 คือ processor ตัวใหม่ของ AMD สามารถใช้ได้ทั้งใน PC และ Notebook นอกจากนี้ i7 ส าหรับตัวนี้มีจุดเด่นในเรื่องของการแสดงผลของ ยังมีทั้งแบบ 2 และแบบ 4 core HD quality video ได้อย่างมีประสิทธิภาพ รวมทั้งยังรองรับการท างานในแบบ HyperThreading นอกจากนี้ Phenom II X4 และ Intel Turbo Boost Technology ยังช่วยในการประหยัดพลังงาน ท างานได้รวดเร็ว และไม่ร้อนมากขณะท างานเมื่อเทียบกับ processor ตัวอื่น

Core i5 Phenom II X3

Core i5 มีโครงสร้างและการท างานเหมือนกับ i7 Phenom X3 เป็น processor แบบ triple-core มีทั้งแบบ 2 และ 4 core เป็น processor ที่อยู่ใน ที่สามารถท างานในเรื่องของการแสดงผลของ class เดียวกับ i7 แต่มีราคาถูกกว่า และ i5 HD quality video รองรับการท างาเฉพาะ Intel Turbo Boost ได้อย่างมีประสิทธิภาพเหมือนกับ Phenom X4 Technology เท่านั้น นอกจากนี้ยังท างานได้เงียบ และไม่ร้อนมากขณะท างานเมื่อเทียบกับ processor ตัวอื่น

Core 2 Quad Phenom I X4 & Phenom I X3

Core 2 Quad มีโครงสร้างเหมือนกับ Core 2 Duo Phenom I X4 และ Phenom I X3 มี 4 และ 3 แต่มี 4 processing core เพื่อรองรับการใช้งานส าหรับ core processor ตามล าดับ เป็นแบบ 64-bit gaming, video, image processing และท างานได้ดีเหมือนกับ AMD’s Hyper Transport bus technology

Core 2 Extreme

Core 2 Extreme มีทั้งแบบ 2 และ 4 core มีลักษณะเฉพาะของรุ่น Extreme รวมทั้ง bus speed ที่เร็วกว่ารุ่น non-extreme นอกจากนี้ยังมี unlocked clock multiplier เพื่อให้สามารถท าการ customization เพื่อเพิ่มประสิทธิภาพของ processor ได้

Mid Range Processors Speed & Multitasking, Adobe Creative Suite, and basic 3-D Graphics Core i3 Athlon X2

Core i3 มีโครงสร้างเช่นเดียวกับ i5 และ i7 แต่ i3 เป็น Athlon X2 เป็น duo core processor processor แบบ dual core ใช้ไนการท างานแบบ multitasking ได้ดี ไม่รองรับการท างานในแบบ HyperThreading หรือ รวมไปถึงงาน graphics และ video Intel Turbo Boost Technology แต่ยังสามารถท างานได้เร็วและมีประสิทธิภาพมากกว่า Core 2 Duo และราคาถูกกว่า

Core 2 Duo Turion X2

Core 2 Duo ประกอบไปด้วย 2 processing core Turion X2 เป็น dual core processor เพื่อให้มีประสิทธิภาพที่ดีกับการใช้งานในด้านของ ที่มักจะพบใน notebook gaming, video, image processing ส าหรับ ที่มีประสิทธิภาพปานกลางถึงสูง Notebook ที่ใช้ processor ตัวนี้มักจะบางและประหยัดพลังงาน

Pentium Dual Core

Pentium Dual Core เป็น dual core processor ที่เป็นแบบ core micro-architecture เป็น processor ที่มี class ต ่ากว่า Core 2 Duo