รู้ลึก AI Full-Stack Architecture (ตอนที่ 2)

บทความโดย ดร. วิรินทร์ เมฆประดิษฐสิน

Hardware Chip Layer: หัวใจของการประมวลผลในสถาปัตยกรรม AI ยุคใหม่

บทนำ

ในโครงสร้างของ AI Full-Stack Architecture หาก Energy Infrastructure Layer เป็นรากฐานที่หล่อเลี้ยงระบบทั้งหมด Hardware Chip Layer คือ “กลไกที่เปลี่ยนพลังงานให้กลายเป็นสติปัญญา” (energy-to-intelligence conversion layer) อย่างแท้จริง การพัฒนา Artificial Intelligence ในปัจจุบันไม่ได้ถูกขับเคลื่อนเพียงด้วยอัลกอริทึมหรือข้อมูลเท่านั้น แต่ขึ้นอยู่กับความสามารถของฮาร์ดแวร์ในการประมวลผลปริมาณข้อมูลมหาศาลด้วยความเร็วสูงและใช้พลังงานอย่างมีประสิทธิภาพ

ภาพที่ 1 ที่มา : Techi

ภาพที่ 2  โครงสร้างภายใน AI Chip (ที่มา TelecomHall Forum)

ในช่วงทศวรรษที่ผ่านมา การเติบโตของ AI โดยเฉพาะ Deep Learning และ Large Language Models (LLMs) ได้ผลักดันให้เกิดการพัฒนา chip เฉพาะทาง (specialized accelerators) เช่น GPU, TPU, NPU และ ASIC ซึ่งถูกออกแบบมาเพื่อรองรับ workload ที่มีลักษณะเป็น parallel computation และ matrix operation เป็นหลัก บทความนี้จะอธิบายบทบาท โครงสร้าง และวิวัฒนาการของ Hardware Chip Layer ในบริบทของระบบ AI สมัยใหม่

1. บทบาทของ Hardware Chip Layer ในระบบนิเวศของ AI

Hardware Chip Layer ทำหน้าที่เป็นตัวกลางระหว่าง Energy Layer และ Cloud/Model Layer โดยมีหน้าที่หลักในการดำเนินการคำนวณ (computation execution) ซึ่งรวมถึง

  • การคำนวณเชิงเมทริกซ์ (matrix multiplication)
  • การประมวลผลแบบขนาน (parallel processing)
  • การจัดการหน่วยความจำความเร็วสูง (high-bandwidth memory)
  • การเร่งความเร็ว inference และ training

ในบริบทของ AI ระบบจะต้องประมวลผล tensor ขนาดใหญ่ ซึ่ง CPU แบบดั้งเดิมไม่สามารถรองรับได้อย่างมีประสิทธิภาพ ทำให้เกิดการพัฒนา accelerator ที่มี architecture เฉพาะสำหรับ workload ลักษณะนี้

2. วิวัฒนาการของ AI Hardware :  จาก CPU สู่ GPU

ในยุคแรกของ AI การประมวลผลใช้ CPU เป็นหลัก ซึ่งเหมาะกับงานที่ต้องการ sequential processing อย่างไรก็ตาม เมื่อ Deep Learning เข้ามา GPU ซึ่งมี core จำนวนมากและรองรับ parallel processing จึงกลายเป็นตัวเลือกหลัก

GPU สามารถประมวลผล floating-point operation จำนวนมากพร้อมกันได้ ทำให้เหมาะกับ neural network training ที่ต้องใช้ matrix multiplication อย่างเข้มข้น

2.1 การเกิดขึ้นของ TPU และ ASIC

เมื่อ workload ของ AI เพิ่มขึ้น ผู้ให้บริการ cloud เช่น Google ได้พัฒนา Tensor Processing Unit (TPU) ซึ่งเป็น ASIC (Application-Specific Integrated Circuit) ที่ออกแบบมาเฉพาะสำหรับ AI โดยตรง

TPU ใช้ architecture ที่เรียกว่า systolic array ซึ่งสามารถประมวลผล matrix ได้อย่างมีประสิทธิภาพสูงและใช้พลังงานต่ำเมื่อเทียบกับ GPU

ภาพที่ 3 ที่มา : TechTalks

ภาพที่ 4 Ironwood : TPU ตัวล่าสุดของ Goole (New Scientist)

2.2 NPU และ Edge AI Chip

ในระดับ Edge มีการพัฒนา Neural Processing Unit (NPU) ซึ่งถูกฝังอยู่ในอุปกรณ์ เช่น smartphone, IoT device และ embedded system เพื่อรองรับ Edge AI

NPU ถูกออกแบบให้

  • ใช้พลังงานต่ำ
  • latency ต่ำ
  • รองรับ inference แบบ real-time

3. โครงสร้างภายในของ AI Chip

AI Chip สมัยใหม่ประกอบด้วยองค์ประกอบสำคัญหลายส่วน

3.1 Compute Core

หน่วยประมวลผลหลัก เช่น CUDA cores (GPU) หรือ tensor cores ที่รองรับ matrix operation

3.2 Memory Hierarchy

  • HBM (High Bandwidth Memory)
  • Cache (L1, L2)
  • On-chip SRAM

Memory bandwidth เป็น bottleneck สำคัญของ AI

3.3 Interconnect

เช่น NVLink หรือ PCIe ซึ่งใช้เชื่อม GPU หลายตัวเข้าด้วยกัน

3.4 Control Unit

ควบคุม instruction flow และ scheduling

4. Performance Metrics ของ AI Hardware

การประเมินประสิทธิภาพของ AI Chip ไม่ได้วัดเพียง FLOPS เท่านั้น แต่ต้องพิจารณา

  • Performance per Watt
  • Memory Bandwidth
  • Latency
  • Throughput
  • Scalability

5. Power Efficiency และ Energy Constraint

Hardware Chip Layer มีความสัมพันธ์โดยตรงกับ Energy Infrastructure Layer เนื่องจาก chip ที่มี performance สูงมักใช้พลังงานมาก

แนวโน้มสำคัญคือ

  • ลด power consumption ต่อ operation
  • ใช้ precision ต่ำ (FP16, INT8)
  • optimize architecture

6. SIMD และ SIMT (รากฐานของการประมวลผลขนาน)

ทั้งสองเทคนิคคือหัวใจของการทำ Parallel Processing เพื่อจัดการกับข้อมูลจำนวนมากพร้อมกัน (เช่น การคำนวณ Matrix ใน AI)

  • SIMD (Single Instruction, Multiple Data): หลักการคือการสั่งงานเพียงครั้งเดียว (1 Instruction) แต่ให้หน่วยประมวลผลหลายตัวทำกับข้อมูลคนละชุดพร้อมๆ กัน
    • การใช้งาน: พบใน CPU สมัยใหม่ (เช่น ชุดคำสั่ง AVX-512) เหมาะกับงานที่ข้อมูลเรียงตัวกันเป็นระเบียบ เช่น การปรับแต่งภาพ (Image Processing)
  • SIMT (Single Instruction, Multiple Threads): หลักการคือ เป็นการต่อยอด SIMD โดย NVIDIA สำหรับ GPU แทนที่จะมองเป็นแค่ข้อมูลเฉลี่ยกันไป SIMT จะมองเป็น “Thread” จำนวนมหาศาลที่ทำงานตามคำสั่งเดียวกันแต่มีความยืดหยุ่นกว่า (Branching)
    • ทำไมถึงสำคัญกับ AI? เพราะโมเดล AI ประกอบด้วยการบวกลบคูณหารเลขทศนิยมนับล้านชุด SIMT ช่วยให้ GPU สามารถกระจายงานเหล่านี้ไปยัง Core เล็กๆ นับพันตัวได้พร้อมกัน

6.1 Systolic Array (หัวใจของความเร็วใน TPU)

นี่คือสถาปัตยกรรมที่ Google นำมาใช้ใน TPU (Tensor Processing Unit) เพื่อแก้ปัญหา “คอขวดของหน่วยความจำ” (Memory Wall)

  • หลักการ: แทนที่จะให้ตัวประมวลผลต้องวิ่งไปดึงข้อมูลจาก RAM ทุกครั้งที่คำนวณเสร็จ (ซึ่งกินพลังงานสูง) Systolic Array จะปล่อยให้ข้อมูล “ไหล” ผ่านชุดประมวลผลที่วางตัวเป็นตาราง (Array) เหมือนกับการไหลเวียนของเลือดในระบบหัวใจ
  • การทำงาน: ข้อมูลจะถูกดึงจากหน่วยความจำเพียงครั้งเดียว แล้วส่งต่อ (Pass) จาก Cell หนึ่งไปอีก Cell หนึ่งเพื่อคูณและบวกสะสมไปเรื่อยๆ จนจบแถว
  • ทำไมถึงสำคัญกับ AI: สถาปัตยกรรมนี้เกิดมาเพื่อ Matrix Multiplication โดยเฉพาะ ทำให้ได้ Effective Compute Capacity ที่สูงมากในขณะที่ใช้พลังงานต่ำกว่า GPU ทั่วไปเมื่อทำงานเฉพาะทาง

6.2 Neuromorphic Computing (อนาคตแห่งการประมวลผลเลียนแบบสมอง)

นี่คือการฉีกกฎเกณฑ์คอมพิวเตอร์แบบเดิม (Von Neumann Architecture) เพื่อก้าวไปสู่การคำนวณที่ใกล้เคียงกับชีวภาพมากที่สุด

  • หลักการคือ เลียนแบบการทำงานของ Neuron (เซลล์ประสาท) และ Synapse (จุดประสานประสาท) ในสมองมนุษย์ โดยหน่วยประมวลผลและหน่วยความจำจะอยู่ที่เดียวกัน (In-memory Computing)
  • จุดเด่น คือ Spiking Neural Networks (SNN): ระบบจะไม่ทำงานตลอดเวลา แต่จะส่งสัญญาณ (Spike) เฉพาะเมื่อมีการกระตุ้นที่สำคัญเท่านั้น
  • ทำไมถึงสำคัญกับ AI? Ultra-Low Power: กินไฟน้อยกว่าชิปปกติหมื่นเท่า เพราะ “ไม่ทำงานถ้าไม่มีข้อมูล” เหมาะกับงาน Edge AI ที่ต้องเปิดทิ้งไว้ตลอดเวลา (Always-on)
    • On-chip Learning: สามารถเรียนรู้และปรับตัวได้หน้างาน (Real-time Learning) คล้ายสมองคน

7. Scaling และ Distributed Training

AI Model ขนาดใหญ่ต้องใช้ GPU cluster จำนวนมาก เช่น

  • Data Parallelism
  • Model Parallelism

การเชื่อมต่อระหว่าง chip เป็น critical factor

8. Hardware–Software Co-design : การออกแบบร่วมกันระหว่างฮาร์ดแวร์และซอฟต์แวร์ในระบบ AI

การพัฒนา Artificial Intelligence ในยุคปัจจุบันไม่สามารถแยกการออกแบบฮาร์ดแวร์ (hardware) และซอฟต์แวร์ (software) ออกจากกันได้อีกต่อไป เนื่องจากลักษณะของ workload ใน AI โดยเฉพาะ Deep Learning มีความเฉพาะเจาะจงสูง ทั้งในด้านรูปแบบการคำนวณ (เช่น matrix multiplication, tensor operations) และการจัดการหน่วยความจำ การออกแบบระบบที่มีประสิทธิภาพจึงต้องอาศัยแนวคิด Hardware–Software Co-design ซึ่งเป็นการพัฒนาและปรับแต่งทั้งสองส่วนให้สอดคล้องกันตั้งแต่ระดับสถาปัตยกรรมไปจนถึงระดับการใช้งานจริง

ในแนวคิดนี้ ฮาร์ดแวร์ไม่ได้เป็นเพียง “เครื่องมือที่รันซอฟต์แวร์” แต่เป็นองค์ประกอบที่ถูกออกแบบมาเพื่อรองรับซอฟต์แวร์เฉพาะทางโดยตรง ขณะเดียวกัน ซอฟต์แวร์เองก็ถูกพัฒนาให้สามารถดึงศักยภาพของฮาร์ดแวร์ออกมาใช้ได้สูงสุด แนวทางนี้ช่วยลด overhead ของระบบ เพิ่ม throughput และลดการใช้พลังงานต่อหน่วยการคำนวณ ซึ่งเป็นปัจจัยสำคัญในระบบ AI ขนาดใหญ่

8.1 CUDA Ecosystem : การเชื่อมโยงระหว่าง GPU Architecture และ Programming Model

หนึ่งในตัวอย่างที่ชัดเจนของ Hardware–Software Co-design คือ CUDA ecosystem ซึ่งพัฒนาโดย NVIDIA CUDA (Compute Unified Device Architecture) เป็นทั้ง programming model และ runtime environment ที่ถูกออกแบบมาเพื่อให้ซอฟต์แวร์สามารถเข้าถึงความสามารถของ GPU ได้โดยตรง โดยเฉพาะการประมวลผลแบบขนาน (massive parallelism)

ภาพที่ 5 สถาปัตยกรรมภายใน CUDA (ที่มา : NVIDIA Developer)

ภาพที่ 6  NVIDIA Blackwell Ultra GB300 (Corsair)

CUDA ทำให้ developer สามารถเขียนโปรแกรมที่ควบคุม thread, memory hierarchy และ execution model ของ GPU ได้อย่างละเอียด ซึ่งสอดคล้องกับโครงสร้างของ GPU ที่มี core จำนวนมากและออกแบบมาเพื่อรองรับ SIMD/SIMT computation นอกจากนี้ CUDA ยังมี library ที่ optimize มาแล้ว เช่น cuDNN (สำหรับ deep learning) และ cuBLAS (สำหรับ linear algebra) ซึ่งช่วยให้ framework AI สามารถทำงานได้อย่างมีประสิทธิภาพสูงโดยไม่ต้องพัฒนา low-level code เอง

ในเชิงสถาปัตยกรรม CUDA ecosystem แสดงให้เห็นว่า hardware (GPU) และ software stack ถูกออกแบบมา “ควบคู่กัน” ตั้งแต่ต้น ทำให้เกิด ecosystem ที่มีประสิทธิภาพและยากต่อการแทนที่

8.2 TensorFlow XLA : Compiler-Level Optimization สำหรับ AI Workload

อีกหนึ่งตัวอย่างของ Hardware–Software Co-design คือ TensorFlow XLA (Accelerated Linear Algebra) ซึ่งเป็น compiler ที่พัฒนาโดย Google เพื่อ optimize การรันโมเดล AI บน hardware ต่าง ๆ เช่น CPU, GPU และ TPU

XLA ทำหน้าที่แปลง computation graph ของ TensorFlow ให้กลายเป็น optimized machine code โดยใช้เทคนิคต่าง ๆ เช่น

  • Operation fusion (รวมหลาย operation ให้รันเป็น kernel เดียว)
  • Memory reuse
  • Instruction scheduling

สิ่งสำคัญคือ XLA ถูกออกแบบโดยคำนึงถึง hardware architecture เช่น TPU ที่มี systolic array ซึ่งแตกต่างจาก GPU หรือ CPU ทำให้ XLA สามารถ generate code ที่เหมาะสมกับ hardware แต่ละประเภทได้โดยอัตโนมัติ

ในมุมของ Co-design นั้น XLA เป็นตัวอย่างของการ “ย้าย optimization ลงไปที่ compiler layer” ซึ่งช่วยลดภาระของ developer และทำให้ระบบสามารถใช้ hardware ได้อย่างเต็มประสิทธิภาพโดยไม่ต้องปรับโค้ดมาก

8.3 PyTorch Optimization : Dynamic Execution และ Hardware Abstraction

ในฝั่งของ PyTorch ซึ่งเป็น framework ที่ได้รับความนิยมสูงในงานวิจัยและอุตสาหกรรม แนวคิดของ Hardware–Software Co-design ปรากฏในรูปแบบของ dynamic computation graph และ optimization tools ที่สามารถปรับการทำงานให้เหมาะกับ hardware ได้

PyTorch มีชุดเครื่องมือที่ถูกออกแบบมาเพื่อเพิ่มประสิทธิภาพของการประมวลผลบนฮาร์ดแวร์สมัยใหม่อย่างเป็นระบบ โดยเริ่มจาก TorchScript ซึ่งทำหน้าที่แปลงโครงสร้างการคำนวณแบบ dynamic graph ให้กลายเป็น static graph เพื่อให้สามารถ optimize การทำงานและ deploy ในสภาพแวดล้อม production ได้อย่างมีประสิทธิภาพมากขึ้น นอกจากนี้ยังมี TorchDynamo และ Inductor ซึ่งเป็นกลไกสำหรับปรับปรุง execution pipeline โดยช่วยลด overhead ของการรันโปรแกรมและเพิ่มความเร็วในการประมวลผลผ่านการ compile และ optimize instruction ในระดับลึก ขณะเดียวกัน PyTorch ยังรองรับ CUDA backend ซึ่งเปิดโอกาสให้ระบบสามารถใช้ประโยชน์จาก GPU acceleration ได้อย่างเต็มศักยภาพ ทำให้สามารถประมวลผล workload ด้าน AI ที่มีความซับซ้อนสูงได้อย่างรวดเร็วและมีประสิทธิภาพ

สิ่งที่น่าสนใจคือ PyTorch พยายาม balance ระหว่าง flexibility และ performance กล่าวคือ developer สามารถเขียนโค้ดได้อย่างยืดหยุ่น แต่เมื่อถึงขั้น production ระบบสามารถ optimize execution ให้เหมาะสมกับ hardware ได้

นอกจากนี้ PyTorch ยังรองรับ hardware หลายประเภท เช่น GPU, TPU และ accelerator อื่น ๆ ผ่าน abstraction layer ทำให้สามารถ deploy โมเดลได้ในหลาย environment โดยไม่ต้องเขียนใหม่ทั้งหมด

8.4 ความสำคัญของ Co-design ในระบบ AI ขนาดใหญ่

ในระบบ AI ระดับ large-scale เช่น data center หรือ AI supercomputer แนวคิด Hardware–Software Co-design มีความสำคัญอย่างยิ่ง เนื่องจาก

  • ลด latency ของ computation
  • เพิ่ม throughput ของระบบ
  • ลด energy consumption
  • เพิ่ม scalability

ตัวอย่างเช่น การฝึกโมเดลขนาดใหญ่ (LLM) หากไม่มีการ optimize ระหว่าง hardware และ software อย่างเหมาะสม อาจใช้เวลาเพิ่มขึ้นหลายเท่า และสิ้นเปลืองพลังงานอย่างมาก

8.5 แนวโน้มในอนาคตของ Hardware–Software Co-design

ในอนาคต แนวคิดนี้จะยิ่งมีบทบาทมากขึ้น โดยมีแนวโน้มสำคัญ เช่น

  • AI-specific compiler ที่ adaptive ต่อ hardware
  • Hardware ที่ configurable ตาม workload
  • Integration ระหว่าง chip design และ AI framework
  • Auto-tuning system ที่ใช้ AI optimize ตัวเอง

แนวโน้มเหล่านี้สะท้อนให้เห็นว่าเส้นแบ่งระหว่าง hardware และ software กำลังเลือนหายไป และระบบ AI จะถูกออกแบบในลักษณะของ “integrated stack” มากขึ้น

9. แนวโน้มในอนาคตของ AI Hardware

วิวัฒนาการของ AI Hardware ในปัจจุบันกำลังเข้าสู่จุดเปลี่ยนสำคัญ จากเดิมที่การพัฒนาเน้นการเพิ่มจำนวนทรานซิสเตอร์ตามกฎของ Moore’s Law ไปสู่ยุคที่ข้อจำกัดทางฟิสิกส์ พลังงาน และความร้อน (power and thermal constraints) กลายเป็นตัวกำหนดทิศทางของนวัตกรรม การออกแบบชิปในอนาคตจึงไม่ใช่เพียงการ “ทำให้เร็วขึ้น” แต่เป็นการ “ทำให้ฉลาดขึ้น มีประสิทธิภาพมากขึ้น และสอดคล้องกับข้อจำกัดของพลังงาน” แนวโน้มสำคัญสามารถอธิบายได้ดังนี้

9.1 Chiplet Architecture

Chiplet Architecture คืออะไร?

ในอดีต การสร้างชิปจะเป็นแบบ Monolithic Design คือการอัดทุกอย่าง (Cores, Memory Controller, I/O) ลงบนแผ่นซิลิคอน (Die) ชิ้นเดียวขนาดใหญ่ แต่ Chiplet Architecture คือการแยกส่วนประกอบเหล่านั้นออกเป็นชิ้นย่อยๆ เรียกว่า “Chiplets” แล้วนำมาประกอบรวมกันบนแพลตฟอร์มเดียวกัน (Interconnect) เปรียบเสมือนการต่อเลโก้

ทำไมต้องเปลี่ยนมาใช้ Chiplet?

ภาพที่ 8 ภาพลักษณะ Chiplet (ที่มา : Tokyo Electron Ltd.)

ภาพที่ 7 โครงสร้างภายในของ Chiplet (Medium.com)

  • Yield Rate & Cost Efficiency: ยิ่งแผ่นซิลิคอน (Die) ใหญ่ โอกาสที่จะเกิดจุดเสีย (Defect) ยิ่งสูง ถ้าชิปแบบ Monolithic เสียแค่จุดเดียวต้องทิ้งทั้งชิป แต่ถ้าเป็น Chiplet เราแค่เปลี่ยนชิ้นเล็กๆ ที่เสียออก ช่วยลดต้นทุนการผลิตมหาศาล
  • Heterogeneous Integration: เราสามารถเลือกใช้กระบวนการผลิต (Nodes) ที่ต่างกันได้ เช่น ส่วนที่เป็นประมวลผลหลัก (CPU Cores) ใช้เทคโนโลยี 3nm ที่แพงและแรงที่สุด แต่ส่วนที่เป็น I/O หรือ Memory Controller อาจใช้เทคโนโลยี 7nm ที่ราคาถูกกว่าและเสถียรกว่ามาผสมกัน
  • Scalability: สามารถขยายพลังประมวลผลได้ง่ายขึ้นโดยการเพิ่มจำนวน Chiplets ลงไปใน Package เดียวกัน เหมาะมากสำหรับ AI Workload ที่ต้องการ Compute Power มหาศาล

องค์ประกอบสำคัญของระบบ Chiplet

เพื่อให้ Chiplet หลายชิ้นทำงานร่วมกันได้เหมือนเป็นชิปชิ้นเดียว ต้องมีองค์ประกอบเหล่านี้

A. Interconnect (ทางเชื่อมข้อมูล)

นี่คือหัวใจสำคัญ เพราะถ้าเชื่อมต่อไม่ดี จะเกิด Latency สูง

  • UCIe (Universal Chiplet Interconnect Express): เป็นมาตรฐานกลางที่บริษัทยักษ์ใหญ่ (Intel, AMD, NVIDIA, Samsung, TSMC) ร่วมกันกำหนดเพื่อให้ Chiplet ต่างค่ายสามารถเชื่อมต่อและทำงานร่วมกันได้
  • Infinity Fabric (AMD): เทคโนโลยีเฉพาะของ AMD ที่ใช้เชื่อมต่อ Chiplets ภายในชิปตระกูล Ryzen และ EPYC

B. Packaging Technology (เทคโนโลยีการแพ็กเกจจิ้ง)

การวาง Chiplet มีหลายระดับ

  • 2D Packaging: วางบน Substrate (ฐานรอง) ปกติ
  • 2.5D Packaging: ใช้ Interposer (แผ่นเชื่อมต่อตรงกลาง) เช่น เทคโนโลยี CoWoS (Chip on Wafer on Substrate) ของ TSMC ที่ใช้ในชิป NVIDIA H100/B200 เพื่อเชื่อมต่อ GPU กับหน่วยความจำ HBM (High Bandwidth Memory)
  • 3D Packaging: การวางชิปซ้อนกันในแนวตั้ง (Stacking) เช่น เทคโนโลยี V-Cache ของ AMD หรือ Foveros ของ Intel เพื่อลดระยะห่างของข้อมูลและเพิ่มความหนาแน่น

ความท้าทายของ Chiplet (The Challenges)

แม้จะดูดี แต่การทำ Chiplet ก็มีความท้าทายทางวิศวกรรมสูงมากครับ

  • Thermal Management: เมื่ออัดชิปหลายชิ้นไว้ใกล้กัน หรือวางซ้อนกัน (3D) ความร้อนจะสะสมสูงมาก (สอดคล้องกับประเด็น Power Density ที่ ดร. เขียนในบทความก่อนหน้า)
  • Power Delivery: การจ่ายไฟให้ทั่วถึงและนิ่งในทุก Chiplet ทำได้ยากกว่า Monolithic
  • Interconnect Latency: การที่ข้อมูลต้องข้ามจากชิปชิ้นหนึ่งไปอีกชิ้นหนึ่งย่อมช้ากว่าการอยู่บนแผ่นเดียวกัน วิศวกรจึงต้องออกแบบ Bus ให้มี Bandwidth มหาศาล

9.2 เทคโนโลยี CoWoS

เทคโนโลยี CoWoS (Chip on Wafer on Substrate) ของ TSMC คือ “อาวุธลับ” ที่อยู่เบื้องหลังความสำเร็จของชิป AI ระดับโลกอย่าง NVIDIA H100, B200 (Blackwell) และ AMD Instinct MI300 ครับ หากไม่มีเทคโนโลยีนี้ เราคงไม่สามารถเห็นพลังประมวลผลระดับก้าวกระโดดในปัจจุบันได้

ภาพที่ 9 โครงสร้างของ CoWoS (ที่มา Tomshardware)

CoWoS คืออะไร? (The High-Level Concept)

CoWoS เป็นเทคโนโลยี 2.5D Packaging ระดับสูง หน้าที่ของมันคือการนำ “ชิปประมวลผล” (เช่น GPU หรือ CPU) มาวางรวมกับ “หน่วยความจำแบนด์วิดท์สูง” (HBM – High Bandwidth Memory) ไว้บนฐานรองรับเดียวกันที่เรียกว่า Silicon Interposer

  • Chip on Wafer: การนำชิปเล็กๆ (Chiplets/Dies) มาวางต่อกันบนแผ่นเวเฟอร์ซิลิคอนชิ้นกลาง
  • on Substrate: จากนั้นจึงนำแผงทั้งหมดไปวางบนฐานรองรับ (Package Substrate) เพื่อเชื่อมต่อกับแผงวงจรหลัก (PCB) อีกที

ทำไม AI ถึงขาด CoWoS ไม่ได้? (The Strategic Value)

ปัญหาใหญ่ของ AI ไม่ใช่แค่ “ประมวลผลไม่ไว” แต่คือ “ข้อมูลเดินไปหาหน่วยความจำไม่ทัน” (Memory Wall)

  • Bandwidth มหาศาล: การวาง HBM ไว้ข้างๆ GPU บน Interposer เดียวกัน ช่วยให้เส้นลวดเชื่อมต่อสั้นลงและหนาแน่นขึ้น ทำให้ส่งข้อมูลได้เร็วระดับ Terabytes per second (TB/s)
  • Energy Efficiency: เมื่อระยะทางส่งข้อมูลสั้นลง (Short Interconnects) พลังงานที่ใช้ในการ “ขนส่งข้อมูล” (Data Movement Energy) ก็ลดลงตามไปด้วย สอดคล้องกับแนวคิด Energy Optimization ในบทความของ ดร. ครับ
  • Footprint ขนาดเล็ก: ประหยัดพื้นที่บนบอร์ด แต่ได้ประสิทธิภาพสูงกว่าการวางแรมแยกชิ้นแบบเดิมหลายเท่า

โครงสร้างภายในของ CoWoS (Technical Layers)

เพื่อให้เห็นภาพลึกถึงระดับวิศวกรรม CoWoS มี 3 ส่วนสำคัญ

  1. Top Layer (Active Chips): คือตัว GPU Cores และ HBM Stacks ที่ทำหน้าที่ประมวลผลและเก็บข้อมูล
  2. Middle Layer (Silicon Interposer): นี่คือ “หัวใจของ CoWoS” เป็นแผ่นซิลิคอนที่ไม่มีทรานซิสเตอร์ แต่เต็มไปด้วยเส้นทองแดงขนาดจิ๋วที่เชื่อมต่อระหว่าง GPU และ HBM เข้าด้วยกันผ่านทาง Micro-bumps
  3. TSV (Through-Silicon Via): คือการเจาะรูทะลุแผ่น Interposer เพื่อส่งสัญญาณไฟฟ้าลงไปยังฐานล่างสุด (Substrate)

ประเภทของ CoWoS (The Evolution)

TSMC พัฒนา CoWoS ออกมาหลายรุ่นเพื่อตอบโจทย์ต้นทุนและประสิทธิภาพที่ต่างกัน

  • CoWoS-S (Standard): ใช้ Silicon Interposer (แบบดั้งเดิมและประสิทธิภาพสูงสุด ใช้ใน NVIDIA H100)
  • CoWoS-R (Redistribution Layer): ใช้เลเยอร์เชื่อมต่อที่เป็น Organic แทนซิลิคอน เพื่อลดต้นทุนและเพิ่มความยืดหยุ่น
  • CoWoS-L (Local Silicon Interconnect): เป็นแบบ Hybrid ที่ใช้ซิลิคอนเฉพาะจุดที่ต้องการความเร็วสูง (ใช้ใน NVIDIA Blackwell B200 เพื่อเชื่อม GPU สองตัวเข้าด้วยกัน)

วิกฤตการณ์ CoWoS และนัยสำคัญต่ออุตสาหกรรม

ท่านอาจเคยได้ยินข่าวว่า “NVIDIA ผลิตชิปไม่ทันขาย” ในปี 2024-2025 สาเหตุหลักไม่ใช่เพราะผลิต GPU ไม่ได้ แต่เป็นเพราะ “คอขวดที่ความสามารถในการทำ CoWoS ของ TSMC” ครับ

  • Sovereignty Issue: เทคโนโลยีนี้เกือบทั้งหมดถูกผูกขาดโดย TSMC ในไต้หวัน ทำให้ประเทศมหาอำนาจอย่างสหรัฐฯ หรือจีน พยายามพัฒนาเทคโนโลยี Advanced Packaging ของตนเอง (เช่น Intel Foveros) เพื่อให้มี Infrastructure Sovereignty เป็นของตัวเอง
  • Supply Chain: การที่โรงงาน Packaging มีจำกัด ทำให้ราคาชิป AI พุ่งสูงขึ้น และส่งผลโดยตรงต่อ Cost Efficiency ใน AI Full-Stack

9.3 Photonic Computing : การใช้แสงแทนไฟฟ้าเพื่อก้าวข้ามข้อจำกัดด้านพลังงาน

Photonic Computing เป็นแนวคิดการใช้แสง (photon) แทนอิเล็กตรอนในการประมวลผลและส่งข้อมูล ซึ่งมีศักยภาพในการแก้ปัญหาใหญ่ของ AI Hardware คือ energy consumption และ data movement bottleneck

ในระบบ AI ปัจจุบัน ปัญหาหลักไม่ได้อยู่ที่การคำนวณ (compute) แต่เป็นการเคลื่อนย้ายข้อมูลระหว่าง memory และ processor (memory wall problem) ซึ่งใช้พลังงานสูงมาก Photonic Computing สามารถลดปัญหานี้ได้เนื่องจาก

  • แสงสามารถส่งข้อมูลได้เร็วกว่าและใช้พลังงานต่ำกว่า
  • รองรับ bandwidth สูงมาก
  • ลดความร้อนที่เกิดจาก electrical resistance

ภาพที่ 10 ลักษณะ Photonic Chipset (ResearchGate)

ภาพที่ 11 โครงสร้าง Photonic Chip (ที่มา: University of Rochester)

ในเชิงสถาปัตยกรรม Photonic AI Chip สามารถใช้ optical matrix multiplication ซึ่งเหมาะอย่างยิ่งกับ neural network เนื่องจากการคำนวณหลักของ AI คือ linear algebra

อย่างไรก็ตาม เทคโนโลยีนี้ยังอยู่ในช่วงวิจัยและมีความท้าทาย เช่น

  • ความแม่นยำ (precision control)
  • การรวม optical กับ electronic system
  • ต้นทุนการผลิต

แต่หากสำเร็จ Photonic Computing อาจเปลี่ยนโครงสร้างของ AI Hardware อย่างสิ้นเชิง

9.4 Quantum AI : การประมวลผลแบบควอนตัมสำหรับปัญหาที่ซับซ้อน

Quantum Computing เป็นอีกหนึ่งแนวทางที่มีศักยภาพในการเปลี่ยนแปลง AI โดยใช้หลักการของ quantum mechanics เช่น superposition และ entanglement เพื่อทำการคำนวณที่ระบบ classical ไม่สามารถทำได้อย่างมีประสิทธิภาพ

ในบริบทของ AI Quantum Computing สามารถนำมาใช้ใน

  • Optimization problems
  • Probabilistic modeling
  • Sampling และ generative models

แนวคิดของ Quantum AI คือการใช้ quantum algorithm เช่น variational quantum circuits เพื่อเร่งความเร็วของการเรียนรู้หรือการค้นหาคำตอบใน problem space ที่มีขนาดใหญ่มาก

อย่างไรก็ตาม Quantum AI ยังอยู่ในระยะเริ่มต้น เนื่องจาก

  • hardware ยังไม่เสถียร (noisy intermediate-scale quantum: NISQ)
  • ต้องใช้ environment เฉพาะ เช่น อุณหภูมิต่ำมาก
  • software ecosystem ยังไม่ mature

แต่ในระยะยาว Quantum AI อาจกลายเป็น “compute layer ใหม่” ที่อยู่เหนือ classical AI

9.5 Energy-aware AI Chips : การออกแบบชิปที่คำนึงถึงพลังงานเป็นศูนย์กลาง

แนวโน้มที่สำคัญที่สุดและเกิดขึ้นจริงแล้วในปัจจุบันคือ Energy-aware AI Chips ซึ่งเป็นการออกแบบฮาร์ดแวร์โดยคำนึงถึงพลังงานเป็นข้อจำกัดหลัก (energy-first design)

ในระบบ AI ขนาดใหญ่ เช่น data center หรือ AI supercluster ค่าใช้จ่ายด้านพลังงานและความร้อนเป็นปัจจัยหลักที่จำกัดการขยายระบบ ดังนั้น chip รุ่นใหม่จึงถูกออกแบบให้

  • ใช้ precision ต่ำ (FP16, INT8, even INT4) เพื่อลดพลังงาน
  • ใช้ sparsity (skip computation ที่ไม่จำเป็น)
  • optimize data movement
  • ใช้ near-memory computing

นอกจากนี้ยังมีการใช้ dynamic voltage and frequency scaling (DVFS) เพื่อปรับพลังงานตาม workload แบบ real-time

ในระดับ Edge แนวคิดนี้ยิ่งสำคัญมาก เนื่องจากอุปกรณ์มีข้อจำกัดด้านแบตเตอรี่ ทำให้ต้องใช้ชิปที่มี performance ต่อ watt สูงมาก เช่น NPU ใน smartphone

10. ความท้าทาย

  • Power limit
  • Heat dissipation
  • Cost
  • Supply chain

11. บทสรุป

Hardware Chip Layer เป็นแกนหลักของ AI ที่เชื่อมโยงระหว่างพลังงานและสติปัญญา การพัฒนา AI ในอนาคตจะขึ้นอยู่กับความสามารถของ chip ในการประมวลผลข้อมูลอย่างมีประสิทธิภาพภายใต้ข้อจำกัดด้านพลังงาน