(11 votes)

การวางแผนงานรับมือเหตุฉุกเฉิน IT contingency plan

การวางแผนงานรับมือเหตุฉุกเฉิน IT contingency plan

               ระบบการทำงานของไอที มีความเสี่ยงต่อความล้มเหลวในการปฏิบัติงาน เริ่มตั้งแต่ปัญหาสถานเบา เช่นปัญหาการหยุดชะงักการจ่ายไฟฟ้า ปัญหาการทำงานของ Disk ไปจนถึงปัญหาหนักหน่วง เช่น อุปกรณ์ระบบใหญ่ เช่น Server หรือระบบโครงสร้างพื้นฐานเสียหาย รวมทั้งการเกิดอัคคีภัย เป็นต้น โดยปัญหาเหล่านี้ สามารถเกิดขึ้นได้หลายสาเหตุ นับตั้งแต่ภัยพิบัติโดยธรรมชาติ ไปจนถึงการก่อการร้าย เป็นต้น ขณะที่ปัญหาบางอย่าง สามารถแก้ไขได้ในทางเทคนิค ขณะที่บางปัญหาขนาดใหญ่ มากเสียจนต้องระดมทรัพยากรทั้งองค์กร รวมทั้งต้องว่าจ้าง องค์กรภายนอกมาแก้ไขปัญหา ทั้งหมดนี้เป็นความเสี่ยงที่สามารถเกิดขึ้นได้

               ในหลายๆกรณี ปัญหาที่เกิดขึ้น อยู่นอกเหนือที่องค์กรจะสามารถควบคุมได้ เช่น ปัญหาเกี่ยวกับระบบการจ่ายไฟฟ้า เช่นไฟดับ หรือ ปัญหาเกี่ยวกับการสื่อสารโทรคมนาคม เป็นต้น ปัญหาเหล่านี้ ทางองค์กรไม่สามารถให้หลักประกันในด้านความพร้อมของการบริการ เนื่องจากเป็นผู้รับบริการจากภายนอก ด้วยเหตุนี้ การจัดทำแผนงานเพื่อรับมือกับปัญหาที่เกิดขึ้นแบบฉุกเฉิน รวมทั้งแผนการทดสอบจึงเป็นสิ่งที่จำเป็น ในการรับมือกับความเสี่ยงต่อการหยุดชะงักของการให้บริการไอที และเมื่อมีแผนการรับมือกับเหตุฉุกเฉิน จำเป็นจะต้องพิจารณาดังนี้

  • เข้าใจกระบวนการทำงานของแผนรับมือต่อสถานการณ์ฉุกเฉิน ที่จะนำมาปฏิบัติใช้งานเพื่อให้การดำเนินงานด้านไอที รวมทั้งธุรกรรมด้านธุรกิจสามารถดำเนินต่อไปได้อย่างต่อเนื่อง
  • พัฒนาหรือทดสอบนโยบายรับมือต่อสถานการณ์ฉุกเฉิน รวมทั้งกระบวนการทำงาน ตลอดจนส่วนประกอบของแผนงาน รวมทั้ง การวิเคราะห์ผลกระทบที่มีต่อธุรกิจ การเลือกสถานที่ทำการสำรอง และกลยุทธ์การกู้คืนระบบ
  • พัฒนาหรือทดสอบนโยบายรับมือต่อสถานการณ์ฉุกเฉิน รวมทั้งกระบวนการทำงาน ที่เน้นการดูแลบำรุงรักษา การฝึกอบรม และแผนงานการทดสอบการรับมือต่อสถานการณ์ฉุกเฉิน

ตัวอย่างแผนปฏิบัติการเพื่อรับมือกับเหตุฉุกเฉิน อย่างน้อยควรครอบคลุมอุปกรณ์ในระบบไอทีต่อไปนี้ 

  • คอมพิวเตอร์ระดับ Desktops รวมทั้งเครื่องคอมพิวเตอร์ Laptop  
  •  Servers
  •  Web sites
  •  Local area networks
  •  Wide area networks
  •  Distributed systems
  • Mainframe systems.

กระบวนการบริหารจัดการแผนรับมือเหตุฉุกเฉิน และการบริหารความเสี่ยง

การบริหารความเสี่ยงปกติจะต้องครอบคลุมกิจกรรมที่มีความหลากหลายเพื่อระบุวิธีการควบคุมและลดความเสี่ยงให้กับระบบไอที จากมุมมองของ กิจกรรมการบริหารความเสี่ยง จากแผนปฏิบัติการรับมือเหตุฉุกเฉินจะเห็นว่า มี 2 หน้าที่หลักได้แก่ การบริหารความสี่ยงจะต้องสามารถระบุภยันตรายหรือภัยคุกคาม รวมทั้งช่องโหว่ เพื่อที่จะทำให้สามารถจัดทำแผนการควบคุมที่เหมาะสม และสามารถนำมาใช้งานได้อย่างถูกที่ถูกเวลา ทั้งนี้ก็เพื่อป้องกันเหตุไม่คาดฝันที่อาจเกิดขึ้น การควบคุมในที่นี้หมายถึงการป้องกันระบบไอทีจากภัยคุกคาม 3 ประเภทดังนี้

  • ภัยพิบัติทางธรรมชาติ —เช่น อุทกภัย และอัคคีภัย    
  • ภัยพิบัติจากน้ำมือมนุษย์ — การทำงานผิดพลาดหรือการใช้งานผิดวิธี การจารกรรมหรือวินาศกรรม ปัญหาการติดไวรัสของระบบและข้อมูลข่าวสาร ปัญหาการก่อการร้ายเป็นต้น 
  • ปัญหาสภาพแวดล้อม — การทำงานผิดพลาดของอุปกรณ์ในระบบ การทำงานผิดพลาดของระบบ Software การหยุดชะงักการให้บริการของระบบเครือข่ายโทรคมนาคม และระบบไฟฟ้าขัดข้อง

               ประการที่สอง การบริหารความเสี่ยงควรระบุความเสี่ยงที่เหลือ(นอกเหนือจากที่กล่าวมาแล้วทั้งสามข้อ) ซึ่งแผนฉุกเฉินจะต้องสามารถนำมาใช้งานได้อย่างถูกที่ถูกจังหวะ แผนฉุกเฉินจึงจะสามารถเชื่อมโยงอย่างใกล้ชิดกับผลการประเมินความเสี่ยงและกระบวนการลดความเสี่ยง รูปที่ 1 แสดงให้เห็นถึงความสัมพันธ์ระหว่างการระบุและการดำเนินการควบคุมความปลอดภัย, การพัฒนาและรักษาแผนฉุกเฉินและการดำเนินการตามแผนฉุกเฉินทันทีที่มีเหตุการณ์เกิดขึ้น

ภาพที่ 1 แสดงลำดับการทำงานของแผนงานรับมือกับเหตุฉุกเฉิน

 

               เพื่อให้มีประสิทธิภาพในการตรวจสอบความเสี่ยงที่เฉพาะเจาะจงกับระบบไอทีในระหว่างการหยุดชะงักของบริการ การประเมินความเสี่ยงของสภาพแวดล้อมของระบบไอทีจำเป็นต้องมี การประเมินความเสี่ยงอย่างละเอียดควรระบุช่องโหว่ที่จะถูกคุกคามและการควบคุมในสถานการณ์ปัจจุบันและพยายามที่จะกำหนดความเสี่ยงบนพื้นฐานของความเป็นไปได้และผลกระทบของภัยคุกคาม ความเสี่ยงเหล่านี้ควรได้รับการประเมินแล้วและระดับความเสี่ยงที่ได้ถูกกำหนดขึ้น (เช่นระดับสูงปานกลางหรือต่ำ)

เพราะลักษณะของความเสี่ยงจะแตกต่างไปตามกาลเวลาและความเสี่ยงใหม่ๆอาจเข้ามาแทนที่อย่างเป็นระบบดังนั้น วิวัฒนาการกระบวนการบริหารความเสี่ยงจำเป็นเกิดขึ้นอย่างต่อเนื่องและเป็นพลวัตร ผู้รับผิดชอบในการวางแผนฉุกเฉินไอทีจะต้องตระหนักถึงความเสี่ยงต่อระบบและรับรู้ว่าแผนฉุกเฉินในปัจจุบันสามารถที่จะรับมือกับความเสี่ยงที่เหลืออยู่อย่างสมบูรณ์และมีประสิทธิภาพ นอกจากนี้แผนรับมือกับสถานการณ์ฉุกเฉินยังจะต้องได้รับการดูแลหรือบำรุงรักษา และตรวจสอบหรือทดสอบเป็นระยะๆ 

ชนิดของแผน

การวางแผนรับมือเหตุการณ์ฉุกเฉินยังหมายถึงการกำหนดขอบเขตของกิจกรรมที่กว้างขวาง และออกแบบมาเพื่อรักษาและกู้คืนบริการด้านไอทีที่สำคัญ การวางแผนรับมือเหตุการณ์ฉุกเฉินควรมีการตระเตรียมความพร้อมที่จะรักษาความต่อเนื่องของการให้บริการไอทีรวมทั้งกระบวนการทางธุรกิจขององค์กร ตลอดจน การวางแผนการกู้คืน

เนื่องจากระบบไอทีและกระบวนการทางธุรกิจมีความสัมพันธ์กันโดยธรรมชาติ ดังนั้น ควรจะมีการประสานงานระหว่างแต่ละแผนในระหว่างการพัฒนาและการปรับปรุงเพื่อให้แน่ใจว่าทรัพยากรที่สนับสนุนการกู้คืนระบบ จะไม่มีปัญหา ขัดแย้งหรือซ้ำซ้อนกัน

               โดยทั่วไป แผนงานรับมือเหตุการณ์ฉุกเฉินยังไม่ได้ถูกกำหนดขึ้นเป็นมาตรฐานที่ชัดเจนในระดับสากล และการที่ยังไม่ได้ถูกกำหนดเป็นมาตรฐานดังกล่าว ก็อาจทำให้เกิดความสับสน เกี่ยวกับขอบเขตการทำงาน  และวัตถุประสงค์ต่างๆภายในแผน อย่างไรก็ดี ท่านสามารถนำเอาแนวทางที่เกี่ยวกับแผนรับมือฉุกเฉินจากองค์กรต่างๆ นำมาประกอบการพิจารณาเพื่อวางแผนรับมือกับเหตุการณ์ฉุกเฉินได้ 

Business Continuity Plan (BCP): BCP มุ่งเน้นไปที่การสนับสนุนการทำงานทางธุรกิจขององค์กรในระหว่างและหลังการหยุดชะงัก ตัวอย่างของหน้าที่การทำงานทางธุรกิจได้แก่ ขั้นตอนการจ่ายเงินเดือนขององค์กรหรือกระบวนการประมวลผลข้อมูลของผู้บริโภคหรือลูกค้า แผนงานของ BCP อาจถูกเขียนขึ้นสำหรับกระบวนการทางธุรกิจที่เฉพาะเจาะจงหรืออาจครอบคลุมกระบวนการทางธุรกิจทั้งหมดที่สำคัญ

               จุดประสงค์หลักของ BCP คือการจัดทำกระบวนการพิสูจน์ทราบองค์กรที่อาจพบกับ ปัญหาการคุกคามต่างๆทั้งที่มาจากภายในและภายนอก และกำหนดให้มีการป้องกันสินทรัพย์ในทุกรูปแบบรวมทั้งการกู้คืนกลับสู่องค์กร โดยที่ยังรักษาความสามารถในเชิงแข่งขัน และรักษาคุณค่าไว้ได้อย่างครบถ้วน บางครั้งยังถูกเรียกว่า การวางแผนเพื่อให้เกิดความต่อเนื่องของธุรกิจ และความยืดหยุ่น (BCRP) แผนการสร้างความต่อเนื่องทางธุรกิจเป็นหนทางสำหรับการปฏิบัติงานเพื่อรักษาความต่อเนื่องของระบบธุรกิจในกรณีที่ต้องเผชิญกับสภาวะร้ายแรง เช่นปัญหาจากวาตภัย หรืออาชญากรรม เป็นต้น  

ภาพที่ 2 แผนงาน BCP

 

               แผนงานของ BCP ประกอบด้วยการพิสูจน์ทราบถึงภัยคุกคาม หรือสิ่งที่อาจเป็นความเสี่ยงที่จะทำให้กระบวนการธุรกิจเกิดหยุดชะงัก โดยการประเมินความเสี่ยง จากนั้นนำข้อมูลที่รวบรวมได้มาทำการวิเคราะห์ถึงผลกระทบในทางธุรกิจ โดยกำหนดมูลค่า ของความเสียหาย การวิเคราะห์นี้ใช้แนวทางของ Business Impact Analysis หรือ BIA หลังจากที่ได้ผลลัพธ์จากการวิเคราะห์แล้ว ก็มาสู่ขั้นตอนของการออกแบบกลยุทธ์หรือแผนงาน ป้องกัน การดูแลรักษา การกู้คืนระบบ และมีการกำหนดสินทรัพย์ที่เกี่ยวข้องกับความเสี่ยงทั้งปวง ตลอดจนแนวทางป้องกัน หลังจากขั้นตอนนี้ ก็เป็นการพัฒนาแผนงานในเชิงปฏิบัติ รวมทั้งจัดตั้งวิธีการดูแลรักษาแผนงาน ส่วนขั้นตอนสุดท้ายได้แก่ การนำเอาแผนงานนี้ไม่ดำเนินการทดสอบ และให้การอบรม หรือจัดทำเป็นเป็นองค์ความรู้ เพื่อให้ตระหนักถึงแผนงานดังกล่าว รวมทั้งวิธีการดูแลรักษาแผนงาน นอกจากนี้ยังต้อง ประสานงานกับหน่วยธุรกิจในทุกภาคส่วน ตลอดจนไอที

ภาพที่ 3 เฟสการทำงานของ BCP

 

กระบวนการทำงานของแผนงาน BCP

  • เฟสที่ 1 การเริ่มต้น : ภายใต้เฟสที่ 1 นี้มีการกำหนดขอบเขตการทำงานในระดับสูงสุดเท่าที่ทำได้ มีการตรวจสอบขอบเขตของแผนงาน การกำหนดสินทรัพย์ต่างๆรวมทั้งหน่วยงานต่างๆที่เกี่ยวข้อง นอกจากนี้ยังต้องระบุผู้ที่มีส่วนได้ส่วนเสียกับแผนงานนี้ รวมทั้งผู้บริหารที่ให้การสนับสนุน ตลอดจนจัดตั้งคณะทำงาน ที่ประกอบด้วยผู้ชำนาญการต่างๆในองค์กร ในขั้นตอนหรือเฟสนี้เป็นการ กำหนดวัตถุประสงค์ และขอบข่ายของแผนงาน รวมทั้งการฝึกอบรมหรือให้ความรู้เกี่ยวกับการดำเนินงานของแผนงานดังกล่าว
  • เฟสที่ 2 การวิเคราะห์ผลกระทบทางธุรกิจ(Business Impact Analysis - BIA) และการประเมินความเสี่ยง : การวิเคราะห์ผลกระทบทางธุรกิจเป็นขั้นตอนต่อไปในการสร้างแผนความต่อเนื่องทางธุรกิจ ส่วนหนึ่งของกระบวนการนี้ถูกใช้เป็นพื้นฐานของความการดำเนินการใด ๆ ในการวางแผนการกู้คืนการทำงานได้ ซึ่งจะรวมถึงการวิเคราะห์ผลกระทบที่มีต่อทุกฟังก์ชันและกระบวนการทางธุรกิจที่สำคัญพร้อมกับภัยคุกคามที่มีต่อขีดความสามารถในการทำงาน ในเฟสนี้ยังมีการระบุลำดับความสำคัญของความเสี่ยงที่จะต้องรีบดำเนินการแก้ไขโดยด่วน รวมทั้งยังต้องกำหนดหรือระบุจุดตายของระบบ (single Point of Failure) และวิธีการรับมือกับปัญหานี้ นอกจากนี้การพึ่งพาอาศัยจากภายนอกองค์กร ก็ยังต้องมีการ ระบุผลกระทบที่มีต่อธุรกิจโดยรวมเช่นกัน

       ขณะเดียวกันยังต้องมีการกำนดวัตถุประสงค์ของการกู้คืน  และกรอบเวลาของการกู้คืน

วัตถุประสงค์และกระบวนการของการกู้คืนจะต้องมีการสื่อสารไปทั่วทั้งองค์กรเพื่อให้มีความเข้าใจ และมี

การประสานงานที่ดี รวมทั้งกำหนดแนวปฏิบัติการที่ดีมีประสิทธิภาพมากที่สุด

  • เฟสที่ 3 การพัฒนากลยุทธ์ :  ใช้ประโยชน์จากข้อมูลที่ได้จาก BIA และการประเมินความเสี่ยง องค์กรจะต้องสามารถระบุได้ว่า อะไรที่เป็นเป็น “แกน (Core)” หรือภารกิจที่สำคัญ รวมทั้งกำหนดกลยุทธ์ที่จะบริหารความเสี่ยงที่ได้ถูกระบุไว้ก่อนหน้านี้ ในขั้นตอนการประเมินความเสี่ยง (ประกอบด้วยจุดที่เสี่ยง การบรรเทาหรือความเสียหายในระดับที่ยอมรับได้) กรอบเวลาที่สำคัญและผลกระทบจากการวิเคราะห์โดย BIA จะถูกนำมาใช้ในการกำหนดกลยุทธ์ฉุกเฉิน ซึ่งจะต้องตอบสนองต่อผลจากการวิเคราะห์โดย BIA เพื่อให้เกิดประสิทธิภาพทั้งต้นทุนและเวลาของการตอบสนองต่อปัญหาที่เกิด
  • เฟสที่ 4 การพัฒนาแผนการสร้างความต่อเนื่องของธุรกิจ : บนพื้นฐานการทำงานของเฟส 1 – 3 ทำให้สามารถสร้างแผนงานความต่อเนื่องทางธุรกิจขึ้นได้ และเตรียมการส่งมอบงานหลักของโครงการ  แผน BC จะต้องรวมถึงแผนงาน DR ในระดับแผนก แผนงานตอบสนองจากซัพพลายเออร์ภายนอก และอื่นๆที่เป็นทำนองเดียวกัน แผนงานของการสร้างความต่อเนื่องทางธุรกิจ ยังต้องมีการปรับปรุงตามปกติ

ส่วนประกอบหลักของแผนการสร้างความต่อเนื่องธุรกิจ อย่างน้อยต้องครอบคลุมสิ่งเหล่านี้      

  • แผนงานการสื่อสารและการประสานงาน : การสื่อสารเป็นกุญแจสำคัญสำหรับวิกฤติการใดๆ แผนการสื่อสารและการประสานงาน ควรกำหนดให้มีการจัดตั้งช่องทางการสื่อสารที่จะใช้ในระหว่างการดำเนินการเพื่อสร้างความต่อเนื่องของธุรกิจ และต้องกำหนด ชุดของคำสั่งการ สำหรับการประสานงานในขณะที่มีความพยายามที่จะสร้างความเนื่องของธุรกิจ รวมทั้งกำหนดสื่อที่จะใช้เพื่อการสื่อสาร และรวมถึงขั้นตอนการแจ้งเตือนสำหรับซัพพลายเออร์ที่สำคัญ ผู้ขายรวมทั้งลูกค้าขององค์กร
  • แผนงานตอบสนองต่อเหตุการณ์ฉุกเฉิน :  แผนงานตอบสนองต่อเหตุการณ์ฉุกเฉินจะระบุการตอบสนองต่อสถานการณ์ฉุกเฉินซึ่งได้ถูกกำหนดว่าเป็นความเสี่ยงที่ก่อให้เกิดอันตรายต่อชีวิตทรัพย์สินหรือสิ่งแวดล้อม ซึ่งรวมถึงเครื่องมือที่แจ้งเหตุฉุกเฉินเช่นอีเมล์, โทรศัพท์, SMS, โทรสารหรือเพจเจอร์
  • เฟสที่ 5 การทดสอบแผนงานสร้างความต่เนื่องทางธุรกิจ : เพื่อที่จะตระหนักรู้ว่า แผนงานสร้างความต่อเนื่องของธุรกิจนั้น จะประสบผลสำเร็จได้มากน้อยสักเพียงใด จำเป็นจะต้องทดสอบดูว่า แอพพลิเคชั่นและบุคคลากรที่เกี่ยวข้อง รวมทั้งกระบวนการทำงานของแผนงาน สามารถทำงานได้เป็นไปตามที่คาดหวัง การทดสอบแผนงานถือเป็นเป็นกฎระเบียบเช่นกัน เนื่องจากเป็นการกำหนดว่า บ่อยครั้งเพียงใดที่จะมีการทดสอบ การทดสอบเป็นไปในระดับเท่าใด และ วิธีที่เราจะตัดสินความสำเร็จหรือความล้มเหลวของการทดสอบอย่างไร และเมื่อมีการตัดสินใจเลือกใช้แผนงานสร้างความต่อเนื่องทางธุรกิจแล้ว ก็จะมีการทดสอบซ้ำแล้วซ้ำอีกในฐานะที่เป็นงานประจำที่ต้องปฏิบัติอย่าง  น้อย 2 ครั้งต่อปี
  • เฟสที่ 6 การดูแลบำรุงรักษาแผนงาน : แผนงานที่ล้าสมัย ก็ยังดีกว่าไม่มีแผนงานใดๆเลย องค์กรส่วนใหญ่ พยายามอย่างยิ่งที่จะรักษาและปรับปรุง แผนงานสร้างความต่อเนื่องของธุรกิจ ด้วยการจัดทำกระบวนการกู้คืน ที่มีประสิทธิภาพมากที่สุด ด้วยเทคโนโลยีและวิธีการใหม่ๆ มีการปรับปรุงจุดประสงค์และแผนงานการกู้คืน จุดเสี่ยงใหม่ๆที่ต้องเฝ้าระวัง และวิธีการกู้คืน และทำเป็นแผนงานเชิงปฏิบัติ รวมทั้งการกำหนดมาตรการและความรับผิดชอบ เพื่อรับมือกับเหตุฉุกเฉิน

แผนงานที่เกี่ยวข้องกับ BCP

  • แผนเริ่มต้นธุรกิจใหม่ (Business Resumption Plan)
  • แผนครอบครองฉุกเฉิน (Occupant Emergency Plan)
  • แผนการจัดการกับปัญหาที่เกิดขึ้น (Incident Management Plan)
  • แผนปฏิบัติการเพื่อให้กิจการดำเนินต่อเนื่อง (Continuity of Operation Plan)
  • แผนการกู้คืนระบบ (Disaster Recovery Plan)

Business Recovery Plan (BRP) หรือบางที่เรียกว่า Business Resumption Plan. BRP เป็นแผนงานฟื้นฟู กระบวนการทางธุรกิจหลังจากที่มีเหตุฉุกเฉินเกิดขึ้น สิ่งที่ต่างกับ BCP  คือขาดขั้นตอนเพื่อให้มีความต่อเนื่องของกระบวนการธุรกิจที่สำคัญตลอดช่วงเวลาที่เกิดเหตุฉุกเฉินหรือการหยุดชะงักของธุรกิจ อย่างไรก็ดี แผนงาน BRP สามารถผนวกเข้าไปเป็นส่วนหนึ่งของกระบวนการ BCP

Continuity of Operations Plan (COOP)  จุดประสงค์ของ COOP ก็เพื่อให้แน่ใจว่าผลการดำเนินงานการสร้างความต่อเนื่องของฟังก์ชั่นที่สำคัญของธุรกิจในระหว่างเกิดเหตุฉุกเฉินสามารถทำได้อย่างมีประสิทธิภาพ แผนงานนี้เป็นการรวบรวมเอา ชุดของทรัพยากร ขั้นตอนการดำเนินงาน และข้อมูลที่มีการพัฒนาทดสอบและจัดขึ้นเพื่อเตรียมความพร้อมสำหรับการใช้งานในกรณีที่เกิดการหยุดชะงักในภาวะวิกฤติ การวางแผน COOP จะช่วยเตรียมความพร้อมให้กับหน่วยงานขององค์กร ในการรักษาการดำเนินงานภารกิจที่สำคัญยิ่งหลังจากที่เกิดเหตุฉุกเฉินหรือภัยพิบัติ

ภาพที่ 4 วงจรการทำงานของ COOP

 

จุดประสงค์ของแผนงาน COOP

  • ให้มีการดำเนินงานทางธุรกรรมอย่างต่อเนื่องและรักษาความมีประสิทธิภาพ ของแผนกที่สำคัญต่างๆขององค์กรในทุกสถานการณ์ที่เกิดขึ้น
  • ตรวจสอบให้แน่ใจถึงความอยู่รอดของอุปกรณ์ที่สำคัญ ข้อมูลบันทึกและสินทรัพย์อื่น ๆ
  • ลดความเสียหายทางธุรกิจและการสูญเสียขององค์กร
  • บรรลุการตอบสนองอย่างเป็นระเบียบและมีแบบแผนและการกู้คืนจากเหตุการณ์ที่เกิดขึ้น
  • ทำหน้าที่เป็นรากฐานสำหรับโปรแกรม COOP ขององค์กร
  • ต้องแน่ใจว่าองค์กรจะต้องอยู่รอดในช่วงเกิดเหตุการณ์รุนแรงที่สุด

แผนงาน การสื่อสารช่วงก่อนและขณะเกิดวิกฤติ (Crisis Communication Plan) องค์กรควรเตรียมความพร้อมสำหรับการสื่อสารทั้งภายในและภายนอก ก่อนที่จะเกิดเหตุการณ์วิกฤติหรือ ภัยพิบัติ แผนการสื่อสารมักจะถูกพัฒนาโดยหน่วยงาน ที่รับผิดชอบในการบริการสาธารณะ วางแผนการสื่อสารสำหรับช่วงการเกิดวิกฤติ ควรจะประสานงานกับแผนอื่น ๆ ทั้งหมดเพื่อให้แน่ใจว่าได้รับการอนุมัติงบเพียงพอต่อการดำเนินการ เพื่อให้การสื่อสารที่ดี ควรกำหนดบุคคลผู้มีอำนาจเฉพาะสำหรับการตอบคำถามจากประชาชนเกี่ยวกับการรับมือกับภัยพิบัติ นอกจากนี้ยังอาจรวมถึงขั้นตอนในการเผยแพร่รายงานสถานะให้กับบุคลากรและให้กับประชาชน

Cyber Incident Response Plan.  เป็นแผนการเพื่อกำหนดวิธีและขั้นตอนการตอบสนองการโจมตีไซเบอร์หรือระบบไอทีขององค์กร  ขั้นตอนเหล่านี้ถูกออกแบบมาเพื่อช่วยให้เจ้าหน้าที่รักษาความปลอดภัยสามารถบรรเทาและกู้คืนจากเหตุการณ์ที่เกิดขึ้น เช่นการเข้าถึงระบบคอมพิวเตอร์และข้อมูลขององค์กรโดยไม่ได้รับอนุญาต รวมทั้งการโจมตีแบบการปฏิเสธการให้บริการ (Denial of Service Attack – DoS) หรือการเปลี่ยนแปลงไม่ได้รับอนุญาตที่มีต่อฮาร์ดแวร์หรือระบบซอฟแวร์หรือข้อมูล (เช่นภยันตรายที่เกิดจากไวรัสเวิร์มหรือม้าโทรจัน) แผนนี้อาจจะถูกรวมอยู่ในหมู่ภาคผนวกของ BCP

ภาพที่ 5 ขั้นตอนของแผนงานการตอบสนองต่อเหตุการณ์ของระบบ Cyber

 

               แผนการนี้ประกอบด้วยลำดับขั้นตอนดังนี้

ขั้นตอนการเตรียมการ : เมื่อทีมงานมีการเตรียมการรับมือเหตุการณ์ที่เกิดขึ้น ท่านจะต้องสามารถระบุได้ว่า จุดใดเป็นจุดที่จะเกิดปัญหาหรือความเสี่ยงในองค์กรได้ การวิเคราะห์ความเสี่ยงเป็นสิ่งสำคัญ เพื่อพิจารณาเหตุการณ์ที่มีแนวโน้มที่จะเกิดขึ้นกับสินทรัพย์ข้อมูลของ องค์กรรวมทั้งกับเจ้านายของท่าน นอกจากนี้ท่านจะต้องระบุความเสี่ยงอะไรบ้างที่องค์กรจะเผชิญหน้า และเตรียมแผนงานตลอดจนทรัพยากรต่างๆเพื่อรับมือกับเหตุการณ์ที่อาจจะเกิดขึ้น

ขั้นตอนการตรวจสอบและวิเคราะห์ : มีหลายวิธีการที่ทีมงานตอบสนองต่อเหตุการณ์ที่เกิดขึ้นสามารถตรวจสอบการรักษาความปลอดภัยเช่นการแจ้งเตือนจากระบบการตรวจสอบหรือเฝ้าดูการทำงานของระบบไอที หรือแม้กระทั่งรายงานจากเจ้านายของท่านเอง ในกรณีข้างต้นทีมงานจะได้รับความกดดันอย่างมากจากผู้ร้องเรียนที่อยากรู้ถึงสิ่งที่เกิดขึ้นและดำเนินการกับผู้ที่รับผิดชอบเหตุการณ์ที่เกิดขึ้น

               สรุปในขั้นตอนนี้ ท่านจะต้องนำเอาข้อมูลที่ได้จากการเฝ้าระวังมาดำเนินการวิเคราะห์ จัดทำบันทึกและรายงาน

ขั้นตอนการบรรจุวิธีการกำจัดและการกู้คืน: เมื่อมีการระบุว่าเหตุการณ์ที่เกิดขึ้นเป็นเหตุการณ์เกี่ยวกับการรักษาความปลอดภัยข้อมูลให้ประเมินสถานการณ์ และกำหนดกลยุทธ์ การกำจัด และการกู้คืนที่สามารถทำงานร่วมกับกลยุทธ์ของ บริษัท และนำเสนอต่อเจ้านายของท่าน และใช้ มุมมองด้านเลวร้ายที่สุด ขั้นตอนนี้ ยังต้องมีการวางแผนการจัดเก็บหลักฐาน และช่วงเวลาของการเกิดเหตุการณ์ ตลอดจน วิธีการจัดทำรายงานเกี่ยวกับเหตุการณ์ตลอดจนวิธีการแก้ไขปัญหาที่เกิดขึ้น

กิจกรรมหลังเหตุการณ์: หลังจากที่ได้บรรจุการกำจัดและการกู้คืนจากเหตุการณ์ที่เกิดขึ้น รวมทั้งได้พบปะพูดคุยกับเจ้านายและผู้มีส่วนได้ส่วนเสียอื่น ๆ ของท่านและหารือเกี่ยวกับบทเรียนที่ได้รับและให้คำแนะนำเพื่อป้องกันไม่ให้เกิดเหตุการณ์ทำนองนี้เกิดขึ้นอีก รวมทั้งการตอบสนองต่อเหตุการณ์ที่เกิดขึ้นในอนาคตได้อย่างมีประสิทธิภาพ แนวความคิดคือการรักษาความมุ่งมั่นจากเจ้านายของท่าน ด้วยขั้นตอนการรักษาความปลอดภัยข้อมูล และแนวทางป้องกันเหตุการณ์ทั้งหมดที่อาจเกิดขึ้นในอนาคต

IT Service Continuity Management (ITSCM) แผนงานนี้ เป็นส่วนหนึ่งในขั้นตอนการออกแบบ Service ภายใต้ ITIL ในช่วงเฟสของการออกแบบ Service (Service Design)

ITSCM มีไว้เพื่อสนับสนุน Business Continuity โดยการทำให้เกิดความแน่ใจว่า อุปกรณ์หรือสิ่งอำนวยความสะดวกที่ต้องการ เช่น ระบบคอมพิวเตอร์ ระบบเครือข่าย สามารถกลับคืนสู่สภาพเดิม ภายในกรอบเวลาที่กำหนด

ภาพที่ 6 แสดงขั้นตอนการดำเนินงานของ ITSCM

 

กิจกรรม

               กระบวนการทำงานประกอบด้วยเฟสการทำงาน 4 เฟสดังนี้

  • Initiation    เฟสนี้ครอบคลุมทั้งองค์กร และรวมเอากิจกรรมดังต่อไปนี้
    • นิยามขอบข่ายของนโยบาย
    • กำหนดเจาะจงเงื่อนไขและขอบข่ายงาน
    • จัดหาแหล่ง (บุคคลากร ทรัพยากร และเงินทุน)
    • นิยามโครงการจัดตั้งองค์กร และบริหารโครงสร้างขององค์กร
    • รับรอง และอนุมัติโครงการรวมทั้งแผนงานเกี่ยวกับคุณภาพ
    • ความต้องการและกลยุทธ์    เป็นการกำหนดความต้องการทางธุรกิจสำหรับ ITSCM ประกอบด้วย
      • ความต้องการที่ 1   Business Impact Analysis (BIA) วิเคราะห์ผลกระทบของการสูญเสียการให้บริการ หากผลกระทบนี้ สามารถแสดงรายละเอียดได้ เราเรียกว่า “Hard Impact” เช่น Financial Loss ส่วน Soft Impact นั้นยากที่จะบ่งชี้ได้ เช่น ผลกระทบต่อสังคม ขวัญกำลังใจ และสุขภาพ
      • ความต้องการที่ 2    การประมาณการณ์ความเสี่ยง หรือการประเมินความเสี่ยงที่อาจเกิดขึ้น วิธีการมาตรฐาน อย่างเช่น การบริหารความเสี่ยงทั่วไป สามารถถูกนำมาใช้เพื่อสืบหาและบริหารจัดการกับความเสี่ยง
      • กลยุทธ์ 1    การตรวจวัดความเสี่ยงที่ลดลง     การวัดการลดลงของความเสี่ยง จะต้องทำควบคู่กับ Availability Management การตรวจวัดอาจอาจรวมไปถึงระบบ Fault Tolerance การควบคุมรักษาความปลอดภัยที่มีประสิทธิภาพ
      • กลยุทธ์ 2  IT Recovery Options    Continuity Strategy จะต้องนำมาชั่งน้ำหนักกับ Cost ของจากการวัดการลดความเสี่ยงกับ การกู้คืน (Manual Work Around,  Reciprocal Arrangements, Gradual recovery, Intermediate Recovery, Fast Recovery, และ Immediate Recovery เหล่านี้เป็นมาตรวัด ความสามารถในการลดความเสี่ยง)
      • Implementation    เป็นการนำเอาแผนงาน ITSCM ไปใช้งานเชิงปฏิบัติ
      • Operationalization    เฟสนี้ประกอบด้วย
        • การศึกษา และการตื่นตัวที่จะอบรมบุคคลากร
        • ทบทวน และตรวจสอบ
        • ทดสอบ
        • บริหารการเปลี่ยนแปลง
        • ทดสอบขั้นสุดท้าย

กิจกรรมที่เป็นกุญแจหลัก

ดำเนินการวิเคราะห์ผลกระทบทางธุรกิจ (Business Impact Analysis (BIA) โดยการพิสูจน์ทราบ ดังนี้ 

  • กระบวนการทางธุรกิจที่อาจได้รับผลกระทบ และเกิดวิกฤติ และ ลักษณะหน้าที่การทำงานของธุรกิจ 
  • ศักยภาพที่จะทำให้เกิดความเสียหาย หรือการสูญเสียเนื่องจากเกิดความยุ่งเหยิงไร้ระเบียบ 
  • ทรัพยากรที่จำเป็นที่จะทำให้สามารถขับเคลื่อนกระบวนการทางธุรกิจให้ดำเนินการต่อไปได้
  • การกู้คืนสิ่งอำนวยความสะดวกและบริการขั้นต่ำ ภายใต้การถูกบังคับโดยกรอบของเวลา
  • การกู้คืนสิ่งอำนวนความสะดวกและการบริการ ชนิดเต็มรูปแบบ ภายใต้การถูกบังคับโดยกรอบของเวลา 

การประเมินความเสี่ยง :

  • รวบรวมข้อมูลข่าวสารเกี่ยวกับสินทรัพย์ (ส่วนประกอบต่างๆที่เกี่ยวข้องกับระบบ IT ขององค์กร)
  • ภยันตรายที่มาจากแห่งภายในและภายนอก (ที่อาจมีท่าทีว่าจะเกิดขึ้นได้)
  • ช่องโหว่ต่างๆ (เป็นผลกระทบอื่นๆที่อาจส่งผลต่อองค์กร) 

Input และ Output

Input

  • ข่าวสารเกี่ยวกับธุรกิจขององค์กร (แผนงาน และยุทธศาสตร์ขององค์กร)
  • ข่าวสารเกี่ยวกับ IT
  • ข่าวสารเกี่ยวกับการเงิน
  • ข่าวสารเกี่ยวกับการเปลี่ยนแปลง (จาก Change Management)

Output

  • ทบทวนนโยบาย ITSCM
  • Business Impact Analysis (BIA)
  • ข้อมูลที่ได้จากการวิเคราะห์ความเสี่ยง
  • แผนงานสำหรับการกู้คืนระบบ การทดสอบ และการบริหารภาวะวิกฤติ (Crisis Management)

ภาพที่ 7 ภาพรวมของ ITSCM

 

               กระบวนการบริหารจัดการ ITSCM จำเป็นต้องมีผู้รับผิดชอบดูแลกระบวนการทำงาน เพื่อให้เกิดประสิทธิภาพ เป็นไปตามแผนงาน จึงกำหนดให้มีตำแหน่ง ITSCM Manager

ความต้องการเกี่ยวกับ ITSCM Manager

  • ความรู้เกี่ยวกับธุรกิจ (ช่วยในการจัดตั้ง Priority)
  • มีความสงบเยือกเย็นภายใต้ความกดดัน
  • มีความสามารถเชิงวิเคราะห์ (สามารถแก้ปัญหาได้)
  • มีความเป็นผู้นำ และเป็นผู้เล่นในทีม (Team Players)
  • เป็นนักต่อรอง และสื่อสาร

แผนงานกู้คืนระบบ (Disaster Recovery Plan (DRP)) แผนกู้คืนระบบ (DRP) เป็นกระบวนการที่ถูกจัดทำขึ้นในรูปแบบของเอกสาร หรือชุดของขั้นตอนการกู้คืนและปกป้องธุรกิจ รวมทั้งโครงสร้างพื้นฐานด้านไอทีในกรณีที่เกิดภัยพิบัติ แผนดังกล่าวโดยปกติจะเป็นเอกสารที่ระบุ ขั้นตอน การปฏิบัติตามของทีมงานในองค์กร ในกรณีภัยพิบัติ และขั้นตอนการปฏิบัตินี้ ถูกนำมาใช้ก่อนหรือหลังเกิดเหตุภัยพิบัติ โดยที่ภัยพิบัตินี้ อาจเกิดขึ้นจากธรรมชาติ หรือสิ่งที่มนุษย์ทำขึ้นมา ไม่ว่าจะเกิดจากความผิดพลาดหรือเจตนาก็ตาม ภายใต้แผนงานนี้ มีการกำหนดทีมงานและทรัพยากรที่เกี่ยวข้อง ตลอดจน แผนการทดสอบซ้อมรับเหตุการณ์วิกฤติ รวมทั้งวิธีการกู้คืน การจัดตั้งสถานที่ทำงานสำรอง หรือระบบสำรอง เพื่อทดแทนหรือทำงานแทนระหว่างที่เกิดเหตุวิกฤติขึ้น โดยแผนงานนี้อาจถูกผนวกเข้าไปในแผน BCP

ได้เช่นกัน

ภาพที่ 8 ติดตั้งสถานที่ทำงานสำรอง เพื่อให้การดำเนินงานด้านไอทีเกิดความต่อเนื่อง

 

 ประโยชน์ที่ได้จากแผนงานกู้คืนระบบ

  • เพื่อให้เกิดความตระหนักถึงความปลอดภัย รวมทั้งผลกระทบที่จะเกิดขึ้น
  • ช่วยลดความเสี่ยงต่อการหน่วงเวลาที่เกิดขึ้นขณะแก้ไขปัญหาที่เกิดขึ้น
  • เพื่อเป็นหลักประกันถึงความน่าเชื่อถือของระบบสำรอง
  • เพื่อกำหนดมาตรฐานของแผนงานรับมือกับปัญหาวิกฤติและการทดสอบ
  • เพื่อลดเวลาการตัดสินใจในระหว่างที่เกิดเหตุวิกฤติ
  • เพื่อการลดหนี้สินที่อาจเกิดขึ้นตามกฎหมาย
  • เพื่อลดสภาพแวดล้อมการทำงานที่เคร่งเครียดโดยไม่จำเป็น

Occupant Emergency Plan (OEP)  แผนงาน OEP จะให้ขั้นตอนการตอบสนองสำหรับตัวตนและตำแหน่งที่ตั้ง ของสิ่งอำนวยความสะดวก รวมทั้งโครงสร้างพื้นฐาน ในกรณีที่มีสถานการณ์ที่อาจเป็นเป็นภัยคุกคามต่อสุขภาพและความปลอดภัยของบุคคลากร รวมทั้งสภาพแวดล้อม และสถานที่ให้บริการไอทีรวมทั้งองค์กร เหตุการณ์ดังกล่าวจะรวมถึงไฟไหม้ ปัญหาวาตภัย การโจมตีทางไซเบอร์ การก่อคดีทางอาญาหรือเหตุฉุกเฉินทางการแพทย์ OEPs มีการพัฒนาสิ่งอำนวยความสะดวกในระดับที่เฉพาะเจาะจงตามที่ตั้งทางภูมิศาสตร์และการออกแบบโครงสร้างของอาคาร  แผน OEP อาจถูกผนวกเข้ากับ BCP ได้ แต่จะดำเนินการแยกจากกัน

สรุปชนิดของแผนงานที่ได้กล่าวมาทั้งหมด

แผนงาน

จุดประสงค์

ขอบข่ายงาน

Business Continuity Plan (BCP)

เพื่อให้มีวิธีการหรือกระบวนการสนับสนุนให้ธุรกิจที่สำคัญสามารถดำเนินการต่อไปอย่างต่อเนื่องในขณะที่กำลังกู้คืนระบบที่กำลังมีปัญหา

กำหนดให้มีแผนงานสนับสนุนการทำงานที่ต่อเนื่องของ กระบวนการธุรกิจ รวมทั้งกระบวนการทำงานของระบบไอทีในองค์กร

Business Recovery Plan (BRP)

ใช้เพื่อฟื้นฟู กระบวนการทางธุรกิจหลังจากที่มีเหตุฉุกเฉินเกิดขึ้น

เน้นที่กระบวนการทางธุรกิจมากกว่ากระบวนการทำงานของไอที โดยเน้นที่สิ่งสนับสนุนต่อกระบวนการทำงานของธุรกิจ

Continuity of Operations Plan (COOP)

จุดประสงค์ของ COOP ก็เพื่อให้แน่ใจว่าผลการดำเนินงานการสร้างความต่อเนื่องของฟังก์ชั่นที่สำคัญของธุรกิจในระหว่างเกิดเหตุฉุกเฉินสามารถทำได้อย่างมีประสิทธิภาพ

เน้นที่ภารกิจรองหรือภารกิจย่อยขององค์กร ที่ เห็นพ้องต้องกันว่าเป็นสิ่งสำคัญยิ่ง โดยเน้นที่สำนักงานใหญ่ โดยไม่เน้นเจาะจงที่ระบบไอที

IT Service Continuity Management (ITSCM)

มีจุดมุ่งหมายในการจัดการความเสี่ยงที่อาจส่งผลกระทบอย่างจริงจังต่อบริการด้านไอที เพื่อให้แน่ใจว่าผู้ให้บริการไอทีสามารถให้ข้อตกลงระดับขั้นต่ำของบริการโดยการลดความเสี่ยงจากเหตุการณ์ของภัยพิบัติในระดับที่ยอมรับได้และการวางแผนสำหรับการกู้คืนของบริการด้านไอที ITSCM ควรจะออกแบบมาเพื่อสนับสนุนการบริหารความต่อเนื่องทางธุรกิจ

เพื่อให้แน่ใจว่าสามารถรักษาความลับ ความถูกต้องของสินทรัพย์ขององค์กร, ข้อมูล,
การบริการข้อมูลและระบบไอทีจะยังคงอยู่อย่างต่อเนื่อง

แผนงาน การสื่อสารช่วงก่อนและขณะเกิดวิกฤติ (Crisis Communication Plan)

เพื่อให้เกิดประสิทธิภาพของการสื่อสารหลังจากที่เกิดปัญหาเหตุฉุกเฉิน สำหรับภายในและภายนอกขององค์กร

จัดทำแผนงานเกี่ยวกับการสื่อสาร สื่อที่จะใช้เพื่อสื่อสาร ผู้ที่ต้องรับผิดชอบต่อการสื่อสาร และการประสานงานทั้งภายในและภายนอกองค์กร

แผนงานกู้คืนระบบ (Disaster Recovery Plan (DRP))

เพื่อให้มีการจัดทำแผนงานเพื่อรับมือและกู้คืนระบบหลังจากที่เกิดเหตุการณ์ฉุกเฉิน ที่อาจทำให้ระบบธุรกิจหรือระบบไอทีหยุดชะงัก และเพื่อให้กระบวนการทางธุรกิจสามารถดำเนินต่อไปได้

กำหนดทีมงานและทรัพยากรที่เกี่ยวข้อง ตลอดจน แผนการทดสอบซ้อมรับเหตุการณ์วิกฤติ รวมทั้งวิธีการกู้คืน การจัดตั้งสถานที่ทำงานสำรอง หรือระบบสำรอง เพื่อทดแทนหรือทำงานแทนระหว่างที่เกิดเหตุวิกฤติขึ้น

Cyber Incident Response Plan

จัดทำกลยุทธ์เพื่อการตรวจสอบและตอบสนองเหตุการณ์ที่จะเป็นภัยคุกคามต่อระบบไอทีขององค์กร รวมทั้งสิ่งที่สนับสนุนต่อกระบวนการธุรกิจขององค์กร

เน้นไปที่การรักษาความปลอดภัยของข้อมูลข่าวสาร รวมทั้งสิ่งอำนวยความสะดวกของระบบไอที การจัดทำแผนการป้องกัน

Occupant Emergency Plan (OEP)

เพื่อให้มีวิธีการประสานงานเพื่อลดความสูญเสียชีวิตและบาดเจ็บหรือป้องกันการเกิดความเสียหายของสินทรัพย์ขององค์กรในเชิงกายภาพ

เน้นไปที่ตัวบุคคล และสินทรัพย์ต่างๆขององค์กร โดยไม่ได้เกี่ยวข้องกับกระบวนการทางธุรกิจ หรือระบบการทำงานของไอที

ตารางที่ 1 เปรียบเทียบแผนงานแบบต่างๆ

ภาพที่ 9 แสดงวงจรของแผนงานสร้างความต่อเนื่องของธุรกิจ

 

การพัฒนาแผนงานรับมือเหตุฉุกเฉินและวัฐจักรของการพัฒนาระบบ 

การพัฒนาระบบวงจรชีวิต (System Development Life Cycle - SDLC) หมายถึงขอบเขตของกิจกรรมเต็มรูปแบบ ที่ดำเนินการโดยเจ้าของระบบที่เกี่ยวข้องกับระบบในระหว่างช่วงชีวิตของมัน วงจรชีวิตดังกล่าว ดูภาพ  xxx  จะเห็นว่ามีเฟสของจุดเริ่มต้นและจบลงด้วยเฟสของ disposal  แม้ว่าการวางแผนระบบฉุกเฉินมีความเกี่ยวข้องกับกิจกรรมที่เกิดขึ้นในขั้นตอนการดำเนินงาน / การบำรุงรักษามาตรการฉุกเฉินควรจะระบุและต้องเกิดบูรณาการในทุกเฟสของระบบคอมพิวเตอร์ วงจรชีวิตของระบบเช่นนี้ จะช่วยลดค่าใช้จ่ายในการวางแผนฉุกเฉินโดยรวม อีกทั้งช่วยเพิ่มความสามารถในการรับมือต่อสถานการณ์ฉุกเฉินและลดผลกระทบต่อการดำเนินงานของระบบเมื่อแผนฉุกเฉินจะต้องถูกนำมาใช้งาน

ภาพที่ 10 วงจรชีวิตของแผนงาน

 

Initiation Phase.  ความต้องการของแผนฉุกเฉินควรได้รับการพิจารณาเมื่อระบบไอทีใหม่ถูกจัดตั้งขึ้น ในเฟสนี้ ความต้องการของระบบจะต้องได้รับการพิสูจน์ทราบ และต้องตรงกับกระบวนการทำงานของไอทีใหม่ที่ถูกจัดตั้งขึ้นเสมอ และต้องพิจารณาถึงแผนงานติดตั้งระบบสำรองฉุกเฉิน เช่น การจัดตั้งระบบจัดเก็บข้อมูลสำรอง หรือระบบประมวลผลสำรอง แม้กระทั่งสถานที่ทำงานสำรอง เพื่อให้กระบวนการทำงานหรือกระบวนการทางธุรกิจสามารถดำเนินการต่อไปได้ นอกจากนี้ยังต้องพิจารณาถึงกระบวนการกู้คืนระบบในระหว่างที่นำเอาระบบสำรองมาใช้ รวมทั้งแผนปฏิบัติงานและกรอบของเวลาในการกู้คืนอีกด้วย   

Development/Acquisition Phase ในฐานะที่เป็นแนวความคิดที่เริ่มต้นของวิวัฒนาการในการออกแบบระบบการแก้ปัญหาฉุกเฉินที่เฉพาะเจาะจง ในฐานะที่เป็นเฟสของการเริ่มต้น  มาตรการฉุกเฉินที่รวมอยู่ในเฟสนี้ควรจะสะท้อนถึงความต้องการของระบบและการดำเนินงาน การออกแบบควรรวมเอาความซ้ำซ้อนและความทนทานโดยตรงเข้าในสถาปัตยกรรมของระบบเพื่อเพิ่มประสิทธิภาพความน่าเชื่อถือ ขีดความสามารถในการบำรุงรักษาและความพร้อมในช่วงระยะการดำเนินงาน / การบำรุงรักษา โดยให้รวมไว้ในการออกแบบเบื้องต้น เมื่อเป็นเช่นนี้ ค่าใช้จ่ายจะลดลงและปัญหาที่เกี่ยวข้องกับการดำเนินงานหรือการปรับเปลี่ยนระบบในระหว่างขั้นตอนการดำเนินงาน / การบำรุงรักษาจะลดลงไปด้วย    

ตัวอย่างของมาตรการฉุกเฉินที่ควรได้รับการพิจารณาในขั้นตอนนี้ได้แก่เส้นทางการเชื่อมต่อสื่อสารที่ต้องมีระบบสำรองหรือทดแทนกันได้ รวมทั้งการขจัดจุดตายของระบบ (Single Point of Failure) ตลอดจนการติดตั้งอุปกรณ์จัดเก็บข้อมูลหรือระบบประมวลผลทดแทน การจัดตั้งระบบสำรองข้อมูล การจัดทำ Data Mirroring (ระบบทำสำเนาไปยังอุปกรณ์จัดเก็บข้อมูลอื่นๆโดยอัตโนมัติ เช่นการทำ Replication) ตลอดจนการจัดทำ Load Balancing ก็เป็นอีกแนวทางที่จะต้องพิจารณา นอกเหนือการจัดทำสถานที่ทำงานสำรอง (Alternate Site)   

Implementation Phase แม้ว่าระบบนี้อยู่ระหว่างการทดสอบเบื้องต้น ก็ควรจัดให้มีกระบวนการทดสอบแผนงาน เพื่อให้แน่ใจว่าคุณสมบัติทางเทคนิคและขั้นตอนการกู้คืนข้อมูลมีความถูกต้องและมีประสิทธิภาพ กลยุทธ์การทดสอบการรับมือสถานกาณ์ฉุกเฉินจะต้องมีการพัฒนาแผนการทดสอบ เมื่อมาตรการฉุกเฉินเหล่านี้ได้รับการตรวจสอบ ควรจะต้องมีการเก็บบันทึกไว้อย่างชัดเจนในแผนฉุกเฉิน

Operation/Maintenance Phase   เมื่อจะมีการดำเนินงานทดสอบ หรือใช้งานแผนงานดังกล่าว ผู้ใช้งาน หรือผู้บริหาร และผู้จัดการ ควรดูแลรักษาโปรแกรมการฝึกอบรมและการรับรู้ซึ่งครอบคลุมขั้นตอนการจัดทำแผนฉุกเฉิน การทดสอบแบบฝึกหัด รวมทั้งการทดสอบ ควรจะต้องให้มีการดำเนินการเกิดขึ้น เพื่อให้แน่ใจว่าขั้นตอนต่อไปจะมีประสิทธิภาพ การจัดทำสำรองข้อมูลปกติควรมีการดำเนินการและจัดเก็บไว้นอกสถานที่ นอกจากนี้แผนงานควรได้รับการปรับปรุงเพื่อให้สะท้อนถึงการเปลี่ยนแปลงวิธีการทำงานโดยขึ้นอยู่กับบทเรียนที่ได้รับ จากเหตุการณ์ต่างๆที่ผ่านมา เมื่อระบบไอทีผ่านการอัพเกรดหรือแก้ไขใด ๆ เช่นการเปลี่ยนแปลงอินเตอร์เฟซภายนอกการปรับเปลี่ยนเหล่านี้ควรจะปรากฏให้เห็นในแผนรับมือฉุกเฉิน การเปลี่ยนแปลงการประสานงานและการจัดเก็บเอกสารในแผนงานควรจะดำเนินการในเวลาที่เหมาะสมเพื่อให้แผนงานสามารถรักษาประสิทธิภาพได้ต่อไป  

Disposal Phase.  การพิจารณาแผนงานรับมือฉุกเฉินไม่ควรถูกละเลย อันเนื่องมาจากระบบคอมพิวเตอร์เก่า ถูกแทนที่ด้วยระบบคอมพิวเตอร์ใหม่ จนกว่าระบบคอมพิวเตอร์ใหม่ที่มาแทนที่ได้มีการทำงานและมีการทดสอบอย่างเต็มที่ (รวมถึงความสามารถในรับมือต่อเหตุฉุกเฉิน) แผนฉุกเฉินที่มีอยู่เดิม ควรจะพร้อมสำหรับการดำเนินงาน ถึงแม้ว่าระบบเก่าถูกแทนที่ด้วยระบบใหม่ก็ตาม แต่ ก็อาจจะให้ความสามารถในการสำรองข้อมูลที่มีคุณค่า หากระบบใหม่เกิดความล้มเหลวในการทำงาน ในบางกรณีชิ้นส่วนอุปกรณ์ (เช่นฮาร์ดไดรฟ์, อุปกรณ์ไฟฟ้า, ชิปหน่วยความจำหรือการ์ดเครือข่าย) จากฮาร์ดแวร์ที่ได้รับการแทนที่ด้วยระบบใหม่นี้ สามารถนำมาใช้เป็นอะไหล่สำหรับอุปกรณ์ใหม่เพื่อให้การดำเนินงานสามารถเกิดขึ้นต่อไปได้

กระบวนการทำงานของแผนงานรับมือเหตุฉุกเฉิน (IT CONTINGENCY PLANNING PROCESS)

              ในส่วนนี้จะอธิบายขั้นตอนการพัฒนาและรักษาแผนสำรองที่มีประสิทธิภาพของไอที กระบวนการที่นำเสนอต่อไปนี้ สามารถใช้กับระบบไอทีทั่วไปได้ โดยประกอบด้วยกระบวนการ 7 ขั้นตอนดังนี้ (ดูภาพ xxx)

1. พัฒนาแผนการและนโยบายเพื่อรับมือเหตุฉุกเฉิน

2. ดำเนินการวิเคราะห์ผลกระทบทางธุรกิจ (BIA)

3. ระบุการควบคุมป้องกัน

4 พัฒนากลยุทธ์การกู้คืน

5 การพัฒนาแผนฉุกเฉินไอที

6 การทดสอบแผนฝึกอบรมและการออกกำลังกาย

7 การบำรุงรักษาตามแผน    

ขั้นตอนเหล่านี้เป็นองค์ประกอบที่เป็นกุญแจสำคัญ ต่อความเข้าใจในขีดความสามารถของแผนงานรับมือกับเหตุฉุกเฉิน เพราะแสดงให้เห็นถึงการพัฒนาแผนหลักของการวางแผนฉุกเฉินไอที

ภาพที่ 11 แสดงขั้นตอนกระบวนการแผนงานรับมือเหตุฉุกเฉิน 7 ขั้นตอน

 

การพัฒนาแผนการและนโยบายเพื่อรับมือเหตุฉุกเฉิน  

               เพื่อให้แน่ใจว่าบุคคลากรในองค์กรมีความเข้าใจแผนรับมือเหตุการณ์ฉุกเฉิน การวางแผนฉุกเฉินต้องมีการกำหนด นโยบายที่ชัดเจน และนโยบายควรกำหนดวัตถุประสงค์ การรับมือเหตุฉุกเฉินของหน่วยงานโดยรวมและสร้างกรอบการทำงานขององค์กรและความรับผิดชอบในการวางแผนรับมือฉุกเฉินของระบบไอที เพื่อให้เกิดผลสำเร็จ ผู้บริหารระดับสูง อย่างเช่น เจ้าหน้าที่หรือหัวหน้าดูแลข้อมูล (CIO) จะต้องสนับสนุนโปรแกรมรับมือเหตุฉุกเฉินนี้ โดย เจ้าหน้าที่เหล่านี้ควรจะรวมอยู่ในกระบวนการพัฒนานโยบาย  การจัดทำโครงสร้าง วัตถุประสงค์ บทบาทและความรับผิดชอบ นอกจากนี้ หน่วยงานควรประเมินระบบไอทีของตน การดำเนินงานและความต้องการที่จะตรวจสอบว่ามีความต้องการการวางแผนรับมือเหตุการณ์ฉุกเฉินเพิ่มเติมเป็นสิ่งจำเป็น องค์ประกอบนโยบายที่สำคัญมีดังนี้

  • บทบาทและความรับผิดชอบ
  • ขอบเขตที่จะนำไปใช้กับชนิดของแพลตฟอร์ม และหน้าที่การทำงานขององค์กรอาจต้องการแผนงานรับมือเหตุฉุกเฉิน   
  • ความต้องการของทรัพยากร
  • ความต้องการด้านการฝึกอบรม
  • แผนงานและกำหนดการการฝึกปฏิบัติและการทดสอบ
  • กำหนดการบำรุงรักษาแผนงาน
  • ความถี่ในการจัดทำสำเนาข้อมูลและการจัดเก็บสื่อสำหรับจัดเก็บข้อมูล

และเมื่อมีการพัฒนานโยบายรับมือเหตุฉุกเฉินด้านไอที ควรจะมีการประสานงานกับกิจกรรมหน่วยงานที่

เกี่ยวข้องรวมทั้งการรักษาความปลอดภัยไอที  การรักษาความปลอดภัยทางกายภาพ ทรัพยากรมนุษย์ การดำเนินงานด้านไอที และฟังก์ชั่นการเตรียมความพร้อมในกรณีฉุกเฉิน กิจกรรมรับมือเหตุฉุกเฉินของไอที ควรจะเข้ากันได้กับความต้องการของสิ่งที่ได้กล่าวมานี้  

 แผนฉุกเฉินจะต้องเขียนในการประสานงานกับแผนการที่มีอยู่อื่น ๆ ที่เกี่ยวข้องกับระบบ แผนดังกล่าวรวมถึงต่อไปนี้:

  • แผนงานรักษาความปลอดภัย เช่นการรักษาความปลอดภัยของระบบ
  • แผนงานดูแลสิ่งอำนวยความสะดวก เช่น OEP แบะ COOP
  • แผนงานในระดับ Agency เช่น การดำเนินธุรกิจใหม่ และแผนงานการปกป้องโครงสร้างพื้นฐานที่มีความสำคัญ    

การวิเคราะห์ผลกระทบทางธุรกิจ  

               BIA เป็นขั้นตอนที่สำคัญในกระบวนการวางแผนฉุกเฉิน BIA จะช่วยให้ผู้ประสานงานการวางแผนรับมือเหตุฉุกเฉินได้อย่างเต็มที่ ลักษณะความต้องการของระบบ กระบวนการและความสัมพันธ์ซึ่งกันและกัน และใช้ข้อมูลนี้เพื่อกำหนดความต้องการฉุกเฉินและลำดับความสำคัญ  BIA จะช่วยให้ผู้ประสานงานการวางแผนฉุกเฉินสามารถปรับปรุงและมุ่งเน้นกิจกรรมรับมือเหตุฉุกเฉิน เพื่อให้กิจกรรมการพัฒนาแผนรับมือฉุกเฉิน บรรลุประสิทธิภาพมากขึ้น ให้พิจารณากระบวนการย่อย 3 ขั้นตอน

ภาพที่ 12 แสดงขั้นตอนการวิเคราะห์ผลกระทบทางธุรกิจ (BIA)

 

การพิสูจน์ทราบทรัพยากรไอทีที่มีความสำคัญยิ่ง (Identify Critical IT Resources)

              ระบบไอทีสามารถเป็นระบบที่มีซับซ้อนมาก ในขั้นตอนนี้ BIA จะประเมินระบบไอทีเพื่อกำหนดฟังก์ชั่นที่สำคัญที่ดำเนินการโดยระบบและการระบุทรัพยากรระบบที่เฉพาะเจาะจงที่จะต้องดำเนินการ มีกิจกรรมสองประการที่จะต้องทำให้เสร็จสิ้นดังนี้

1.   ผู้ประสานงานการวางแผนฉุกเฉินควรระบุและประสานงานกับจุดภายในและภายนอกของรายชื่อผู้ติดต่อ

2.   ผู้ประสานงานการวางแผนฉุกเฉินควรประเมินระบบที่จะเชื่อมโยงบริการที่สำคัญเหล่านี้เพื่อใช้ทรัพยากรระบบ การวิเคราะห์นี้มักจะระบุความต้องการโครงสร้างพื้นฐานเช่นไฟฟ้า การเชื่อมต่อ การสื่อสารโทรคมนาคมและการควบคุมสิ่งแวดล้อม อุปกรณ์ไอทีที่เฉพาะเจาะจงเช่นเราเตอร์, แอพพลิเคชันเซิร์ฟเวอร์และเซิร์ฟเวอร์การตรวจสอบมักจะคิดว่าเป็นสิ่งสำคัญ อย่างไรก็ตามการวิเคราะห์อาจกำหนดส่วนประกอบไอทีที่บางอย่างเช่นเครื่องพิมพ์หรือเซิร์ฟเวอร์ที่ให้บริการด้านการพิมพ์งาน ไม่ได้ถูกกำหนดว่ามีความจำเป็นต่อการบริการที่สำคัญ

การพิสูจน์ทราบผลกระทบจากการหยุดชะงักงัน และการยอมรับห้วงเวลาของการหยุดบริการ (Identify Disruption Impacts and Allowable Outage Times)

              ในขั้นตอนนี้ผู้ประสานงานการวางแผนฉุกเฉินควรวิเคราะห์ทรัพยากรที่สำคัญที่ระบุไว้ในขั้นตอนก่อนหน้าและตรวจสอบผลกระทบของการกำเนินการด้านไอที หากทรัพยากรไม่สามารถให้บริการต่อไปได้เนื่องจากความเสียหาย การวิเคราะห์ควรประเมินผลกระทบของการหยุดทำงานในสองวิธี

1.   ผลกระทบจากการหยุดทำงานอาจถูกติดตามเฝ้าดูตลอดเวลา สิ่งนี้จะช่วยให้ผู้ประสานงานการวางแผนรับมือฉุกเฉินสามารถระบุเวลาสูงสุดที่อนุญาตให้ทรัพยากรอาจถูกปฏิเสธใช้งาน ก่อนที่จะป้องกันมิให้เกิดผลกระทบต่อประสิทธิภาพการทำงานของระบบ  

2.   ผลกระทบจากการหยุดทำงานอาจถูกติดตาม ข้ามผ่านทรัพยากรที่เกี่ยวข้องและระบบที่ต้องพึ่งพากัน ให้พิสูจน์ทราบผลกระทบแบบไล่ตามลำดับกันมาซึ่งอาจเกิดขึ้นทำให้ระบบหลัก รวมทั้งระบบที่ต้องพึ่งพากันพลอยหยุดชะงักไปด้วย 

การพัฒนาลำดับความสำคัญของการกู้คืนระบบ (Develop Recovery Priorities)

              การหยุดชะงักของการให้บริการ รวมทั้งห้วงเวลาการชะงักงันที่ยอมรับได้ดังที่ได้มาก่อนหน้านี้ จะช่วยให้ ผู้ประสานงานการวางแผนรับมือเหตุฉุกเฉินสามารถพัฒนาและจัดลำดับความสำคัญของกลยุทธ์การกู้คืน ที่บุคลากรจะต้องดำเนินการในระหว่างการกระตุ้นแผนรับมือเหตุฉุกเฉิน ตัวอย่างเช่นหากกำหนดว่า ลำดับขั้นตอนที่สำคัญสุด ระบุว่า หากการบริการไอทีหยุดชะงักได้ไม่เกิน 4 ชั่วโมง ผู้ประสานงานการวางแผนรับมือฉุกเฉินจะต้องใช้ทุกมาตรการเพื่อตอบสนองความต้องการดังกล่าวให้ได้ ในทำนองเดียวกันหาก ส่วนประกอบของระบบสามารถทนต่อการหยุดทำงานได้ตลอด 24 ชั่วโมง แต่องค์ประกอบที่สำคัญไม่สามารถหยุดทำงานได้นานกว่า 8 ชั่วโมง ผู้ประสานงานการวางแผนรับมือฉุกเฉินจะต้องจัดลำดับความสำคัญแก่ทรัพยากรที่จำเป็นสำหรับองค์ประกอบที่สำคัญ โดยจัดทำกลยุทธ์ลำดับความสำคัญของการกู้คืน การจัดลำดับความสำคัญการกู้คืนเหล่านี้ ผู้ประสานงานการวางแผนรับมือฉุกเฉิน อาจได้รับข่าวสารมากขึ้นในการตัดสินใจเกี่ยวกับการออกแบบ การจัดสรรทรัพยากรฉุกเฉิน การประหยัดเวลา ความพยายาม และค่าใช้จ่าย

พิสูจน์ทราบการควบคุมป้องกัน (IDENTIFY PREVENTIVE CONTROLS)

BIA จะช่วยให้ผู้ประสานงานการวางแผนรับมือเหตุฉุกเฉิน มีข้อมูลที่สำคัญเกี่ยวกับความพร้อมของระบบและความต้องการกู้คืน ในบางกรณีไฟดับที่ส่งผลกระทบต่อกระบวนการทำงานที่ระบุไว้ใน BIA  อาจถูกทำให้ลดลงหรือขจัดออกไปได้ โดยผ่านมาตรการป้องกันที่สามารถยับยั้ง ตรวจหาและ / หรือลดผลกระทบต่อระบบ เพื่อผลของการใช้จ่ายที่มีประสิทธิภาพ การป้องกันเป็นมาตรการที่ดี ต่อการกู้คืนระบบหลังจากที่หยุดชะงัก แต่การป้องกันมักจะมีความหลากหลาย ซึ่งขึ้นอยู่กับชนิดของระบบและการตั้งค่า ตัวอย่างบางมาตรการที่ระบุไว้ดังนี้

  1. อุปกรณ์ไฟสำรอง ( ดีเซลเพื่อให้พลังงานแก่การสำรองข้อมูลระยะยาว
    ระบบเครื่องปรับอากาศที่มีความจุเกินเพียงพอที่จะอนุญาตให้มีความล้มเหลวของส่วนประกอบบางอย่างเช่น คอมเพรสเซอร์
    ระบบดับเพลิงอุปกรณ์ผจญเพลิง
    เซ็นเซอร์น้ำในเพดานห้องคอมพิวเตอร์และพื้น
    ผืนผ้าพลาสติกที่อาจจะคลี่ผ่านอุปกรณ์ไอทีเพื่อปกป้องจากความเสียหายจากน้ำ
    ภาชนะทนความร้อนและกันน้ำสำหรับสื่อสำรองข้อมูลที่สำคัญ
    สวิตช์ฉุกเฉินหลักปิดระบบ
    การจัดเก็บสื่อสำรองข้อมูลนอกสถานที่ ระบบที่ไม่ใช่อิเล็คทรอนิคส์ และเอกสารของระบบ
    การควบคุมความปลอดภัยทางเทคนิคเช่นการจัดการคีย์ การเข้ารหัสลับและอย่างน้อยสิทธิ์ควบคุมการเข้าถึง
    ความถี่ของการสำรองข้อมูล 

การควบคุมป้องกันควรจะบันทึกไว้ในแผนรับมือเหตุการณ์ฉุกเฉินและบุคลากรที่เกี่ยวข้องกับระบบควรได้รับการอบรมเกี่ยวกับวิธีการและเมื่อใช้ตัวควบคุม ตัวควบคุมเหล่านี้ควรจะรักษาในสภาพที่ดีเพื่อให้แน่ใจว่าประสิทธิภาพของพวกเขาในกรณีที่เกิดเหตุฉุกเฉิน

การพัฒนากลยุทธ์การกู้คืนระบบ (DEVELOP RECOVERY STRATEGIES)

              กลยุทธ์การกู้คืนระบบหมายถึงการเรียกคืนระบบการดำเนินงานด้านไอทีได้อย่างรวดเร็วและมีประสิทธิภาพหลังจากที่เกิดการหยุดชะงักบริการ กลยุทธ์ที่ดีควรกำหนดระดับของผลกระทบ และห้วงเวลาที่ยอมรับได้ ดังที่ระบุไว้ใน BIA  มีหลายทางเลือกที่ควรพิจารณาเมื่อมีการพัฒนากลยุทธ์รวมทั้งค่าใช้จ่ายและห้วงเวลาในการหยุดทำงานยอมรับได้ การรักษาความปลอดภัย

              กลยุทธ์การกู้คืนที่ถูกคัดเลือกควรจะระบุผลกระทบที่อาจเกิดขึ้นดังที่ระบุไว้ใน BIA  และควรจะรวมเข้ากับสถาปัตยกรรมระบบในระหว่างขั้นตอนการออกแบบและในเฟสของการดำเนินงานภายใต้วงจรชีวิตของระบบ

วิธีการสำรองข้อมูล (Backup Methods)

               ข้อมูลของระบบควรจะได้รับการจัดทำสำรองอย่างสม่ำเสมอ นโยบายควรระบุความถี่ของการสำรองข้อมูล (เช่นรายวันหรือรายสัปดาห์ การสำรองเฉพาะข้อมูลที่เพิ่มขึ้น หรือการสำรองข้อมูลแบบเต็มที่) บนพื้นฐานของข้อมูลที่มีความสำคัญ  และข้อมูลใหม่ๆที่เกิดขึ้น นโยบายการสำรองข้อมูลควรกำหนดสถานที่ตั้งของการจัดเก็บข้อมูล ตลอดจนการกำหนดรูปแบบเกี่ยวกับชื่อของแฟ้มข้อมูล ความถี่ของการหมุนเวียนการใช้สื่อสำรองข้อมูล และวิธีการสำหรับการขนส่งข้อมูลผ่านการทำสำรองแล้วออกนอกสถานที่ ข้อมูลอาจจะได้รับการสำรองโดยจัดเก็บไว้บนบนดิสก์แม่เหล็ก เทปหรือดิสก์ที่เป็นระบบเชิงแสง (Optical Disk)  (เช่นดิสก์ขนาดเล็ก [ซีดี]) วิธีการเฉพาะ และทางเลือกสำหรับการดำเนินการสำรองข้อมูลควรจะขึ้นอยู่กับความพร้อมของระบบและข้อมูลและความต้องการความสมบูรณ์ วิธีการเหล่านี้รวมถึงระบบ RAID หรือ ระบบ SAN เป็นต้น

       การปฏิบัติทางธุรกิจที่ดีคือการเก็บข้อมูลสำรองนอกสถานที่ อุปกรณ์จัดเก็บข้อมูลที่เกี่ยวข้องกับข้อมูลการค้า ได้รับการออกแบบมาเป็นพิเศษปกป้องข้อมูลจากคุกคามและการลักขโมย หากมีการจัดเก็บข้อมูลนอกสถานที่ การสำรองข้อมูลควรกระทำในองค์กร จากนั้นติดสลากให้เรียบร้อย และเคลื่อนย้ายไปยังสถานที่จัดเก็บ หากข้อมูลนั้นเป็นสิ่งจำเป็นสำหรับวัตถุประสงค์ในการกู้คืนหรือการทดสอบ องค์กรจะต้องติดต่อสถานที่จัดเก็บ เพื่อดำเนินการอย่างเป็นขั้นตอน เมื่อเลือกสถานที่จัดเก็บนอกสถานที่และผู้ขาย กฏเกณฑ์ต่อไปนี้ควรได้รับการพิจารณา-

  • พื้นที่ทางภูมิศาสตร์ —ระยะทางจากองค์กรกับสถานที่จัดเก็บข้อมูลสำรอง จะต้องไม่ได้รับผลกระทบจากภัยพิบัติเดียวกัน 
  • ความสามารถในการเข้าถึง —ระยะเวลาที่จำเป็นสำหรับการดึงข้อมูลจากอุปกรณ์จัดเก็บข้อมูล และเวลาทำงานของสถานจัดเก็บข้อมูล 
  • การรักษาความปลอดภัย— ขีดความสามารถในการรักษาความปลอดภัยของสถานที่จัดเก็บข้อมูล และการรักษาความลับของเจ้าหน้าที่ดูแลข้อมูล จะต้องได้รับการพิจารณาและตรวจสอบ      
  • สภาพแวดล้อม—โครงสร้างและเงื่อนไขของสภาพแวดล้อมของสถานจัดเก็บ รวมทั้งสิ่งอำนวยความสะดวกอื่นๆ เช่น อุณหภูมิ ความชื้น การป้องกันไฟไหม้ และการควบคุมระบบไฟฟ้า     
  • ค่าใช้จ่าย —ค่าใช้จ่ายในการจัดส่ง ค่าธรรมเนียมการปฏิบัติการ และการบริการตอบสนองและการกู้คืนจากภัยพิบัติต่างๆ         

การกำหนดที่ตั้งทำงานสำรอง ( Alternate Sites )

แม้ว่าการหยุดชะงักที่ส่งผลผลกระทบระยะยาวอาจจะเกิดขึ้นได้ยากก็จริง แต่ก็ควรนำมาคิดในแผนรับมือเหตุฉุกเฉิน ดังนั้นแผนงานจะต้องมีกลยุทธ์การกู้คืนและดำเนินการกับระบบสิ่งอำนวยความสะดวกอื่น ๆ โดยทั่วไปมีการกำหนดสถานที่สำรองไว้สามประเภท :

  1. ไซต์งาน (สถานที่ทำงานเฉพาะที่ดำเนินการโดยองค์กร)

โดยไม่คำนึงถึงประเภทของไซต์งานสำรอง สิ่งอำนวยความสะดวกจะต้องสามารถสนับสนุนการดำเนินงานของระบบที่กำหนดไว้ในแผนรับมือเหตุฉุกเฉิน ไซต์งานทั้งสามประเภทนี้อาจถูกจัดแบ่งประเภทโดยดูจากความพร้อมของการให้บริการ โดยเงื่อนไขเช่นี้ จึงได้มีการกำหนด เป็น Cold Site  Hot Site  Warm Site  และ Mobile Site เป็นต้น แต่ละ Site งานมีขีดความสามารถดังนี้ 

ภาพที่ 13 Site งานสำรอง

 

  • Cold Sites โดยทั่วไปแล้วจะประกอบด้วยสิ่งอำนวยความสะดวกที่มีพื้นที่เพียงพอและมีโครงสร้างพื้นฐาน (ไฟฟ้า การเชื่อมต่อ การสื่อสารโทรคมนาคมและการควบคุมสิ่งแวดล้อม) เพื่อสนับสนุนระบบไอที พื้นที่อาจจะมีการยกพื้นและคุณลักษณะอื่น ๆ ที่เหมาะสมสำหรับการดำเนินงานด้านไอที ไซต์งานประเภทนี้ไม่ได้ติดตั้งอุปกรณ์ไอทีและมักจะไม่มีอุปกรณ์สำนักงานอัตโนมัติเช่นโทรศัพท์ เครื่องโทรสารหรือเครื่องถ่ายเอกสาร องค์กรใช้ Cold Site เพื่อรับผิดชอบติดตั้ง อุปกรณ์ที่จำเป็นและความสามารถในการสื่อสารโทรคมนาคม
  • Warm Sites มีการติดตั้งพื้นที่บางส่วนสำหรับเป็นสำนักงาน และมีการติดตั้งอุปกรณ์ฮาร์ดแวร์ Software ระบบสื่อสารเพียงบางส่วนหรือทั้งหมด รวมทั้งระบบไฟฟ้า  Warm Site จะต้องได้รับการดูแลให้มีความพร้อมที่จะรองรับการโอนย้ายงาน หาก Site งานหลักเกิดหยุดชะงักงัน ในบางกรณี Warm Site อาจถูกใช้เป็นสถานที่เป็นสถานที่ในการดำเนินงานปกติ สำหรับระบบอื่นหรือฟังก์ชั่นอื่นๆ และในกรณีที่มีการเปิดใช้งานแผนฉุกเฉิน  กิจกรรมตามปกติจะถูกย้ายมาที่นี่เป็นการชั่วคราวเพื่อรองรับระบบหยุดชะงักที่ Site งานหลัก
  • Hot Sites มีพื้นที่สำนักงานที่เหมาะสม เพื่อรองรับความต้องการของระบบ และมีการติดตั้งระบบ ฮาร์ดแวร์ที่จำเป็นในการสนับสนุนโครงสร้างพื้นฐานและบุคลากรที่จะเข้ามาทำงาน โดยทั่วไปแล้วพนักงานจะทำงานที่ Hot Site นี้ตลอดเวลา 24 ชั่วโมง 7 วันต่อสัปดาห์ บุคลากรที่ต้องทำงานใน Hot Site นี้ จะต้องเตรียมความพร้อมสำหรับการมาถึงของระบบให้เร็วที่สุดเท่าที่พวกเขาจะทำได้ หลังจากได้รับการแจ้งเตือนว่าแผนฉุกเฉินถูกเปิดใช้งาน
  • Mobile Sites เป็น Site งานที่มีทุกอย่างอยู่ในตัวมันเอง และเป็น Site งานที่สามารถถูกกำหนดให้เป็นรูปแบบตามที่ต้องการ มีการติดตั้งอุปกรณ์ระบบสื่อสารโทรคมนาคมเฉพาะ รวมทั้ง อุปกรณ์ไอทีที่จำเป็นเพื่อตอบสนองความต้องการของระบบ โดยสิ่งอำนวยความสะดวกต่างๆที่กล่าวถึงนี้ มักจะมีอยู่ในรถแทรกเตอร์รถพ่วงและอาจจะขับเคลื่อนไปยังที่ตั้ง หรือจัดตั้งตามที่ต้องการได้ 
  • Mirrored Sites เป็นสถานที่ๆประกอบด้วย สิ่งอำนวยความสะดวกอย่างรูปแบบ สำหรับทำหน้าที่เป็น Mirror ของข้อมูล โดยสถานที่นี้มีทุกสิ่งทุกอย่างเหมือนกันกับ Site งานหลักในเชิงเทคนิค นอกจากนี้ Site งานประเภทนี้มีระดับของความพร้อมใช้งานอย่างเต็มกำลัง และเนื่องจากข้อมูลถูกประมวลผลและจัดเก็บไว้ที่ Site งานหลักและ Site งานสำรองในเวลาเดียวกัน ด้วยเหตุนี้ Site งานประเภทนี้ มักถูกสร้างขึ้นและดูแลรักษาโดยองค์กรเดียวกัน 

Site งาน

ค่าใช้จ่าย

อุปกรณ์ฮารท์แวร์

อุปกรณ์สื่อสาร

ช่วงเวลาที่จัดตั้ง

สถานที่ติดตั้ง

Cold Site

ต่ำ

ไม่มี

ไม่มี

ยาวนาน

แน่นอนตายตัว

Warm Site

ปานกลาง

มีเพียงบางส่วน

บางส่วน/เต็มที่

ปานกลาง

แน่นอนตายตัว

Hot Site

ปานกลาง/สูง

ติดตั้งเต็มที่

เต็มที่

สั้น

แน่นอนตายตัว

Mobile Site

สูง

ขึ้นอยู่กับการกำหนด

ขึ้นอยู่กับการกำหนด

ขึ้นอยู่กับการกำหนด

ไม่ตายตัว

Mirrored Site

สูง

เต็มที่

เต็มที่

ไม่มี

แน่นอนตายตัว

ตารางที่ 2 เปรียบเทียบ Site งานประเภทต่างๆ

            ไซต์งานสำรองเหล่านี้อาจเป็นกรรมสิทธิ์ขององค์กร และปฏิบัติงานโดยองค์กรเดียวกัน หรืออาจจะเป็น Site งานของผู้ให้บริการเช่าพื้นที่ หากเป็นการทำสัญญา สำหรับ Site งานที่ให้บริการโดยผู้ให้บริการเชิงพาณิชย์ ก็ควรพิจารณาถึงการทดสอบสถานที่ๆเพียงพอ รวมทั้งพื้นที่ ความต้องการด้านการรักษาความปลอดภัย ความต้องการทางด้านฮารท์แวร์ ความต้องการด้านการสื่อสารโทรคมนาคม ระบบสนับสนุนต่างๆ และจำนวนวันเวลาในการกู้คืนระบบ รวมทั้งจะต้องพิจารณาความมีอยู่ของสิ่งเหล่านี้ในสัญญา

นอกจากนี้ ยังต้องพิจารณาถึง สถานที่ๆอาจให้เช่าแก่ลูกค้าหลายๆรายพร้อมกัน ที่ซึ่งสิ่งอำนวยความสะดวกอาจถูกแบ่งปัน ดังนั้น อาจมีความเป็นไปได้ที่ Site งานแห่งนี้อาไม่สามารถรองรับลูกค้า ในกรณีที่ภัยพิบัติเกิดขึ้นกับลูกค้าที่เป็นองค์กรเหล่านั้น เกิดขึ้นพร้อม นโยบายของผู้ให้บริการภายใต้สถานการณ์เช่นนี้ควรได้รับการแก้ไขและการกำหนดลำดับความสำคัญ ของการบริการเป็นเรื่องที่ควรจะเจรจาต่อรอง

เรื่องของการจัดสร้างแผนงานรับมือกับเหตุการณ์ฉุกเฉินยังมีอีกมาก ผู้เขียนตั้งใจเขียนเพื่อให้เป้นเอกสารประกอบการวางแผนรับมือฉุกเฉินสำหรับองค์กรทั่วไป เนื้อหาส่วนใหญ่มาจากมาตรฐาน NIST รวมทั้งมาตรฐานที่ถูกนำมาใช้งานกับองค์กรขนาดใหญ่ทั้งในและต่างประเทศ โปรดติดตามตอนต่อไปในฉบับหน้าครับ

Read 62606 times Last modified on วันพุธ, 17 พฤษภาคม 2560 05:45
ChalermPun

Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nos exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum.

Leave a comment

Make sure you enter all the required information, indicated by an asterisk (*). HTML code is not allowed.