ทำไม MCP จึงมีความสำคัญ ต่อ SRE ที่ต้องนำเอา AI มาใช้

ไปเจอบทความ Why MCP is critical for AI-driven SRE ของ Thoughtwork มา เลยเอามาสรุปไว้สักหน่อย

บทความนี้อธิบายถึง Model Context Protocol (MCP) ซึ่งเป็น semantic context layer ที่ช่วยให้ AI สามารถเข้าถึงข้อมูลสำคัญต่างๆ (เช่น เครื่องมือ ความจำ และสถานะ) ได้อย่างราบรื่น เพื่อสร้างผลลัพธ์ที่เฉพาะเจาะจง และ มีความรับผิดชอบมากขึ้น

MCP นั้นแตกต่างจาก API ทั่วไป ที่เน้นการทำงาน แต่ MCP จะเน้นที่การ แบ่งปันบริบท เพื่อให้ AI ทำงานร่วมกับเครื่องมือต่างๆ ได้อย่างแม่นยำและราบรื่นขึ้น

ซึ่งเป็นสิ่งสำคัญอย่างยิ่งสำหรับ Site Reliability Engineering (SRE) ที่ต้องการความเข้าใจในสถานการณ์ การทำงานร่วมกันของ AI หลายๆ ตัว และ การตัดสินใจแบบเรียลไทม์ โดย MCP นั้นมันจะช่วยให้ AI ใน SRE สามารถทำงานได้ดีขึ้น เช่น การจัดการการแจ้งเตือน การสืบสวนเหตุการณ์ และ การส่งต่อข้อมูลระหว่างระบบต่างๆ

MCP vs APIs: Context vs. function

ความแตกต่างระหว่าง 2 ตัวนี้ ค่อนข้างเด่นชัดเลย นั่นก็คือ

APIs: จะเป็น function ที่คอยทำงานอย่างใดอย่างหนึ่งให้เสร็จ

MCP: จะเป็นเรื่องของ context ของสิ่งนั้นๆ ที่ต้องการ

เช่น

สมมติว่า เรามีระบบการยืมคืนหนังสือ

APIs: คือ เราจะมี service อะไรบ้าง เช่น api การยืม, api ค้นหาหนังสือ เป็นต้น

MCP: คือ เราต้องมีข้อมูลอะไรบ้าง เพื่อให้ AI สามารถนำไปใช้ต่อได้ เช่น ข้อมูลหนังสือ ข้อมูลสามชิก ข้อมูลการยืม เป็นต้น

ดังนั้น ถ้าเราเทียบความแตกต่างของทั้ง 2 ก็จะได้ประมาณนี้ (ยกมาเป็นภาษาอังกฤษ เพราะมันเข้าใจง่ายกว่า)

Comparing APIs and MCP

Feature	API	MCP
Core function	Provides function calls.	Provides semantic context.
Response behavior	Fixed input-output driving rule-based actions.	Dynamic response based on context driving intelligent decisions.
Target consumer	Software applications.	AI models or agents.
Flexibility	Functional, standardized communication.	Semantic, context-aware conversations.
Example	getUser(id)	“This user expressed dissatisfaction in the last conversation.”

SRE: A textbook use case for MCP

สำหรับ SRE การใช้งาน MCP นั้นเหมาะสมอย่างยิ่ง เนื่องจากมีลักษณะของ workflow อยู่แล้วตัว SRE นั้น มีความต้องการเฉพาะ คือ

ต้องการ ความตระหนักรู้ในสถานการณ์อย่างลึกซึ้ง (Deep situational awareness)
ต้องการ การทำงานร่วมกันของ agent หลายตัว (Multi-agent collaboration)
ต้องการ การตัดสินใจแบบ real time ข้ามระบบที่แตกต่างกัน (Real-time decision-making across disparate systems)

โดยในบทความได้เปรียบเทียบความแตกต่างระหว่างการใช้งาน MCP และไม่ใช้งาน MCP ไว้ดังนี้ (ยกมาเป็นภาษาอังกฤษเหมือนเดิมมันเข้าใจง่ายกว่า)

Job	ไม่ใช้ MCP	ใช้ MCP
Alert triggers	Chronosphere generates alert -> Rootly creates incident -> info lost across tools.	Alert context packaged as IncidentContext object -> consumed directly by RCA agent.
Root cause agent	Must be re-prompted with full alert, logs, context manual.	Dynamically request further alert or incident details.
Action planning agent	Needs repeated background explanation, user input for multi-step reasoning.	Leverages shared context and enables seamless multi-step tool use with LLM-friendly inputs and outputs.
Resolution development	Context-switching: engineers copy/paste logs and context into IDE prompts.	Agent pulls from IncidentContext, codebase metadata and runtime context directly in IDE.
Report generation	Hard to align with what actually happened.	Uses same context used by prior agents -> coherent, accurate summary.

Key MCP-powered use cases in SRE

การใช้งานที่ขับเคลื่อนด้วย MCP ใน Site Reliability Engineering (SRE) ที่เข้ามาช่วยให้เกิดระดับของความเก่งที่มากขึ้น และ การประสานงานใหม่ ใน SRE ecosystem

กรณีการใช้งานเหล่านี้ได้แก่:

Context-aware observability engineering

เป็นการทำ observability ที่ตระหนักถึงบริบท (Context-aware observability engineering) ในกรณีนี้ AI Agents สามารถช่วยได้ เช่น

การเชื่อมโยง Alert ต่างๆ เข้าด้วยกัน
ตรวจจับกลุ่ม Anomaly (ความผิดปกติ)
จัดตำแหน่งปัญหาเข้ากับ Service Topology

บริบทที่เกี่ยวข้องในกรณีนี้ ได้แก่

SLOs (Service-Level Objectives)
- แนวโน้มในอดีต
- ข้อมูล telemetry
- Log โดยละเอียด
- ownership (ผู้รับผิดชอบ)
- Alert และ Incident ที่ผ่านมา
แพลตฟอร์ม Observability เช่น Chronosphere เป็น MCP Host ที่เป็นไปได้ในบริบทนี้
ส่วน MCP Client อาจเป็น RCA agents (เอเจนต์สำหรับวิเคราะห์หาสาเหตุ)
- Alert deduplication bots (บอทช่วยขจัด Alert ซ้ำซ้อน)
- FinOps optimizers (เครื่องมือเพิ่มประสิทธิภาพทางการเงินในการดำเนินงาน)

AI-assisted incident investigation and triage

การตรวจสอบ และ จัดลำดับความสำคัญ Incident โดย AI (AI-assisted incident investigation and triage) Agent สามารถนำบริบทเชิงความหมายที่หลากหลายติดตัวไปด้วย ขณะที่ทำการตรวจสอบสาเหตุของปัญหา เสนอวิธีแก้ไข หรือ ยกระดับ Incident

บริบทในกรณีนี้ประกอบด้วย

Alert state (สถานะของ Alert)
System health (สุขภาพของระบบ)
Incident ที่ผ่านมา
การแก้ไขปัญหาในอดีต
ผู้ที่แก้ไข Incident
บริบท Log แบบเรียลไทม์

แพลตฟอร์มการจัดการ Incident เช่น Rootly MCP สามารถเป็น MCP Host ได้ และ Client ที่เป็นไปได้อาจเป็น

Slack bots
Summarization Agents
Ticket Generators (เครื่องมือสร้างตั๋ว)
RCA Agents
Incident Investigation
Resolution Agents (Agent ตรวจสอบและแก้ไข Incident)

Semantic handoffs across systems

การส่งมอบบริบทเชิงความหมายข้ามระบบ (Semantic handoffs across systems)

MCP ช่วยให้ AI Agent ที่ทำงานข้ามเครื่องมือต่างๆ เช่น Slack, Jira, Confluence หรือ Runbooks สามารถส่งมอบความเข้าใจร่วมกันได้ แทนที่จะเป็นเพียงแค่สถานะ

บริบทที่เกี่ยวข้องในกรณีนี้ประกอบด้วย

Incident timeline (ไทม์ไลน์ของ Incident)
Related tickets and Issues
Standard Operating Procedure (SOP)
Recent updates (การอัพเดทล่าสุด)
Feature Detail (รายละเอียด ของ Feature)
Response actions ที่ผ่านมา

แพลตฟอร์มสำหรับจัดการ Knowledge (knowledge management platform) เช่น MCP Atlassian สามารถทำหน้าที่เป็น MCP Host ได้

Client อาจเป็น

Workflow Orchestrators (เครื่องมือประสานงานแบบ workflow)
Playbook Automation Runners (เครื่องมือเรียกใช้งาน Playbook แบบอัตโนมัติ)
Content Creators (ผู้สร้างเนื้อหา)
Human-in-the-loop Assist Tools (เครื่องมือช่วยเหลือที่มีคนคอยตรวจสอบ)

กรณีเหล่านี้ แสดงให้เห็นว่า MCP เสริม APIs โดยการเพิ่ม context layer แบบ dynamic ซึ่งทำให้ AI Agent สามารถดำเนินการด้วยความตระหนักรู้ ใช้เครื่องมือที่เหมาะสม ทำงานร่วมกับหน่วยความจำ สร้างผลลัพธ์ที่แม่นยำขึ้น และ พัฒนาพฤติกรรมได้เมื่อเวลาผ่านไป

นี่คือการเปลี่ยนจากการ "เรียก API" ไปสู่ "Contextual reasoning" ซึ่งเป็นพื้นฐานสำหรับการสร้างระบบความน่าเชื่อถือแบบอัตโนมัติ และ ชาญฉลาด

References

https://www.thoughtworks.com/insights/blog/machine-learning-and-ai/mcp-critical-ai-driven-sre