ไปเจอบทความ Why MCP is critical for AI-driven SRE ของ Thoughtwork มา เลยเอามาสรุปไว้สักหน่อย
_meta_1690%20x%20950.jpg)
บทความนี้อธิบายถึง Model Context Protocol (MCP) ซึ่งเป็น semantic context layer ที่ช่วยให้ AI สามารถเข้าถึงข้อมูลสำคัญต่างๆ (เช่น เครื่องมือ ความจำ และสถานะ) ได้อย่างราบรื่น เพื่อสร้างผลลัพธ์ที่เฉพาะเจาะจง และ มีความรับผิดชอบมากขึ้น
MCP นั้นแตกต่างจาก API ทั่วไป ที่เน้นการทำงาน แต่ MCP จะเน้นที่การ แบ่งปันบริบท เพื่อให้ AI ทำงานร่วมกับเครื่องมือต่างๆ ได้อย่างแม่นยำและราบรื่นขึ้น
ซึ่งเป็นสิ่งสำคัญอย่างยิ่งสำหรับ Site Reliability Engineering (SRE) ที่ต้องการความเข้าใจในสถานการณ์ การทำงานร่วมกันของ AI หลายๆ ตัว และ การตัดสินใจแบบเรียลไทม์ โดย MCP นั้นมันจะช่วยให้ AI ใน SRE สามารถทำงานได้ดีขึ้น เช่น การจัดการการแจ้งเตือน การสืบสวนเหตุการณ์ และ การส่งต่อข้อมูลระหว่างระบบต่างๆ
MCP vs APIs: Context vs. function
ความแตกต่างระหว่าง 2 ตัวนี้ ค่อนข้างเด่นชัดเลย นั่นก็คือ
APIs: จะเป็น function ที่คอยทำงานอย่างใดอย่างหนึ่งให้เสร็จ
MCP: จะเป็นเรื่องของ context ของสิ่งนั้นๆ ที่ต้องการ
เช่น
สมมติว่า เรามีระบบการยืมคืนหนังสือ
APIs: คือ เราจะมี service อะไรบ้าง เช่น api การยืม, api ค้นหาหนังสือ เป็นต้น
MCP: คือ เราต้องมีข้อมูลอะไรบ้าง เพื่อให้ AI สามารถนำไปใช้ต่อได้ เช่น ข้อมูลหนังสือ ข้อมูลสามชิก ข้อมูลการยืม เป็นต้น
ดังนั้น ถ้าเราเทียบความแตกต่างของทั้ง 2 ก็จะได้ประมาณนี้ (ยกมาเป็นภาษาอังกฤษ เพราะมันเข้าใจง่ายกว่า)
Comparing APIs and MCP
Feature | API | MCP |
---|---|---|
Core function | Provides function calls. | Provides semantic context. |
Response behavior | Fixed input-output driving rule-based actions. | Dynamic response based on context driving intelligent decisions. |
Target consumer | Software applications. | AI models or agents. |
Flexibility | Functional, standardized communication. | Semantic, context-aware conversations. |
Example | getUser(id) | “This user expressed dissatisfaction in the last conversation.” |
SRE: A textbook use case for MCP
สำหรับ SRE การใช้งาน MCP นั้นเหมาะสมอย่างยิ่ง เนื่องจากมีลักษณะของ workflow อยู่แล้วตัว SRE นั้น มีความต้องการเฉพาะ คือ
- ต้องการ ความตระหนักรู้ในสถานการณ์อย่างลึกซึ้ง (Deep situational awareness)
- ต้องการ การทำงานร่วมกันของ agent หลายตัว (Multi-agent collaboration)
- ต้องการ การตัดสินใจแบบ real time ข้ามระบบที่แตกต่างกัน (Real-time decision-making across disparate systems)
โดยในบทความได้เปรียบเทียบความแตกต่างระหว่างการใช้งาน MCP และไม่ใช้งาน MCP ไว้ดังนี้ (ยกมาเป็นภาษาอังกฤษเหมือนเดิมมันเข้าใจง่ายกว่า)
Job | ไม่ใช้ MCP | ใช้ MCP |
---|---|---|
Alert triggers | Chronosphere generates alert -> Rootly creates incident -> info lost across tools. | Alert context packaged as IncidentContext object -> consumed directly by RCA agent. |
Root cause agent | Must be re-prompted with full alert, logs, context manual. | Dynamically request further alert or incident details. |
Action planning agent | Needs repeated background explanation, user input for multi-step reasoning. | Leverages shared context and enables seamless multi-step tool use with LLM-friendly inputs and outputs. |
Resolution development | Context-switching: engineers copy/paste logs and context into IDE prompts. | Agent pulls from IncidentContext, codebase metadata and runtime context directly in IDE. |
Report generation | Hard to align with what actually happened. | Uses same context used by prior agents -> coherent, accurate summary. |
Key MCP-powered use cases in SRE
การใช้งานที่ขับเคลื่อนด้วย MCP ใน Site Reliability Engineering (SRE) ที่เข้ามาช่วยให้เกิดระดับของความเก่งที่มากขึ้น และ การประสานงานใหม่ ใน SRE ecosystem
กรณีการใช้งานเหล่านี้ได้แก่:
Context-aware observability engineering
เป็นการทำ observability ที่ตระหนักถึงบริบท (Context-aware observability engineering) ในกรณีนี้ AI Agents สามารถช่วยได้ เช่น
- การเชื่อมโยง Alert ต่างๆ เข้าด้วยกัน
- ตรวจจับกลุ่ม Anomaly (ความผิดปกติ)
- จัดตำแหน่งปัญหาเข้ากับ Service Topology
บริบทที่เกี่ยวข้องในกรณีนี้ ได้แก่
- SLOs (Service-Level Objectives)
- แนวโน้มในอดีต
- ข้อมูล telemetry
- Log โดยละเอียด
- ownership (ผู้รับผิดชอบ)
- Alert และ Incident ที่ผ่านมา
- แพลตฟอร์ม Observability เช่น Chronosphere เป็น MCP Host ที่เป็นไปได้ในบริบทนี้
- ส่วน MCP Client อาจเป็น RCA agents (เอเจนต์สำหรับวิเคราะห์หาสาเหตุ)
- Alert deduplication bots (บอทช่วยขจัด Alert ซ้ำซ้อน)
- FinOps optimizers (เครื่องมือเพิ่มประสิทธิภาพทางการเงินในการดำเนินงาน)
AI-assisted incident investigation and triage
การตรวจสอบ และ จัดลำดับความสำคัญ Incident โดย AI (AI-assisted incident investigation and triage) Agent สามารถนำบริบทเชิงความหมายที่หลากหลายติดตัวไปด้วย ขณะที่ทำการตรวจสอบสาเหตุของปัญหา เสนอวิธีแก้ไข หรือ ยกระดับ Incident
บริบทในกรณีนี้ประกอบด้วย
- Alert state (สถานะของ Alert)
- System health (สุขภาพของระบบ)
- Incident ที่ผ่านมา
- การแก้ไขปัญหาในอดีต
- ผู้ที่แก้ไข Incident
- บริบท Log แบบเรียลไทม์
แพลตฟอร์มการจัดการ Incident เช่น Rootly MCP สามารถเป็น MCP Host ได้ และ Client ที่เป็นไปได้อาจเป็น
- Slack bots
- Summarization Agents
- Ticket Generators (เครื่องมือสร้างตั๋ว)
- RCA Agents
- Incident Investigation
- Resolution Agents (Agent ตรวจสอบและแก้ไข Incident)
Semantic handoffs across systems
การส่งมอบบริบทเชิงความหมายข้ามระบบ (Semantic handoffs across systems)
MCP ช่วยให้ AI Agent ที่ทำงานข้ามเครื่องมือต่างๆ เช่น Slack, Jira, Confluence หรือ Runbooks สามารถส่งมอบความเข้าใจร่วมกันได้ แทนที่จะเป็นเพียงแค่สถานะ
บริบทที่เกี่ยวข้องในกรณีนี้ประกอบด้วย
- Incident timeline (ไทม์ไลน์ของ Incident)
- Related tickets and Issues
- Standard Operating Procedure (SOP)
- Recent updates (การอัพเดทล่าสุด)
- Feature Detail (รายละเอียด ของ Feature)
- Response actions ที่ผ่านมา
แพลตฟอร์มสำหรับจัดการ Knowledge (knowledge management platform) เช่น MCP Atlassian สามารถทำหน้าที่เป็น MCP Host ได้
Client อาจเป็น
- Workflow Orchestrators (เครื่องมือประสานงานแบบ workflow)
- Playbook Automation Runners (เครื่องมือเรียกใช้งาน Playbook แบบอัตโนมัติ)
- Content Creators (ผู้สร้างเนื้อหา)
- Human-in-the-loop Assist Tools (เครื่องมือช่วยเหลือที่มีคนคอยตรวจสอบ)
กรณีเหล่านี้ แสดงให้เห็นว่า MCP เสริม APIs โดยการเพิ่ม context layer แบบ dynamic ซึ่งทำให้ AI Agent สามารถดำเนินการด้วยความตระหนักรู้ ใช้เครื่องมือที่เหมาะสม ทำงานร่วมกับหน่วยความจำ สร้างผลลัพธ์ที่แม่นยำขึ้น และ พัฒนาพฤติกรรมได้เมื่อเวลาผ่านไป
นี่คือการเปลี่ยนจากการ "เรียก API" ไปสู่ "Contextual reasoning" ซึ่งเป็นพื้นฐานสำหรับการสร้างระบบความน่าเชื่อถือแบบอัตโนมัติ และ ชาญฉลาด