שימור פרומפטים (Prompt Caching)Prompt Caching
הגדרה מהירה
מה זה Prompt Caching? (TL;DR)
Prompt Caching של Anthropic (cache_control: ephemeral) מוריד עלות read-tokens על system prompts חוזרים ב-50-90%. משתלם מעל 1024 tokens חוזרים. ROI חוזר אחרי 2 cache hits.
ידוע גם בכתיבים: Prompt Caching · שימור פרומפטים · cache_control · Anthropic caching · cache פרומפט
עיקרי המונח (Key Takeaways)
- ▸Prompt Caching = שימור system prompts חוזרים בצד Anthropic לחיסכון tokens.
- ▸הפעלה: cache_control: { type: "ephemeral" } על system message ב-API.
- ▸חיסכון: 50-90% על cache hits (read cost). עלות כתיבה ראשונה: +25%.
- ▸משתלם מעל 1024 tokens חוזרים (Sonnet) / 2048 (Haiku).
- ▸TTL: 5 דקות (refreshes כל read). אפשר 1-hour עם cache_control נוסף.
- ▸use cases: chatbots עם system prompt ארוך, RAG עם same context, code review agents.
- ▸Gemini תומך אוטומטית. OpenAI הוסיף 2024. הסטנדרט של 2026.
ציטוט
השתמשתם בדף הזה? תנו קרדיט.
עתונאים, חוקרים וצוותי AI - בחרו פורמט להעתקה. ה-citation האקדמי שלנו בקליק.
מונחים קשורים
הגנה מפני הזרקת פרומפטים
שימוש ב-Sanitizers מתקדמים למניעת ניסיונות של משתמשים "לעבוד" על ה-AI ולפרוץ למערכת.
הטמעת Prompt Caching
טכניקת אופטימיזציה ל-Anthropic/Gemini שמורידה עלות tokens של system prompts חוזרים ב-50-90%.
שימור קונטקסט (Caching)
טכנולוגיית Gemini המאפשרת להקפיא זיכרון של מיליוני טוקנים כדי לחסוך בעלויות ולהזניק את המהירות.
התקפת Prompt Injection
מתקפת אבטחה שבה משתמש זדוני מזריק הוראות ל-LLM כדי לעקוף הוראות מערכת ולגנוב נתונים.
CDN ו-Edge Caching
הקטנת latency ועלויות compute ע"י caching של static assets ו-API responses ב-edge locations.
חוב טכנולוגי (Tech Debt)
העלות העתידית שנוצרת מפתרון מהיר, המייצר "כדורי בוץ" בקוד (Big Ball of Mud) ומונע הוספת פיצ'רים.
Audit הנדסי לפרויקט · 24 שעות · חינם
תארו מה שבור או מה החלום. נחזור עם אבחון הנדסי + תוכנית חילוץ ראשונית - בלי התחייבות.
מעדיפים לדלג? כתבו לנו ישירות בווצאפ