Контекстне вікно

Контекстне вікно у великій мовній моделі (LLM) — це обсяг тексту, який модель може враховувати при генерації відповіді, що впливає на її здатність розуміти та генерувати послідовний текст.

Контекстне вікно Великої Мовної Моделі (LLM) визначає максимальну кількість токенів (слів, частин слів або символів), яку модель може обробляти та враховувати одночасно при генерації вихідних даних. Це вікно діє як короткочасна пам'ять моделі, охоплюючи вхідний запит та будь-який попередньо згенерований текст. Більше контекстне вікно дозволяє LLM зберігати більше інформації з розмови або документа, що призводить до покращення послідовності, релевантності та розуміння складних інструкцій або довгих наративів. Наприклад, модель з контекстним вікном у 4096 токенів може «пам'ятати» до приблизно 3000 слів тексту. Архітектура LLM, зокрема механізм уваги (наприклад, self-attention у Трансформерах), визначає, наскільки ефективно вона може використовувати це вікно. Існують компроміси: більші контекстні вікна вимагають значно більше обчислювальних ресурсів (пам'яті та обчислювальної потужності) і можуть призвести до збільшення затримки під час виведення. Крім того, моделі можуть стикатися з явищем «втрати в середині», коли інформація в середині дуже довгого контексту використовується менш ефективно, ніж інформація на початку або в кінці. Техніки, такі як ковзне вікно уваги, розріджена увага або генерація з доповненням пошуком (RAG), використовуються для пом'якшення цих обмежень та розширення ефективної обробки контексту.

        graph LR
  Center["Контекстне вікно"]:::main
  Pre_computer_science["computer-science"]:::pre --> Center
  click Pre_computer_science "/terms/computer-science"
  Rel_large_language_model["large-language-model"]:::related -.-> Center
  click Rel_large_language_model "/terms/large-language-model"
  Rel_hallucination_ai["hallucination-ai"]:::related -.-> Center
  click Rel_hallucination_ai "/terms/hallucination-ai"
  Rel_token["token"]:::related -.-> Center
  click Rel_token "/terms/token"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Перевірка знань

1 / 3

🧒 Простими словами

Це схоже на блокнот [LLM](/uk/terms/llm); він може пам'ятати лише те, що вміщується на поточній сторінці, коли пише свою відповідь.

🤓 Expert Deep Dive

Розмір контекстного вікна, який зазвичай вимірюється в токенах, є критичним архітектурним параметром, що безпосередньо впливає на здатність LLM виконувати завдання, що вимагають довгострокових залежностей. Архітектури на основі Трансформерів, які домінують у сучасних LLM, використовують механізми самостійної уваги (self-attention). Обчислювальна складність стандартної самостійної уваги масштабується квадратично ($O(N^2)$) залежно від довжини послідовності $N$ (розмір контекстного вікна), що робить дуже великі вікна надмірно дорогими з точки зору пам'яті та обчислень. Це стимулювало дослідження ефективних варіантів уваги, таких як розріджена увага (наприклад, Longformer, BigBird), лінійна увага та генерація з доповненням пошуком (RAG). RAG, наприклад, доповнює LLM зовнішньою системою пошуку знань, ефективно розширюючи її доступний «контекст» за межі фіксованого вікна шляхом динамічного отримання релевантної інформації. Архітектурні рішення, такі як позиційні кодування (наприклад, абсолютні, відносні, обертові), також впливають на те, наскільки добре модель може інтерпретувати позиції токенів у межах вікна. Особливі випадки включають катастрофічне забування під час доналаштування на нових даних та згадану вище проблему «втрати в середині», коли оцінки уваги можуть знижуватися для токенів, розташованих далеко від початку або кінця запиту.

🔗 Пов'язані терміни

Попередні знання:

📚 Джерела