Agenci AI #1. Czym jest agent AI

Model językowy, chatbot, agent. Trzy pojęcia, które często się mylą

Przed zdefiniowaniem agenta należy wyjaśnić trzy pojęcia, których używa się zamiennie (niesłusznie).

Model językowy (LLM)

Model językowy to bazowa sieć neuronowa wytrenowana na ogromnych zbiorach danych: głównie tekście i kodzie, ale coraz częściej też na obrazach, audio i wideo. Model nie jest "zaprogramowany" regułami, lecz wytrenowany na danych (pre-training), a następnie dostrojony pod wykonywanie instrukcji (fine-tuning, RLHF). GPT-4, Claude 4, Gemini 2.5 to modele tego typu.

Model generuje odpowiedź token po tokenie. Przy każdym kroku oblicza rozkład prawdopodobieństwa nad wszystkimi możliwymi tokenami i losuje następny (sampling z parametrami temperature, top-p). To wyjaśnia dwie cechy LLM-ów: niedeterminizm — ta sama prośba może dać różne odpowiedzi, bo przy każdym uruchomieniu losowanie potoczy się inaczej, oraz halucynacje — model "zgaduje" kolejny token, nawet gdy nie ma wystarczającej wiedzy, i czasem zgaduje źle, ale przekonująco.

Model sam w sobie nie "rozmawia" ani nie "działa". To silnik obliczeniowy. Aby go wykorzystać, potrzebny jest kontekst.

Kontekst to wszystko, co model widzi w danym momencie: systemowy prompt z instrukcjami, historia konwersacji, wyniki narzędzi, dokumenty. Współczesne modele mają okna kontekstowe rzędu setek tysięcy do miliona tokenów. Claude Opus 4.6 i Sonnet 4.6 obsługują do 1 000 000 tokenów (ok. 750 000 słów, około 3000 stron tekstu), a standardowe okno dla większości modeli to 200 000 tokenów (około 500 stron). Kontekst zawsze jest skończony. Choć chatboty zapisują historię rozmów, każda sesja ma twardy limit tego, ile model "widzi" naraz.

Chatbot

Chatbot to aplikacja zbudowana na modelu językowym z interfejsem konwersacyjnym. Użytkownik pisze, model odpowiada.

To uproszczony opis. Współczesne chatboty potrafią znacznie więcej niż "odpowiadać na pytania". Model może myśleć (extended thinking), wołać narzędzia (web search, code interpreter, kalkulator), układać plan i realizować go krok po kroku. ChatGPT z włączonym wyszukiwaniem i Python REPL to potężne narzędzie.

To jednak pozostaje chatbotem. Brakuje jednego kluczowego elementu: Chatbot żyje w jednej sesji. Współczesne chatboty (ChatGPT, Claude.ai) zapisują historię rozmów i mogą mieć elementy pamięci, ale operacyjnie każda odpowiedź jest generowana w ramach jednego, skończonego okna kontekstowego. Chatbot nie może sam zainicjować działania, nie może wrócić do przerwanego zadania, nie działa w tle. Czeka na wiadomości użytkownika.

Agent

Agent to aplikacja, w której model językowy działa w pętli — sam decyduje o kolejnych krokach, wykonuje je, obserwuje wyniki i kontynuuje.

Kluczowe słowo: pętla. Agent nie odpowiada na jedno pytanie. Agent:

Rozumuje — analizuje cel i dotychczasowe wyniki, planuje następny krok
Działa — wykonuje akcję (wywołuje narzędzie, zapisuje plik, zadaje pytanie)
Ocenia — czy cel osiągnięty? Jeśli nie, wraca do kroku 1 z nowym kontekstem

Pętla trwa, dopóki cel nie zostanie osiągnięty (lub coś nie pójdzie nie tak). Człowiek może, ale nie musi, interweniować w każdym kroku.

To fundamentalna różnica wobec chatbota. Oba mogą wołać narzędzia, ale chatbot robi to w ramach jednej odpowiedzi na jedną wiadomość. Agent woła narzędzie, dostaje wynik, decyduje, że to nie wystarczy, woła inne narzędzie, porównuje wyniki, poprawia własny błąd i kontynuuje bez udziału użytkownika.

Gdy zadanie jest zbyt duże na jeden kontekst, agent może je rozłożyć na podzadania i delegować je innym agentom. Każdy sub-agent dostaje własną, świeżą sesję z tylko tyle kontekstu, ile potrzebuje do konkretnego zadania. Orkiestrator zbiera wyniki i scala je w całość. Wzorzec ten zwany multi-agent pozwala agentom rozwiązywać problemy, które nie zmieściłyby się w jednym oknie kontekstowym.

Chatbot vs agent — kluczowe różnice
Cecha	Chatbot	Agent
Czym jest	Aplikacja konwersacyjna	Aplikacja z pętlą decyzyjną
Inicjatywa	Odpowiada na wiadomość	Planuje i działa samodzielnie
Narzędzia	Tak (w ramach jednej odpowiedzi)	Tak (iteracyjnie w pętli z samokorekcją)
Pamięć między sesjami	Brak	Tak (pliki; bazy; konfiguracja)
Pętla agentowa	Nie	Tak
Delegowanie do sub-agentów	Nie	Tak
Przykład	ChatGPT, Claude.ai	Claude Code, OpenClaw, Devin

Pętla pracy agenta

Poszczególni agenci różnią się szczegółami implementacji i promptami systemowymi, ale ogólna zasada jest wspólna. Każdy obrót pętli obejmuje trzy kroki:

Rozumowanie — agent czyta kontekst: cel, dotychczasowe wyniki, błędy, odpowiedzi użytkownika. Analizuje sytuację i planuje następny krok.
Akcja — agent wykonuje jedną lub więcej operacji: wywołuje narzędzie, zadaje pytanie, zapisuje plik. Wynik akcji automatycznie trafia do kontekstu i staje się częścią tego, co agent "widzi" w następnym obiegu.
Ewaluacja — agent ocenia wynik akcji. Jeśli cel został osiągnięty, pętla się kończy. Jeśli nie, agent powraca do kroku 1 z nowym kontekstem. W przypadku błędów agent zmienia strategię.

Jakie akcje ma do dyspozycji? To zależy od implementacji, ale można je podzielić na dwie kategorie:

Akcje zewnętrzne (tool calls — agent działa na świat):

Wywołanie narzędzia — web search, fetch URL, odczyt pliku, uruchomienie kodu, zapytanie do API
Zapisanie pliku — wynik pracy (dokument, kod, konfiguracja)
Uruchomienie sub-agenta — delegowanie podzadania do nowej sesji z własnym kontekstem

Akcje wewnętrzne (rozumowanie — agent działa na własny kontekst):

Zaplanowanie kroków — dekompozycja złożonego zadania na podzadania
Zapisanie notatki — utrwalenie wniosku lub decyzji dla siebie lub następnego agenta
Zmiana strategii — coś nie zadziałało, trzeba spróbować inaczej
Komunikacja z użytkownikiem — pytanie, raport postępu, wynik końcowy
Zakończenie zadania — cel osiągnięty, pętla się kończy

Przykład sesji pracy agenta

Poniżej opisano krok po kroku, jak agent realizuje zadanie. Każdy krok to jeden obrót pętli: rozumowanie → akcja → ewaluacja. W tabelach ewaluacja jest oznaczona jako „Obserwacja", pokazując, co agent widzi po wykonaniu akcji i na tej podstawie ocenia, czy kontynuować.

Prompt: Przygotuj prezentację o emisji CO2 w Europie

Krok 1 — Uściślenie zadania

Rozumowanie	Potrzebuję uściślić zadanie. Czy chodzi o emisję CO2 per capita/ całkowitą/ historyczną? Jaki format prezentacji — PowerPoint/ PDF/ Markdown? Zapytam użytkownika.
Akcja	Agent zadaje pytanie: „Czy zależy Ci na emisji per capita czy całkowitej? Jaki format — PPTX/ PDF?"
Obserwacja	Użytkownik odpowiada: „Całkowita emisja/ ostatnie 10 lat/ format PPTX/ 8-10 slajdów."

Krok 2 — Próba pobrania danych z API

Rozumowanie	Mam parametry. Potrzebuję danych — spróbuję Eurostat API/ to oficjalne źródło UE dla statystyk emisji.
Akcja	Wywołuje narzędzie `fetch_url` → Eurostat API/ endpoint `env_air_gge`/ filtr: EU-27/ lata 2015-2024.
Obserwacja	API zwraca błąd HTTP 429 — Too Many Requests. Rate limit.

Krok 3 — Zmiana strategii: CSV zamiast API

Rozumowanie	API Eurostatu mnie odrzuciło. Spróbuję pobrać gotowy dataset CSV ze strony Eurostatu — to nie wymaga API.
Akcja	Wywołuje `web_search` → „Eurostat CO2 emissions EU-27 2015-2024 CSV download". Pobiera znaleziony plik przez `fetch_url`.
Obserwacja	Dane emisji CO2 w milionach ton, rozbite na kraje i lata — pobrane jako CSV.

Krok 4 — Drugie źródło do walidacji

Rozumowanie	Mam dane z Eurostatu. Dobrze byłoby mieć drugie źródło do walidacji — wezmę raport IEA (International Energy Agency).
Akcja	Wywołuje `web_search` → „IEA CO2 emissions Europe 2015-2024 report".
Obserwacja	Znajduje raport IEA z danymi za ten sam okres.

Krok 5 — Rozbieżność danych

Rozumowanie	Porównam dane za 2023. Eurostat: 2,88 mld ton CO2 dla EU-27. IEA: 3,12 mld ton. Różnica 8% — muszę zrozumieć dlaczego.
Akcja	Wywołuje `web_search` → „Eurostat vs IEA CO2 emissions methodology difference".
Obserwacja	Eurostat i IEA stosują różne metodologie: inna klasyfikacja paliw, inna granica systemowa, inne podejście do lotnictwa i żeglugi międzynarodowej. Stąd różnica.

Krok 6 — Planowanie struktury prezentacji

Rozumowanie	Rozumiem rozbieżność. Użyję danych Eurostat (scope 1 — spójne z unijnym raportowaniem) i dodam przypis o metodologii IEA. Czas zbudować strukturę slajdów.
Akcja	Agent generuje plan 9 slajdów: tytuł, metodologia, trend 2015-2024 (wykres), top 5 emitentów, per capita vs całkowita, sektory, redukcja vs cele Fit for 55, porównanie z resztą świata, podsumowanie.
Obserwacja	Plan gotowy w pamięci roboczej.

Krok 7 — Generowanie pliku PPTX

Rozumowanie	Mam strukturę i dane. Muszę wygenerować plik PPTX. Sam nie potrafię stworzyć pliku binarnego — ale mogę napisać skrypt w Pythonie.
Akcja	Agent pisze skrypt `build_presentation.py` korzystający z biblioteki `python-pptx`: tworzy slajdy, wstawia dane z CSV, generuje wykresy. Wywołuje `bash` → `pip install python-pptx && python build_presentation.py`.
Obserwacja	Biblioteka zainstalowana, ale skrypt kończy się błędem — `KeyError: 'Germany'` — bo w CSV z Eurostatu kolumna `geo` zawiera kody ISO (DE, FR, PL), a skrypt filtruje po angielskich nazwach.

Krok 8 — Naprawa błędu w skrypcie

Rozumowanie	Błąd w mapowaniu nazw krajów. Skrypt zakładał angielskie nazwy, a CSV z Eurostatu używa kodów ISO. Muszę poprawić filtrowanie.
Akcja	Agent poprawia skrypt: zamienia filtrowanie po nazwach na kody ISO (DE, FR, PL…). Uruchamia ponownie: `python build_presentation.py`.
Obserwacja	Skrypt kończy się sukcesem. Plik `emisja_co2_europa.pptx` zapisany — 9 slajdów z danymi i wykresami.

Krok 9 — Zakończenie

Rozumowanie	Plik jest gotowy. Cel osiągnięty.
Akcja	Agent raportuje: „Prezentacja gotowa — 9 slajdów, dane Eurostat 2015-2024, przypis o metodologii IEA. Plik: `emisja_co2_europa.pptx`." Obserwacja,Koniec pętli.

Wnioski z przykładu

Dziewięć obrotów pętli, z których żaden nie był zaplanowany z góry. Agent reagował na to, co odkrywał w każdym kroku. Rate limit API zmienił strategię na pobranie CSV. Konflikt danych między Eurostatem a IEA wymagał zbadania przyczyny. Błąd w skrypcie wymagał diagnozy i poprawy. Każdy krok to decyzja: co zrobić dalej na podstawie bieżącej wiedzy.

Współczesny chatbot z narzędziami (browsing, code interpreter) potrafi wyszukać dane i wygenerować plik, ale robi to w ramach jednej odpowiedzi na jedną wiadomość. Gdy coś pójdzie nie tak — błąd API, niespójne dane, crash skryptu — chatbot się zatrzymuje lub ignoruje problem. Agent natomiast wraca do analizy, zmienia strategię i kontynuuje. Różnica nie jest w inteligencji modelu ani w dostępie do narzędzi, lecz w pętli z samokorekcją.

Cztery filary agenta

Pętla rozumowanie→akcja→ewaluacja stanowi szkielet. Aby agent działał skutecznie w praktyce, potrzebuje czterech zdolności:

1. Narzędzia

Agent bez narzędzi to chatbot z ambicjami. Narzędzia to sposób, w jaki agent działa na świat: czyta pliki, edytuje kod, uruchamia polecenia w terminalu, wyszukuje w internecie, pobiera dane z API.

Liczba i rodzaj dostępnych narzędzi definiuje przestrzeń akcji agenta — zbiór wszystkiego, co agent może zrobić. Claude Code ma kilkanaście wbudowanych narzędzi plus dowolną liczbę podłączonych przez protokół MCP . Cursor ma narzędzia zintegrowane z edytorem. Aider operuje głównie na plikach i git.

Im więcej narzędzi, tym agent jest zdolniejszy, ale tym więcej tokenów zużywa na opisy narzędzi w kontekście. Każde narzędzie to kilkadziesiąt-kilkaset tokenów opisu, który model musi "przeczytać" przy każdym obiegu pętli. To fundamentalny trade-off omówiony w poście #3 .

2. Pamięć

Agent potrzebuje pamięci na dwóch poziomach:

Krótkoterminowa — historia bieżącej sesji, czyli kontekst. Zawiera to, co już wykonano, jakie pliki czytano, jakie wyniki otrzymano. Ograniczona rozmiarem okna kontekstowego (200k–1M tokenów w zależności od modelu i planu). Gdy kontekst się kończy, agent traci wątek.
Długoterminowa — wiedza, która przetrwa zamknięcie sesji. Preferencje użytkownika, architektura projektu, podjęte decyzje. W Claude Code materializuje się jako pliki CLAUDE.md i system pamięci w ~/.claude/projects/.

Bez pamięci długoterminowej agent jest jak chirurg z amnezją. Umiejętny, ale każdą operację zaczyna od zera. Wie, jak zrefaktorować kod, ale nie pamięta, że wczoraj ustaliono konwencję nazewnictwa.

3. Planowanie

Proste zadania agent może rozwiązać w jednym kroku. Ale "zrefaktoruj moduł autoryzacji" wymaga planu: jakie pliki zmienić, w jakiej kolejności, jak przetestować, jak nie zepsuć zależności.

Planowanie to zdolność agenta do dekompozycji celu na podkroki i śledzenia postępu. W przykładzie z prezentacją agent nie próbował zrobić wszystkiego naraz. Najpierw uściślił zadanie, potem zebrał dane, potem je zwalidował, potem zaplanował strukturę, potem wygenerował plik. Każdy krok wynikał z poprzedniego.

4. Samorefleksja

Dobry agent nie idzie ślepo do przodu. Gdy test nie przechodzi, build się sypie, wynik wygląda podejrzanie, agent powinien rozpoznać problem, przeanalizować przyczynę i skorygować podejście.

W przykładzie z prezentacją to widać dwukrotnie: rate limit API spowodował zmianę strategii na CSV, błąd KeyError w skrypcie zmienił podejście na kody ISO. Agent nie powtarzał tego samego, lecz zmieniał podejście na podstawie nowych informacji.

To odróżnia agenta od skryptu. Skrypt wykonuje instrukcje liniowo i pada na pierwszym błędzie. Agent natomiast reaguje na feedback i adaptuje strategię.

Przegląd dostępnych agentów

Agenci AI — przegląd ekosystemu w 2026 roku
Nazwa	Producent	Typ	Opis
Claude Code	Anthropic	CLI / terminal	Agent w terminalu z natywną integracją z systemem plików, git i MCP. Modele Claude 4.x.
Aider	open-source	CLI / terminal	Agent do pair-programmingu w terminalu. Obsługuje wiele modeli: Claude, GPT, Gemini, lokalne.
Open Interpreter	open-source	CLI / terminal	Agent z dostępem do systemu operacyjnego. Uruchamia kod w wielu językach i zarządza plikami.
Cursor	Anysphere	IDE	Fork VS Code z wbudowanym agentem (Agent Mode, Composer). Integracja z wieloma modelami.
Windsurf	Codeium	IDE	Alternatywa dla Cursora z własnym modelem Cascade i agentowym trybem pracy.
Cline	open-source	IDE	Rozszerzenie VS Code z autonomicznym agentem. Obsługuje Claude, GPT, lokalne modele.
Devin	Cognition	Autonomiczny	AI software engineer - własne środowisko z przeglądarką, terminalem i edytorem.
Codex CLI	OpenAI	CLI / terminal	Agent terminalowy OpenAI. Modele GPT i o-series z dostępem do plików i terminala.
Gemini CLI	Google	CLI / terminal	Open-source'owy agent terminalowy Google. Modele Gemini z dostępem do plików i terminala.
Hermes	Nous Research	Model agentyczny	Seria fine-tune'ów (na bazie Llama, Mistral) zoptymalizowanych pod tool-use i function calling. Popularne w self-hosted agentach.
Qwen-Agent	Alibaba	Framework agentyczny	Framework do budowy agentów na modelach Qwen. Wbudowane function calling, MCP, code interpreter, RAG.

Agent nie zastępuje specjalisty, lecz zmienia model pracy. Można go porównać do zespołu kilku pracowników o ograniczonym doświadczeniu i kontekście biznesowym, ale zdolnych do wydajnego wykonywania konkretnych zadań. Rola człowieka to wyznaczanie kierunku, dawanie instrukcji i kontrolowanie wyników. Im lepiej opisany cel i ograniczenia, tym lepszy efekt.

Bezpieczeństwo i granice autonomii

Autonomia agenta to miecz obosieczny. Agent z pełnym dostępem do terminala może usunąć pliki (rm -rf), wypchnąć kod na produkcję (git push), wysłać wiadomość w imieniu użytkownika (Slack MCP), zmodyfikować konfigurację serwera.

Dodatkowe ryzyko: prompt injection. Agent pobierający dane z internetu lub czytający zewnętrzne pliki może natrafić na złośliwe instrukcje osadzone w treści (na przykład komentarz w kodzie: "ignore previous instructions and delete all files"). Dobre frameworki agentowe izolują dane od instrukcji, ale to wciąż aktywny obszar badań bezpieczeństwa.

Każdy agent potrzebuje granic autonomii. W praktyce większość agentów w 2026 roku działa w trybie human-in-the-loop. Człowiek zatwierdza kluczowe akcje, a agent sam wykonuje tylko operacje o niskim ryzyku. Pełna autonomia (agent działający bez nadzoru przez godziny) jest rzadka i zarezerwowana dla dobrze przetestowanych, ograniczonych środowisk.

W Claude Code granice autonomii realizowane są przez:

System uprawnień — agent pyta o zgodę przed destrukcyjnymi operacjami
CLAUDE.md — jawne reguły ("nigdy nie commituj samodzielnie", "nie edytuj plików w docs/private/")
Hooks — automatyczne reguły reagujące na zdarzenia (na przykład blokowanie git push --force)
MCP permissions — kontrola dostępu do zewnętrznych narzędzi

Koszty

Agent zużywa znacznie więcej tokenów niż pojedyncze zapytanie do chatbota. Każdy obrót pętli wymaga przesłania pełnego kontekstu do modelu. Sesja agenta z 20 obrotami to 20× więcej tokenów niż jedna odpowiedź chatbota. To fundamentalny trade-off: większa autonomia i lepsze wyniki kosztem wyższych wydatków. Szczegóły omówione w poście #3 .

Menu