Halucynacje AI - dane, przykłady, praktyczny poradnik

Odpowiedź w skrócie

Halucynacje AI to sytuacje, w których model generuje tekst brzmiący pewnie i autorytatywnie, ale faktycznie nieprawdziwy. To nie jest defekt do załatania. To statystyczna konsekwencja sposobu, w jaki modele są trenowane: za „nie wiem” dostają zero punktów, za trafny strzał punkt. Dlatego zgadują zawsze. W tym artykule tłumaczę dlaczego tak się dzieje, jak rozpoznać zmyślony fakt w odpowiedzi AI i jak zmniejszyć ryzyko siedmioma technikami, które działają bez kodowania.

We wrześniu 2025 roku sami badacze OpenAI, w pracy „Why Language Models Hallucinate” (Kalai i współpracownicy), przyznali coś, co użytkownicy czuli od dawna: standardowe testy „nagradzają halucynacyjne zachowanie”, bo za odpowiedź „nie wiem” model dostaje zero, a za trafny strzał punkt. Jak uczeń w teście bez punktów ujemnych: zgaduj zawsze. A potem w kwietniu 2025 OpenAI opublikowało kartę bezpieczeństwa modeli o3 i o4-mini, z której wynika, że nowszy, „rozumujący” o3 halucynuje w 33 procentach przypadków na teście PersonQA, a o4-mini aż w 48 procentach. Wobec 16 procent dla starszego o1. Lepsze modele nie halucynują mniej. Halucynują inaczej, trudniej wykrywalnie, a czasem nawet więcej. Ten artykuł pokazuje dlaczego, jak to rozpoznać i jak się przed tym chronić.

Czym jest halucynacja AI (i dlaczego to słowo bywa mylące)

Halucynacja AI to generowanie tekstu, który jest płynny, spójny wewnętrznie i brzmi autorytatywnie, ale jest faktycznie nieprawdziwy lub niemożliwy do zweryfikowania w podanym źródle. Model nie „kłamie” (kłamstwo wymaga intencji) i nie „myli się” w ludzkim sensie (bo nie pamięta faktów). Poprawniej byłoby mówić o rekonstrukcji statystycznej, która czasem trafia, a czasem nie.

Badacze z Oxfordu (Farquhar i zespół, Nature, czerwiec 2024) celowo używają słowa „konfabulacja” zamiast „halucynacja”. Definiują je jako „arbitralne i niepoprawne generacje” i pokazują, że można je wykrywać przez wielokrotne próbkowanie odpowiedzi: kiedy model „wie”, odpowiedzi zbiegają się. Kiedy konfabuluje, dryfują w różne strony. To mocny dowód, że halucynacja to nie awaria systemu. To sygnał niepewności, który model źle obsługuje.

Są dwa główne typy. Halucynacja wewnętrzna: model jawnie zaprzecza treści źródła (pisze „FDA odrzuciła szczepionkę”, gdy źródło mówi „zatwierdziła”). Halucynacja zewnętrzna: model dodaje informację, której w źródle nie ma i której nie da się z niego zweryfikować. Może być przypadkowo prawdziwa, ale z perspektywy źródła jest zmyśleniem.

W praktyce halucynacje dzielą się na kilka kategorii, które warto znać:

Faktograficzna: zmyślona data, nazwisko, liczba, miejsce.
Cytowana: zmyślony artykuł naukowy, sygnatura wyroku, adres URL. Format zgadza się idealnie, ale dokumentu nie ma w żadnej bazie.
Numeryczna: konkretna precyzja („73,4 procent”) bez pokrycia w danych.
Logiczna: wniosek, który nie wynika z przesłanek mimo pozornej poprawności rozumowania.
Mieszana: prawdziwe nazwisko plus nieistniejąca praca naukowa. Rozpoznajesz autora, tracisz czujność, akceptujesz resztę. Ten tryb powoduje najwięcej szkód.

Dlaczego modele AI halucynują: mechanika po ludzku

Najtrafniejsza analogia: model językowy to nie wyszukiwarka i nie baza wiedzy. To statystyczny uzupełniacz tekstu, który generuje kolejne słowo zawsze, nawet gdy nie powinien. W każdym kroku oblicza prawdopodobieństwo następnego fragmentu słowa na podstawie tego, co już napisał. Nie ma w tym procesie żadnego miejsca, w którym model „sprawdza” cokolwiek. Jest tylko przewidywanie.

Kalai i współpracownicy z OpenAI (2025) formalizują to matematycznie. Pokazują, że dla rzadkich faktów (rzeczy występujących w danych treningowych raz albo wcale) model nie ma podstaw, żeby „wiedzieć”, więc statystycznie musi strzelać.

Ale kluczowe jest drugie źródło halucynacji: sposób oceniania modeli. W 9 z 10 głównych testów odpowiedź „nie wiem” dostaje zero punktów, a poprawny strzał dostaje punkt. Trening z ludzkimi oceniaczami (RLHF) wzmacnia tę tendencję, bo oceniacze preferują „pewnie brzmiące” odpowiedzi.

Dlaczego „nie wiem” jest tak trudne dla modelu? Bo w trakcie treningu praktycznie nigdy nie był nagradzany za powstrzymanie się od odpowiedzi. Kadavath i współpracownicy (2022) pokazali, że modele mają wewnętrzny sygnał niepewności. Wiedzą, że nie wiedzą. Ale warstwa produkcyjna tego sygnału nie używa. Naprawa wymagałaby przepisania funkcji nagrody tak, żeby „nie wiem” w sytuacji rzeczywistej niewiedzy było punktowane lepiej niż błąd.

Jest jeszcze trzeci czynnik: losowość generowania. Parametr „temperatura” kontroluje rozproszenie odpowiedzi. Im wyższy, tym model chętniej wybiera mniej prawdopodobne słowa, co daje kreatywność, ale i więcej halucynacji. Jednak badania (Renze i Guven, 2024) pokazują, że w typowych zastosowaniach wpływ temperatury jest drugorzędny. Rdzeniem problemu jest struktura nagród, nie losowość. Badanie z npj Digital Medicine (2025) potwierdza: w zadaniach medycznych zmiana temperatury „ledwie poruszała igłą”, podczas gdy techniki opisywania poleceń zmniejszyły halucynacje z 53 do 23 procent.

Skala problemu w 2026: konkretne liczby

Kilka kluczowych testów i ich wyniki, żeby mieć realistyczny obraz.

Vectara Hallucination Leaderboard (test wierności przy podsumowywaniu dokumentów, luty 2026): Gemini 2.5 Flash Lite halucynuje w 3,3 procent przypadków, Microsoft Phi-4 w 3,7, Llama 3.3 70B w 4,1, GPT-4.1 w 5,6, Claude Sonnet 4 w 10,3. Porównanie z 2023: wówczas GPT-4 miał około 3 procent, słabsze modele 15 do 30. Na „łatwym” teście poprawa jest widoczna.

Ale Vectara opublikowała pod koniec 2025 też trudniejszy zestaw danych (dokumenty prawne, medyczne, finansowe do 32 tysięcy tokenów) i tam modele rozumujące mocno się cofają. Grok-4 halucynuje w 20,2 procent, GPT-5 i Claude Sonnet 4.5 ponad 10. Hipoteza: modele rozumujące „przemyśliwają” tekst i wstrzykują wnioski wykraczające poza źródło. Lepsze rozumowanie to czasami więcej halucynacji w zadaniach opartych na źródłach.

SimpleQA (OpenAI, test wiedzy faktograficznej krótkimi pytaniami): GPT-4o odpowiada poprawnie w 38,2 procent. GPT-4.5 w 62,5 procent. Gemini 3 Pro w 72,1 procent. Ale o3 (model rozumujący) tylko w 49 procent. A o4-mini w zaledwie 20 procent. Nawet u OpenAI modele rozumujące w krótkim teście faktograficznym są gorsze niż zwykłe.

Domeny, w których halucynacje są najgorsze:

Prawo: Stanford RegLab przetestował narzędzia reklamowane jako „wolne od halucynacji” (Lexis+ AI i Westlaw AI). Wyniki: Lexis+ AI halucynuje w ponad 17 procent zapytań, Westlaw w około 33. GPT-4 bez żadnego wsparcia: 43 procent.

Medycyna: badanie Alkaissi i McFarlane (Cureus 2023) pokazało, że wszystkie 5 cytatów wygenerowanych przez ChatGPT było zmyślonych. Kolejne badanie: 15 procent cytatów sfabrykowanych, 9 procent błędnych, razem prawie 25 procent bezwartościowych.

Dziennikarstwo: badanie BBC/EBU z 2025 wykazało, że 45 procent odpowiedzi AI o bieżących wiadomościach miało „znaczący problem”, a 81 procent jakikolwiek błąd. Odmowa odpowiedzi: zaledwie 0,5 procent.

Prosty przekaz: modele są lepsze niż w 2023, ale halucynacje nie znikają. Na trudnych zadaniach potrafią nawet rosnąć.

Dziesięć sygnałów, po których rozpoznasz halucynację

W praktyce nie masz dostępu do wewnętrznych mechanizmów modelu. Musisz polegać na obserwacji. Oto dziesięć sygnałów, które zdradzają zmyślone informacje.

1. Nadmiernie precyzyjne liczby bez źródła. „Raport McKinseya z 2019 pokazał, że 73,4 procent firm zredukowało koszty o dokładnie 21,8 procent.” Prawdziwe dane mają tolerancje, przedziały ufności i odnośnik. Zmyślone dane mają fałszywą precyzję.

2. Cytaty, DOI i sygnatury wyroków. Format zgadza się idealnie, ale dokumentu nie ma w żadnej bazie. Zawsze sprawdzaj w Google Scholar, PubMed, arXiv. Jeśli identyfikator DOI nie rozwiązuje się w crossref.org, cytat jest zmyślony.

3. Pewność siebie w niszach. Pytasz o mało znanego poetę z dwudziestolecia międzywojennego, dostajesz płynny życiorys z datami i tytułami dzieł. Im bardziej niszowe zagadnienie, tym mniej model ma powodów żeby „wiedzieć”. A im pewniej brzmi odpowiedź, tym większe ryzyko.

4. Jednostajny ton pewności. Prawdziwy ekspert mówi „nie pamiętam dokładnej daty”, „chyba około 1890″, „musiałbym sprawdzić”. Model halucynujący leci z tym samym rejestrem od początku do końca. Brak „około” i „wydaje mi się” to sygnał.

5. Niespójność przy powtórzeniu. Zadaj to samo pytanie w nowej sesji. Fakty powinny być stabilne. Jeśli prezes firmy raz nazywa się inaczej niż za drugim razem, oba nazwiska są zmyślone.

6. Nieproporcjonalna liczba detali o mało znanym temacie. Mały startup, lokalne wydarzenie historyczne, prywatna firma. Dostajesz trzy akapity z datami i przychodami. Nikt nie zna tych danych publicznie. Model je domyślił.

7. Mgliste atrybucje. „Badanie z 2021 roku pokazało…” Bez autorów, tytułu, czasopisma. Prawdziwe źródło jest łatwe do podania. „Naukowcy ze Stanford stwierdzili, że…” bez odnośnika to czerwona flaga.

8. Odpowiadanie na pytania spoza zakresu wiedzy modelu bez zastrzeżenia. Model z danymi treningowymi do końca 2024 opisujący wyniki wyborów 2025 bez żadnego „mogę nie mieć aktualnych danych” to gwarantowana halucynacja.

9. Fałszywe adresy URL. Struktura domeny poprawna, ścieżka wiarygodna, strony nie ma. Zawsze klikaj. Jeśli strona nie istnieje, cytat jest zmyślony, nawet jeśli treść obok jest prawdziwa.

10. Mieszanie prawdy i fałszu. Najgroźniejszy tryb. Prawdziwe nazwisko plus nieistniejąca praca naukowa. Prawdziwa ustawa z błędnym numerem paragrafu. Prawdziwy lek w błędnej dawce. Rozpoznajesz jeden element, tracisz czujność, akceptujesz resztę.

Zasada: im wyższa stawka decyzji, tym niższa powinna być tolerancja na pojedynczy niezweryfikowany szczegół.

Siedem technik, które zmniejszają halucynacje (bez kodowania)

Żadna z tych technik nie eliminuje halucynacji. Ale stosowane razem zmniejszają je wielokrotnie. Wszystkie działają w zwykłym oknie czatu.

1. Podaj źródło i zabroń wyjść poza nie

Najskuteczniejsza pojedyncza technika. Zamiast pytać „co mówi RODO o profilowaniu”, wklej odpowiedni fragment RODO i pytaj z niego. Badanie z npj Digital Medicine (2025) pokazuje spadek halucynacji z 53 do 23 procent głównie dzięki tej technice.

Jak to zrobić: wklej tekst źródłowy i dodaj polecenie: „Odpowiedz wyłącznie na podstawie tekstu poniżej. Jeśli odpowiedzi tam nie ma, napisz dokładnie: nie ma tego w podanym źródle. Nie używaj wiedzy zewnętrznej.”

2. Pozwól modelowi powiedzieć „nie wiem”

Pozornie trywialne, faktycznie bardzo skuteczne. Bo modele domyślnie są trenowane, żeby nigdy tego nie mówić. Badanie R-Tuning (Zhang, Diao i współpracownicy, NAACL 2024 Outstanding Paper) pokazuje, że sama instrukcja powstrzymania się od odpowiedzi mierzalnie poprawia trafność.

Dodaj do polecenia: „Jeśli nie jesteś pewien, że odpowiedź jest poprawna, odpowiedz: nie wiem. Wolę brak odpowiedzi niż wiarygodnie brzmiący strzał.”

3. Weryfikacja łańcuchowa

Technika z badania Dhuliawala i współpracowników (Meta AI, ACL 2024). Cztery kroki: (1) poproś o pierwszą wersję odpowiedzi, (2) poproś o wypisanie każdego twierdzenia faktograficznego jako pytania weryfikacyjnego, (3) w nowym czacie odpowiedz niezależnie na te pytania, (4) wróć i przepisz odpowiedź usuwając zakwestionowane twierdzenia.

Na liście pytań z Wikidata precyzja wzrosła ponad dwukrotnie. To najmocniejsza technika dla długich tekstów faktograficznych: raportów, artykułów, biografii.

4. Kotwiczenie odpowiedzi w konkretnym korpusie

Badanie Weller i współpracowników (EACL 2024) pokazało, że frazy typu „odpowiedz wyłącznie na podstawie Wikipedii” poprawiają dokładność o 5 do 15 punktów procentowych. Dla medycyny zamień „Wikipedia” na „recenzowana literatura z PubMed”. Dla prawa na „kodeks” albo „oficjalne źródła”.

5. Powtórzenie w kilku sesjach

Zadaj to samo pytanie 3 do 5 razy w oddzielnych czatach, potem porównaj. Fakty, które pojawiają się we wszystkich odpowiedziach, mają wysoką pewność. Fakty z jednej odpowiedzi to prawdopodobna halucynacja. Badanie Wang i współpracowników (ICLR 2023) pokazuje wzrost trafności z 56,5 do 74,4 procent na zadaniach matematycznych.

6. Porównanie między modelami

Claude, ChatGPT i Gemini mają różne dane treningowe i różne sposoby dostrajania. Ich tryby błędów są nieskorelowane. Jeśli trzy dają tę samą odpowiedź, prawdopodobnie jest prawdziwa. Jeśli dwa się zgadzają a jeden nie, podejrzewaj ten jeden. Praktycy raportują, że 30 do 50 procent halucynacji jednego modelu łapie inny.

7. Narzędzia oparte na źródłach

NotebookLM (Google) odpowiada wyłącznie z wgranych dokumentów. Google raportuje około 13 procent halucynacji wobec około 40 procent bez osadzania w źródłach. Perplexity Pro podaje numerowane cytaty do źródeł internetowych przy każdej odpowiedzi. Projects w Claude i ChatGPT pozwalają dołączyć pliki kontekstowe z poleceniem „odpowiadaj tylko z załączonych plików”.

Zastrzeżenie: nawet narzędzia ze źródłami nie są bezbłędne. Stanford pokazał, że profesjonalne narzędzia prawne z wbudowanym wyszukiwaniem halucynują w 17 do 33 procent zapytań. Cytaty czynią twierdzenia sprawdzalnymi, nie automatycznie prawdziwymi. Klikaj każdy odnośnik.

Ile kosztują halucynacje: przypadki, które warto znać

To nie jest problem akademicki. To jest problem, który kosztuje realne pieniądze, reputacje i licencje zawodowe.

Mata v. Avianca (USA, 2023). Adwokaci złożyli pismo cytujące zmyślone wyroki sądowe wygenerowane przez ChatGPT. ChatGPT zapewnił jednego z nich, że sprawy „można znaleźć w LexisNexis i Westlaw”. Sędzia nałożył łącznie 5 000 dolarów kary i określił jedno ze streszczeń jako „bełkot”.

Moffatt v. Air Canada (Kanada, 2024). Przełomowa sprawa dotycząca odpowiedzialności. Czatbot Air Canada obiecał pasażerowi możliwość wstecznego ubiegania się o taryfę żałobną, co było sprzeczne z polityką firmy. Linia lotnicza argumentowała, że czatbot to „osobna jednostka prawna odpowiedzialna za własne działania”. Trybunał odrzucił ten argument i zasądził odszkodowanie. Zasada: firma odpowiada za to, co „mówi” jej AI.

Wadsworth v. Walmart (USA, 2025). Trzech prawników dużej kancelarii Morgan & Morgan ukaranych za osiem zmyślonych cytatów z wewnętrznej platformy AI. Kary od 1 000 do 3 000 dolarów plus odebranie uprawnień jednemu z nich. Sama kancelaria uniknęła sankcji, bo wdrożyła procedury weryfikacji i rozesłała ostrzeżenie do ponad 1 000 prawników.

Demo Google Bard (luty 2023). W promocyjnym materiale Bard stwierdził, że teleskop JWST „zrobił pierwsze w historii zdjęcie planety poza Układem Słonecznym”. Fałsz. Pierwsze bezpośrednie zdjęcie egzoplanety zrobił VLT w 2004 roku. Reuters wychwycił błąd w dniu premiery. Akcje Alphabetu spadły około 8 procent, co dało ubytek kapitalizacji rzędu 100 miliardów dolarów.

Baza Damiena Charlotina (publiczny tracker decyzji sądowych dotyczących halucynacji AI) odnotowuje ponad 1 317 spraw w ponad 12 krajach na kwiecień 2026. W połowie 2025 było ich 368. Skala rośnie, bo rośnie użycie AI w profesjonalnych kontekstach.

Jak to wygląda w praktyce

Piszesz artykuł na bloga o zmianach w prawie pracy w 2026 roku. Prosisz Claude’a o podsumowanie najważniejszych zmian.

Dostajesz odpowiedź z pięcioma punktami. Cztery wyglądają znajomo. Piąty: „Nowelizacja Art. 94³ Kodeksu pracy z marca 2026 wprowadza obowiązek informowania pracowników o użyciu AI w procesie oceny rocznej.” Brzmi wiarygodnie. Ma numer artykułu, datę, konkretny obowiązek.

Sprawdzasz w oficjalnym dzienniku ustaw (isap.sejm.gov.pl). Takiego artykułu nie ma. Model zmyślił numer, ale trafił w ogólny kierunek (bo EU AI Act rzeczywiście wymaga informowania o AI w pracy). To jest klasyczna halucynacja mieszana: prawdziwy kontekst plus zmyślony szczegół.

Co robisz następnym razem? Wklejasz tekst ustawy i mówisz: „Odpowiedz wyłącznie na podstawie tego tekstu. Nie dodawaj nic spoza niego.” Dodajesz: „Jeśli nie jesteś pewien numeru artykułu, napisz: nie jestem pewien.” Po trzecim akapicie sprawdzasz odpowiedź w drugim modelu. Trzy techniki, pięć minut dłużej, zero zmyślonych paragrafów w opublikowanym artykule.

Czego unikać

Nie zakładaj, że nowszy model halucynuje mniej. Dane OpenAI mówią coś przeciwnego: o3 halucynuje dwukrotnie częściej niż o1 na teście PersonQA (33 procent wobec 16). Modele rozumujące są lepsze w logice i kodzie, ale gorsze w prostych faktach. Testuj na swoich zadaniach.

Nie ufaj cytatom bez kliknięcia. Format cytatu (DOI, numer wyroku, adres URL) nie jest dowodem istnienia źródła. Jest dowodem, że model zna format. Zawsze klikaj. Jeśli strona nie istnieje albo DOI nie prowadzi do artykułu, cytat jest zmyślony.

Nie polegaj na jednej technice. Pojedyncza technika zmniejsza halucynacje o kilka procent. Kombinacja (podanie źródła plus pozwolenie na „nie wiem” plus porównanie między modelami) zmniejsza o rząd wielkości. Prawnik ukarany w sprawie Mata v. Avianca nie przegrał, bo ChatGPT był słaby. Przegrał, bo nie miał żadnej procedury weryfikacji.

Nie traktuj odpowiedzi AI jak odpowiedzi eksperta. Traktuj jak pracę stażysty: sprawdzalną, ale niezweryfikowaną domyślnie. Na bloga wystarczy powtórzenie w kilku sesjach. Na pismo procesowe potrzebna jest pełna weryfikacja łańcuchowa plus ręczne sprawdzenie każdego cytatu w oryginale.

Nie ignoruj sygnałów z sekcji wyżej. Większość halucynacji zdradza się sama, jeśli wiesz na co patrzeć. Fałszywa precyzja, jednostajny ton pewności, detale o niszowym temacie, mgliste atrybucje. Wystarczy chwila uważności.

Nie rezygnuj z AI przez strach przed halucynacjami. Odpowiedzią nie jest mniej AI. Jest więcej krytycznego czytania i lepszy schemat pracy. Modele w 2026 roku popełniają mniej oczywistych błędów, ale więcej subtelnych. Rok 2023 uczył nas, że AI się myli. Rok 2026 uczy nas, że AI myli się inteligentnie. A na to jest jedna odpowiedź: weryfikacja.

Często zadawane pytania

Czym jest halucynacja AI?

Halucynacja AI to generowanie tekstu, który brzmi pewnie i autorytatywnie, ale jest faktycznie nieprawdziwy. Model nie kłamie (bo kłamstwo wymaga intencji) i nie myli się jak człowiek (bo nie pamięta faktów). Generuje statystycznie prawdopodobny tekst, który czasem trafia, a czasem nie. Termin „konfabulacja” jest precyzyjniejszy, bo nie sugeruje ludzkiego doświadczenia.

Dlaczego modele AI halucynują?

Trzy główne powody. Po pierwsze: model generuje kolejne słowo na podstawie prawdopodobieństwa, nie sprawdza faktów. Po drugie: w 9 z 10 testów odpowiedź „nie wiem” dostaje zero punktów, więc model jest trenowany żeby zgadywać zawsze. Po trzecie: trening z ludzkimi oceniaczami preferuje pewnie brzmiące odpowiedzi. Modele wiedzą, że nie wiedzą, ale warstwa produkcyjna tego sygnału nie używa.

Czy nowsze modele AI halucynują mniej?

Nie zawsze. Na łatwych testach (podsumowywanie dokumentów) poprawa jest widoczna: z 15 do 30 procent w 2023 do 3 do 5 procent u liderów w 2026. Ale modele rozumujące (o3, o4-mini od OpenAI) na teście PersonQA halucynują więcej niż starsze: o3 w 33 procent wobec 16 procent u o1. Na trudnych zadaniach specjalistycznych (prawo, medycyna) halucynacje nadal sięgają 17 do 33 procent nawet z narzędziami wsparcia.

Jak rozpoznać halucynację w odpowiedzi AI?

Dziesięć sygnałów: nadmiernie precyzyjne liczby bez źródła, cytaty których nie można znaleźć w bazach, pewność siebie w niszowych tematach, brak słów typu „około” i „wydaje mi się”, niespójność przy powtórzeniu pytania, nieproporcjonalna ilość detali o mało znanym temacie, mgliste atrybucje bez autorów i tytułów, odpowiadanie na pytania spoza zakresu wiedzy, fałszywe adresy URL, mieszanie prawdy ze zmyśleniem.

Jak zmniejszyć ryzyko halucynacji?

Siedem technik bez kodowania: (1) podaj źródło i zabroń wyjść poza nie, (2) pozwól modelowi powiedzieć „nie wiem”, (3) weryfikacja łańcuchowa (cztery kroki: odpowiedź, pytania weryfikacyjne, niezależne sprawdzenie, poprawa), (4) kotwiczenie w konkretnym korpusie, (5) powtórzenie w kilku sesjach, (6) porównanie między modelami, (7) narzędzia oparte na źródłach (NotebookLM, Perplexity, Projects). Stosowane razem zmniejszają halucynacje wielokrotnie.

Czy narzędzia z cytatami (Perplexity, NotebookLM) eliminują halucynacje?

Nie eliminują, ale znacząco zmniejszają i czynią sprawdzalnymi. NotebookLM (Google) raportuje około 13 procent halucynacji wobec 40 procent bez osadzania w źródłach. Perplexity podaje cytaty, ale testy Columbia Journalism Review pokazały około 37 procent problemów z dokładnością atrybucji. Cytaty nie oznaczają automatycznej prawdziwości. Zawsze klikaj odnośniki.