Polski AI na wyrost. Jak pseudoeksperci budują bańkę na wydmuszkach
Jako osoba zajmująca się sztuczną inteligencją na co dzień, patrzę na obecnych ekspertów od AI z mieszanką rozbawienia i przerażenia. Obserwujemy klasyczny efekt Dunninga-Krugera, napędzany rynkowym głodem na proste rozwiązania. Dostęp do potężnych modeli językowych (LLM) dał złudne poczucie kompetencji ludziom, którzy jeszcze wczoraj byli guru od kryptowalut czy coachingu. Problem w tym, że gdy dym opadnie, zostaniemy z niedziałającymi systemami, wyciekami danych i dziurawą infrastrukturą, którą budowano na podstawie "magicznych promptów", a nie poprawnej wiedzy o implementacji systemów. To nie jest tylko kwestia indywidualnych karier – to zagrożenie dla całej gospodarki, bo inwestycje płyną do tych, którzy najgłośniej krzyczą, a nie do tych, którzy budują solidne fundamenty.
Krytyka modelu Bielik
Weźmy na przykład model Bielik, promowany jako wielki przełom w polskim AI. Stworzony przez fundację SpeakLeash, która chwali się otwartym projektem opartym na wolontariacie i współpracy z ACK Cyfronet AGH, Bielik miał być odpowiedzią na dominację anglojęzycznych gigantów. Fundacja, znana też pod nazwą Spichlerz, zebrała imponujący zbiór danych po polsku – ponad 1 terabajt tekstów – i na tej podstawie trenowała modele od 1,5 do 11 miliardów parametrów.
Brzmi obiecująco, prawda? Ale gdy przyjrzymy się bliżej, wychodzi na jaw kilka niedociągnięć. Twórcy Bielika chwalą się wynikami w benchmarkach, które sami stworzyli, mowa o Open PL LLM Leaderboard czy Polish MT-Bench. Metodologia tych testów jest co najmniej wątpliwa: porównują swój model z przestarzałymi wersjami Llama, ignorując nowsze multilingualne modele, które radzą sobie z polskim znacznie lepiej pod względem wiedzy ogólnej, rozumienia kontekstu kulturowego czy nawet generowania spójnego tekstu.
Na przykład, w testach prawniczych, jak symulacja egzaminu na członka Krajowej Izby Odwoławczej, Bielik osiąga wyniki poniżej 10/100, popełniając kardynalne błędy w interpretacji przepisów, halucynując nieistniejące artykuły i tworząc niespójne argumentacje. Inny konkret: w zadaniach matematycznych, model myli podstawowe wzory, jak obliczanie pochodnej funkcji kwadratowej, podając wyniki z błędnymi znakami lub ignorując stałe. To nie jest "sovereign AI" dla Polski – to raczej lokalna wydmuszka, która maskuje brak głębszego zrozumienia, jak trenować modele na danych niskiej jakości, unikając biasów czy data contamination. Co więcej, benchmarki fundacji często opierają się na ręcznej selekcji przykładów, gdzie unika się trudnych tematów jak historia Polski czy specjalistyczna terminologia medyczna, gdzie Bielik wypada fatalnie, na przykład myląc objawy chorób z mitami ludowymi.
Spójrzmy prawdzie w oczy: Bielik faktycznie wyprzedza w benchmarkach modele takie jak Mixtral-8x7B (0.63) czy Mistral-Nemo-12.2B (0.60). Ale gdy na te wyniki nałożymy oś czasu, "sukces" zamienia się w dowód na technologiczną stagnację.
Bielik-11B-v2.3-Instruct zadebiutował w maju 2025 roku. Jego "wielkim osiągnięciem" jest pokonanie Mixtrala, który premierę miał w grudniu 2023, oraz Mistrala-Nemo z lipca 2024. Mówimy tu o modelu, który potrzebował prawie półtora roku, by dogonić architekturę z końca 2023 roku, i niemal roku, by nieznacznie (o 0.06 pkt) wyprzedzić francuskiego Mistrala. W branży, gdzie postęp mierzy się w tygodniach, gonienie "technologii wczorajszej" nie jest innowacją – jest archeologią. Nawet zwycięstwo nad europejskim EuroLLM-9B (0.48) z grudnia 2024 nie imponuje, gdy weźmiemy pod uwagę, że Bielik jest od niego większy i trenowany pół roku później!
To stawia nas w brutalnej perspektywie: promowany w mediach "narodowy model AI" to w rzeczywistości technologiczny spóźnialski. Kiedy Bielik z trudem wyprzedza modele sprzed roku, światowa czołówka jest już lata świetlne dalej. Spójrzmy w górę tabeli: Gemma-2-27b-Instruct (0.71) czy Meta-Llama-3.1-70B (0.70) deklasują "polski" produkt. Różnica 5 punktów procentowych w średniej to w praktyce przepaść w rozumowaniu i komforcie pracy.
Krytyka nie dotyczy więc tego, że model nie działa – on działa poprawnie jak na standardy roku 2024. Krytyka dotyczy fałszywej narracji o "przełomie". Promuje się produkt, który w dniu premiery był już przestarzały względem światowych liderów. To tak, jakbyśmy w 2026 roku świętowali wyprodukowanie polskiego smartfona, który jest nieco szybszy od iPhone'a 13.
W testach wiedzy (MMLU) wynik 0.63 jest przyzwoity, ale czy uzasadnia budowę "AI gigafactory" i angażowanie setek milionów złotych na wyważanie otwartych drzwi? Użytkownik biznesowy nie kieruje się sentymentem narodowym, tylko wydajnością – a tu wybór jest prosty: albo darmowa, potężna Llama, albo nasz "narodowy przeciętniak", który w momencie debiutu już był w tyle.
Inwestycje w Bielika i wdrożenie w InPoście
Wspomniałem o angażowaniu setek milionów złotych. Rafał Brzoska, założyciel InPostu, nie tylko objął stanowisko przewodniczącego Business Council Bielik.AI, ale też zainwestował w niego znaczące środki – mowa o potencjalnych 100 milionach euro na "AI gigafactory". W grudniu 2025 roku InPost wdrożył Bielika testowo w swojej aplikacji mobilnej, obsługującej ponad 15 milionów użytkowników, w ramach kampanii "Nakarm Bielika". Użytkownicy mieli "karmić" model danymi, zadając pytania i poprawiając odpowiedzi, co brzmi jak crowdsourcingowy geniusz.
W rzeczywistości jednak szybko wyszły na jaw problemy: model generował niespójne, błędne odpowiedzi, mylił fakty historyczne z polskim kontekstem (na przykład, mieszając daty Powstania Warszawskiego z innymi wydarzeniami), a użytkownicy skarżyli się na wolne działanie i brak precyzji. W komentarzach na forach i w mediach społecznościowych pojawiały się głosy, że Bielik działa kiepsko w porównaniu do darmowych narzędzi jak ChatGPT, które lepiej radzą sobie z polskim mimo braku dedykowanego treningu. Jeden z użytkowników opisał, jak model podał przepis na bigos z dodatkiem ananasa, twierdząc, że to "tradycyjna polska wariacja", co wywołało falę memów i krytyki. Inny przykład: w zapytaniach o logistykę, Bielik sugerował trasy dostaw ignorujące rzeczywiste drogi w Polsce, co mogło prowadzić do realnych problemów w aplikacji InPostu.
To klasyczny przykład, jak hype napędza inwestycje, ale ignoruje realne testy użyteczności. Zamiast budować solidną infrastrukturę, opartą na stopniowych walidacjach danego rozwiązania, promuje się coś, co w praktyce służy bardziej do marketingu niż rozwiązywania problemów. Brzoska, znany z sukcesów w e-commerce, wydaje się tu padać ofiarą własnego entuzjazmu, inwestując w projekt bez niezależnych audytów, co tylko wzmacnia bańkę wokół polskiego AI.
Pseudoeksperci od promptowania
Ten problem pseudoeksperckiej kultury rozlewa się szerzej na polskich "ekspertów" od AI. Weźmy specjalistów od promptowania – tych, którzy uważają się za mistrzów, bo potrafią sformułować zapytanie do ChatGPT, by wypluło gotowy tekst czy kod. W Polsce roi się od kursów "prompt engineering", gdzie uczy się, jak "zaklinać" AI, jakby to była magia, a nie statystyka i algorytmy. Ci eksperci często nie rozumieją, co dzieje się pod maską: nie wiedzą o overfitingu, biasach w danych treningowych czy ograniczeniach kontekstu okna.
Na przykład, popularny trend to używanie promptów do generowania treści marketingowych – brzmi prosto, ale kończy się plagiatami, halucynacjami faktów czy nawet naruszeniami praw autorskich, bo model "pożycza" z internetu bez cytowania. Widziałem przypadki, gdzie firmy jak agencje reklamowe w Warszawie wdrażały kampanie oparte na AI, a później musiały wycofywać materiały, bo zawierały skopiowane fragmenty z konkurencji. Inny konkret: w edukacji, prompty używane do tworzenia testów szkolnych prowadziły do błędów merytorycznych, jak mylenie dat historycznych czy wzorów chemicznych, co nauczyciele zgłaszali na forach branżowych. Efekt? Firmy wdrażają AI bez audytów bezpieczeństwa, co prowadzi do wycieków danych – jak w przypadku, gdy prompty zawierały wrażliwe informacje klientów, a model je zapamiętywał i reprodukował w innych odpowiedziach (nie zaimplementowano warstwy anonimizacji danych).
Nadużywanie narzędzi do kodowania
Jeszcze gorzej z nadużywaniem narzędzi jak Cursor, Claude Code czy ChatGPT do kodowania. W polskim środowisku deweloperskim, zwłaszcza wśród juniorów i "AI evangelistów", panuje moda na kopiowanie kodu bez zrozumienia. Cursor, który autouzupełnia linijki na podstawie kontekstu, jest świetny do prototypów, ale gdy ktoś buduje na tym produkcyjne systemy, ignorując luki bezpieczeństwa – jak SQL injection czy brak walidacji inputów – katastrofa gotowa. Widziałem przypadki, gdzie "eksperci" generowali całe aplikacje za pomocą Claude Code, chwaląc się na LinkedInie "szybkim developmentem", ale kod był pełen błędów: nieoptymalny, z duplikatami funkcji czy nawet złośliwymi sugestiami, jeśli prompt był źle sformułowany.
Na przykład, w jednym polskim startupie AI wygenerowało kod do obsługi płatności, który nie obsługiwał błędów sieciowych, co doprowadziło do utraty transakcji i skarg klientów. Inny przykład: w hackathonach, zespoły używające ChatGPT do pisania skryptów Pythona kończyły z kodem, który działał tylko na ich maszynach, bo ignorował zależności systemowe jak wersje bibliotek. To nie jest ekspertyza – to lenistwo podszyte iluzją kompetencji. Efekt Dunning-Krugera w czystej formie: im mniej wiesz, tym bardziej jesteś pewny, że AI zrobi resztę. A gdy system pada pod obciążeniem lub hacker wykorzystuje dziurę, winny jest "błąd AI", nie brak wiedzy człowieka.
Przypadek Remigiusza Kiniasa
Dobrym przykładem takiego pseudoeksperta jest Remigiusz Kinias, znany w polskim Twitterze (teraz X) jako @remekkinias. Jego aktywność ogranicza się głównie do publikowania wpisów o AI, często sponsorowanych przez HP – reklamuje laptopy, dostaje darmowe maszyny do inferencji modeli, jak serwery z GPU od Hewlett Packard. Brzmi to jak influencer marketing, ale gdzie tu głębsza analiza? Kinias rzadko dzieli się konkretnymi insightami technicznymi: nie ma publikacji o architekturach modeli, nie analizuje kodów źródłowych, nie krytykuje błędów w implementacjach.
Zamiast tego, jego feed to mieszanka hype'u wokół nowinek AI i promocji sprzętu. Na przykład, w serii postów z 2025 roku chwalił "rewolucyjne" GPU do AI, ale nie wyjaśnił, jak one wpływają na trening modeli czy zużycie energii – po prostu link do produktu sponsora. Inny wpis: polecał kursy promptowania bez wzmianki o ryzykach, jak jailbreaking modeli. To klasyczny przypadek, jak branża nagradza głośność ponad substancję – dostajesz sponsoring, bo masz followersów, ale nie wnosisz realnej wartości do dyskusji o AI w Polsce.
Przypadek Aleksandry Przegalińskiej
Nie lepiej wypada Aleksandra Przegalińska, często cytowana jako autorytet w dziedzinie AI i etyki. Jako filozofka i futurolog, Przegalińska pisze książki jak "Strategizing AI in Business and Education" czy "Converging Minds", gdzie dyskutuje o wpływie AI na społeczeństwo. Ale gdy zagłębimy się w jej wypowiedzi, wychodzi brak technicznej głębi. Na przykład, w wywiadach twierdzi, że AI to "marketingowy trick", bo modele to tylko pattern-matchery bez prawdziwego rozumienia – co jest prawdą, ale uproszczeniem, które ignoruje postępy w modelach multimodalnych.
Krytykuje hype wokół AGI, ale jednocześnie promuje AI jako "wielki equalizer" w edukacji, bez konkretnych propozycji na rozwiązanie problemów jak biasy rasowe w danych czy ryzyko dezinformacji. W jednym z artykułów wątpi, czy generatywne AI doprowadzi do prawdziwego AGI, ale nie podaje merytorycznych argumentów opartych na metrykach jak scaling laws czy emergent abilities. Co więcej, Przegalińska często zajmuje stanowiska, skupiając się wyłącznie na LLM, bo to teraz najpopularniejsze – ignoruje szersze dziedziny jak computer vision, reinforcement learning czy edge AI. W ubiegłym roku, w 2025, oświadczyła publicznie, że "rok 2025 jest rokiem agentów AI", co okazało się całkowitą głupotą: agenci AI, jak te oparte na LangChain czy Auto-GPT, nie stały się mainstreamem, bo nadal borykają się z problemami stabilności, bezpieczeństwa i efektywności.
Zamiast rewolucji, mieliśmy serię nieudanych wdrożeń, gdzie agenci "uciekały" poza kontrolę lub po prostu zawodziły w prostych zadaniach. To przykład, jak pseudoeksperci prorokują trendy bez podstaw, bazując na hype'u, a nie na danych.
Paradoks etyki AI w Polsce
Ten paradoks pogłębia się, gdy ci sami eksperci nawołują d o skupiania się na etyce AI – "ethical AI" i "AI governance". Brzmi szlachetnie, ale jak mamy dyskutować o etyce, skoro Polska nie ma jeszcze realnych osiągnięć w dziedzinie AI? Nie mamy własnych, konkurencyjnych modeli na skalę globalną, brakuje inwestycji w badania podstawowe, a nasze uniwersytety produkują więcej absolwentów marketingu AI niż inżynierów ML.
Przegalińska i jej podobni mówią o "governance" na konferencjach, cytując unijne regulacje jak AI Act, ale ignorują fakt, że bez silnej bazy technologicznej, te dyskusje to puste słowa. Na przykład, w panelach dyskusyjnych w 2025 roku, eksperci debatowali o biasach w AI, ale żaden nie podał konkretnego przypadku z polskiego kontekstu – jak biasy w danych Bielika, gdzie model faworyzuje treści z dużych miast, ignorując dialekty regionalne.
To ciekawy paradoks: skupiamy się na etyce, zanim zbudujemy coś wartego regulacji. Rezultat? Zasoby idą na konferencje i raporty, a nie na laboratoria czy granty dla młodych naukowców. W Polsce, gdzie PKB na AI jest ułamkiem tego w USA czy Chinach, to recepta na stagnację – etyka bez technologii to filozofia, nie postęp.
Systemowy kryzys w polskim AI
Ten problem nie jest tylko anegdotyczny – to systemowy kryzys. Polski rynek AI nagradza tych, którzy głośno krzyczą o "rewolucji", ale marginalizuje specjalistów od bezpieczeństwa, jak ci zajmujący się adversarial attacks czy privacy-preserving ML.
Efekt Dunning-Krugera kwitnie, bo niska kompetencja idzie w parze z nadmierną pewnością: ktoś, kto raz użył ChatGPT, czuje się ekspertem, ignorując, że modele te są podatne na jailbreaking czy poisoning. Przykłady? W 2025 roku kilka polskich startupów padło ofiarą ataków, bo wdrożyli AI bez audytów – jeden z nich, oparty na Bieliku, ujawnił dane użytkowników przez źle zabezpieczone prompty.
Inny: firma z sektora HR używała AI do analizy CV, ale model dyskryminował kandydatów na podstawie nazwisk, co wyszło na jaw po skargach i procesach. To nie przypadek: gdy pseudoeksperci dominują, ryzykujemy bańką spekulacyjną, podobną do krypto-hype'u, gdzie obietnice przewyższają rzeczywistość.
Zakończenie i propozycje rozwiązań
By zwrócić uwagę na ten problem, trzeba promować edukację: kursy nie tylko o promptach, ale o podstawach ML, etyce danych i walidacji modeli. Firmy jak InPost powinny inwestować nie tylko w hype, ale w rygorystyczne testy – na przykład, porównując Bielika z globalnymi benchmarkami jak MixEval czy Berkeley Function-Calling Leaderboard, gdzie wypada średnio.
Eksperci jak Kinias czy Przegalińska mogliby wnosić więcej, współpracując z inżynierami, zamiast solo promować narracje bez technicznego zagłębienia się w problem. W końcu, AI to narzędzie, nie magia – a ignorancja nagradzana głośnością to recepta na katastrofę. Jeśli nie zmienimy kursu, polski AI pozostanie w tyle, budowany na piasku iluzji kompetencji, podczas gdy Chiny, USA i m.in. Francja pędzi do przodu z realnymi innowacjami.
O AUTORZE

Piotr Bednarski
Redaktor Naczelny
Zawodowo pracuje w obszarze R&D, zajmując się sztuczną inteligencją i bezpieczeństwem systemów. Jego analizy dotyczące sztucznej inteligencji zostały docenione przez dr. Andriya Burkova, autora światowych bestsellerów o AI/ML. W ramach programów Bug Bounty wykrył krytyczne luki w zabezpieczeniach firmy Intel. Jest cytowany przez Zaufaną Trzecią Stronę oraz zagraniczne media branżowe. Ukończył program projektowania architektury komputerowej i systemów operacyjnych Hebrew University of Jerusalem oraz uczestniczył w licznych hackathonach. Jako redaktor naczelny „Agitki” przekłada techniczny żargon na język debaty publicznej, analizując, jak cyfrowy kapitał kształtuje współczesne społeczeństwo.