Badanie Apple ujawnia: topowe modele AI nie potrafią rozwiązywać nowych problemów. Brakuje im prawdziwego rozumowania.
Na konferencji Apple Intelligence Conference 2025 zaprezentowano wyniki przełomowego badania, które pokazuje, jak bardzo współczesne systemy AI — mimo imponujących osiągnięć — odbiegają od rzeczywistego „rozumowania”. Przeprowadzona analiza objęła m.in. topowe modele takie jak Claude Thinking, DeepSeek-R1 oraz o3-mini.
Czym jest AGI?
AGI (Artificial General Intelligence), czyli silna sztuczna inteligencja to zupełnie inna konstrukcja pojęciowa i technologiczna. Jej założeniem nie jest optymalizacja pod konkretne zastosowanie, ale stworzenie systemu o zdolnościach poznawczych zbliżonych – lub wyższych – niż te, którymi dysponuje człowiek.
Czytaj więcej: AGI vs AI: czy maszyny mogą myśleć jak ludzie?
Co zrobiło Apple?
Apple zaprojektowało zestaw oryginalnych łamigłówek logicznych, całkowicie wolnych od danych treningowych krążących w publicznych zbiorach. Zamiast klasycznych benchmarków (MMLU, GSM8K itp.), które mogą być „zaprojektowane do zaliczania”, gigant technologiczny postawił na problemy nienaprowadzające na schematy.
„Chcieliśmy sprawdzić, czy modele potrafią rozumować, a nie tylko przewidywać kolejne słowo na podstawie wzorców z danych treningowych” – mówił lider zespołu badawczego Apple na konferencji.
Wyniki? Katastrofalne
- Na poziomie trudnych zadań wszystkie modele zawiodły – skuteczność spadała do 0%.
- Większa moc obliczeniowa, prompt engineering ani chain-of-thought nie pomagały.
- Modele potrafiły „rozwiązywać” tylko zadania łatwe lub średnio trudne – im mniej oczywisty był tok rozumowania, tym gorzej sobie radziły.
- Nawet po podaniu dokładnego algorytmu rozwiązania, modele nie były w stanie przejść przez wszystkie kroki logiczne i wykonać ich poprawnie.
To zdaniem badaczy Apple dowodzi fundamentalnego ograniczenia obecnych modeli LLM – nie są one systemami rozumującymi, lecz potężnymi mechanizmami dopasowania wzorców.
Potwierdzenie naukowe
Wyniki zostały szczegółowo opisane w publikacji pre-peer-review dostępnej na arXiv: arxiv.org/abs/2412.10849. Apple podzieliło testy na trzy poziomy:
- Łatwe – modele działały akceptowalnie
- Średnie – pojawiały się błędy, ale część logiki była poprawna
- Trudne – nastąpiło całkowite załamanie rozumowania
Co na to biznes?
Apple nie deprecjonuje zastosowań AI w codziennym biznesie — przeciwnie. Wskazuje jednak, że modele LLM są świetne w ustandaryzowanych środowiskach (np. obsługa klienta, analiza danych, tworzenie tekstów), ale wciąż niezdolne do adaptacyjnego, abstrakcyjnego rozumowania — kluczowego np. w medycynie, prawie czy strategicznym zarządzaniu projektami.
Co to oznacza?
Firmy nie powinny mylić „biegłości w zadaniach” z „inteligencją ogólną”. Benchmarki typu GPT-4V czy Claude 3 mogą wypadać świetnie w znanych zadaniach, ale w obliczu nowych problemów — załamują się. Same inwestycje powinny być z kolei kierowane w integracje AI z ekspertami ludzkimi, a nie pełną automatyzację.
Raport Apple to jeden z pierwszych tak jednoznacznych głosów z branży big tech, który hamuje narrację o bliskim nadejściu AGI. Wskazuje też, że mierniki używane do oceny modeli AI są mylące, a testy muszą być projektowane pod kątem realnych zastosowań, a nie „gry na zaliczenie”.
Sprawdź również:
Jeśli interesuje Cię, jak obecne modele AI zmieniają świat produkcji, budownictwa i przemysłu — nie przegap raportu „AI in Construction and Industry 2026–2040”. Ponad 30 studiów przypadków, prognozy ekonomiczne, analiza regulacyjna i konkretne wdrożenia AI w logistyce, HVAC, prefabrykacji czy inspekcji budowlanej. Zobacz szczegóły raportu.
Porozmawiaj z nami o sztucznej inteligencji
Dołącz do grupy "AI Business" na Facebooku
AI w marketingu – jak zwiększyć sprzedaż i zaangażowanie klientów?
Test Turinga: Czy AI jest już inteligentniejsze od człowieka?