Un test de logică extrem de simplu, care pentru oameni nu pune nicio problemă, pune în dificultate majoritatea modelelor de inteligență artificială, transmite Mediafax.
53 de modele de inteligență artificială de top, printre care Claude Sonnet 4.5, GPT-5.1, Llma și Mistral, pică cel mai simplu test posibil: testul spălătoriei auto.
„Vreau să-mi spăl mașina. Spălătoria auto este la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?”.
Acesta este un test de logică fără nicio dificultate pentru un om, însă pentru inteligența artificială situația este diferită.
Întrebarea a fost rulată pe 53 de modele de IA, fără a oferi o alegere forțată între „a conduce” și „a merge”. S-a cerut doar un raționament, mai întâi o dată pe model, apoi de 10 ori pentru fiecare, pentru a testa consecvența.
Partea 1 – testul cu o singură rulare – 42 din 53 de modele de inteligență artificială au afirmat că „mersul” spre spălătoria auto este cea mai simplă soluție.
La primul apel, doar 11 din 53 de modele au oferit răspunsul corect, iar 42 au recomandat deplasarea pe jos.
Modelele care au trecut testul au fost: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5, GLM-5.
În cazul familiilor cu mai multe modele de IA, doar un singur model de la fiecare furnizor a avut succes: Opus 4.6 pentru Anthropic și GPT-5 pentru OpenAI.
Toate modelele Llama și Mistral au eșuat, iar răspunsurile lor au fost similare: „50 de metri este o distanță scurtă, mersul pe jos este mai eficient, economisește combustibil și este mai bun pentru mediu”.
Partea cea mai amuzantă este însă aceasta: Sonar și Sonar Pro de la Perplexity au oferit răspunsul corect, dar din motive complet greșite. Acestea au citat studii și au susținut că mersul pe jos arde calorii, fapt care necesită energie pentru producția de alimente; prin urmare, mersul pe jos ar fi mai poluant decât condusul pe o distanță de 50 de metri.
Un răspuns corect, dar cu un raționament „artificial”.