Home / Technology / मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

Technology

मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

March 13, 2026 2:40 pm

दुनिया की सबसे कठिन AI परीक्षा में टॉप मॉडल भी असफल

जब कृत्रिम बुद्धिमत्ता ने पारंपरिक परीक्षाओं में इंसानों को पछाड़ना शुरू कर दिया, तो शोधकर्ताओं को एक बड़ी समस्या का सामना करना पड़ा – ये परीक्षाएं अब AI की क्षमता को सही तरीके से मापने में असमर्थ थीं। इस चुनौती का समाधान करने के लिए विश्वभर के लगभग 1,000 विशेषज्ञों ने एक अभूतपूर्व कदम उठाया: ‘मानवता की अंतिम परीक्षा’ (Humanity’s Last Exam) का निर्माण।

यह परीक्षा 2,500 अत्यंत चुनौतीपूर्ण प्रश्नों से बनी है जो गणित, विज्ञान, मानविकी, प्राचीन भाषाओं और अत्यधिक विशेषीकृत विषयों को कवर करती है। इसकी सबसे दिलचस्प विशेषता यह है कि परीक्षा को एक बेहद होशियारी से डिजाइन किया गया था – यदि कोई भी AI सिस्टम किसी सवाल का सही जवाब दे सकता था, तो उस सवाल को हटा दिया जाता था। नतीजा? एक परीक्षा जो वर्तमान AI की क्षमता से परे है।

शुरुआती परिणाम: AI की विफलता का पर्दाफाश

जब इस परीक्षा के नतीजे 2025 में सामने आए, तो पूरी दुनिया को झटका लगा। यहां तक कि सबसे उन्नत AI मॉडलों ने भी बेहद खराब प्रदर्शन किया:

GPT-4o: मात्र 2.7% सही उत्तर
Claude 3.5 Sonnet: 4.1% सही उत्तर
OpenAI का o1 मॉडल: केवल 8% सही उत्तर

ये संख्याएं AI की खुद को विज्ञापित करने वाली क्षमताओं के बावजूद, एक कड़वी सच्चाई दिखाती हैं – असली विशेषज्ञता AI के लिए अभी भी एक दूर का सपना है।

2026: AI का सुधार, पर अभी लंबा रास्ता बाकी

पिछले साल में तकनीकी प्रगति काफी तेजी से हुई है। स्केल AI के आधिकारिक लीडरबोर्ड के अनुसार, मार्च 2026 तक शीर्ष प्रदर्शन करने वाले मॉडल काफी आगे बढ़ गए हैं:

Google Gemini 3.1 Pro Preview: 44.7% सही उत्तर (सर्वोच्च स्कोर)
GPT-5.4 (xhigh): 41.6% सही उत्तर
Zoom AI का फेडरेटेड दृष्टिकोण: 48.1% सही उत्तर (नवीनतम SOTA)
GPT-5 Pro: 31.6% सही उत्तर
Claude Opus 4.6 Thinking: 34.4% सही उत्तर

भले ही ये सुधार प्रभावशाली लगे, लेकिन हकीकत यह है कि AI अभी भी सवालों के दो-तिहाई से अधिक में असफल हो रहा है।

मानवीय विशेषज्ञता: AI से 2.5 गुना बेहतर

यहीं पर सबसे महत्वपूर्ण तुलना सामने आती है। जब डोमेन विशेषज्ञों (जैसे गणितज्ञ, भाषा वैज्ञानिक, वैज्ञानिक) को ये सवाल दिए गए, तो उन्होंने औसतन 90% सही उत्तर दिए। यानी:

विशेषज्ञ स्कोर (90%) बनाम शीर्ष AI स्कोर (48%) = लगभग 2.5 गुना का अंतर

आर्टिफिशियल एनालिसिस लीडरबोर्ड के डेटा से यह स्पष्ट है कि जहां भी सच्ची विशेषज्ञता की आवश्यकता है – चाहे वह रसायन विज्ञान हो, मध्यकालीन भाषाविज्ञान हो, या कोई अन्य विशेष क्षेत्र – AI लगभग यादृच्छिक अनुमान लगाने के स्तर पर काम करता है।

क्यों यह परीक्षा इतनी महत्वपूर्ण है?

परंपरागत परीक्षाओं जैसे MMLU (जिसमें 57 विषय शामिल हैं) को देखें। यहां GPT-4 और Claude दोनों 90% से अधिक स्कोर करते हैं – जो इंसानों के बराबर है। इसका मतलब यह है कि ये परीक्षाएं अब AI की वास्तविक क्षमता को मापने में विफल हैं।

मानवता की अंतिम परीक्षा ने इस समस्या को हल किया है। यह परीक्षा वास्तव में दिखाती है कि AI कहां असफल होता है – जहां सच्ची मानवीय विशेषज्ञता अभी भी अपरिहार्य है।

विभिन्न विषयों में प्रदर्शन में अंतर

दिलचस्प बात यह है कि सभी क्षेत्रों में AI का प्रदर्शन समान नहीं है:

परिचित विषय (जैसे प्रारंभिक भौतिकी, हाई स्कूल गणित): बेहतर प्रदर्शन
विशेषीकृत क्षेत्र (उन्नत रसायन विज्ञान, प्राचीन भाषाएं): लगभग यादृच्छिक स्तर का प्रदर्शन

यह पैटर्न AI के प्रशिक्षण डेटा पर निर्भरता को स्पष्ट करता है। जहां डेटा कम है या विशेषीकृत है, वहां AI की विफलता स्पष्ट हो जाती है।

भविष्य: क्या AI जल्द ही इसे हल कर देगा?

न्यूरोसाइंस न्यूज के अनुसार, यदि AI इसी गति से सुधार जारी रखता है, तो संभव है कि शीर्ष मॉडल 2026 के अंत तक 50% सटीकता को पार कर सकते हैं। लेकिन 90% तक पहुंचना? वह अभी एक बहुत दूर का लक्ष्य दिखाई दे रहा है।

इस परीक्षा की सबसे बड़ी शक्ति यह है कि यह गतिशील है – जैसे ही AI बेहतर होता है, परीक्षा भी कठिन होती जाएगी। नए सवाल जोड़े जाएंगे जिन्हें AI अभी हल नहीं कर सकता।

Zoom AI का नया कीर्तिमान

हाल ही में, Zoom ने एक महत्वपूर्ण उपलब्धि हासिल की है – अपने फेडरेटेड AI दृष्टिकोण के साथ 48.1% का स्कोर प्राप्त किया। यह दिखाता है कि विभिन्न AI सिस्टमों को एकत्रित करने से बेहतर परिणाम मिल सकते हैं।

कैलिब्रेशन त्रुटि: एक अन्य महत्वपूर्ण मेट्रिक

केवल सटीकता ही काफी नहीं है। परीक्षा कैलिब्रेशन त्रुटि भी मापती है – यानी AI कितना अति-आत्मविश्वासी या कम आत्मविश्वासी है। अधिकांश AI मॉडल यहां भी खराब प्रदर्शन करते हैं, अपनी क्षमता के बारे में गलत धारणा रखते हैं।

मुख्य निष्कर्ष (Key Takeaways)

विशाल अंतराल: शीर्ष AI मॉडल अभी भी विशेषज्ञों से 2.5 गुना पीछे हैं
तेजी से सुधार: एक साल में शीर्ष स्कोर सिंगल डिजिट से 48% तक पहुंच गया
विषय-निर्भर प्रदर्शन: परिचित विषयों में बेहतर, विशेषीकृत क्षेत्रों में असफल
आत्मविश्वास की समस्या: AI अपनी क्षमता के बारे में गलत मूल्यांकन करता है
भविष्य की चुनौती: सच्ची मानवीय विशेषज्ञता अभी भी AI के लिए अप्राप्य है

AyushiCEO

मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

दुनिया की सबसे कठिन AI परीक्षा में टॉप मॉडल भी असफल

शुरुआती परिणाम: AI की विफलता का पर्दाफाश

2026: AI का सुधार, पर अभी लंबा रास्ता बाकी

मानवीय विशेषज्ञता: AI से 2.5 गुना बेहतर

क्यों यह परीक्षा इतनी महत्वपूर्ण है?

विभिन्न विषयों में प्रदर्शन में अंतर

भविष्य: क्या AI जल्द ही इसे हल कर देगा?

Zoom AI का नया कीर्तिमान

कैलिब्रेशन त्रुटि: एक अन्य महत्वपूर्ण मेट्रिक

मुख्य निष्कर्ष (Key Takeaways)

एलपीजी उत्पादन 25% बढ़ा: सरकार ने घबराहट खरीदारी से कहा दूर रहें

जब चिकित्सा विफल हो जाए: सर्वोच्च न्यायालय के निर्णय का अर्थ

Leave a Reply Cancel reply

Featured Posts

नई ग्रेच्युटी नियम 2026: आपकी सैलरी और पात्रता पर क्या होगा असर?

ईरान की अर्थव्यवस्था पर अमेरिकी-इज़राइली हमलों का प्रभाव

PSEB कक्षा 5वीं और 8वीं के परिणाम 2026: जारी होने की तारीख और अन्य जानकारी

मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

दुनिया की सबसे कठिन AI परीक्षा में टॉप मॉडल भी असफल

शुरुआती परिणाम: AI की विफलता का पर्दाफाश

2026: AI का सुधार, पर अभी लंबा रास्ता बाकी

मानवीय विशेषज्ञता: AI से 2.5 गुना बेहतर

क्यों यह परीक्षा इतनी महत्वपूर्ण है?

विभिन्न विषयों में प्रदर्शन में अंतर

भविष्य: क्या AI जल्द ही इसे हल कर देगा?

Zoom AI का नया कीर्तिमान

कैलिब्रेशन त्रुटि: एक अन्य महत्वपूर्ण मेट्रिक

मुख्य निष्कर्ष (Key Takeaways)

एलपीजी उत्पादन 25% बढ़ा: सरकार ने घबराहट खरीदारी से कहा दूर रहें

जब चिकित्सा विफल हो जाए: सर्वोच्च न्यायालय के निर्णय का अर्थ

Related Posts

Leave a Reply Cancel reply

Featured Posts

Social Icons