Home / Technology / मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

मानवता की अंतिम परीक्षा: AI की विफलता का सच, विशेषज्ञों की बढ़त

दुनिया की सबसे कठिन AI परीक्षा में टॉप मॉडल भी असफल

जब कृत्रिम बुद्धिमत्ता ने पारंपरिक परीक्षाओं में इंसानों को पछाड़ना शुरू कर दिया, तो शोधकर्ताओं को एक बड़ी समस्या का सामना करना पड़ा – ये परीक्षाएं अब AI की क्षमता को सही तरीके से मापने में असमर्थ थीं। इस चुनौती का समाधान करने के लिए विश्वभर के लगभग 1,000 विशेषज्ञों ने एक अभूतपूर्व कदम उठाया: ‘मानवता की अंतिम परीक्षा’ (Humanity’s Last Exam) का निर्माण।

यह परीक्षा 2,500 अत्यंत चुनौतीपूर्ण प्रश्नों से बनी है जो गणित, विज्ञान, मानविकी, प्राचीन भाषाओं और अत्यधिक विशेषीकृत विषयों को कवर करती है। इसकी सबसे दिलचस्प विशेषता यह है कि परीक्षा को एक बेहद होशियारी से डिजाइन किया गया था – यदि कोई भी AI सिस्टम किसी सवाल का सही जवाब दे सकता था, तो उस सवाल को हटा दिया जाता था। नतीजा? एक परीक्षा जो वर्तमान AI की क्षमता से परे है।

शुरुआती परिणाम: AI की विफलता का पर्दाफाश

जब इस परीक्षा के नतीजे 2025 में सामने आए, तो पूरी दुनिया को झटका लगा। यहां तक कि सबसे उन्नत AI मॉडलों ने भी बेहद खराब प्रदर्शन किया:

  • GPT-4o: मात्र 2.7% सही उत्तर
  • Claude 3.5 Sonnet: 4.1% सही उत्तर
  • OpenAI का o1 मॉडल: केवल 8% सही उत्तर

ये संख्याएं AI की खुद को विज्ञापित करने वाली क्षमताओं के बावजूद, एक कड़वी सच्चाई दिखाती हैं – असली विशेषज्ञता AI के लिए अभी भी एक दूर का सपना है।

2026: AI का सुधार, पर अभी लंबा रास्ता बाकी

पिछले साल में तकनीकी प्रगति काफी तेजी से हुई है। स्केल AI के आधिकारिक लीडरबोर्ड के अनुसार, मार्च 2026 तक शीर्ष प्रदर्शन करने वाले मॉडल काफी आगे बढ़ गए हैं:

  • Google Gemini 3.1 Pro Preview: 44.7% सही उत्तर (सर्वोच्च स्कोर)
  • GPT-5.4 (xhigh): 41.6% सही उत्तर
  • Zoom AI का फेडरेटेड दृष्टिकोण: 48.1% सही उत्तर (नवीनतम SOTA)
  • GPT-5 Pro: 31.6% सही उत्तर
  • Claude Opus 4.6 Thinking: 34.4% सही उत्तर

भले ही ये सुधार प्रभावशाली लगे, लेकिन हकीकत यह है कि AI अभी भी सवालों के दो-तिहाई से अधिक में असफल हो रहा है।

मानवीय विशेषज्ञता: AI से 2.5 गुना बेहतर

यहीं पर सबसे महत्वपूर्ण तुलना सामने आती है। जब डोमेन विशेषज्ञों (जैसे गणितज्ञ, भाषा वैज्ञानिक, वैज्ञानिक) को ये सवाल दिए गए, तो उन्होंने औसतन 90% सही उत्तर दिए। यानी:

विशेषज्ञ स्कोर (90%) बनाम शीर्ष AI स्कोर (48%) = लगभग 2.5 गुना का अंतर

आर्टिफिशियल एनालिसिस लीडरबोर्ड के डेटा से यह स्पष्ट है कि जहां भी सच्ची विशेषज्ञता की आवश्यकता है – चाहे वह रसायन विज्ञान हो, मध्यकालीन भाषाविज्ञान हो, या कोई अन्य विशेष क्षेत्र – AI लगभग यादृच्छिक अनुमान लगाने के स्तर पर काम करता है।

क्यों यह परीक्षा इतनी महत्वपूर्ण है?

परंपरागत परीक्षाओं जैसे MMLU (जिसमें 57 विषय शामिल हैं) को देखें। यहां GPT-4 और Claude दोनों 90% से अधिक स्कोर करते हैं – जो इंसानों के बराबर है। इसका मतलब यह है कि ये परीक्षाएं अब AI की वास्तविक क्षमता को मापने में विफल हैं।

मानवता की अंतिम परीक्षा ने इस समस्या को हल किया है। यह परीक्षा वास्तव में दिखाती है कि AI कहां असफल होता है – जहां सच्ची मानवीय विशेषज्ञता अभी भी अपरिहार्य है।

विभिन्न विषयों में प्रदर्शन में अंतर

दिलचस्प बात यह है कि सभी क्षेत्रों में AI का प्रदर्शन समान नहीं है:

  • परिचित विषय (जैसे प्रारंभिक भौतिकी, हाई स्कूल गणित): बेहतर प्रदर्शन
  • विशेषीकृत क्षेत्र (उन्नत रसायन विज्ञान, प्राचीन भाषाएं): लगभग यादृच्छिक स्तर का प्रदर्शन

यह पैटर्न AI के प्रशिक्षण डेटा पर निर्भरता को स्पष्ट करता है। जहां डेटा कम है या विशेषीकृत है, वहां AI की विफलता स्पष्ट हो जाती है।

भविष्य: क्या AI जल्द ही इसे हल कर देगा?

न्यूरोसाइंस न्यूज के अनुसार, यदि AI इसी गति से सुधार जारी रखता है, तो संभव है कि शीर्ष मॉडल 2026 के अंत तक 50% सटीकता को पार कर सकते हैं। लेकिन 90% तक पहुंचना? वह अभी एक बहुत दूर का लक्ष्य दिखाई दे रहा है।

इस परीक्षा की सबसे बड़ी शक्ति यह है कि यह गतिशील है – जैसे ही AI बेहतर होता है, परीक्षा भी कठिन होती जाएगी। नए सवाल जोड़े जाएंगे जिन्हें AI अभी हल नहीं कर सकता।

Zoom AI का नया कीर्तिमान

हाल ही में, Zoom ने एक महत्वपूर्ण उपलब्धि हासिल की है – अपने फेडरेटेड AI दृष्टिकोण के साथ 48.1% का स्कोर प्राप्त किया। यह दिखाता है कि विभिन्न AI सिस्टमों को एकत्रित करने से बेहतर परिणाम मिल सकते हैं।

कैलिब्रेशन त्रुटि: एक अन्य महत्वपूर्ण मेट्रिक

केवल सटीकता ही काफी नहीं है। परीक्षा कैलिब्रेशन त्रुटि भी मापती है – यानी AI कितना अति-आत्मविश्वासी या कम आत्मविश्वासी है। अधिकांश AI मॉडल यहां भी खराब प्रदर्शन करते हैं, अपनी क्षमता के बारे में गलत धारणा रखते हैं।

मुख्य निष्कर्ष (Key Takeaways)

  • विशाल अंतराल: शीर्ष AI मॉडल अभी भी विशेषज्ञों से 2.5 गुना पीछे हैं
  • तेजी से सुधार: एक साल में शीर्ष स्कोर सिंगल डिजिट से 48% तक पहुंच गया
  • विषय-निर्भर प्रदर्शन: परिचित विषयों में बेहतर, विशेषीकृत क्षेत्रों में असफल
  • आत्मविश्वास की समस्या: AI अपनी क्षमता के बारे में गलत मूल्यांकन करता है
  • भविष्य की चुनौती: सच्ची मानवीय विशेषज्ञता अभी भी AI के लिए अप्राप्य है

Leave a Reply

Your email address will not be published. Required fields are marked *