शुक्रवार, 18 सितंबर 2009

गूगल ने रिकैप्चा को खरीदा [आइये समझें रिकैप्चा को]

गूगल ने अभी हाल ही में रिकैप्चा को खरीद लिया है. रिकैप्चा वेबसाइटों को आनलाइन कैप्चा लगाने की सुविधा प्रदान करने वाली सेवा है.

आपने इसे कई साइटों में कुछ ऐसे देखा होगा:

image

पहले रिकैप्चा को समझते हैं. रिकैप्चा असल में पुरानी पुस्तकों को डिजिटल रूप में परिवर्तित करने की सेवा है. पर ये काम कैसे करती है?

सामान्यत: किसी किसी किताब के किसी पृष्ठ को डिजिटल रूप देने के लिये उसे स्कैन करना पड़ेगा. लेकिन ये स्कैन की हुई कापी स्टोर करने में आकार में बड़ी हो जाती है तथा इसमें से शब्दों को खोजा नही जा सकता है. अत: इसमें से जानकारियां भी नही खोजी जा सकती हैं.

अत: इस समस्या का हल निकालने के लिये ओसीआर की मदत ली जाती है. ओसीआर यानि कि आप्टिकल कैरेक्टर रीडर. लेकिन ये भी पूरी तरह से शब्दों को पढ़ने में सक्षम नही है. और जब किताबें पुरानी हों और उनका प्रिंट खराब हो तब तो ओसीआर कुछ पढ़ ही नही पायेगा.

इसे समझने के लिये इस चित्र पर गौर फ़रमाइये:

image

केवल इंसान ही ऐसे शब्दों को पढ़ सकते हैं. अत: ओसीआर का काम कैप्चा के जरिये मनुष्यों से करवाया जाता है. क्योंकि मनुष्य ही खराब प्रिंट वाले अक्षरों को पढ़ सकते हैं. लेकिन लेकिन जब मशीन को शब्द का अर्थ ही नही पता है तो वह यह कैसे जानेगी कि आपने जो टाइप किया है वह सही है?

यही रिकैप्चा का आइडिया  है. आपको कैप्चा के रूप में दो शब्द दिये जाते हैं एक वो जिसका मतलब मशीन को पता नही है और दूसरा वो जिसका मतलब मशीन को पता है.

जब आप कैप्चा को हल करते हैं तो एक शब्द से मशीन ये निश्चित करती है कि आप मनुष्य हैं ना कि कोई रोबोट/प्रोग्राम और दूसरे शब्द के से मशीन उसका मतलब सीखती है.

दुनियाभर में प्रतिदिन करीब २०० मिलियन कैप्चा हल की जाती हैं. और किसी सामान्य व्यक्ति को इसे हल करने में करीब १० सेकेंड लगते हैं. जो कि मामूली है. पर इससे एक लाख पचास हजार घंटों का काम प्रतिदिन हो जाता है. और इस प्रकार पुरानी हो चुकी पुस्तकों के ज्ञान को डिजिटल रूप में परिवर्तित किया जाता है.

गूगल रिकैप्चा को खरीदकर गूगल बुक्स के लिये किताबों का डिजिटलीकरण करेगा.

 

तो है ना रिकैप्चा कमाल की चीज!

16 टिप्‍पणियां:

  1. main dil se aapko dhanyawaad dena chahta hoon is sunder post ke liye. ab tak aap kahan chhipe the ji? aapka lekh padh kar main hindi ke prati ashanwit aur ashwasht hua hoon.
    main aapka follower banooga- blog ki duniya me.
    ek sawal/ help - comment ko devnaagri lipi me kaise likha jay?

    उत्तर देंहटाएं
  2. हमारे लिए तो यह एकदम नई जानकारी रही !

    उत्तर देंहटाएं
  3. आज तक नहीं समझा था इस रैकैप्चा का मतलब । इतना महत्वपूर्ण काम अंजाम दिया जाता है इसस, क्या पता था ? पुस्तकों के डिजिटलाइजेशन के लिये इसका महत्व जानकर आकर्षित हो गया हूँ । आभार ।

    उत्तर देंहटाएं
  4. रोचक जानकारी .. बहुत बहुत धन्‍यवाद !!

    उत्तर देंहटाएं
  5. राकेश जी, कमेंट को हिंदी में लिखने के लिये बरह(baraha)नाम के साफ़्टवेयर की मदत ली जाती है. यह साफ़्टवेयर मुफ़्त है. www.baraha.com

    उत्तर देंहटाएं
  6. देख तो कई सालों से रहे थे पर आज रिकेप्चा नाम पता चला।

    उत्तर देंहटाएं
  7. अच्छी बात बताई अंकुर तुमने, लेकिन ये "एक लाख पचास घंटे" का क्या मतलब है?

    उत्तर देंहटाएं
  8. Sundar jankari. . . . Ek bat hai jo mai apse chitthajagat se jude hone ke karan karna chahta hu. . . Php,mysql,apache ke bare me net per hindi me koi lekh uplabdh nahi hai . . Moti moti bate to hona hi chahiye jaise kya kam karta hai,kaise kam karta hai. . . Hai na. . .

    उत्तर देंहटाएं
  9. हमारे लिए तो बिल्कुल नवीन रही ये जानकारी....
    आभार्!

    उत्तर देंहटाएं
  10. @nishant निशांत जी गलती बताने के लिये शुक्रिया. मैंने उसे सुधार दिया है. अब वह एक लाख पचास हजार है.
    @pihuka पिहुका जी आपकी बात का ध्यान रखूंगा.

    उत्तर देंहटाएं
  11. Dear Rahul,
    I am also from IT field but this is new info form me. Can we be friends?

    उत्तर देंहटाएं
  12. नीलाभ जी, यहां राहुल तो कोई नही है. क्या आप मुझे संबोधित करना चाह रहे थे?

    उत्तर देंहटाएं
  13. अंकुर जी बहुत बहुत धन्‍यवाद। आप इसी तरह अपनी भाषा में तकनीकी ज्ञान से रू-ब-रू कराते रहें। हम आपके साथ हैं।
    संतोष टपरावत

    उत्तर देंहटाएं
  14. बेनामी7/6/11, 12:04 am

    ankur bhai bas aise hi blog karte raho

    उत्तर देंहटाएं