শব্দকল্প- বাংলা ভাষার বৈদ্যুতিন বিবর্তনমূলক অভিধান

বৈদ্যুতিন রবীন্দ্রকোশ ‘বিচিত্রা’র পর যাদবপুর বিশ্ববিদ্যালয়ের স্কুল অভ কালচারাল টেক্সটস অ্যাণ্ড রেকর্ডস একটি নতুন ও বৃহত্তর উদ্যোগ নিয়েছে —  বাংলা ভাষার একটি বিবর্তনমূলক অভিধান নির্মাণের, যার নাম ‘শব্দকল্প’। এমন অভিধানের উদ্দেশ্য, ভাষার সব যুগের সব রকম নিদর্শন জড়ো করে তা থেকে প্রতিটি শব্দের একটি পূর্ণাঙ্গ ইতিহাস নির্মাণ করা: সেটি প্রথম কবে ব্যবহার হল, তারপর রূপ, অর্থ ও প্রয়োগে কী কী পরিবর্তন ঘটল– ইত্যাদি। ভাষার প্রয়োগ ও ব্যবহারের সবরকম উদাহরণ সম্পর্কে জানার জন্য এর চেয়ে ভালো উপায় আর নেই। 
এ যাবৎ এমন অভিধান কেবল কয়েকটি পাশ্চাত্য ভাষায় নির্মিত হয়েছে বা হচ্ছে। বাংলায় ঢাকার বাংলা একাডেমি তিনটি মুদ্রিত খণ্ডে এমন একটি অভিধান প্রকাশ করেছেন। সেটির প্রতি সম্পূর্ণ শ্রদ্ধা রেখেও বলতে হয়, আমাদের এই প্রচেষ্টা তার বহুগুণ বিশাল পরিধির, নির্মাণপদ্ধতিও ভিন্ন। আজকের দিনে এমন কাজ হতে পারে একমাত্র বৈদ্যুতিন মাধ্যমে, কম্পিউটারের সাহায্যে; কিন্তু বলা বাহুল্য, এভাবে সংগৃহীত শব্দভাণ্ডারের যথাযোগ্য বিচার করতে পারে একমাত্র বিদগ্ধ মানুষের বিশ্লেষণশক্তি। আমাদের প্রকল্প হল মানবিক মেধা ও যন্ত্রমেধার যুগলবন্দী। 

কাজ মূলত তিনটি। প্রথম, সব যুগের সব বিষয়ে যথাসম্ভব বেশি পাঠ বা রচনার একটি শব্দভাণ্ডার (কর্পাস) তৈরি করা, কম্পিউটার ডেটাবেসের আকারে। এজন্য আমরা আন্তর্জাল থেকে প্রচুর পাঠ ডাউনলোড করেছি। সেই সংগ্রহের কাজ শেষ করার পাশাপাশি আমরা অন্যান্য নানা অনলাইন ও অফলাইন সূত্র থেকে আরও প্রচুর পাঠ উদ্ধার করছি। কয়েকটি গ্রন্থাগার ও লেখ্যাগার তাঁদের সংগ্রহ ব্যবহার করতে দিয়ে আমাদের বাধিত করেছেন; আমাদের নিজেদের সংগ্রহেও কিছু আছে। 

এত পাঠ খুঁজেপেতে একত্র করা, প্রয়োজনীয় তথ্য (মেটাডেটা) জড় করা, এবং আমাদের বৈদ্যুতিন পদ্ধতির উপযুক্ত রূপে রূপান্তর করা একটি বিশাল কাজ। আন্তর্জালে অধিকাংশ পাঠ পাওয়া যায় পিডিএফ রূপে; সেগুলি থেকে সৃষ্টি করতে হয় টেক্সট (.txt) ফাইল, দৃশ্যপাঠ (optical character recognition বা OCR) প্রণালী প্রয়োগ করে।এভাবেই কোনও পাঠকে কেবল ছবি বা ইমেজের রূপ থেকে যন্ত্রপাঠে (machine readable) রূপে পরিবর্তন করতে হয়, যাতে কম্পিউটার তা পড়তে ও বিশ্লেষণ করতে পারবে। 

 

এটি আমাদের সফটওয়ার-এর একটি চলতি নিদর্শন। সব পাঠ তালিকাভুক্ত আছে লেখক, শিরোনাম ও তারিখ সমেত। উপযুক্ত লিংক ক্লিক করলে এগুলিতে অন্তর্ভুক্ত সমস্ত শব্দের পূর্ণ তালিকা খুলে যাবে। 

[সফটওয়ার-এর দৃশ্যরূপ (display) ক্রমাগত পরিমার্জিত হচ্ছে। বর্তমান রূপের সঙ্গে এই ছবি নাও মিলতে পারে, কিন্তু চিত্রিত প্রক্রিয়া একই থাকবে।] 

এই ডেটাবেস সৃষ্টি এক বিশাল আর অফুরন্ত কাজ। আমাদের লক্ষ্য এমন একটা আয়তনে পৌঁছানো যা থেকে একটা কার্যকর নিদর্শন (prototype) প্রস্তুত করা যায়। তা থেকেই অধিকাংশ লোকের অধিকাংশ চাহিদা মিটবে। এটিকে ক্রমে আরও আরও বিস্তৃত ও সমৃদ্ধ করে প্রস্তুত হতে পারে সব দিক দিয়ে পূর্ণাঙ্গ একটি ডেটাবেস।

দ্বিতীয় কাজটা আরও কঠিন: শব্দভাণ্ডার থেকে লব্ধ শব্দগুলি উপযুক্তভাবে বিশ্লেষণ করার জন্য একটি সফটওয়ার উদ্ভাবন। এই কাজটি পুরোপুরি সম্পন্ন: এ যাবৎ এটাই আমাদের সবচেয়ে বড় সাফল্য। এমন কোনও সফটওয়ার আগে ছিল না। এতদূর পৌঁছে আমরা আরও দৃঢ়সংকল্প, এই সফটওয়ারের সাহায্যে অভিধানটি আমাদের শেষ করতে হবেই। 

সবচেয়ে গুরুত্বপূর্ণ হল একটি শব্দের সবগুলি রূপ একত্র করে শব্দটির পূর্ণাঙ্গ চিত্র তৈরি করা। বাংলা ভাষার শব্দরূপ বেশ জটিল, ধাতুরূপ আরও বেশি, বিশেষ করে সাধু ও চলিত এই দুই ধারা উপস্থিত থাকার ফলে। একটি বাংলা ক্রিয়াপদের ১০০-১৫০ বা আরও বেশি রূপ থাকতে পারে। সর্বনামেরও অনেকগুলি রূপ থাকে। বিশেষ্য বা নামপদের শেষে থাকে নানা উপসর্গ: গাছ, গাছটা, গাছের, গাছগুলো ইত্যাদি। শব্দটির পুরো ইতিহাস তুলে ধরতে সবগুলি রূপ একত্রিত করা দরকার। 

আমাদের অভিনব সফটওয়ার যে-কোনও ক্রিয়াপদের মূল বা ভিত (আমরা যাকে base বলছি) সনাক্ত করে এক-একটি মূল থেকে গঠিত প্রতিটি রূপ বর্গীকৃত করে সবগুলির প্রতিটি নিদর্শন ডেটাবেস থেকে একত্রিত করছে। পাশের ছবিতে দেখুন ‘লেখা’ ক্রিয়াপদের একটি মূল ‘লেখ্’ থেকে গঠিত সব রূপের সারণি: ‘সে লেখে’, ‘তুমি লেখো’, ‘তুই লেখ’ ইত্যাদি। সারণি থেকে যে-কোনও কোষে যে কোনও একটি রূপে ক্লিক করলে ডেটাবেসে সেই রূপটির প্রতিটি নিদর্শনের তালিকা খুলে যাবে; প্রতিটির সঙ্গে থাকবে সূত্র ও তারিখ। 

তেমন আর একটি সারণিতে দেখা যাবে ওই ক্রিয়াপদের অন্য মূল ‘লিখ্’ থেকে গঠিত সবগুলি রূপ – আমি লিখি, তুমি লিখবে, তিনি লিখিতেছিলেন ইত্যাদি। 

পরের ধাপ এই দুই মূল থেকে গঠিত যত রূপ সবগুলি একত্রিত বা ‘ক্লাব’ করে একটি পূর্ণাঙ্গ তালিকা তৈরি করা, এবং সেটি সূত্রসহ তারিখ অনুসারে সাজানো। 

কিছুটা আলাদা কিন্তু অনুরূপ উপায়ে একটি বিশেষ্য বা নামপদের (যথা, ‘গাছ’) সবগুলি রূপ একটি তালিকায় একত্রিত করা যায়। করা যায় সর্বনাম বা অন্য যে-কোনও পদের সব রূপ।

কম্পিউটারের মূল কাজ এই অবধি। এবার তৃতীয় ও শেষ পর্যায়ের কাজ: এই তালিকাগুলি স্প্রেডশিট আকারে সাজিয়ে নিয়ে মানুষের বোধশক্তি দিয়ে সেগুলি বিশ্লেষণ করা, দেখা কোথায় কোনও নতুন অর্থ বা প্রয়োগ দেখা দিচ্ছে, বানান বা গঠনে বদল হচ্ছে। এই কাজেও কম্পিউটারের সাহায্য নেওয়া যায়। এমন একটি সহায়ক সফটওয়ার আমাদের হাতে এসে গেছে, বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞান বিভাগের প্রস্তুত। এই পদনির্দেশক প্রণালী বা part of speech taggerএর সাহায্যে একই চেহারার আলাদা আলাদা পদকে সনাক্ত করা যায়, তফাত করা যায় ক্রিয়াপদ ‘কর’ (=করো) আর বিশেষ্য ‘কর’ (=হাত বা =খাজনা)।

শব্দকল্প: নির্মীয়মান ঐতিহ্য


শব্দকল্প থেকে আমাদের লাভ কী? প্রকল্প শেষ করার জন্য আমরা সচেষ্ট হব কেন? এটি ভাষা ব্যবহারের সবচেয়ে ব্যাপক ও মৌলিক পরিকাঠামো, ভাষার সব রকম প্রয়োগ ও বিশ্লেষণের প্রধান অবলম্বন। ভাষা নিয়ে যাই করি না কেন, শব্দকল্প কাজে লাগবে। আর এক ভাবে বললে শব্দকল্প হল বাংলা ও বাঙালি জীবনের সব দিক সম্বন্ধে বিশেষভাবে সুনির্দিষ্ট অনুপুঙ্খ এক তথ্যকোশ বা এনসাইক্লোপিডিয়া। 

বিবর্তনমূলক অভিধান একটি ভাষার বিশ্বস্তরে গুরুত্ব বা স্বীকৃতির অভিজ্ঞান। বিশ্বের সবচেয়ে ব্যাপক ও ব্যবহৃত ভাষার মধ্যে বাংলার সপ্তম স্থান। শব্দকল্প বাংলা ভাষাকে এই স্থানের উপযুক্ত মর্যাদা প্রদান করবে। এটি নির্মাণের কাজ অনেক দূর এগিয়েছে, বাকি আছে আরও অনেক পথ। আসুন সকলে মিলে এই যাত্রা সুগম করি। 

Scroll to Top