নির্বাচিত পোস্ট | লগইন | রেজিস্ট্রেশন করুন | রিফ্রেস

সাইবার অভিযাত্রী

যাদের হাতে দলীল প্রমাণ কম তারা গালি দেয় বেশি

সাইবার অভিযত্রী

সাইবার অভিযত্রী › বিস্তারিত পোস্টঃ

পিপীলিকা

১৫ ই এপ্রিল, ২০১৩ রাত ৮:৩৩

পিপীলিকা কি বানিজ্যিক ? তা না হলে এর টেকনিক্যাল বিষয়গুলো অবশ্যই প্রকাশ হওয়া উচিত । কেনান এতে টেকনিক্যাল আলোচনা - সমালোচনা হবার সুযোগ থাকবে, এটি আরো সমৃদ্ধ হবে ।





লেখক পোষ্টে বলেছেন : এটিকে একটি বেসিক বাংলা সার্চ ইন্জিনের কাঠামো হিসেবে দাড় করিয়ে ফেলেন ২০১০ সালের শেষের দিকে। উনারা ডেটাবেইস কোর্স প্রজেক্ট হিসেবে একটা ছোট স্কেলের সার্চ ইন্জিন বানিয়েছিলেন পিপীলিকা নামে। এই দুটো প্রজেক্টকে মার্জ করে শুরু হয় মূল সার্চ ইঞ্জিনের কাজ।



প্রশ্ন হচ্ছে পিপীলিকা কি এখনও ডাটাবেজ নির্ভর ? তবে কিন্তু পিপীলিকার গতিতে চলবে । ২০০১-২ এ একটি যুক্তরাষ্ট্র ভিত্তিক সফটওয়ার ফার্মের জন্য কাজ করি ওয়ার্ল্ড ব্যাংকের একটা প্রজেক্ট - এ। সেখানে সার্চ ইন্জিন তৈরীর কাজ ছিল, ওয়ার্ল্ড ব্যাংকের বহু বছরের ডমুমেন্ট থেকে । আমার ম্যানেজার ডাটাবেস ভিত্তিক সমাধানকেই অগ্রাধিকার দিতেন । আমি হিসেব নিকেশ করে দেখিয়ে দেই ডাটাবেস সার্চ থেকে সরাসরি সি/সি++ দিয়ে ফাইল থেকে সার্চ অনেক ফাষ্ট হবে । যদিও ডাটাবেস এপ্লিকেশন তৈরী সহজ সাধ্য, সচারাচর ফেইল করবে না । কিন্তু স্পীড যদি "কী ফ্যাক্টর " হয় তবে অবশ্যই ডাটাবেস দিয়ে নয় । অবশেষে প্রজেক্ট হয় সি++ এ ।





তবে অপরিকল্পিত ভাবে করা সি++ এর কোড থেকে, ডাটাবেস সার্ভার ভাল সমাধান দিবে, বিশেষ করে যদি ঠিকমত ইনডেক্সিং করা থাকে। আর সি++ এ করা সার্চ ইন্জিনের ইনডেক্সং যদি আপনি নিজেই করে রাখেন, তবে কিন্তু সেটা ডাটাবেস থেকেও কম সময়ে এক্সিকিউট করবে। আর আমাদের সমাধানেও আমরা সেটা ব্যবহার করেছিলাম । তবে তথ্য বেশী হয়ে গেলে ইনডেক্স ফাইলের সাইজও বড় হয়ে যায়, আর সেটা লোড করতেও সময় লাগে বেশ খানিকটা ।



দ্বিতীয় সমস্যা : সি++ এ ডিস্ক একসেস করতে গিয়ে ইনডেক্স ফাইলের সব ডেটা যদি মেমরীতে নেওয়া হয়, তবে তার সমাধান কি ? এটা আপনি সামলাতে পারবেন একটু বুদ্ধি খাটিয়েই । যেহেতু আপনি নিজস্ব এ্যারে বা লিষ্ট ব্যব হার করে ডেটা রাখছেন, ফাইল পয়েন্টারও নিজেই আগে পিছে নিচ্ছেন তাই ফাইলের ঠিক কত নাম্বার বাইটে, কত জায়গা নিয়ে একটি নির্দিষ্ট শব্দের ইনডেক্স ডেটা থাকছে তা আপনি ছোট একটা ফাইলে রেখে দিন । আর এ সমাধানটা ব্যব হার করার পর আমরা যাদুকরি ফল পেয়েছিলাম । প্রথমবার যখন আমার ম্যানেজারকে এই টেকনিক প্রয়োগ করে সার্চ আউটপুট দেখাই, এত দ্রুত রেজাল্ট আসছিল যে ম্যানেজার শুরুতে বিশ্বাসই করতে পারছিলেন না যে আদৌ সার্চ শেষ করে রেজাল্ট আসচে না এমনিতেই এসে যাচ্ছে ।





সে যাত্রায় স্পীড আর বাড়ানোর প্রয়োজন হয়নি । বছর পাচেক পর আরেক ফার্মে ( সেটাও যুক্তরাষ্ট্র ভিত্তিক, আমি তখন সেখানে নিজেই ম্যানেজার) একটা ওয়েব বেজ এপ্লিকেশনের একটা ফিচার এক্সিকিউট করতে গিয়ে স্পীড বাড়ানোর দরকার হল । কোন ক্লাসের একটা মেথড কল করলে শুরুতেই একটা ভাল সময় খেয়ে ফেলে একটা ইন্সট্যান্স তৈরী হতে । তাই খুব দ্রুত ইন্টারেক্টিভ কিছু তৈরী করা যাচ্ছিল না । এর আগে ষ্টেটিক ডেটা / ষ্টেটিক ক্লাস নিয়ে পড়েছি, রিয়েল লাইফ প্রজেক্ট -এ প্রয়োগ করি নি । সেবার ফল পেলাম স্ট্যাটিক ক্লাস ব্যবহার করে।



সোজা ভাষায় বললে আপনি যখন গুগুলে "এবিসি " লিখে সার্চ দেন, তখন নিশ্চয়ই কোন ফাংশন/প্রসিডিওর/মেথড কল হয় । আর প্রতিটা কলের জন্যি ঐ মেথডের একটা ইন্সট্যান্স তৈরী হয়, আর এতে কিছুটা হলেও সময় লাগে । এই খানে এই সময় কমানোর কোন রস্টা আমার জানা নেই। তবে সার্চ কীওয়ার্ড লেখার সময় দেখা যায় কিছু শব্দ টাইপের আগে আগেই এসে যায় । এগুলো আনতে ঠিক/গ্রহণযোগ্য স্পীড পেতে অব্শ্যই ব্যাক এন্ড - এ স্ট্যাটিক ক্লাস বানাতে হবে । আর ওয়েব এপ্লিকেশনে রিফ্রেশের ঝামেলা এড়িয়ে দ্রুত ইন্টারেক্টিভ কিছু দেখাতে ফ্রন্টে অবশ্যই এ্যাজাক্স লাগবে ।



এত লম্বা বয়ানের উদ্দেশ্য কি ????



সার্চ ইন্জিন নিয়ে এককালে হাড়ভাংগা খাটুনি করেছিলাম বলেই জানতে আগ্রহ হয়, পিপীলিকা কি কি প্রযুক্তি খটিয়েছে? কোন কোন জায়গায় ? কিভাবে - কি করে ?



ষ্টিকি পোষ্টে তর্পন বলেছেন: আমি ওপেসসোর্সের সমর্থক হিসেবে দাবী করবো সম্ভব হলে সার্চ ইঞ্জিনটি ওপেনসোর্সে উন্মুক্ত করা হোক। তাতে গবেষণা কর্মের মৌলিকত্ব আরো বেশি প্রচারিত হবে, প্রমাণিত হবে।



পিপীলিকা কি কখনই আমাদের এই পিপাসা মেটাবে কোনদিন ?

মন্তব্য ৩ টি রেটিং +২/-০

মন্তব্য (৩) মন্তব্য লিখুন

১| ১৬ ই এপ্রিল, ২০১৩ সকাল ১০:২৫

তর্পন বলেছেন: আমাদের দেশে অনেক সময়ই মানুষ হাইপে চলে যাওয়ার একটা ব্যাধিতে ভোগে। ধরুন নরসিংদির এক গ্যারেজে কেউ নৌকার সাথে মটর সাইকেলের ইঞ্জিন আর কাঠের তক্তার পাখা দিয়ে প্লেন বানানোর কথা দাবী করলো। দেখবেন ফেইসবুকে শেখ হাসিনা খালেদাকে গালিগালাজ করা হচ্ছে কেন সরকার দেশি প্রযুক্তির এই প্লেন উদ্ভাবককে সহায়তা দিচ্ছে না। একবার দেখলাম পাথরকুচি থেকে কে বিদ্যুত আবিষ্কার করেছে যেটা নিয়ে অনেকে হৈ চৈ করলো। সাংবাদিকদের মাথায় পলিটিক্সটা ভাল ঢোকে বলে দেশের প্রেম উথলে ওঠে কোন যাচাই বাছাই ছাড়াই।

আমি পিপীলিকা ডট কমকে ছোট করতে চাই না। বরং চাই হোক একটা কিছু। কিন্তু বুঝতে হবে - বিষয়টার পারপাস কি। মাস্টার্স এর প্রজেক্ট থিসিস পার করানোর সফটওয়্যার নির্মাণ আর রিয়েল লাইফের বোঝা কাঁধে নেয়ার মত টেকনোলজি এক না। শাবিপ্রবিতে ড. জাফর ইকবালের মত মানুষদের ছায়ায় বেশ কিছু কাজ হচ্ছে (এবং গ্রামীনের মত সফটওয়্যার এর মালিকদের মোটা মাথায় এমন আইডিয়া ঢুকেছে)।

আমি জাফর ইকবালের খুব কাছ থেকে কাজ করতে গিয়ে দেখেছি তিনি এত বেশি ব্যস্ত থাকেন নানান দিকে যে অনেক কিছুতেই এত ডিটেইল কিছু খেয়াল রাখা হয় না।

এখন প্রসঙ্গে ফিরে বলছি যদি কিশোর তরুণদের শেখার জন্য সার্চ ইঞ্জিন এটা হয়ে থাকে তাহলে অবশ্যই সোর্স কোড উন্মুক্ত করা উচিত। সার্চ ইঞ্জিনের ওপেন সোর্স কোড অনেক পাওয়া যায়। ওপেন সোর্সে অনেক ভাল ভাল সার্চিং এপিআই বা লাইব্রেরি পাওয়া যায়। আমি বলবো গোড়া থেকে চাকা আবিষ্কারের গল্প তৈরী না করে এক্সিস্টিং কোন কোড কে সমৃদ্ধ করা।

সাইবার অভিযাত্রীর যে টেকনিক্যাল অভিজ্ঞতা সেটা রিপিট করতে চাই না।

ইন্ডাস্ট্রিয়াল স্ট্রন্থে যাবার আগে তিনটে জিনিস অবশ্য বিবেচ্য
১. ক্রলার এর পার্ফর্মেন্স।
২. ইনডেক্সার এর ফ্লেক্সিবিলিটি
৩. স্টোরেজ এর আকৃতি আর তার এক্সেস। ক্যাশিং এর পদ্ধতিও বিবেচ্য।

পিপীলিকা কি করে পাবলিক সাবমিটেড পেজ নিয়ে কাজ করবে বুঝতে পারি নি। তারা আপতত ব্লগ উইকির পেজগুলোতে সীমাবদ্ধ রেখেছে। কত গুলো পেজ আছে তাতে?

আমি দেখছি খুব কমন বর্ণ "ক" দিয়ে সার্চ করলে ৫০০ হাজারের মত পেজ পাই। এটা তেমন বড় কোন সংখ্যা না। এটুকুতেই ৪/৫ সেকেন্ডের মত পেজ লোড হতে নেয়। এটা যদি বেড়ে ১০ মিলিয়ন হয় তাহলে টাইমআউট হয়ে যেতে পারে।

লোড ব্যালেন্সিং ইম্পোর্টেন্ট। ইমেজ আর ছবি সার্চ করে অনেকগুলো সার্ভারে রেখে দেয়। একটা সার্ভারে থাকলে হটস্পট তৈরী হয়ে যেতে পারে। আমি পিপীলিকার সার্চ ইঞ্জিন দেখেছি - তারা কি জানে যে এখন যে পেজগুলো ক্রল করে তাaতে অনেক পেজেই জাভাস্ক্রিপ্ট দিয়ে রানটাইম পেজ তৈরী হয়। পিপীলিকা কি জাভাস্ক্রিপ্ট পার্স করতে পারে? সম্ভবত না! ইমেজগুলো কি করে সে রাখে?

যদি পিপীলিকা ইউজার সাবমিট করা পেজকে নিতে পারে তাহলে আসবে স্পাম ফিল্টার আর এডাল্ট পেজকে আটকে দেয়ার সিস্টেম। শুধু বাংলা ভাষার প্রথম সার্চ ইঞ্জিন দাবী করে মুখে মুখে জনপ্রিয়তা পেয়ে যাওয়া যথেষ্ট নয়।

১৬ ই এপ্রিল, ২০১৩ দুপুর ১:১৪

সাইবার অভিযত্রী বলেছেন: ভাই আপনার এই কমেন্ট টা ষ্টিকি পোষ্ট টাতে দিন না,
পোষ্ট টা তো রাজনৈতিক ফোকাসড না টেকনিক্যালি ফোকাসড । ভিন্ন মত / টেকনিক্যাল সমালোচনা তো পজিটিভলি - ই নেওয়া উচিত ।

২| ২৩ শে সেপ্টেম্বর, ২০১৪ দুপুর ১২:১৭

রাতুলবিডি৪ বলেছেন: সামুর স্টিকি োষ্ট :

Click This Link

আপনার মন্তব্য লিখুনঃ

মন্তব্য করতে লগ ইন করুন

আলোচিত ব্লগ


full version

©somewhere in net ltd.