ভূতের বেগার

Arindam Basu
18 min readJan 6, 2024

[এই লেখাটি গুরুচণ্ডালী নামে একটি বাংলা ওয়েব প্রকাশনায় লিখছিলাম, সেখান থেকে প্রথম দিককার অংশ এখানে পুনর্লিখিত হল ]

“You are delivered to the advertiser who is the customer.
He consumes you.
The viewer is not responsible for programming — —
You are the end product
Richard Serra (1973)

https://youtu.be/LvZYwaQlJsg?si=PjOq6CeYVkkU5uzN

আপনাকে বিক্রি করার একাল সেকাল

এই সারসত্যটি টেলিভিশনের য়ুগে আজ থেকে ৫০ বছর আগে ১৯৭৩ এ মার্কিন শিল্পী/ভাস্কর রিচার্ড সেরা করেছিলেন ।
তারপর সামাজিক মাধ্যমের যুগ এল।
আমরা, যেখানে, সেখানেই রয়ে গেলাম, পণ্যে পরিবর্তিত হলাম।
সে একরকম চলছিল।
এখন কৃত্রিম বুদ্ধিমত্তার যুগ |
যন্ত্রকে চোখ, কান দিয়ে শেখানোর আমল।
রোবটেরা আসছে, এখনো আসেনি।
এযুগের বহিঃপ্রকাশ আরো উদগ্র, আরো ভয়ঙ্কর।
একদল মানুষ ভূতের বেগার খেটে চলেছে দিবারাত্র, কে জানে আপনিও হয়ত তাদেরই একজন, হয়ত নন। হয়ত জেনে শুনে ভূতের বেগার খাটছেন, হয়ত অজান্তে।

বিপন্ন সময়ে এই অদ্ভুত জীবন আর টেকনোলজির বিচিত্র জগতের সঙ্গে একটু পরিচয় হোক।

***

যে কারণে লেখাটা শুরু করা সেটা মানুষে মেশিনে এক ধরণের অদ্ভুত ধরণের ঠিকে কাজের বন্দোবস্ত হয়েছে, যেখানে মানুষকে নিয়ন্ত্রণ করে মেশিনে, এবং অদ্ভুত নৈর্বক্তিক সব ব্যাপার স্যাপার, যেখানে মানুষ না হলে মেশিন হয় না, আবার সেই মেশিনই কাজ শেষ হলে মানুষের কাজ নিয়ে নেয়। ব্যাপারটার মধ্যে এক অদ্ভুর ধরণের বৈপরীত্য রয়েছে এবং মানুষ বিশেষে এবং পরিস্থিতি বিশেষে ব্যাপারটা মর্মান্তিক। পুরো বিষয়টার একটা নৈতিক দিক, বিশেষ করে একটা নেতিবাচক নৈতিক দিক রয়েছে, যা নিয়ে আলোচনা চলতে পারে | কিছুটা সেই আলোচনা উস্কে দেবার জন্যও এই লেখাটার সূত্রপাত। এখানে যে কথাটা বিশেষ করে লেখার, মানুষকে বাদ দিলে মেশিন অচল, বিশেষ করে কৃত্রিম বুদ্ধিমত্তা (আর্টিফিশিয়াল intelligence) র ক্ষেত্রে একেবারেই অচল, সেই প্রসঙ্গে আসছি | মনে হওয়া খুবই স্বাভাবিক আরটিফিশিয়াল ইনটেলিজেনসের যুগে মানুষের কাজ মেশিনে নিয়ে নেবে, কিন্তু কার্যক্ষেত্রে তা হয়ত হবে না, কে জানে হয়ত আমাদের কাজের জগতের বা নটা-পাঁচটার প্রথাগত কাজের জায়গাটিতে একটা পরিবর্তন আসতে চলেছে।

আসছি সে কথায়, তার আগে কৃবু, মানে কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence/Machine Learning) নিয়ে দু-চার কথা লেখা যাক। কোথা থেকে শুরু করা যায়? যোষিতার ভ্যাকুম ক্লিনার (“ভ্যাক”) দিয়েই না হয় গল্পটা শুরু করা যাক।
যোষিতার একটি রোবট চালিত রোবটিয় যন্তর আছে, যোষিতা বলে,

> নিজেই সময়মত নেমে এসে ঘর দোর পরিষ্কার করে নিজের চার্জিং স্টেশনে গিয়ে বসে থাকে। অল্প কথাও বলে।
ওর সেনসর সমস্ত ধুলোবালি খুঁজে খুঁজে টেনে নেয়।

স্বয়ংক্রিয় যন্ত্র।
সেটা না হলে, এই ভ্যাককে নিজে টেনে নিয়ে সব জায়গায় পরিষ্কার করার কাজ নিজেকে করতে হয়, সে ভারি পরিশ্রমসাধ্য কাজ | এখানে মানুষ আর যন্ত্রের এক জায়গায় মিল রয়েছে, উভয়েই “চোখ” দিয়ে দেখে কোথায় ধুলোময়লা, কোন জায়গাটা কার্পেট, কোন জায়গায় সিঁড়ি শুরু হয়েছে, কোথায় দেওয়াল, মানে আপনি চোখ-কান বন্ধ করে সাধারণ একটি ভ্যাক দিয়ে ঘর পরিষ্কার করতে গেলে ঠিক করে উঠতে পারবেন না, আপনাকে কোন না কোন রকম “দৃষ্টি”নির্ভর কাজ করতে হবে |

আর রোবোট ভ্যাক?

“Infrared lasers are used by more expensive robot vacuum cleaners to assess the size and shape of a room, while cheaper models rely on physical boundary stripes that you must place on the floor to ensure the robots only cleans in a specific area. “
(https://www.techradar.com/news/how-do-robot-vacuums-work-and-should-i-buy-one)

Robotic vacuum cleaners don’t use cameras to see the world. Instead, they use various types of sensors to detect and measure the worlds around them and their own progress through it, including cliff sensors, bump sensors, wall sensors and optical encoders.

Optical encoders are the most important: these sensors on the wheels of the robot tell it how far it has gone. They are called optical encoders because they use a light sensor to detect how many times the wheels have rotated. From this (and any difference between wheels, which indicates a turn), the robot can figure out how far it has traveled. Different models may include additional sensors (such as a dust scanner to see how much dust is being picked up), but those are the basic sensors that all robotic vacuums include.
(https://www.cnet.com/home/kitchen-and-household/appliance-science-how-robotic-vacuums-navigate/)

এই যে বিভিন্ন ধরণের সেনসর, অপটিকাল “এনকোডার”, লাইট সেনসর, বিভিন্ন ধরণের সংবেদনকে গ্রহণ এবং তাদের বিশ্লেষণ, যা না হলে যন্ত্রটাই হয না, সে সমস্ত কাজ মানুষের। মানুষ ব্যতিরেকে শুধু “কম্পিউটারের” কাজ নয় (যদিও unsupervised learning এর একটা ভূমিকা থাকে) | মানুষ “শেখায়” কম্পিউটারকে কিভাবে দেখতে হয়, কিভাবে “শুনতে হয়”, কিভাবে “ভাবতে হয়”। যে ব্যাপারটি এখানে সবিশেষ উল্লেখযোগ্য, মেশিনকে “শেখানোর” নেপথ্যে শুধু বৈজ্ঞানিকরাই বা যাঁরা কোড লেখেন, প্রোগ্রামিং করেন তাঁরাই নন, একটা বিশাল ভূমিকা গ্রহণ করেন যাঁরা “লেবেলিং” এর কাজ করেন।

ধরুণ আপনি মেশিনকে শেখাতে চান কি করে কুকুর আর বেড়াল চিনতে হয়। এইখানে ছোট শিশুকে কুকুর বেড়াল চেনানো আর মেশিনকে কুকুর বেড়াল চেনানোয় একটা মস্ত ফারাক। মানুষের শিশুকে শেখাতে গেলে কয়েকটা ছবি, বড়জোর একটা কুকুর আর একটা বেড়ালের সঙ্গে পরিচয় করিয়ে দিলেই সে মোটামুটি পরের বার বেশ শিখে যাবে কোনটাকে কি বলতে হয়। মেশিন তো আর সেটা পারে না, তাকে “শেখাতে” গেলে বিস্তর চিন্তা ভাবনার ব্যাপার রয়েছে। ধরুন আপনি মনে করলেন হুঁ, কুকুরের লম্বাটে মুখ, বড় চোখ, তেকোণা কান এইসমস্ত “ফিচার” দিয়ে মেশিনকে শেখাবেন কি করে কুকুর চিনতে হয়, এবং তারপর তাকে কুকুরের ছবি দেখালে সে হয়ত শনাক্ত করতে পারবে। সেটা যে সবসময় হবে তা তো নয়। বেশীর ভাগ ক্ষেত্রে হয়ত হবেই না | তার থেকে আরো উন্নত উপায় আমাদের মস্তিষ্কের কোষে আমরা যেভাবে ভাবি, কোষ থেকে কোষে তরঙ্গায়িত হয়ে অজস্র জালের মাধ্যে সংকেত পরিবাহিত হয়, সেইভাবে যদি মেশিনকে শেখানো যায়। আমাদের মস্তিষ্কে প্রায় ৮০০০ কোটি মস্তিষ্কের কোষ এবং অযুত জালিকায় চিন্তা-ভাবনা-তরঙ্গের নিরন্তর বাহিত হয়ে চলেছে, এইরকম একটা মডেল বানানো, যেখানে কোষ থেকে কোষে যেমন আমাদের মস্তিষ্কে চিন্তা-চেতনা-তরঙ্গের চলাফেরা, তেমনই মেশিনকে “শেখানোর” ব্যাপারটি ঐভাবে করা যেতে পারে (চিত্র ১)

চিত্রটির ওপরের প্যানেলে দুটো স্নায়ু কোষকে দেখা যাচ্ছে, যাদের একপ্রান্ত থেকে অন্য প্রান্তে সংবেদনা পারাপার করা হচ্ছে, কোষের মাথার দিক (যে জায়গাটিতে লাল চিহ্ন দেখা যাচ্ছে), সেখান থেকে সংবেনদার তরঙ্গ বাহিত হচ্ছে axon নামের অংশটির মাধ্যমে, তারপর দুটি কোষের মাঝের অংশটি (যার নাম সাইন্যাপস), তার মাধ্যমে সংবেদনা এক কোষ থেকে অন্যত্র ধাবিত হচ্ছে।
এর ঠিক নীচে Deep Learning এর ছবি। বাঁদিকের তিনটে নীল রঙের গোলাকার বৃত্ত থেকে তথ্যের সূত্রপাত, তীরচিহ্ন গুলোকে ধরা যাক সাইন্যাপস, মাধের লাল রঙের বৃত্তগুলোকে মনে করা যাক আরো কিছু নিউরন (পরিভাষায় hidden nodes), এবং শেষের output node আরেকটি স্নায়ুকোষ | এবং এইভাবে অজস্র স্নায়ুকোষ একে অপরের সঙ্গে মিলে তথ্যের আদানপ্রদানের বাস্তবায়ন।

এর সঙ্গে লেবেলিং/শনাক্তকরণের আর মানুষে মেশিনে ভুতের বেগারের যে প্রসঙ্গ নিয়ে শুরু করেছিলাম, তার কি সম্পর্ক? আসছি সে কথায় এর পর |

তৃতীয় পর্ব: মেকানিকাল টার্ক
— — — — -

যে বিষয়টি নিয়ে লেখা শুরু করেছিলাম, তাতে ফেরা যাক।
মানুষ মানুষের হয়ে কাজ করেন, সে একরকম, কিন্তু মানুষ যখন যন্ত্রের দাসত্ব স্বীকার করেন, সে এক অন্যরকমের পরিস্থিতি। অথচ মেশিন লার্নিং এবং তথাকথিত “কৃত্রিম বুদ্ধিমত্তার” যুগে এমন একটি বিচিত্র পরিস্থিতি উপস্থিত হয়েছে, যেখানে আমাদের কাজের ধরণ ধারণ হয়ত অনেকটা পাল্টাতে চলেছে, অন্তত কিছু মানুষের ক্ষেত্রে তো বটেই | সেইটা নিয়ে আলোচনা করতে গিযে কিছুটা মেশিন/ডিপ লার্নিং এর অবতারণা করেছিলাম, ওপরের ছবিটায় স্নায়ু থেকে স্নায়ু কোষে সংবেদনা কিভাবে “হস্তান্তরিত” হয় তার একটা রেখাচিত্র এঁকেছি অপটু হাতে। এটার উদ্দেশ্য অবশ্য এ কথা বলা নয় যে আমাদের মস্তিষ্কে ঐভাবেই “ইনফরমেশন” এক স্নায়ু থেকে অন্যত্র ধাবিত হয়। এটা নেহাতই একটা অতি সরলীকরণ, কেউ কি সত্যি জানেন যে মানুষের মস্তিষ্কে ঠিক কিভাবে চেতনা আর তথ্যের প্রকাশ ঘটে? মনে হয় না।

সে যাই হোক, মেশিন এবং ডিপ লার্নিং (আরো বড় করে, ধরা যাক, “কৃ্ত্রিম বুদ্ধিমত্তা”) কে কেন্দ্র করে (মূলত, তবে সেটাই একমাত্র নয়), একধরণের “ঠিকে কাজের” সংস্কৃতি গড়ে উঠেছে যাকে কেন্দ্র করে এই লেখা।
এখন যে এ আই (আরটিফিশিয়াল ইনটেলিজেনস),বা বাংলায় বলা যাক কৃবু’র রমরমা,তার পেছনে কমপিউটারের “ছবি চেনা” বা “দৃষ্টি”র একটি অবদান রয়েছে। সে কিরকম? মনে করুন, আপনি একটি ফুলের ছবি তুলেছেন অথচ সে ফুলের নাম আপনার মনে পড়ছে না বা সে নাম আপনি জানেন না। আপনি যদি সেই ফুলটির ডিজিটাল ছবি কমপিউটারে কোন একটি ঐরকম অ্যাপলিকেশনে “তুলে দেন”,এবং ফুলটির নাম জানতে চান, কমপিউটার প্রোগ্রাম বা অ্যাপলিকেশনটি সেই ফুলের নাম আপনাকে জানিয়ে দেবে। বা ধরুণ যেভাবে আমরা গুগলে ছবি আপলোড করে সেই ছবির সম্বন্ধে জানতে পারি বা টিন আই নামের সার্চ ইঞ্জিন ব্যবহার করে ছবি সম্বন্ধে জানতে পারি।

তার মানে কমপিউটার কি সে ছবি “দেখতে পেল”? ভেবে দেখলে সেইরকম ই তো মনে হয়। এর অন্য নাম ‘কম্পিউটার ভিশন”। কমপিউটারকে নানান জিনিস দেখানোর প্রচেষ্টা বহু প্রাচীন। ১৯৯৪ সালে আমেরিকার ডাক বিভাগ একদল কমপিউটার বৈজ্ঞানিকের সঙ্গে মিলে এমন একটি সিস্টেম তৈরী করে যেখানে লোকের হাতের লেখা থেকে তাদের বাড়ির বা ঠিকানার একটা অংশ পড়া যেতে পারে (ওদের দেশের পোস্টাল কোড) |
তো এইরকম।

২০০৬ সাল। স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের এক কমপিউটার গবেষিকা ফাই ফাই লি, তিনি স্থির করলেন জগতে যত রকমের বস্তু আছে,ফুল লতা পাতা, প্রাণী, প্রাকৃতিক দৃশ্যাবলী, ইত্যাদির ছবি তুলে সেগুলো কমপিউটারকে “শেখাবেন” | এই মর্মে তিনি প্রায় ১২ লক্ষ ছবি তুললেন | ১২ লক্ষ ছবির ১০০০ শ্রেণী, প্রতিটি শ্রেণীতে একেকটি ছবির নাম বা পরিচয, শ্রেণীপ্রতি ১২০০ করে ছবি।

এবার কমপিউটারকে “শেখাতে” গেলে যে কাজটা করতে হবে সেটা কিছুটা এইরকম। ধরুন কমপিউটারকে আপনি গোলাপ ফুল যে গোলাপ ফুল সেইটা শেখাতে চাইছেন। প্রথমে গোলাপ এবং অন্যান্য ফুলের ডিজিটাল ছবি সংগ্রহ করলেন (প্রচুর ছবি নানান ভাবে নানান রকমের গোলাপ ফুলের ছবি এবং অন্যান্য ফুল গোলাপ নয় এমন ফুল তাদের ছবি), তারপর সে ডিজিটাল ছবি একটি ডাটাবেসে আপলোড করলেন। তারপর আপনাকে প্রতিটি ফুল যে গোলাপ সে কথাটা কমপিউটারকে জানাতে হবে, সেটি করতে গেলে ফুলের ছবিটিকে “লেবেল” করতে হবে। একই সঙ্গে আপনাকে আরো কিছু ফুল, যে ফুল গোলাপ নয়, তাদের ছবি তুলে এবং লেবেল করে একই রকম করে আপলোড করে দিতে হবে এবং কোনটা গোলাপ ফুল আর কোনটা গোলাপ নয় স্পষ্ট করে কমপিউটারকে শিখিয়ে দিতে হবে। তার পরে আরো কিছু জটিল অঙ্কের ব্যাপার রয়েছে।

২০০৬ সালে যন্ত্রকে যাবতীয় জাগতিক ছবি চেনানোর এই জটিল কাজটি সম্পন্ন করার উদ্দশ্যে ফাই ফাই লি একটি ডাটাবেস তৈরী করলেন,তার নাম দিলেন ইমেজনেট | পরবর্তীকালে ইমেজনেট কে কেন্দ্র করে যন্ত্রকে ছবি চেনানোর বহু প্রতিযোগিতা হয়েছিল এবং কৃবুর জগতে ইমেজনেটের অপরিসীম গুরুত্ব, কত যে আবিষ্কার ইমেজনেটের মাধ্যমে হয়েছে! আপাতত সে গল্প থাক। কাজের কথায় ফিরি।

১২ লক্ষ ছবি তো ফাই ফাই লি তুললেন, অত ছবির লেবেল হবে কি উপায়ে? ফাই ফাই একা যদি সবকটি ছবির লেবেলের দায়িত্ব নিয়ে লেবেল করতেন, এবং সারা দিন শুধু লেবেল ছাড়া আর অন্য কোন কাজ না করতেন, তাহলেও তাঁর একার পক্ষে সব ছবি লেবেল করতে কমপক্ষে ১০-১২ বছর লেগে যেত | কাজেই অন্য উপায় অবলম্বন করতেই হয়।
সময়টা ২০০৬, তখনও আজকালকার সাবেক তথাকথিত সামাজিক মাধ্যম বাজারে আসেনি |

তখন ফাই-ফাই লি আমাজন কোমপানীর মেকানিকাল টার্কের ( এমটার্কের ) শরণাপন্ন হলেন।

সেই সময়ে কোমপানী হিসেবে আমাজন আজকের তুলনায় অপেক্ষাকৃত ক্ষুদ্রায়তন | আমাজন শুরু হয়েছিল নানারকমের বইয়ের ডিজিটাল ক্যাটালগ এবং বিক্রির মাধ্যম রূপে। তার পর কালক্রমে সেখানে অন্যান্য বহু বিক্রেতা নিজেদের পণ্য নিয়ে পসার শুরু করলেন,ফলে আমাজন একটি বৃহদাকার ডিজিটাল বাজারে পরিণত হল।
এযাবৎকাল মানুষ বই বাড়ি, গাড়ি নানারকমের সামগ্রী এই সমস্ত ক্রয় বিক্রয় করে এসেছে, ডিজিটাল জগতেও তার ব্যতিক্রম হয় নি। আমাজন ইন্টারনেটে অবস্থিত একটি বৃহৎ বিপণি, সেখানে কি না বিক্রি হয়। আমাজনের বাজার যখন জমে উঠেছে তখন আরেকটি জটিল সমস্যা দেখা দিল। বিপণিটি নিঃসন্দেহে অতিবৃহৎ, সবাই বেচতে চায়, অতএব এক্ষেত্রে যা হয়, প্রচুর পরিমাণে একই বস্তুর অজস্র ডুপ্লিকেট বেরোতে লাগল। এখন মানুষের চোখে একেক জোড়া জিনিস যে ডুপ্লিকেট, সেটি নির্ণয় করা সহজ, যন্ত্রের দ্বারা সেই কাজ সম্পন্ন হবার নয় (অন্তত সে সময়ে সম্ভব ছিল না) | দু দশ হাজার ডুপ্লিকেট ছবি না হয় মানুষজন চোখে দেখে নির্ণয় করতে পারেন এক্ষেত্রে সমস্যা হল যে লক্ষ লক্ষ জিনিসের ডুপ্লিকেট, কোন বেশ কয়েকজন মানুষের পক্ষেও করে ওঠা সম্ভব নয়, অথচ না করতে পারলে ব্যবসাটাই অচল হয়ে পড়ে | এ সেই ফাই-ফাই লি’র ছবি চেনার আর লেবেলিং এর সমস্যার মতন ব্যাপার।

এর সমাধান করলেন ভেঙ্কট “ভেঙ্কি” হরিনারায়ণ নামে এক ভারতীয় ইঞ্জিনিয়র, যন্ত্রে-মানুষে মেলবন্ধন ঘটিয়ে | ডুপ্লিকেট ছবি চেনার কাজটিকে যন্ত্রের সাহায্যে অসংখ্য ছোট ছোট অংশে ভাগ করে ফেলা হল,তারপর একেকটা ছোট অংশ অজস্র মানুষের মধ্যে ইন্টারনেটের মাধ্যমে ছড়িয়ে দেওয়া হল। এতে করে, যে যার নিজের সময়মত কাজটুকু করে জমা দিলেন, কাজটা সময়মত হয়ে গেল। এরা এর নাম দিলেন এম টার্ক, ইউরোপের অষ্টাদশ শতকে মেকানিকাল টার্কের নামের আদলে।

আমাজনের মালিক জেফ বেজোস ঝানু ব্যবসায়ী | তিনি দেখলেন, এ ব্যাপারটিকে যদি বাজারে নিয়ে আসা যায়, বা যেভাবে মানুষ বাজারে এসে পসার সাজিয়ে বিক্রিবাটা করে, ঠিক সেভাবেই এই প্রক্রিয়াটিকে কেন্দ্র করে যদি একটি ‘কাজের বাজার’ তৈরী করে ফেলা যায়, কেমন হয়?

ব্যাপারটা কেমন জানেন? মনে করুন আপনি একটি প্রবন্ধ লিখছেন, সে প্রবন্ধের জন্য কিছু তথ্য ও গবেষণার প্রয়োজন, আপনার হাতে সময় নেই | আপনি আমাজনের এম টার্ক নামে প্রোজেক্টটিতে নাম লেখালেন গবেষণার কাজটি সম্পন্ন করার জন্য বিজ্ঞাপণ দিলেন এবং বললেন যে আপনার কয়েকটি গবেষণালব্ধ প্রবন্ধ চাই ও প্রবন্ধ পিছু আপনি যে কাজ করে দেবে তাকে টাকা দেবেন। এবার মনে করুন, আমিও এমটার্কে নাম লিখিয়েছি, তবে আমি কাজ “দেব” বলে নাম লেখাইনি, কাজ “চাই” বলে নাম লিখিয়েছি। আপনার বিজ্ঞাপণটি আমার নজরে পড়ল, আমি কাজ “ধরে” নিলাম। আপনি তথ্য চাইছিলেন আমি তথ্য সংগ্রহ করে এমটার্কের মাধ্যমে আপনার কাছে পাঠালাম, আপনি আমাকে যে পারিশ্রমিক দেবেন প্রতিশ্রুতি করেছিলেন, এমটারকের মাধ্যমে পাঠিয়ে দিলেন। এ বাবদ আমাজন এমটার্ক তাদের ধার্য টাকা কেটে নিয়ে আমাকে আমার পারিশ্রমিক মিটিয়ে দিল।

আপনি আমাকে চেনেন না, আমিও আপনার সঙ্গে পরিচিত হলাম না, আমার আর আপনার সম্পর্ক কাজ নিয়ে, তাও পুরো কাজটুকু নয় কাজের কিয়দংশ মাত্র | আমার কাজ করা হয়ে গেলে টাকা পেয়ে আমি আবার অন্য কাজ “ধরলাম”, আপনিও অন্যত্র চলে গেলেন, আমাদের কেউ কাউকে চিনি না, তার প্রয়োজনও নেই এ কাজে। আপনার কাছে আমি অদৃশ্য, আমার কাছে আপনি অদৃশ্য, মাঝখানে রয়ে গেল যন্ত্র।

যন্ত্র, মানুষকে নিয়ন্ত্রণ করল |

মেকানিকাল টার্ক | যান্ত্রিক তুর্কী |

ইউরোপে অষ্টাদশ শতকে, ১৭৭০ সালে উলফগ্যাং ফন কেমপেলেন নামে এক হাঙ্গেরিয়ান উদ্ভাবক সে সময়ের অস্ট্রো-হাঙ্গেরিয় সাম্রাজ্যের মহারাণীর জন্য এক যন্ত্রের আবিষ্কার করেন, তার নাম দেন মেকানিকাল (যান্ত্রিক) টার্ক (তুর্কী?)| অদ্ভুত এই যন্ত্রের ভেতরে একজন মানুষ থাকত, যে লোক ওস্তাদ দাবাড়ু, কিন্তু সে থাকত লোকচক্ষের অন্তরালে | লোকে দেখত যান্ত্রিক এক পুতুল, যাকে দেখতে তু্র্কী বাজিগরদের মতন, সে অনায়াসে তাবড় দাবাড়ুদের দাবা খেলায় হারিয়ে দিচ্ছে (চিত্র ২)

(কেমপেলেনের যান্ত্রিক তুর্কী, মেকানিকাল টার্ক, https://hydraulicsheep.github.io/img/1*kCSX4_cnKfLHXD4nxYJWOg.jpeg)

যন্ত্রের এহেন খেলা দেখে মানুষ মাত হলেও আসলে পুরো ব্যাপারটি একটি মহা ধাপ্পা, প্রতারণা |

এই আশ্চর্য যান্ত্রিক তুরকীর কার্যকলাপ দেখার পর মার্কিন সাহিত্যিক, যিনি একাধারে গোয়েন্দা গল্পের জনকও বটে, এডগার অ্যালান পো, “মেলজেলের দাবাড়ু” (maelzel’s chess player) নাম দিয়ে একটি প্রবন্ধ লিখেছিলেন | আমি লেখাটি থেকে কিছু কিছু অংশ তুলে দিলাম |

> “we find every where men of mechanical genius, of great general acuteness, and discriminative understanding, who make no scruple in pronouncing the Automaton a pure machine, unconnected with human agency in its movements, and consequently, beyond all comparison, the most astonishing of the inventions of mankind. And such it would undoubtedly be, were they right in their supposition. … what shall we think of the calculating machine of Mr. Babbage? What shall we think of an engine of wood and metal which can not only compute astronomical and navigation tables to any given extent, but render the exactitude of its operations mathematically certain through its power of correcting its possible errors? What shall we think of a machine which can not only accomplish all this, but actually print off its elaborate results, when obtained, without the slightest intervention of the intellect of man? … a machine such as we have described is altogether above comparison with the Chess-Player of Maelzel. By no means — it is altogether beneath it — that is to say provided we assume (what should never for a moment be assumed) that the Chess-Player is a pure machine, and performs its operations without any immediate human agency. Arithmetical or algebraical calculations are, from their very nature, fixed and determinate. Certain data being given, certain results necessarily and inevitably follow. These results have dependence upon nothing, and are influenced by nothing but the data originally given. And the question to be solved proceeds, or should proceed, to its final determination, by a succession of unerring steps liable to no change, and subject to no modification. This being the case, we can without difficulty conceive the possibility of so arranging a piece of mechanism, that upon starting it in accordance with the data of the question to be solved, it should continue its movements regularly, progressively, and undeviatingly towards the required solution, since these movements, however complex, are never imagined to be otherwise than finite and determinate. But the case is widely different with the Chess-Player. With him there is no determinate progression. No one move in chess necessarily follows upon any one other. From no particular disposition of the men at one period of a game can we predicate their disposition at a different period. … There is then no analogy whatever between the operations of the Chess-Player, and those of the calculating machine of Mr. Babbage, and if we choose to call the former a pure machine we must be prepared to admit that it is, beyond all comparison, the most wonderful of the inventions of mankind. … It is quite certain that the operations of the Automaton are regulated by mind, and by nothing else. Indeed this matter is susceptible of a mathematical demonstration, a priori. The only question then is of the manner in which human agency is brought to bear. (শেষের লাইনটা আমার দাগানো ) |

আমরা পরে আলোচনা করব যে পো’র প্রণীত যান্ত্রিক তুর্কীর এই লেখাটি আমাদের আজকের যুগে তথাকথিত কৃত্রিম বুদ্ধিমত্তার আমলে কি সাংঘাতিক রকমের প্রযোজ্য এবং কি করুণ সে সব কাহিনি | সে গল্প এর পর |

যে কারণে যান্ত্রিক তুরকীর প্রসঙ্গটি ঊঠল, ডিপ লার্নিং, ছবি, কম্পিউটারকে ছবি চেনানো, এবং সেই সূত্রে প্রচুর ছবির ও তাকে লেবেলিং এর কারণে ফাই ফাই লি আমাজনের শরণাপন্ন হয়েছিলেন। আমাজন কোমপানি নিজে অবশ্য নিজেদের ব্যবসার কারণে যান্ত্রিক তুর্কীর ব্যবসা খুলেছিল, এবং চটজলদি কিছু অর্থ উপার্জনের আশায় বহু মানুষ নিজে থেকে যেচে যান্ত্রিক তুরকী হয়েছিলেন সে আমলে।

কি বলতে চাইছি বোঝানোর জন্য একটি মামুলি উদাহরণই দিই না হয়।

মনে করুন আপনার কাছে একটা থারমোমিটার আছে, সে থারমোমিটারটিতে শুধু ফারেনহাইট স্কেলে তাপমান পড়তে পারা যায় অথচ আপনি সেলসিয়াস স্কেলে তাপমান মাপতে চান | আপনার থারমোমিটারটির তাপমান মেপে আপনি আপনার কমপিউটারে একটি ফাংশান লিখতে পারেন,

def fahr2celsius(x):
celsius = ((x - 32)/9 ) * 5
return celsius

থারমোমিটারে তাপমান দেখাচ্ছে ১০৪ ডিগ্রী, আপনি আপনার লেখার সৌজন্যে অঙ্ক কষে কমপিউটারে দেখলেন ৪০ ডিগ্রী সেলসিয়াস। এইরকম। এখন আপনি জিজ্ঞাসা করতে পারেন জানা গেল কি করে যে একস থেকে ৩২ বিয়োগ করে নয় দিয়ে ভাগ করে পাঁচ দিয়ে গুণ করতে হবে। আমরা মানুষ, আমাদের প্রারব্ধ অভিজ্ঞতা, পড়াশোনা এরকম নানা সূত্রে আমাদের লব্ধ জ্ঞানের সূত্রে আমরা “মেশিন”কে নির্দেশ করি কি করতে হবে, মেশিন আমাদের “আদেশ” পালন করে। এছাড়াও রাশিবিজ্ঞানের সূত্রেও আমরা স্থির করতে পারি যে কত ফারেনহাইটে কত সেলসিয়াস। কাজের কথা, আমরা যন্ত্রকে নির্দেশ দিই, যন্ত্র সে নির্দেশ পালন করে।

যন্ত্রকে নির্দেশ দেয়া যন্ত্রকে তথ্য দেওয়া, যন্ত্রের আউটপুট বা তথ্য নির্গমন

এই যে নির্দেশ দেবার নিয়মবদ্ধতা, এই যে একের পর এক নির্দেশিকা দিয়ে রাখা, কি কি করতে হবে, কিভাবে করতে হবে রান্নার নিয়ম শেখানোর মতন, আমরা যন্ত্রের এই ব্যবহারেই অভ্যস্ত, এ এক ব্যাপার। এতে অবশ্য যন্ত্রের শেখা টেখা কিছু হল না, সে শুধু নির্দেশ পালন করতে লাগল। যন্ত্রকে যদি শেখাতে হয়, তাহলে ব্যাপারটি দাঁড়াবে নীচে যেমন দেখানো আছে, সেই রকম,

যন্ত্রকে শেখানো

যন্ত্রকে শেখানো অন্যরকম। যন্ত্র শিখবে মানে তাকে শেখার মতন তথ্য দিতেও হবে, আর কোনটা ঠিক, কোনটা ভুল সেইটাও জানিয়ে দিতে হবে, তবেই সে শিখবে কিভাবে (অন্তত এক্ষেত্রে) কোন ফর্মুলা যাতে ইনপুট আর আউপুট ফরমুলার সূত্রে মিলে যায়। এখন এটা যেহেতু শেখার এবং শেখানোর পালা, এবং নানারকমের ইনপুট আউটপুট জোড়ায় জোড়ায় শিখে যন্ত্রের ফরমুলা তৈরীর ব্যাপার, এ অনেকটা আমাদের শৈশবে অঙ্ক শেখার মতন | এক জোড়া মাত্র সংখ্যা দিলে হবে না, অজস্র সংখ্যার জোড় দিয়ে শেখাতে হবে তাকে। যত বেশী সংখ্যার জোড় দেবেন, তত “ভালভাবে” সে শিখবে।

এই একই ব্যাপার যন্ত্রকে ছবি চেনানো বা ছবি শেখানোর ক্ষেত্রেও প্রযোজ্য | যন্ত্র ছবি কে আমরা মানুষরা যেভাবে ছবি রূপে দেখি, সে তো ঠিক সেভাবে দেখে না, সে দেখে ছবিকে অঙ্কের হিসেবে। যেমন ধরুন নীচের ছবিটি,

তাজ মহলের ছবি (সূত্র: https://www.rawpixel.com/image/393663/the-taj-mahal)

ছবিটা তাজ মহলের, আমাদের, মানুষের পক্ষে চিনতে অসুবিধে হবার কথা নয়, এই তাজমহলই, মেশিনকে চেনাতে গেলে ছবিটিকে টুকরো করে অজস্র ছোট অংশে ভাগ করে ফেলতে হবে এবং প্রতিটি অংশকে ০ থেকে ২৫৫ র মধ্যে একটি সংখ্যা দিয়ে চিহ্নিত করে মেশিনকে দিয়ে অঙ্ক করা শেখানো হবে। শেখাতে গেলে মেশিনকে জানিয়ে দিতে হবে যে এ ছবি তাজ মহলের | মেশিন আন্দাজ করবে, মেশিনের ভুল হবে, শোধরাবে, এবং বারবার এই প্রক্রিয়ার মধ্যে দিয়ে শেখার এক সময় মেশিন স্থির করবে এ ছবি কত শতাংশ তাজমহল হবার কথা। তবে মেশিনকে শেখাতে গেলে একটি মাত্র ছবি দিয়ে দেখালে তো চলবে না, হাজার খানেক ছবি, তার কয়েকটি “ট্রেনিং” বা শেখানোর জন্য রাখা, কয়েকটিকে দিয়ে আলাদা করে যাচাই করানো, আর কয়েকটিকে দিয়ে পরীক্ষা করিয়ে নেয়া যে মেশিন শিখল কি না।

এত কথা লেখার উদ্দেশ্য এইটাই যে মেশিনকে ছবি চেনা, বা অন্য কিছু “শেখাতে” গেলে অল্প কয়েকটি ছবি বা কম ডাটা দিলে চলবে না। এতে উল্টো বিপত্তি, আপাত ভাবে দেখে মনে হবে সে শিখেছে, আসলে সে “মুখস্ত” করছে। কিন্তু শেখা আর মুখস্ত করা এক নয় তো, ফলে নতুন ছবি দেখালে সে আর শনাক্ত করে উঠতে পারে না।

সে কি? নীচের ছবিটি লক্ষ করুন

মেশিনের ভুল করা, ঠিক করা, ওভারফিট

ওপরে যে চিত্রটি দেখানো হয়েছে, তাতে মেশিনের শেখা না শেখার প্লট | X-axis বরাবর নজর করে দেখুন, প্রক্রিয়া বা epoch দেখানো হয়েছে। মনে করা যাক ১০০ টি ছবি মেশিনকে দেখানো হল এবং সে একবার শিখছে, দুবার শিখছে, এই করে করে ১০০ বার তাকে দিযে শেখানো হচ্ছে। প্রতিবার, সে ভুল করছে, তার পরের বার শুধরে নিচ্ছে | শুধু তাই নয়, এই ১০০ বারের প্রতিবার মেশিন কতটা শিখল, আমরা যাচাই করে নিচ্ছি। কত শতাংশ সে ভুল করছে, সেইটা Y-axis এ দেখানো হয়েছে। যেমন ধরুন, প্রথমবার যখন মেশিনকে শেখানো হল, মেশিন ৯০% ভুল করে বসল (বুঝতেই পারল না এ ছবি তাজমহলের কি না)। কিন্তু সে শেখে দ্রুত, তাই তার ভুলের পরিমাণ ক্রমশ কমতে থাকল। ১০ বার পর্যন্ত দেখুন মেশিনের ট্রেনিং আর যাচাই করার ছবি দিয়ে পরীক্ষা করতে গিয়ে দেখা গেল তারা মোটামুটি একই রকমভাবে ভুল করছে, এবং ভুল শোধরাচ্ছে। ১০ রাউণ্ড শেখানোর পর একটা অদ্ভুত ব্যাপার দেখা গেল। মেশিন ট্রেনিং এর যে ডাটা, তাতে তার ভুলচুক অনেকটা কমে গেল বটে, কিন্তু তাকে যখন যাচাই করা হল, তখন দেখা গেল, তার ভুল করার পরিমাণ শতাংশের হিসেবে বাড়তে লাগল। এই ব্যাপারটি থেকে একটা ব্যাপার বোঝা যাচ্ছে যে মেশিন চেনা ডাটা দিব্য আত্মস্থ করেছে বটে, কিন্তু শেখে নি।

ব্যাপারটি কিরকম জানেন? এ আমাদের ছোটবেলায় নামতা মুখস্থ করার মতন। ১০ এর নামতা ১ থেকে ১০ দিব্য মুখস্থ হয়েছে, অথচ শিক্ষক যেই ১১ দশে কত হয় জিজ্ঞাসা করলেন, তার আর উত্তর নেই | কয়েকজন ছাত্র অবশ্য ইতিমধ্যে দেখেছে, ১০ দিয়ে গুণ করলে সংখ্যাটির পাশে একটি শূণ্য বসালেই উত্তর পাওয়া যায়, এইটে তাদের নামতা “শেখা”, বাকীরা স্রেফ মুখস্থ বিদ্যার ওপর নির্ভর করেছে । এ সমস্ত ক্ষেত্রে শিক্ষক সচরাচর যা করেন, পুনরায় নামতা আত্মস্থ করান, তারপর অন্যান্য সংখ্যা দিয়ে গুণ করিয়ে নামতার “রহস্য” ছাত্রদের “শেখান”। মেশিনের ক্ষেত্রেও অনেকটা একই রকম কাজ হয়।

এত কথা লেখার উদ্দেশ্য এই যে, মেশিনকে যদি “শেখাতে” হয়, তাহলে প্রচুর ডাটা আর তার সংলগ্ন “লেবেল”এর প্রয়োজন হয়। এখন সত্যি বলতে কি, ডাটা লেবেল করার কাজটি খুবই সহজ, যেমন তাজমহলের ছবি দেখে সে যে তাজমহল, এইটা কোথাও লিখে রাখা | এ কাজে যে খুব দক্ষতার প্রয়োজন তা নয়, কিন্তু যেহেতু কৃবু’র কাজে লক্ষ লক্ষ ছবির প্রয়োজন, একজন দুজনের পক্ষে তো এ কাজ সম্ভব নয়।

কাজটি সামান্য, কিন্তু প্রচুর মানুষের প্রয়োজন, এবং এ সমস্ত ক্ষেত্রে সচরাচর যা হয়, যারা এ কাজ করবেন, তাদের কাজ পিছু খুব সামান্য মজুরি দিলেও চলে। ফাই ফাই লি যেমন গবেষণার কাজ করতে গিয়ে এই অদ্ভুত সমস্যার সম্মুখীন হয়েছিলেন, আমাজন কোমপানী তেমনি নিজেদের ব্যবসার কাজ করতে গিয়ে অন্য রকমের “লেবেলিং” এর সমস্যায় পড়েছিল, কাজেই তাদেরও ঐ এক দশা | এই মানুষগুলো লেবেলিং এর কাজ না করে দিলে, এবং সময়মত না করে দিলে আজকের আরটিফিশিয়াল ইনটেলিজেনসের যে ঝাঁ চকচকে অগ্রগতি, তার কিছুই দাঁড়ায় না।

আমরা শুরু করেছিলাম এই বলে যে যান্ত্রিক তুরকী সেযুগে যেমন একটি মানুষের চোখে ধুলো দেওয়ার খেলা বই কিছু ছিল না, যেখান কাজ করত মানুষ আর নাম হত যন্ত্রের, আমাদের এই আমলের আমাজনের যান্ত্রিক তুরকীও প্রকারান্তরে তাই | আমাজন ঠিক কি কারণে বা কি বিবেচনা করে এই নাম স্থির করেছিলেন কে জানে, যদিও কার্যক্ষেত্রে কৃত্রিম বুদ্ধিমত্তা জনিত ব্যবসার যে প্রায় বিস্ফোরণ ঘটছে আমাদের প্রাত্যহিক জীবনে, সেখানে যন্ত্রের যাবতীয় আশ্চর্য কার্যকুশলতার ভিত রয়ে গেছে অগণিত অচেনা, হয়তবা উপেক্ষিত মানুষের কায়িক শ্রমলব্ধ তথ্য অন্বেষণ আর কুশলতায়, যেটুকু না হলে এর কিছুমাত্র হত না। যান্ত্রিক তুরকীর মেশিনের মধ্যে অবস্থিত মানুষটির মতন এঁরাও আমাদের সাধারণ চোখে অদৃশ্য, “অশরীরি” রয়ে গেলেন | প্রায় বেগার খাটছেন প্রতিনিয়ত, এদের নিয়েই আমাদের ভূতের বেগারের গল্প।

পাঠক, এইখানে এই ধরণের কাজের প্রেক্ষিতে, শ্রমিকের অধিকার, তাদের শারীরিক মানসিক স্বাস্থ্যের বিষয়গুলো বিবেচনা করার সময় এসেছে। বিশেষ করে যেভাবে এ আই (কৃবু) এবং তৎসংলগ্ন ব্যবসা-বাণিজ্যের যাকে বলে বিস্ফোরণ ঘটছে প্রতিদিন। সে প্রসঙ্গে আসছি।

কেন মেশিন ও মানুষ

এই লেখাটি লিখতে লিখতে ডিসি মন্তব্য করলেন,

> অরিন্দমবাবু যে লিখেছেন ডেটা লেবেলিং এর মাধ্যমে মেশিন লার্নিং, সে একেবারে আদিযুগে ছিল। তাকে বলা হয় সুপারভাইজড লার্নিং, সেটা করে খুব একটা ভালো রেজাল্ট হয়নি, অন্তত আজকের লেভেলে তো নয়ই (আজকের বলতে ধরুন ইন্টেলিজেন্ট ড্রাইভিং বা উবের এর সার্জ প্রাইসিং বা চ্যাটবট, মানে ক্লাসিফিকেশান আর প্রেডিকশান দুটোই)। সুপারভাইজড লার্নিং এর পর শুরু হয় আনসুপারভাইজড লার্নিং (উদাহরন k-means বা অন্যান্য ক্লাস্টারিং অ্যালগো), আর রিইনফোর্সড লার্নিং (এটায় অবশ্য কিছু লেবেলিং করা হয়)। আনসুপারভাইজড লার্নিং এর জন্য লেবেল বা ট্রেনিং ডেটার দরকার হয়না।

আর আপনি তো জানেনই, মেশিন লার্নিং এর আসল প্রোগ্রেস শুরু হয়েছে মাল্টি নিউরন নেটওয়ার্ক বা কনভোলিউশান নিউরাল নেটওয়ার্ক তৈরি হওয়ার পর। বিশেষ করে, সিএনএন বাজারে আসার পর তো ডেটাসেটের ফিচারও লার্নিং অ্যালগোটাই সিলেক্ট করে। ডিজাইনারদের কাজ সেক্ষেত্রে হয় ওয়েট আর বায়াস কন্ট্রোল করা, বা অন্যান্য প্যারামিটার ম্যানিপুলেট করা।

মানে এটা বলতে চাইছি যে “যদিও কার্যক্ষেত্রে কৃত্রিম বুদ্ধিমত্তা জনিত ব্যবসার যে প্রায় বিস্ফোরণ ঘটছে আমাদের প্রাত্যহিক জীবনে, সেখানে যন্ত্রের যাবতীয় আশ্চর্য কার্যকুশলতার ভিত রয়ে গেছে অগণিত অচেনা, হয়তবা উপেক্ষিত মানুষের কায়িক শ্রমলব্ধ তথ্য অন্বেষণ আর কুশলতায়, যেটুকু না হলে এর কিছুমাত্র হত না” — এটা মনে হয় ঠিক হলো না। একটা সময়ে প্রচুর লোক লেবেলিং এর কাজে যুক্ত হয়েছিলেন ঠিকই, আর তাদের হয়তো সেরকম রিকগনিশান মেলেনি, আরও মেলা উচিত ছিল, কিন্তু তাদের কাজের ভিত্তিতে মেশিন লার্নিং আজকের লেভেলে পৌঁছয়নি বলে মনে হয়।

ডিসি খুব অন্যায্য কিছু লেখেননি, সত্যি ২০২৪ এর প্রেক্ষিতে দেখলে সুপারভাইজড লার্নিং নিয়ে এতটা লেখা আর সেমি সুপারভাইজড বা আনসুপারভাইজড লার্নিং নিয়ে কোন কথা না বলাটা কতটা যুক্তিযুক্ত বিশেষ করে যে সময়ে আনসুপারভাইজড লার্নিং এর এখন প্রবল প্রতাপ। এখানে যে কথাটা বলার, এই লেখাটি ঠিক কৃত্রিম বুদ্ধিমত্তা নিয়ে নয়, বরং তাকে কেন্দ্র করে কাজ আর কাজ জনিত জনস্বাস্থ্য বা মনে করা যাক কৃত্রিম বুদ্ধিমত্তার মানুষের (সমাজের/কাজের) ওপর কি প্রভাব, মূলত তাই নিয়ে। এর মধ্যে প্রথম দিকটায় গিগ ইকনমি আর ভৌতিক কাজের ব্যাপারটা নিয়ে লিখতে গিয়ে এতটা লিখতে হল।

গিগ ইকনমি

অদৃশ্য মানুষেরা: কাজকর্মের সেকাল একাল

--

--

Arindam Basu

I am a Medical Doctor and an Associate Professor of Epidemiology and Environmental Health at the University of Canterbury. Founder of TwinMe,