ভূতের বেগার

18 min readJan 6, 2024

[এই লেখাটি গুরুচণ্ডালী নামে একটি বাংলা ওয়েব প্রকাশনায় লিখছিলাম, সেখান থেকে প্রথম দিককার অংশ এখানে পুনর্লিখিত হল ]

“You are delivered to the advertiser who is the customer.
He consumes you.
The viewer is not responsible for programming — —
You are the end product”
Richard Serra (1973)

https://youtu.be/LvZYwaQlJsg?si=PjOq6CeYVkkU5uzN

আপনাকে বিক্রি করার একাল সেকাল

এই সারসত্যটি টেলিভিশনের য়ুগে আজ থেকে ৫০ বছর আগে ১৯৭৩ এ মার্কিন শিল্পী/ভাস্কর রিচার্ড সেরা করেছিলেন ।
তারপর সামাজিক মাধ্যমের যুগ এল।
আমরা, যেখানে, সেখানেই রয়ে গেলাম, পণ্যে পরিবর্তিত হলাম।
সে একরকম চলছিল।
এখন কৃত্রিম বুদ্ধিমত্তার যুগ |
যন্ত্রকে চোখ, কান দিয়ে শেখানোর আমল।
রোবটেরা আসছে, এখনো আসেনি।
এযুগের বহিঃপ্রকাশ আরো উদগ্র, আরো ভয়ঙ্কর।
একদল মানুষ ভূতের বেগার খেটে চলেছে দিবারাত্র, কে জানে আপনিও হয়ত তাদেরই একজন, হয়ত নন। হয়ত জেনে শুনে ভূতের বেগার খাটছেন, হয়ত অজান্তে।

বিপন্ন সময়ে এই অদ্ভুত জীবন আর টেকনোলজির বিচিত্র জগতের সঙ্গে একটু পরিচয় হোক।

***

যে কারণে লেখাটা শুরু করা সেটা মানুষে মেশিনে এক ধরণের অদ্ভুত ধরণের ঠিকে কাজের বন্দোবস্ত হয়েছে, যেখানে মানুষকে নিয়ন্ত্রণ করে মেশিনে, এবং অদ্ভুত নৈর্বক্তিক সব ব্যাপার স্যাপার, যেখানে মানুষ না হলে মেশিন হয় না, আবার সেই মেশিনই কাজ শেষ হলে মানুষের কাজ নিয়ে নেয়। ব্যাপারটার মধ্যে এক অদ্ভুর ধরণের বৈপরীত্য রয়েছে এবং মানুষ বিশেষে এবং পরিস্থিতি বিশেষে ব্যাপারটা মর্মান্তিক। পুরো বিষয়টার একটা নৈতিক দিক, বিশেষ করে একটা নেতিবাচক নৈতিক দিক রয়েছে, যা নিয়ে আলোচনা চলতে পারে | কিছুটা সেই আলোচনা উস্কে দেবার জন্যও এই লেখাটার সূত্রপাত। এখানে যে কথাটা বিশেষ করে লেখার, মানুষকে বাদ দিলে মেশিন অচল, বিশেষ করে কৃত্রিম বুদ্ধিমত্তা (আর্টিফিশিয়াল intelligence) র ক্ষেত্রে একেবারেই অচল, সেই প্রসঙ্গে আসছি | মনে হওয়া খুবই স্বাভাবিক আরটিফিশিয়াল ইনটেলিজেনসের যুগে মানুষের কাজ মেশিনে নিয়ে নেবে, কিন্তু কার্যক্ষেত্রে তা হয়ত হবে না, কে জানে হয়ত আমাদের কাজের জগতের বা নটা-পাঁচটার প্রথাগত কাজের জায়গাটিতে একটা পরিবর্তন আসতে চলেছে।

আসছি সে কথায়, তার আগে কৃবু, মানে কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence/Machine Learning) নিয়ে দু-চার কথা লেখা যাক। কোথা থেকে শুরু করা যায়? যোষিতার ভ্যাকুম ক্লিনার (“ভ্যাক”) দিয়েই না হয় গল্পটা শুরু করা যাক।
যোষিতার একটি রোবট চালিত রোবটিয় যন্তর আছে, যোষিতা বলে,

> নিজেই সময়মত নেমে এসে ঘর দোর পরিষ্কার করে নিজের চার্জিং স্টেশনে গিয়ে বসে থাকে। অল্প কথাও বলে।
ওর সেনসর সমস্ত ধুলোবালি খুঁজে খুঁজে টেনে নেয়।

স্বয়ংক্রিয় যন্ত্র।
সেটা না হলে, এই ভ্যাককে নিজে টেনে নিয়ে সব জায়গায় পরিষ্কার করার কাজ নিজেকে করতে হয়, সে ভারি পরিশ্রমসাধ্য কাজ | এখানে মানুষ আর যন্ত্রের এক জায়গায় মিল রয়েছে, উভয়েই “চোখ” দিয়ে দেখে কোথায় ধুলোময়লা, কোন জায়গাটা কার্পেট, কোন জায়গায় সিঁড়ি শুরু হয়েছে, কোথায় দেওয়াল, মানে আপনি চোখ-কান বন্ধ করে সাধারণ একটি ভ্যাক দিয়ে ঘর পরিষ্কার করতে গেলে ঠিক করে উঠতে পারবেন না, আপনাকে কোন না কোন রকম “দৃষ্টি”নির্ভর কাজ করতে হবে |

আর রোবোট ভ্যাক?

“Infrared lasers are used by more expensive robot vacuum cleaners to assess the size and shape of a room, while cheaper models rely on physical boundary stripes that you must place on the floor to ensure the robots only cleans in a specific area. “
(https://www.techradar.com/news/how-do-robot-vacuums-work-and-should-i-buy-one)

Robotic vacuum cleaners don’t use cameras to see the world. Instead, they use various types of sensors to detect and measure the worlds around them and their own progress through it, including cliff sensors, bump sensors, wall sensors and optical encoders.
…
Optical encoders are the most important: these sensors on the wheels of the robot tell it how far it has gone. They are called optical encoders because they use a light sensor to detect how many times the wheels have rotated. From this (and any difference between wheels, which indicates a turn), the robot can figure out how far it has traveled. Different models may include additional sensors (such as a dust scanner to see how much dust is being picked up), but those are the basic sensors that all robotic vacuums include.
(https://www.cnet.com/home/kitchen-and-household/appliance-science-how-robotic-vacuums-navigate/)

এই যে বিভিন্ন ধরণের সেনসর, অপটিকাল “এনকোডার”, লাইট সেনসর, বিভিন্ন ধরণের সংবেদনকে গ্রহণ এবং তাদের বিশ্লেষণ, যা না হলে যন্ত্রটাই হয না, সে সমস্ত কাজ মানুষের। মানুষ ব্যতিরেকে শুধু “কম্পিউটারের” কাজ নয় (যদিও unsupervised learning এর একটা ভূমিকা থাকে) | মানুষ “শেখায়” কম্পিউটারকে কিভাবে দেখতে হয়, কিভাবে “শুনতে হয়”, কিভাবে “ভাবতে হয়”। যে ব্যাপারটি এখানে সবিশেষ উল্লেখযোগ্য, মেশিনকে “শেখানোর” নেপথ্যে শুধু বৈজ্ঞানিকরাই বা যাঁরা কোড লেখেন, প্রোগ্রামিং করেন তাঁরাই নন, একটা বিশাল ভূমিকা গ্রহণ করেন যাঁরা “লেবেলিং” এর কাজ করেন।

ধরুণ আপনি মেশিনকে শেখাতে চান কি করে কুকুর আর বেড়াল চিনতে হয়। এইখানে ছোট শিশুকে কুকুর বেড়াল চেনানো আর মেশিনকে কুকুর বেড়াল চেনানোয় একটা মস্ত ফারাক। মানুষের শিশুকে শেখাতে গেলে কয়েকটা ছবি, বড়জোর একটা কুকুর আর একটা বেড়ালের সঙ্গে পরিচয় করিয়ে দিলেই সে মোটামুটি পরের বার বেশ শিখে যাবে কোনটাকে কি বলতে হয়। মেশিন তো আর সেটা পারে না, তাকে “শেখাতে” গেলে বিস্তর চিন্তা ভাবনার ব্যাপার রয়েছে। ধরুন আপনি মনে করলেন হুঁ, কুকুরের লম্বাটে মুখ, বড় চোখ, তেকোণা কান এইসমস্ত “ফিচার” দিয়ে মেশিনকে শেখাবেন কি করে কুকুর চিনতে হয়, এবং তারপর তাকে কুকুরের ছবি দেখালে সে হয়ত শনাক্ত করতে পারবে। সেটা যে সবসময় হবে তা তো নয়। বেশীর ভাগ ক্ষেত্রে হয়ত হবেই না | তার থেকে আরো উন্নত উপায় আমাদের মস্তিষ্কের কোষে আমরা যেভাবে ভাবি, কোষ থেকে কোষে তরঙ্গায়িত হয়ে অজস্র জালের মাধ্যে সংকেত পরিবাহিত হয়, সেইভাবে যদি মেশিনকে শেখানো যায়। আমাদের মস্তিষ্কে প্রায় ৮০০০ কোটি মস্তিষ্কের কোষ এবং অযুত জালিকায় চিন্তা-ভাবনা-তরঙ্গের নিরন্তর বাহিত হয়ে চলেছে, এইরকম একটা মডেল বানানো, যেখানে কোষ থেকে কোষে যেমন আমাদের মস্তিষ্কে চিন্তা-চেতনা-তরঙ্গের চলাফেরা, তেমনই মেশিনকে “শেখানোর” ব্যাপারটি ঐভাবে করা যেতে পারে (চিত্র ১)

চিত্রটির ওপরের প্যানেলে দুটো স্নায়ু কোষকে দেখা যাচ্ছে, যাদের একপ্রান্ত থেকে অন্য প্রান্তে সংবেদনা পারাপার করা হচ্ছে, কোষের মাথার দিক (যে জায়গাটিতে লাল চিহ্ন দেখা যাচ্ছে), সেখান থেকে সংবেনদার তরঙ্গ বাহিত হচ্ছে axon নামের অংশটির মাধ্যমে, তারপর দুটি কোষের মাঝের অংশটি (যার নাম সাইন্যাপস), তার মাধ্যমে সংবেদনা এক কোষ থেকে অন্যত্র ধাবিত হচ্ছে।
এর ঠিক নীচে Deep Learning এর ছবি। বাঁদিকের তিনটে নীল রঙের গোলাকার বৃত্ত থেকে তথ্যের সূত্রপাত, তীরচিহ্ন গুলোকে ধরা যাক সাইন্যাপস, মাধের লাল রঙের বৃত্তগুলোকে মনে করা যাক আরো কিছু নিউরন (পরিভাষায় hidden nodes), এবং শেষের output node আরেকটি স্নায়ুকোষ | এবং এইভাবে অজস্র স্নায়ুকোষ একে অপরের সঙ্গে মিলে তথ্যের আদানপ্রদানের বাস্তবায়ন।

এর সঙ্গে লেবেলিং/শনাক্তকরণের আর মানুষে মেশিনে ভুতের বেগারের যে প্রসঙ্গ নিয়ে শুরু করেছিলাম, তার কি সম্পর্ক? আসছি সে কথায় এর পর |

তৃতীয় পর্ব: মেকানিকাল টার্ক
— — — — -

যে বিষয়টি নিয়ে লেখা শুরু করেছিলাম, তাতে ফেরা যাক।
মানুষ মানুষের হয়ে কাজ করেন, সে একরকম, কিন্তু মানুষ যখন যন্ত্রের দাসত্ব স্বীকার করেন, সে এক অন্যরকমের পরিস্থিতি। অথচ মেশিন লার্নিং এবং তথাকথিত “কৃত্রিম বুদ্ধিমত্তার” যুগে এমন একটি বিচিত্র পরিস্থিতি উপস্থিত হয়েছে, যেখানে আমাদের কাজের ধরণ ধারণ হয়ত অনেকটা পাল্টাতে চলেছে, অন্তত কিছু মানুষের ক্ষেত্রে তো বটেই | সেইটা নিয়ে আলোচনা করতে গিযে কিছুটা মেশিন/ডিপ লার্নিং এর অবতারণা করেছিলাম, ওপরের ছবিটায় স্নায়ু থেকে স্নায়ু কোষে সংবেদনা কিভাবে “হস্তান্তরিত” হয় তার একটা রেখাচিত্র এঁকেছি অপটু হাতে। এটার উদ্দেশ্য অবশ্য এ কথা বলা নয় যে আমাদের মস্তিষ্কে ঐভাবেই “ইনফরমেশন” এক স্নায়ু থেকে অন্যত্র ধাবিত হয়। এটা নেহাতই একটা অতি সরলীকরণ, কেউ কি সত্যি জানেন যে মানুষের মস্তিষ্কে ঠিক কিভাবে চেতনা আর তথ্যের প্রকাশ ঘটে? মনে হয় না।

সে যাই হোক, মেশিন এবং ডিপ লার্নিং (আরো বড় করে, ধরা যাক, “কৃ্ত্রিম বুদ্ধিমত্তা”) কে কেন্দ্র করে (মূলত, তবে সেটাই একমাত্র নয়), একধরণের “ঠিকে কাজের” সংস্কৃতি গড়ে উঠেছে যাকে কেন্দ্র করে এই লেখা।
এখন যে এ আই (আরটিফিশিয়াল ইনটেলিজেনস),বা বাংলায় বলা যাক কৃবু’র রমরমা,তার পেছনে কমপিউটারের “ছবি চেনা” বা “দৃষ্টি”র একটি অবদান রয়েছে। সে কিরকম? মনে করুন, আপনি একটি ফুলের ছবি তুলেছেন অথচ সে ফুলের নাম আপনার মনে পড়ছে না বা সে নাম আপনি জানেন না। আপনি যদি সেই ফুলটির ডিজিটাল ছবি কমপিউটারে কোন একটি ঐরকম অ্যাপলিকেশনে “তুলে দেন”,এবং ফুলটির নাম জানতে চান, কমপিউটার প্রোগ্রাম বা অ্যাপলিকেশনটি সেই ফুলের নাম আপনাকে জানিয়ে দেবে। বা ধরুণ যেভাবে আমরা গুগলে ছবি আপলোড করে সেই ছবির সম্বন্ধে জানতে পারি বা টিন আই নামের সার্চ ইঞ্জিন ব্যবহার করে ছবি সম্বন্ধে জানতে পারি।

তার মানে কমপিউটার কি সে ছবি “দেখতে পেল”? ভেবে দেখলে সেইরকম ই তো মনে হয়। এর অন্য নাম ‘কম্পিউটার ভিশন”। কমপিউটারকে নানান জিনিস দেখানোর প্রচেষ্টা বহু প্রাচীন। ১৯৯৪ সালে আমেরিকার ডাক বিভাগ একদল কমপিউটার বৈজ্ঞানিকের সঙ্গে মিলে এমন একটি সিস্টেম তৈরী করে যেখানে লোকের হাতের লেখা থেকে তাদের বাড়ির বা ঠিকানার একটা অংশ পড়া যেতে পারে (ওদের দেশের পোস্টাল কোড) |
তো এইরকম।

২০০৬ সাল। স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের এক কমপিউটার গবেষিকা ফাই ফাই লি, তিনি স্থির করলেন জগতে যত রকমের বস্তু আছে,ফুল লতা পাতা, প্রাণী, প্রাকৃতিক দৃশ্যাবলী, ইত্যাদির ছবি তুলে সেগুলো কমপিউটারকে “শেখাবেন” | এই মর্মে তিনি প্রায় ১২ লক্ষ ছবি তুললেন | ১২ লক্ষ ছবির ১০০০ শ্রেণী, প্রতিটি শ্রেণীতে একেকটি ছবির নাম বা পরিচয, শ্রেণীপ্রতি ১২০০ করে ছবি।

এবার কমপিউটারকে “শেখাতে” গেলে যে কাজটা করতে হবে সেটা কিছুটা এইরকম। ধরুন কমপিউটারকে আপনি গোলাপ ফুল যে গোলাপ ফুল সেইটা শেখাতে চাইছেন। প্রথমে গোলাপ এবং অন্যান্য ফুলের ডিজিটাল ছবি সংগ্রহ করলেন (প্রচুর ছবি নানান ভাবে নানান রকমের গোলাপ ফুলের ছবি এবং অন্যান্য ফুল গোলাপ নয় এমন ফুল তাদের ছবি), তারপর সে ডিজিটাল ছবি একটি ডাটাবেসে আপলোড করলেন। তারপর আপনাকে প্রতিটি ফুল যে গোলাপ সে কথাটা কমপিউটারকে জানাতে হবে, সেটি করতে গেলে ফুলের ছবিটিকে “লেবেল” করতে হবে। একই সঙ্গে আপনাকে আরো কিছু ফুল, যে ফুল গোলাপ নয়, তাদের ছবি তুলে এবং লেবেল করে একই রকম করে আপলোড করে দিতে হবে এবং কোনটা গোলাপ ফুল আর কোনটা গোলাপ নয় স্পষ্ট করে কমপিউটারকে শিখিয়ে দিতে হবে। তার পরে আরো কিছু জটিল অঙ্কের ব্যাপার রয়েছে।

২০০৬ সালে যন্ত্রকে যাবতীয় জাগতিক ছবি চেনানোর এই জটিল কাজটি সম্পন্ন করার উদ্দশ্যে ফাই ফাই লি একটি ডাটাবেস তৈরী করলেন,তার নাম দিলেন ইমেজনেট | পরবর্তীকালে ইমেজনেট কে কেন্দ্র করে যন্ত্রকে ছবি চেনানোর বহু প্রতিযোগিতা হয়েছিল এবং কৃবুর জগতে ইমেজনেটের অপরিসীম গুরুত্ব, কত যে আবিষ্কার ইমেজনেটের মাধ্যমে হয়েছে! আপাতত সে গল্প থাক। কাজের কথায় ফিরি।

১২ লক্ষ ছবি তো ফাই ফাই লি তুললেন, অত ছবির লেবেল হবে কি উপায়ে? ফাই ফাই একা যদি সবকটি ছবির লেবেলের দায়িত্ব নিয়ে লেবেল করতেন, এবং সারা দিন শুধু লেবেল ছাড়া আর অন্য কোন কাজ না করতেন, তাহলেও তাঁর একার পক্ষে সব ছবি লেবেল করতে কমপক্ষে ১০-১২ বছর লেগে যেত | কাজেই অন্য উপায় অবলম্বন করতেই হয়।
সময়টা ২০০৬, তখনও আজকালকার সাবেক তথাকথিত সামাজিক মাধ্যম বাজারে আসেনি |

তখন ফাই-ফাই লি আমাজন কোমপানীর মেকানিকাল টার্কের ( এমটার্কের ) শরণাপন্ন হলেন।

সেই সময়ে কোমপানী হিসেবে আমাজন আজকের তুলনায় অপেক্ষাকৃত ক্ষুদ্রায়তন | আমাজন শুরু হয়েছিল নানারকমের বইয়ের ডিজিটাল ক্যাটালগ এবং বিক্রির মাধ্যম রূপে। তার পর কালক্রমে সেখানে অন্যান্য বহু বিক্রেতা নিজেদের পণ্য নিয়ে পসার শুরু করলেন,ফলে আমাজন একটি বৃহদাকার ডিজিটাল বাজারে পরিণত হল।
এযাবৎকাল মানুষ বই বাড়ি, গাড়ি নানারকমের সামগ্রী এই সমস্ত ক্রয় বিক্রয় করে এসেছে, ডিজিটাল জগতেও তার ব্যতিক্রম হয় নি। আমাজন ইন্টারনেটে অবস্থিত একটি বৃহৎ বিপণি, সেখানে কি না বিক্রি হয়। আমাজনের বাজার যখন জমে উঠেছে তখন আরেকটি জটিল সমস্যা দেখা দিল। বিপণিটি নিঃসন্দেহে অতিবৃহৎ, সবাই বেচতে চায়, অতএব এক্ষেত্রে যা হয়, প্রচুর পরিমাণে একই বস্তুর অজস্র ডুপ্লিকেট বেরোতে লাগল। এখন মানুষের চোখে একেক জোড়া জিনিস যে ডুপ্লিকেট, সেটি নির্ণয় করা সহজ, যন্ত্রের দ্বারা সেই কাজ সম্পন্ন হবার নয় (অন্তত সে সময়ে সম্ভব ছিল না) | দু দশ হাজার ডুপ্লিকেট ছবি না হয় মানুষজন চোখে দেখে নির্ণয় করতে পারেন এক্ষেত্রে সমস্যা হল যে লক্ষ লক্ষ জিনিসের ডুপ্লিকেট, কোন বেশ কয়েকজন মানুষের পক্ষেও করে ওঠা সম্ভব নয়, অথচ না করতে পারলে ব্যবসাটাই অচল হয়ে পড়ে | এ সেই ফাই-ফাই লি’র ছবি চেনার আর লেবেলিং এর সমস্যার মতন ব্যাপার।

এর সমাধান করলেন ভেঙ্কট “ভেঙ্কি” হরিনারায়ণ নামে এক ভারতীয় ইঞ্জিনিয়র, যন্ত্রে-মানুষে মেলবন্ধন ঘটিয়ে | ডুপ্লিকেট ছবি চেনার কাজটিকে যন্ত্রের সাহায্যে অসংখ্য ছোট ছোট অংশে ভাগ করে ফেলা হল,তারপর একেকটা ছোট অংশ অজস্র মানুষের মধ্যে ইন্টারনেটের মাধ্যমে ছড়িয়ে দেওয়া হল। এতে করে, যে যার নিজের সময়মত কাজটুকু করে জমা দিলেন, কাজটা সময়মত হয়ে গেল। এরা এর নাম দিলেন এম টার্ক, ইউরোপের অষ্টাদশ শতকে মেকানিকাল টার্কের নামের আদলে।

আমাজনের মালিক জেফ বেজোস ঝানু ব্যবসায়ী | তিনি দেখলেন, এ ব্যাপারটিকে যদি বাজারে নিয়ে আসা যায়, বা যেভাবে মানুষ বাজারে এসে পসার সাজিয়ে বিক্রিবাটা করে, ঠিক সেভাবেই এই প্রক্রিয়াটিকে কেন্দ্র করে যদি একটি ‘কাজের বাজার’ তৈরী করে ফেলা যায়, কেমন হয়?

ব্যাপারটা কেমন জানেন? মনে করুন আপনি একটি প্রবন্ধ লিখছেন, সে প্রবন্ধের জন্য কিছু তথ্য ও গবেষণার প্রয়োজন, আপনার হাতে সময় নেই | আপনি আমাজনের এম টার্ক নামে প্রোজেক্টটিতে নাম লেখালেন গবেষণার কাজটি সম্পন্ন করার জন্য বিজ্ঞাপণ দিলেন এবং বললেন যে আপনার কয়েকটি গবেষণালব্ধ প্রবন্ধ চাই ও প্রবন্ধ পিছু আপনি যে কাজ করে দেবে তাকে টাকা দেবেন। এবার মনে করুন, আমিও এমটার্কে নাম লিখিয়েছি, তবে আমি কাজ “দেব” বলে নাম লেখাইনি, কাজ “চাই” বলে নাম লিখিয়েছি। আপনার বিজ্ঞাপণটি আমার নজরে পড়ল, আমি কাজ “ধরে” নিলাম। আপনি তথ্য চাইছিলেন আমি তথ্য সংগ্রহ করে এমটার্কের মাধ্যমে আপনার কাছে পাঠালাম, আপনি আমাকে যে পারিশ্রমিক দেবেন প্রতিশ্রুতি করেছিলেন, এমটারকের মাধ্যমে পাঠিয়ে দিলেন। এ বাবদ আমাজন এমটার্ক তাদের ধার্য টাকা কেটে নিয়ে আমাকে আমার পারিশ্রমিক মিটিয়ে দিল।

আপনি আমাকে চেনেন না, আমিও আপনার সঙ্গে পরিচিত হলাম না, আমার আর আপনার সম্পর্ক কাজ নিয়ে, তাও পুরো কাজটুকু নয় কাজের কিয়দংশ মাত্র | আমার কাজ করা হয়ে গেলে টাকা পেয়ে আমি আবার অন্য কাজ “ধরলাম”, আপনিও অন্যত্র চলে গেলেন, আমাদের কেউ কাউকে চিনি না, তার প্রয়োজনও নেই এ কাজে। আপনার কাছে আমি অদৃশ্য, আমার কাছে আপনি অদৃশ্য, মাঝখানে রয়ে গেল যন্ত্র।

যন্ত্র, মানুষকে নিয়ন্ত্রণ করল |

মেকানিকাল টার্ক | যান্ত্রিক তুর্কী |

ইউরোপে অষ্টাদশ শতকে, ১৭৭০ সালে উলফগ্যাং ফন কেমপেলেন নামে এক হাঙ্গেরিয়ান উদ্ভাবক সে সময়ের অস্ট্রো-হাঙ্গেরিয় সাম্রাজ্যের মহারাণীর জন্য এক যন্ত্রের আবিষ্কার করেন, তার নাম দেন মেকানিকাল (যান্ত্রিক) টার্ক (তুর্কী?)| অদ্ভুত এই যন্ত্রের ভেতরে একজন মানুষ থাকত, যে লোক ওস্তাদ দাবাড়ু, কিন্তু সে থাকত লোকচক্ষের অন্তরালে | লোকে দেখত যান্ত্রিক এক পুতুল, যাকে দেখতে তু্র্কী বাজিগরদের মতন, সে অনায়াসে তাবড় দাবাড়ুদের দাবা খেলায় হারিয়ে দিচ্ছে (চিত্র ২)

(কেমপেলেনের যান্ত্রিক তুর্কী, মেকানিকাল টার্ক, https://hydraulicsheep.github.io/img/1*kCSX4_cnKfLHXD4nxYJWOg.jpeg)

যন্ত্রের এহেন খেলা দেখে মানুষ মাত হলেও আসলে পুরো ব্যাপারটি একটি মহা ধাপ্পা, প্রতারণা |

এই আশ্চর্য যান্ত্রিক তুরকীর কার্যকলাপ দেখার পর মার্কিন সাহিত্যিক, যিনি একাধারে গোয়েন্দা গল্পের জনকও বটে, এডগার অ্যালান পো, “মেলজেলের দাবাড়ু” (maelzel’s chess player) নাম দিয়ে একটি প্রবন্ধ লিখেছিলেন | আমি লেখাটি থেকে কিছু কিছু অংশ তুলে দিলাম |

> “we find every where men of mechanical genius, of great general acuteness, and discriminative understanding, who make no scruple in pronouncing the Automaton a pure machine, unconnected with human agency in its movements, and consequently, beyond all comparison, the most astonishing of the inventions of mankind. And such it would undoubtedly be, were they right in their supposition. … what shall we think of the calculating machine of Mr. Babbage? What shall we think of an engine of wood and metal which can not only compute astronomical and navigation tables to any given extent, but render the exactitude of its operations mathematically certain through its power of correcting its possible errors? What shall we think of a machine which can not only accomplish all this, but actually print off its elaborate results, when obtained, without the slightest intervention of the intellect of man? … a machine such as we have described is altogether above comparison with the Chess-Player of Maelzel. By no means — it is altogether beneath it — that is to say provided we assume (what should never for a moment be assumed) that the Chess-Player is a pure machine, and performs its operations without any immediate human agency. Arithmetical or algebraical calculations are, from their very nature, fixed and determinate. Certain data being given, certain results necessarily and inevitably follow. These results have dependence upon nothing, and are influenced by nothing but the data originally given. And the question to be solved proceeds, or should proceed, to its final determination, by a succession of unerring steps liable to no change, and subject to no modification. This being the case, we can without difficulty conceive the possibility of so arranging a piece of mechanism, that upon starting it in accordance with the data of the question to be solved, it should continue its movements regularly, progressively, and undeviatingly towards the required solution, since these movements, however complex, are never imagined to be otherwise than finite and determinate. But the case is widely different with the Chess-Player. With him there is no determinate progression. No one move in chess necessarily follows upon any one other. From no particular disposition of the men at one period of a game can we predicate their disposition at a different period. … There is then no analogy whatever between the operations of the Chess-Player, and those of the calculating machine of Mr. Babbage, and if we choose to call the former a pure machine we must be prepared to admit that it is, beyond all comparison, the most wonderful of the inventions of mankind. … It is quite certain that the operations of the Automaton are regulated by mind, and by nothing else. Indeed this matter is susceptible of a mathematical demonstration, a priori. The only question then is of the manner in which human agency is brought to bear. (শেষের লাইনটা আমার দাগানো ) |

আমরা পরে আলোচনা করব যে পো’র প্রণীত যান্ত্রিক তুর্কীর এই লেখাটি আমাদের আজকের যুগে তথাকথিত কৃত্রিম বুদ্ধিমত্তার আমলে কি সাংঘাতিক রকমের প্রযোজ্য এবং কি করুণ সে সব কাহিনি | সে গল্প এর পর |

যে কারণে যান্ত্রিক তুরকীর প্রসঙ্গটি ঊঠল, ডিপ লার্নিং, ছবি, কম্পিউটারকে ছবি চেনানো, এবং সেই সূত্রে প্রচুর ছবির ও তাকে লেবেলিং এর কারণে ফাই ফাই লি আমাজনের শরণাপন্ন হয়েছিলেন। আমাজন কোমপানি নিজে অবশ্য নিজেদের ব্যবসার কারণে যান্ত্রিক তুর্কীর ব্যবসা খুলেছিল, এবং চটজলদি কিছু অর্থ উপার্জনের আশায় বহু মানুষ নিজে থেকে যেচে যান্ত্রিক তুরকী হয়েছিলেন সে আমলে।

কি বলতে চাইছি বোঝানোর জন্য একটি মামুলি উদাহরণই দিই না হয়।

মনে করুন আপনার কাছে একটা থারমোমিটার আছে, সে থারমোমিটারটিতে শুধু ফারেনহাইট স্কেলে তাপমান পড়তে পারা যায় অথচ আপনি সেলসিয়াস স্কেলে তাপমান মাপতে চান | আপনার থারমোমিটারটির তাপমান মেপে আপনি আপনার কমপিউটারে একটি ফাংশান লিখতে পারেন,

def fahr2celsius(x):
     celsius = ((x - 32)/9 ) * 5
     return celsius

থারমোমিটারে তাপমান দেখাচ্ছে ১০৪ ডিগ্রী, আপনি আপনার লেখার সৌজন্যে অঙ্ক কষে কমপিউটারে দেখলেন ৪০ ডিগ্রী সেলসিয়াস। এইরকম। এখন আপনি জিজ্ঞাসা করতে পারেন জানা গেল কি করে যে একস থেকে ৩২ বিয়োগ করে নয় দিয়ে ভাগ করে পাঁচ দিয়ে গুণ করতে হবে। আমরা মানুষ, আমাদের প্রারব্ধ অভিজ্ঞতা, পড়াশোনা এরকম নানা সূত্রে আমাদের লব্ধ জ্ঞানের সূত্রে আমরা “মেশিন”কে নির্দেশ করি কি করতে হবে, মেশিন আমাদের “আদেশ” পালন করে। এছাড়াও রাশিবিজ্ঞানের সূত্রেও আমরা স্থির করতে পারি যে কত ফারেনহাইটে কত সেলসিয়াস। কাজের কথা, আমরা যন্ত্রকে নির্দেশ দিই, যন্ত্র সে নির্দেশ পালন করে।

যন্ত্রকে নির্দেশ দেয়া যন্ত্রকে তথ্য দেওয়া, যন্ত্রের আউটপুট বা তথ্য নির্গমন

এই যে নির্দেশ দেবার নিয়মবদ্ধতা, এই যে একের পর এক নির্দেশিকা দিয়ে রাখা, কি কি করতে হবে, কিভাবে করতে হবে রান্নার নিয়ম শেখানোর মতন, আমরা যন্ত্রের এই ব্যবহারেই অভ্যস্ত, এ এক ব্যাপার। এতে অবশ্য যন্ত্রের শেখা টেখা কিছু হল না, সে শুধু নির্দেশ পালন করতে লাগল। যন্ত্রকে যদি শেখাতে হয়, তাহলে ব্যাপারটি দাঁড়াবে নীচে যেমন দেখানো আছে, সেই রকম,

যন্ত্রকে শেখানো অন্যরকম। যন্ত্র শিখবে মানে তাকে শেখার মতন তথ্য দিতেও হবে, আর কোনটা ঠিক, কোনটা ভুল সেইটাও জানিয়ে দিতে হবে, তবেই সে শিখবে কিভাবে (অন্তত এক্ষেত্রে) কোন ফর্মুলা যাতে ইনপুট আর আউপুট ফরমুলার সূত্রে মিলে যায়। এখন এটা যেহেতু শেখার এবং শেখানোর পালা, এবং নানারকমের ইনপুট আউটপুট জোড়ায় জোড়ায় শিখে যন্ত্রের ফরমুলা তৈরীর ব্যাপার, এ অনেকটা আমাদের শৈশবে অঙ্ক শেখার মতন | এক জোড়া মাত্র সংখ্যা দিলে হবে না, অজস্র সংখ্যার জোড় দিয়ে শেখাতে হবে তাকে। যত বেশী সংখ্যার জোড় দেবেন, তত “ভালভাবে” সে শিখবে।

এই একই ব্যাপার যন্ত্রকে ছবি চেনানো বা ছবি শেখানোর ক্ষেত্রেও প্রযোজ্য | যন্ত্র ছবি কে আমরা মানুষরা যেভাবে ছবি রূপে দেখি, সে তো ঠিক সেভাবে দেখে না, সে দেখে ছবিকে অঙ্কের হিসেবে। যেমন ধরুন নীচের ছবিটি,

তাজ মহলের ছবি (সূত্র: https://www.rawpixel.com/image/393663/the-taj-mahal)

ছবিটা তাজ মহলের, আমাদের, মানুষের পক্ষে চিনতে অসুবিধে হবার কথা নয়, এই তাজমহলই, মেশিনকে চেনাতে গেলে ছবিটিকে টুকরো করে অজস্র ছোট অংশে ভাগ করে ফেলতে হবে এবং প্রতিটি অংশকে ০ থেকে ২৫৫ র মধ্যে একটি সংখ্যা দিয়ে চিহ্নিত করে মেশিনকে দিয়ে অঙ্ক করা শেখানো হবে। শেখাতে গেলে মেশিনকে জানিয়ে দিতে হবে যে এ ছবি তাজ মহলের | মেশিন আন্দাজ করবে, মেশিনের ভুল হবে, শোধরাবে, এবং বারবার এই প্রক্রিয়ার মধ্যে দিয়ে শেখার এক সময় মেশিন স্থির করবে এ ছবি কত শতাংশ তাজমহল হবার কথা। তবে মেশিনকে শেখাতে গেলে একটি মাত্র ছবি দিয়ে দেখালে তো চলবে না, হাজার খানেক ছবি, তার কয়েকটি “ট্রেনিং” বা শেখানোর জন্য রাখা, কয়েকটিকে দিয়ে আলাদা করে যাচাই করানো, আর কয়েকটিকে দিয়ে পরীক্ষা করিয়ে নেয়া যে মেশিন শিখল কি না।

এত কথা লেখার উদ্দেশ্য এইটাই যে মেশিনকে ছবি চেনা, বা অন্য কিছু “শেখাতে” গেলে অল্প কয়েকটি ছবি বা কম ডাটা দিলে চলবে না। এতে উল্টো বিপত্তি, আপাত ভাবে দেখে মনে হবে সে শিখেছে, আসলে সে “মুখস্ত” করছে। কিন্তু শেখা আর মুখস্ত করা এক নয় তো, ফলে নতুন ছবি দেখালে সে আর শনাক্ত করে উঠতে পারে না।

সে কি? নীচের ছবিটি লক্ষ করুন

ওপরে যে চিত্রটি দেখানো হয়েছে, তাতে মেশিনের শেখা না শেখার প্লট | X-axis বরাবর নজর করে দেখুন, প্রক্রিয়া বা epoch দেখানো হয়েছে। মনে করা যাক ১০০ টি ছবি মেশিনকে দেখানো হল এবং সে একবার শিখছে, দুবার শিখছে, এই করে করে ১০০ বার তাকে দিযে শেখানো হচ্ছে। প্রতিবার, সে ভুল করছে, তার পরের বার শুধরে নিচ্ছে | শুধু তাই নয়, এই ১০০ বারের প্রতিবার মেশিন কতটা শিখল, আমরা যাচাই করে নিচ্ছি। কত শতাংশ সে ভুল করছে, সেইটা Y-axis এ দেখানো হয়েছে। যেমন ধরুন, প্রথমবার যখন মেশিনকে শেখানো হল, মেশিন ৯০% ভুল করে বসল (বুঝতেই পারল না এ ছবি তাজমহলের কি না)। কিন্তু সে শেখে দ্রুত, তাই তার ভুলের পরিমাণ ক্রমশ কমতে থাকল। ১০ বার পর্যন্ত দেখুন মেশিনের ট্রেনিং আর যাচাই করার ছবি দিয়ে পরীক্ষা করতে গিয়ে দেখা গেল তারা মোটামুটি একই রকমভাবে ভুল করছে, এবং ভুল শোধরাচ্ছে। ১০ রাউণ্ড শেখানোর পর একটা অদ্ভুত ব্যাপার দেখা গেল। মেশিন ট্রেনিং এর যে ডাটা, তাতে তার ভুলচুক অনেকটা কমে গেল বটে, কিন্তু তাকে যখন যাচাই করা হল, তখন দেখা গেল, তার ভুল করার পরিমাণ শতাংশের হিসেবে বাড়তে লাগল। এই ব্যাপারটি থেকে একটা ব্যাপার বোঝা যাচ্ছে যে মেশিন চেনা ডাটা দিব্য আত্মস্থ করেছে বটে, কিন্তু শেখে নি।

ব্যাপারটি কিরকম জানেন? এ আমাদের ছোটবেলায় নামতা মুখস্থ করার মতন। ১০ এর নামতা ১ থেকে ১০ দিব্য মুখস্থ হয়েছে, অথচ শিক্ষক যেই ১১ দশে কত হয় জিজ্ঞাসা করলেন, তার আর উত্তর নেই | কয়েকজন ছাত্র অবশ্য ইতিমধ্যে দেখেছে, ১০ দিয়ে গুণ করলে সংখ্যাটির পাশে একটি শূণ্য বসালেই উত্তর পাওয়া যায়, এইটে তাদের নামতা “শেখা”, বাকীরা স্রেফ মুখস্থ বিদ্যার ওপর নির্ভর করেছে । এ সমস্ত ক্ষেত্রে শিক্ষক সচরাচর যা করেন, পুনরায় নামতা আত্মস্থ করান, তারপর অন্যান্য সংখ্যা দিয়ে গুণ করিয়ে নামতার “রহস্য” ছাত্রদের “শেখান”। মেশিনের ক্ষেত্রেও অনেকটা একই রকম কাজ হয়।

এত কথা লেখার উদ্দেশ্য এই যে, মেশিনকে যদি “শেখাতে” হয়, তাহলে প্রচুর ডাটা আর তার সংলগ্ন “লেবেল”এর প্রয়োজন হয়। এখন সত্যি বলতে কি, ডাটা লেবেল করার কাজটি খুবই সহজ, যেমন তাজমহলের ছবি দেখে সে যে তাজমহল, এইটা কোথাও লিখে রাখা | এ কাজে যে খুব দক্ষতার প্রয়োজন তা নয়, কিন্তু যেহেতু কৃবু’র কাজে লক্ষ লক্ষ ছবির প্রয়োজন, একজন দুজনের পক্ষে তো এ কাজ সম্ভব নয়।

কাজটি সামান্য, কিন্তু প্রচুর মানুষের প্রয়োজন, এবং এ সমস্ত ক্ষেত্রে সচরাচর যা হয়, যারা এ কাজ করবেন, তাদের কাজ পিছু খুব সামান্য মজুরি দিলেও চলে। ফাই ফাই লি যেমন গবেষণার কাজ করতে গিয়ে এই অদ্ভুত সমস্যার সম্মুখীন হয়েছিলেন, আমাজন কোমপানী তেমনি নিজেদের ব্যবসার কাজ করতে গিয়ে অন্য রকমের “লেবেলিং” এর সমস্যায় পড়েছিল, কাজেই তাদেরও ঐ এক দশা | এই মানুষগুলো লেবেলিং এর কাজ না করে দিলে, এবং সময়মত না করে দিলে আজকের আরটিফিশিয়াল ইনটেলিজেনসের যে ঝাঁ চকচকে অগ্রগতি, তার কিছুই দাঁড়ায় না।

আমরা শুরু করেছিলাম এই বলে যে যান্ত্রিক তুরকী সেযুগে যেমন একটি মানুষের চোখে ধুলো দেওয়ার খেলা বই কিছু ছিল না, যেখান কাজ করত মানুষ আর নাম হত যন্ত্রের, আমাদের এই আমলের আমাজনের যান্ত্রিক তুরকীও প্রকারান্তরে তাই | আমাজন ঠিক কি কারণে বা কি বিবেচনা করে এই নাম স্থির করেছিলেন কে জানে, যদিও কার্যক্ষেত্রে কৃত্রিম বুদ্ধিমত্তা জনিত ব্যবসার যে প্রায় বিস্ফোরণ ঘটছে আমাদের প্রাত্যহিক জীবনে, সেখানে যন্ত্রের যাবতীয় আশ্চর্য কার্যকুশলতার ভিত রয়ে গেছে অগণিত অচেনা, হয়তবা উপেক্ষিত মানুষের কায়িক শ্রমলব্ধ তথ্য অন্বেষণ আর কুশলতায়, যেটুকু না হলে এর কিছুমাত্র হত না। যান্ত্রিক তুরকীর মেশিনের মধ্যে অবস্থিত মানুষটির মতন এঁরাও আমাদের সাধারণ চোখে অদৃশ্য, “অশরীরি” রয়ে গেলেন | প্রায় বেগার খাটছেন প্রতিনিয়ত, এদের নিয়েই আমাদের ভূতের বেগারের গল্প।

পাঠক, এইখানে এই ধরণের কাজের প্রেক্ষিতে, শ্রমিকের অধিকার, তাদের শারীরিক মানসিক স্বাস্থ্যের বিষয়গুলো বিবেচনা করার সময় এসেছে। বিশেষ করে যেভাবে এ আই (কৃবু) এবং তৎসংলগ্ন ব্যবসা-বাণিজ্যের যাকে বলে বিস্ফোরণ ঘটছে প্রতিদিন। সে প্রসঙ্গে আসছি।

কেন মেশিন ও মানুষ

এই লেখাটি লিখতে লিখতে ডিসি মন্তব্য করলেন,

> অরিন্দমবাবু যে লিখেছেন ডেটা লেবেলিং এর মাধ্যমে মেশিন লার্নিং, সে একেবারে আদিযুগে ছিল। তাকে বলা হয় সুপারভাইজড লার্নিং, সেটা করে খুব একটা ভালো রেজাল্ট হয়নি, অন্তত আজকের লেভেলে তো নয়ই (আজকের বলতে ধরুন ইন্টেলিজেন্ট ড্রাইভিং বা উবের এর সার্জ প্রাইসিং বা চ্যাটবট, মানে ক্লাসিফিকেশান আর প্রেডিকশান দুটোই)। সুপারভাইজড লার্নিং এর পর শুরু হয় আনসুপারভাইজড লার্নিং (উদাহরন k-means বা অন্যান্য ক্লাস্টারিং অ্যালগো), আর রিইনফোর্সড লার্নিং (এটায় অবশ্য কিছু লেবেলিং করা হয়)। আনসুপারভাইজড লার্নিং এর জন্য লেবেল বা ট্রেনিং ডেটার দরকার হয়না।

আর আপনি তো জানেনই, মেশিন লার্নিং এর আসল প্রোগ্রেস শুরু হয়েছে মাল্টি নিউরন নেটওয়ার্ক বা কনভোলিউশান নিউরাল নেটওয়ার্ক তৈরি হওয়ার পর। বিশেষ করে, সিএনএন বাজারে আসার পর তো ডেটাসেটের ফিচারও লার্নিং অ্যালগোটাই সিলেক্ট করে। ডিজাইনারদের কাজ সেক্ষেত্রে হয় ওয়েট আর বায়াস কন্ট্রোল করা, বা অন্যান্য প্যারামিটার ম্যানিপুলেট করা।

মানে এটা বলতে চাইছি যে “যদিও কার্যক্ষেত্রে কৃত্রিম বুদ্ধিমত্তা জনিত ব্যবসার যে প্রায় বিস্ফোরণ ঘটছে আমাদের প্রাত্যহিক জীবনে, সেখানে যন্ত্রের যাবতীয় আশ্চর্য কার্যকুশলতার ভিত রয়ে গেছে অগণিত অচেনা, হয়তবা উপেক্ষিত মানুষের কায়িক শ্রমলব্ধ তথ্য অন্বেষণ আর কুশলতায়, যেটুকু না হলে এর কিছুমাত্র হত না” — এটা মনে হয় ঠিক হলো না। একটা সময়ে প্রচুর লোক লেবেলিং এর কাজে যুক্ত হয়েছিলেন ঠিকই, আর তাদের হয়তো সেরকম রিকগনিশান মেলেনি, আরও মেলা উচিত ছিল, কিন্তু তাদের কাজের ভিত্তিতে মেশিন লার্নিং আজকের লেভেলে পৌঁছয়নি বলে মনে হয়।

ডিসি খুব অন্যায্য কিছু লেখেননি, সত্যি ২০২৪ এর প্রেক্ষিতে দেখলে সুপারভাইজড লার্নিং নিয়ে এতটা লেখা আর সেমি সুপারভাইজড বা আনসুপারভাইজড লার্নিং নিয়ে কোন কথা না বলাটা কতটা যুক্তিযুক্ত বিশেষ করে যে সময়ে আনসুপারভাইজড লার্নিং এর এখন প্রবল প্রতাপ। এখানে যে কথাটা বলার, এই লেখাটি ঠিক কৃত্রিম বুদ্ধিমত্তা নিয়ে নয়, বরং তাকে কেন্দ্র করে কাজ আর কাজ জনিত জনস্বাস্থ্য বা মনে করা যাক কৃত্রিম বুদ্ধিমত্তার মানুষের (সমাজের/কাজের) ওপর কি প্রভাব, মূলত তাই নিয়ে। এর মধ্যে প্রথম দিকটায় গিগ ইকনমি আর ভৌতিক কাজের ব্যাপারটা নিয়ে লিখতে গিয়ে এতটা লিখতে হল।

গিগ ইকনমি

অদৃশ্য মানুষেরা: কাজকর্মের সেকাল একাল

ভূতের বেগার

আপনাকে বিক্রি করার একাল সেকাল

Written by Arindam Basu