শিল্পের বাহ্যিক কারণগুলি সুপারিশ ব্যবস্থার আমাদের সংজ্ঞাকে বিকৃত করেছে। TikTok, Spotify এবং Netflix ব্যক্তিগতকৃত সুপারিশ প্রদান করতে সহযোগিতামূলক এবং বিষয়বস্তু-ভিত্তিক ফিল্টারিংয়ের সমন্বয়ে হাইব্রিড গভীর শিক্ষার মডেলগুলি ব্যবহার করুন যা আপনি জানতেন না। আপনি যদি RecSys ভূমিকা বিবেচনা করছেন, আপনি অবিলম্বে জড়িত হওয়ার আশা করতে পারেন। কিন্তু সমস্ত RecSys সমস্যা এই স্তরে পরিচালনা করা হয় না – বা পরিচালনা করা প্রয়োজন। বেশিরভাগ অনুশীলনকারীরা তুলনামূলকভাবে সহজ, ট্যাবুলার মডেল, প্রায়শই গ্রেডিয়েন্ট-বুস্টেড গাছের সাথে কাজ করে। আমি প্রাগে RecSys ’25 এ অংশগ্রহণ করার সময়, আমি ভেবেছিলাম আমার অভিজ্ঞতা একটি অসাধারণ ছিল। আমি এখন বিশ্বাস করি এটিই আদর্শ, বিশাল আউটলায়ারদের পিছনে লুকিয়ে রয়েছে যা শিল্পের কাটিং প্রান্তকে চালিত করে। তাহলে কি এই দৈত্যগুলিকে বেশিরভাগ অন্যান্য কোম্পানি থেকে আলাদা করে? এই প্রবন্ধে, আমি উপরের ছবিতে ম্যাপ করা ফ্রেমওয়ার্কটি ব্যবহার করি যাতে আপনি এই পার্থক্যগুলি সম্পর্কে যুক্তি দিতে এবং বর্ণালীতে আপনার নিজস্ব সুপারিশের কাজটি রাখতে পারেন।
বেশিরভাগ সুপারিশ সিস্টেম একটি দিয়ে শুরু হয় প্রার্থী প্রজন্ম পর্যায়, লক্ষ লক্ষ সম্ভাব্য বস্তুকে একটি পরিচালনাযোগ্য সেটে হ্রাস করে যা উচ্চ-বিলম্বিত সমাধান দ্বারা র্যাঙ্ক করা যেতে পারে। কিন্তু প্রার্থী প্রজন্ম এটি সর্বদা যতটা কঠিন যুদ্ধ বলে মনে করা হয় তা নয়কিংবা এর জন্য মেশিন লার্নিং এর প্রয়োজন নেই। ভাল-সংজ্ঞায়িত সুযোগ এবং হার্ড ফিল্টার সহ প্রসঙ্গগুলির জন্য প্রায়ই জটিল ক্যোয়ারী লজিক বা ভেক্টর অনুসন্ধানের প্রয়োজন হয় না। বিবেচনা করুন booking.com: যখন একজন ব্যবহারকারী “বার্সেলোনায় 4-তারকা হোটেল, 1-4 অক্টোবর” অনুসন্ধান করেন, তখন ভূগোল এবং প্রাপ্যতার সীমাবদ্ধতা লক্ষ লক্ষ সম্পত্তিকে কয়েকশতে সীমাবদ্ধ করে রেখেছে। মেশিন লার্নারদের জন্য আসল চ্যালেঞ্জ হল এই হোটেলগুলিকে নির্ভুলতার সাথে র্যাঙ্ক করা। এই থেকে বেশ ভিন্ন আমাজনের পণ্য অনুসন্ধান বা ইউটিউব হোম পেজযেখানে হার্ড ফিল্টার অনুপস্থিত। এই পরিবেশে, স্কেলযোগ্য মেশিন লার্নিং একটি বিশাল ক্যাটালগকে ছোট, শব্দার্থিক এবং অভিপ্রায়-সংবেদনশীল প্রার্থী সেটে কমাতে প্রয়োজন – এমনকি র্যাঙ্কিং হওয়ার আগেই।
প্রার্থী প্রজন্মের বাইরেও জটিলতা র্যাঙ্কিং নীচের ছবিতে দেখানো দুটি মাত্রার মাধ্যমে এটি সবচেয়ে ভালোভাবে বোঝা যাবে। প্রথম, পর্যবেক্ষণযোগ্য ফলাফল এবং ক্যাটালগ স্থায়িত্বযা আপনার বেসলাইন কতটা শক্তিশালী হতে পারে তা নির্ধারণ করে। দ্বিতীয়, পছন্দের বিষয়তা এবং তাদের শেখার ক্ষমতা, যা নির্ধারণ করে আপনার ব্যক্তিগতকরণ সমাধান কতটা জটিল হবে।

পর্যবেক্ষণযোগ্য ফলাফল এবং ক্যাটালগ স্থায়িত্ব
x-অক্ষের বাম প্রান্তে এমন ব্যবসা রয়েছে যা সরাসরি তাদের সবচেয়ে গুরুত্বপূর্ণ ফলাফলগুলি পর্যবেক্ষণ করে। বড় ব্যবসায়ীরা পছন্দ করেন আইকেএ এর একটি ভাল উদাহরণ হল: যখন একজন গ্রাহক কিভিকের পরিবর্তে একটি Eskilstuna সোফা কেনেন, তখন সংকেতটি স্পষ্ট। এগুলোর পর্যাপ্ত পরিমাণ সংগ্রহ করুন, এবং কোম্পানি ঠিক জানতে পারবে কোন পণ্যের ক্রয়ের হার বেশি। আপনি যখন ব্যবহারকারীদের তাদের মানিব্যাগ থেকে সরাসরি ভোট দিতে দেখতে পারেন, তখন আপনার কাছে একটি শক্তিশালী ভিত্তিরেখা থাকে যা অতিক্রম করা কঠিন.
অন্য চরমে রয়েছে এমন প্ল্যাটফর্ম যা দেখতে পারে না যে তাদের সুপারিশগুলি আসলে সফল হয়েছে কিনা। টিন্ডার এবং bumble ব্যবহারকারীরা মিল দেখতে পারেন, কিন্তু তারা প্রায়শই জানেন না যে জুটি সফল হয়েছে কিনা (বিশেষ করে যখন ব্যবহারকারীরা অন্য প্ল্যাটফর্মে চলে যায়)। ছাল রেস্তোরাঁর সুপারিশ করতে পারে, কিন্তু বেশিরভাগের জন্য, তারা দেখতে পারে না আপনি আসলে গিয়েছিলেন কি না, আপনি কোন তালিকায় ক্লিক করেছেন। এই ধরনের আপার-ফানেল সিগন্যালের উপর নির্ভর করা মানে অবস্থা পক্ষপাত আধিপত্য: শীর্ষ অবস্থানে থাকা আইটেমগুলি প্রকৃত গুণমান নির্বিশেষে মিথস্ক্রিয়া জমা করে, এতে জড়িত থাকা প্রকৃত পছন্দ বা নিছক দৃশ্যমানতা প্রতিফলিত করে কিনা তা বলা প্রায় অসম্ভব করে তোলে। IKEA উদাহরণের সাথে এটি তুলনা করুন: একজন ব্যবহারকারী Yelp-এ একটি রেস্তোরাঁয় ক্লিক করতে পারেন কারণ এটি প্রথম প্রদর্শিত হয়েছিল, কিন্তু একই কারণে তাদের একটি সোফা কেনার সম্ভাবনা অনেক কম।. কঠিন রূপান্তরের অনুপস্থিতিতে, আপনি একটি নির্ভরযোগ্য লিডারবোর্ডের ভিত্তি হারাবেন। এটি আপনাকে গোলমাল থেকে সংকেত বাছাই করতে কঠোর পরিশ্রম করতে বাধ্য করে। পর্যালোচনাগুলি কিছু গ্রাউন্ডিং অফার করতে পারে, তবে প্রাথমিক সংকেত হিসাবে পরিবেশন করার জন্য সেগুলি খুব কমই ঘন হয়। পরিবর্তে, আপনাকে ছেড়ে দেওয়া হয়েছে আপনার র্যাঙ্কিং ভবিষ্যদ্বাণীগুলির উপর অবিরাম পরীক্ষা চালান, ক্রমাগত দুর্বল সংকেতগুলির একটি স্রোতের বাইরে মানের জন্য একটি একক প্রক্সি চাপতে যুক্তি সামঞ্জস্য করুন৷
উচ্চ-মন্থন ক্যাটালগ
যাইহোক, এমনকি পর্যবেক্ষণযোগ্য ফলাফলের সাথে, একটি শক্তিশালী ভিত্তিরেখা নিশ্চিত করা হয় না। আপনার ক্যাটালগ ক্রমাগত পরিবর্তিত হলে, আপনি একটি সঠিক লিডারবোর্ড তৈরি করার জন্য পর্যাপ্ত ডেটা সংগ্রহ করতে সক্ষম হবেন না।. রিয়েল এস্টেট প্ল্যাটফর্ম পছন্দ জিলো এবং সেকেন্ডহ্যান্ড সাইট যেমন vinted আসুন সবচেয়ে চরম সংস্করণের মুখোমুখি হই: প্রতিটি আইটেমের একটি আইটেমের একটি তালিকা রয়েছে, যা কেনার পরে অবিলম্বে অদৃশ্য হয়ে যায়। এটি আপনাকে “নতুন প্রথম” বা “প্রতি বর্গ মিটারে সর্বনিম্ন মূল্য” এর মতো সহজ এবং কঠোর ধরনের উপর নির্ভর করতে বাধ্য করে। বাস্তব, ঘন ব্যবহারকারী সংকেতের উপর ভিত্তি করে রূপান্তর লিডারবোর্ডের তুলনায় এগুলি অনেক দুর্বল। আরও ভাল করার জন্য, আপনার তাৎক্ষণিকভাবে রূপান্তরের সম্ভাবনার ভবিষ্যদ্বাণী করতে মেশিন লার্নিং ব্যবহার করা উচিত, অন্তর্নিহিত বৈশিষ্ট্যগুলিকে দুর্বল স্বল্পমেয়াদী কর্মক্ষমতার সাথে একত্রিত করে সেরা ইনভেন্টরিটি অদৃশ্য হয়ে যাওয়ার আগে।
বৈশিষ্ট্য-ভিত্তিক মডেলের সর্বব্যাপীতা
আপনার ক্যাটালগের স্থায়িত্ব বা সংকেত শক্তি নির্বিশেষে, প্রধান চ্যালেঞ্জ একই থাকে: আপনি যে বেসলাইন উপলব্ধ আছে তাতে উন্নতি করার চেষ্টা করছেন। এটি সাধারণত একটি মেশিন লার্নিং (এমএল) মডেলকে প্রশিক্ষণের মাধ্যমে অর্জন করা হয় যাতে একটি নির্দিষ্ট প্রেক্ষাপটে জড়িত থাকার বা রূপান্তরের সম্ভাবনার পূর্বাভাস দেওয়া হয়। গ্রেডিয়েন্ট-বুস্টেড ট্রিস (GBDTs) হল একটি ব্যবহারিক বিকল্প, যা গভীর শিক্ষার চেয়ে প্রশিক্ষণ এবং সুর করা অনেক দ্রুত।.
GBDTs প্রকৌশলী আইটেম বৈশিষ্ট্যগুলির উপর ভিত্তি করে এই ফলাফলগুলির পূর্বাভাস দেয়: শ্রেণীবদ্ধ এবং সংখ্যাসূচক বৈশিষ্ট্য যা একটি পণ্যের পরিমাণ নির্ধারণ করে এবং বর্ণনা করে। GBDT এছাড়াও স্বতন্ত্র পছন্দ জানার আগেই ব্যবহারকারীর মৌলিক বৈশিষ্ট্য যেমন দেশ এবং ডিভাইসের প্রকারের সুবিধা গ্রহণ করে সুপারিশগুলি কাস্টমাইজ করতে পারে। শুধুমাত্র এই আইটেম এবং ব্যবহারকারীর বৈশিষ্ট্যগুলির সাথে, একটি ML মডেল ইতিমধ্যেই একটি বেসলাইনে উন্নতি করতে পারে – এর অর্থ জনপ্রিয়তা লিডারবোর্ডগুলিকে সংকুচিত করা বা উচ্চ-মন্থন ফিডগুলিকে র্যাঙ্ক করা। উদাহরণস্বরূপ, ফ্যাশন ই-কমার্সে, মডেলগুলি সাধারণত ঋতু অনুসারে বাঁধা আইটেমগুলিকে বৈশিষ্ট্যযুক্ত করার জন্য অবস্থান এবং বছরের সময় ব্যবহার করে, একই সাথে মূল্য বিন্দু ক্যালিব্রেট করার জন্য দেশ এবং ডিভাইস ব্যবহার করে।
এই বৈশিষ্ট্যগুলি মডেলটিকে নিছক দৃশ্যমানতা থেকে প্রকৃত গুণমানকে আলাদা করে উপরের অবস্থানের পক্ষপাতের সাথে মোকাবিলা করার অনুমতি দেয়। কোন অভ্যন্তরীণ বৈশিষ্ট্যগুলি রূপান্তরকে চালিত করে তা শেখার মাধ্যমে, মডেলটি আপনার জনপ্রিয়তার বেসলাইনে অন্তর্নিহিত অবস্থানগত পক্ষপাতকে সংশোধন করতে পারে। এটি এমন আইটেমগুলিকে চিহ্নিত করতে শেখে যেগুলি যোগ্যতার ভিত্তিতে কাজ করে, শুধুমাত্র এই কারণে নয় যে তারা শীর্ষস্থানীয় ছিল৷ এটি দেখায় তার চেয়ে কঠিন: আপনি প্রমাণিত বিজয়ীদেরকে আপনার ইচ্ছার চেয়ে বেশি পদমরিত করার ঝুঁকি চালান, সম্ভাব্যভাবে অভিজ্ঞতার অবনতি ঘটান।
জনপ্রিয় বিশ্বাসের বিপরীতে, বৈশিষ্ট্য-ভিত্তিক মডেলগুলি ব্যক্তিগতকরণকেও বাড়িয়ে তুলতে পারেএটি আইটেমটিতে স্বাভাবিকভাবে কতটা শব্দার্থিক তথ্য রয়েছে তার উপর নির্ভর করে। মত প্ল্যাটফর্ম booking.com এবং ছাল সমৃদ্ধ বিবরণ, একাধিক ফটো এবং ব্যবহারকারীর পর্যালোচনা জমা দিন যা তালিকা প্রতি অর্থপূর্ণ গভীরতা প্রদান করে। ব্যক্তিগতকরণের জন্য এগুলি শব্দার্থিক এম্বেডিংগুলিতে এনকোড করা যেতে পারে: ব্যবহারকারীর সাম্প্রতিক মিথস্ক্রিয়া ব্যবহার করে, আমরা প্রার্থীর আইটেমগুলির সাথে মিলের স্কোর গণনা করতে পারি এবং বৈশিষ্ট্য হিসাবে গ্রেডিয়েন্ট-বুস্টেড মডেলে এগুলিকে ফিড করতে পারি।
যাইহোক, এই পদ্ধতির তার সীমাবদ্ধতা আছে। বৈশিষ্ট্য ভিত্তিক মডেল সাম্প্রতিক মিথস্ক্রিয়া সাদৃশ্য উপর ভিত্তি করে সুপারিশ করতে পারেন, কিন্তু সহযোগিতামূলক ফিল্টারিংয়ের বিপরীতে, তারা কোন আইটেমগুলি অনুরূপ ব্যবহারকারীদের পছন্দ করে তা সরাসরি শিখতে পারে না।. এটি শিখতে, তাদের ইনপুট বৈশিষ্ট্য হিসাবে দেওয়া আইটেম সাদৃশ্য স্কোর প্রয়োজন। এই সীমাটি গুরুত্বপূর্ণ কিনা তা আরও মৌলিক বিষয়ের উপর নির্ভর করে: ব্যবহারকারীরা আসলে কতটা একমত নন।
অন্তরঙ্গতা
সব ডোমেইন সমানভাবে ব্যক্তিগত বা বিতর্কিত নয়। কিছু ক্ষেত্রে, মৌলিক শর্ত পূরণের পর ব্যবহারকারীদের একটি ভাল পণ্য কী হবে সে বিষয়ে যথেষ্ট সম্মতি রয়েছে। আমরা এই অভিসারী পছন্দগুলিকে বলি, এবং তারা চার্টের নীচের অর্ধেক দখল করে। নিন booking.com: ভ্রমণকারীদের বিভিন্ন বাজেট এবং অবস্থানের পছন্দ থাকতে পারে, কিন্তু একবার ফিল্টার এবং ম্যাপ ইন্টারঅ্যাকশনের মাধ্যমে প্রকাশ করা হলে, র্যাঙ্কিং মাপকাঠি একত্রিত হয় – উচ্চ মূল্য খারাপ, সুযোগ সুবিধাগুলি ভাল, ভাল পর্যালোচনাগুলি আরও ভাল। বা বিবেচনা করুন স্ট্যাপল: একবার ব্যবহারকারীর প্রিন্টার পেপার বা AA ব্যাটারির প্রয়োজন হলে, ব্র্যান্ড এবং দাম প্রাধান্য পায়, ব্যবহারকারীর পছন্দগুলিকে উল্লেখযোগ্যভাবে সামঞ্জস্যপূর্ণ করে তোলে।
অন্য চরমে – শীর্ষ অর্ধেক – অত্যন্ত খণ্ডিত স্বাদ দ্বারা সংজ্ঞায়িত বিষয়ভিত্তিক ডোমেন। spotify এর একটি উদাহরণ: একজন ব্যবহারকারীর প্রিয় ট্র্যাক অবিলম্বে অন্য একজনের দ্বারা এড়িয়ে যায়। এখনও, স্বাদ খুব কমই একটি ভ্যাকুয়ামে বিদ্যমান। ডেটার কোথাও আপনার সঠিক তরঙ্গদৈর্ঘ্যের একজন ব্যবহারকারী রয়েছে এবং মেশিন লার্নিং এই ব্যবধানটি পূরণ করে, গতকাল থেকে তাদের অনুসন্ধানগুলিকে আজকের জন্য সুপারিশে রূপান্তর করা হচ্ছে. এখানে, ব্যক্তিগতকরণের মূল্য খুব বেশি, এবং তাই প্রযুক্তিগত বিনিয়োগের প্রয়োজন।
সঠিক তথ্য
বিষয়গত স্বাদ শুধুমাত্র কার্যকরী হয় যখন আপনার কাছে এটি পর্যবেক্ষণ করার জন্য যথেষ্ট ডেটা থাকে. অনেক ডোমেইন বিভিন্ন অগ্রাধিকার জড়িত কিন্তু সেগুলি ক্যাপচার করার জন্য ফিডব্যাক লুপের অভাব রয়েছে। একটি নির্দিষ্ট বিষয়বস্তু প্ল্যাটফর্ম, নতুন বাজার, বা B2B পণ্যগুলি বেশ ভিন্ন স্বাদের সম্মুখীন হতে পারে, তবুও সেগুলি শেখার জন্য স্পষ্ট নির্দেশকের অভাব রয়েছে৷ ছাল রেস্তোরাঁর প্রস্তাবনাগুলি এই চ্যালেঞ্জকে চিত্রিত করে: ডাইনিং পছন্দগুলি বিষয়ভিত্তিক, কিন্তু প্ল্যাটফর্মটি প্রকৃত রেস্তোরাঁ পরিদর্শন পর্যবেক্ষণ করতে পারে না, শুধুমাত্র ক্লিকগুলি। এর মানে তারা প্রকৃত লক্ষ্য (রূপান্তর) এর জন্য ব্যক্তিগতকরণ অপ্টিমাইজ করতে পারে না। তারা কেবল ক্লিকের মতো প্রক্সি মেট্রিক্সের জন্য অপ্টিমাইজ করতে পারে, কিন্তু আরও ক্লিক আসলে ব্যর্থতার ইঙ্গিত দিতে পারে, যা ইঙ্গিত করে যে ব্যবহারকারীরা যা চান তা না খুঁজে একাধিক তালিকা ব্রাউজ করছেন।
কিন্তু গভীর আচরণগত ডেটা সহ একটি বিষয়গত ডোমেনে, ব্যক্তিগতকৃত করতে ব্যর্থ হলে টাকা টেবিলে পড়ে যায়। ইউটিউব মূল বিষয়: বিলিয়ন বিলিয়ন দৈনিক ইন্টারঅ্যাকশনের মাধ্যমে, প্ল্যাটফর্মটি শ্রোতাদের সূক্ষ্ম পছন্দগুলি শিখে এবং এমন ভিডিওগুলিকে সারফেস করে যা আপনি জানতেন না। এখানে, গভীর শিক্ষা অপরিহার্য হয়ে ওঠে। এটি সেই বিন্দু যেখানে আপনি জিরা এবং ক্লাউড বিলে সমন্বয়কারী বড় দলগুলি দেখতে পাবেন যেগুলির জন্য ভিপি অনুমোদন প্রয়োজন৷ সেই জটিলতা ন্যায়সঙ্গত কিনা তা সম্পূর্ণরূপে আপনার কাছে থাকা ডেটার উপর নির্ভর করে।
আপনি কোথায় দাঁড়িয়ে আছেন তা জানুন
এই বর্ণালীতে আপনার সমস্যা কোথায় বসেছে তা বোঝা অন্ধভাবে সর্বশেষ স্থাপত্যকে অনুসরণ করার চেয়ে অনেক বেশি মূল্যবান।. শিল্পের “কাটিং এজ” মূলত বহিরাগতদের দ্বারা সংজ্ঞায়িত করা হয় – প্রযুক্তি জায়ান্টরা বিশাল, বিষয়ভিত্তিক তালিকা এবং ঘন ব্যবহারকারীর ডেটা নিয়ে কাজ করে। তাদের সমাধানগুলি বিখ্যাত কারণ তাদের সমস্যাগুলি চরম, কারণ তারা সর্বজনীনভাবে সঠিক নয়।
তবে, আপনি সম্ভবত আপনার কাজে বিভিন্ন বাধার সম্মুখীন হবেন. যদি আপনার ডোমেন একটি স্থিতিশীল ক্যাটালগ এবং পর্যবেক্ষণযোগ্য ফলাফল দ্বারা সংজ্ঞায়িত করা হয়, তাহলে আপনি কোম্পানীর সাথে নিম্ন-বাম চতুর্ভুজের মধ্যে পড়েন আইকেএ এবং booking.com. এখানে, জনপ্রিয়তার বেসলাইনগুলি এতটাই শক্তিশালী যে চ্যালেঞ্জটি হল কেবলমাত্র মেশিন লার্নিং মডেলগুলি তৈরি করা যা পরিমাপযোগ্য A/B পরীক্ষায় জয়লাভ করতে পারে। যদি, পরিবর্তে, আপনি উচ্চ মন্থনের সম্মুখীন হন (যেমন আভাযুক্ত) বা দুর্বল সংকেত (যেমন ছাল), মেশিন লার্নিং বজায় রাখার জন্য প্রয়োজনীয় হয়ে ওঠে।
কিন্তু এর মানে এই নয় যে আপনার এটির প্রয়োজন হবে। গভীর শিক্ষা. এই অতিরিক্ত জটিলতা সত্যিই কেবলমাত্র সেই ক্ষেত্রেই উপকারী যেখানে পছন্দগুলি গভীরভাবে বিষয়ভিত্তিক এবং তাদের মডেল করার জন্য যথেষ্ট ডেটা রয়েছে। আমরা প্রায়ই সিস্টেমের মত আচরণ নেটফ্লিক্স বা spotify গোল্ড স্ট্যান্ডার্ড হিসাবে, কিন্তু তারা বিরল পরিস্থিতির জন্য বিশেষ সমাধান. আমাদের বাকিদের জন্য, শ্রেষ্ঠত্ব উপলব্ধ সবচেয়ে জটিল স্থাপত্য স্থাপন সম্পর্কে নয়; এটি ভূখণ্ডের সীমাবদ্ধতাগুলিকে স্বীকৃতি দেওয়া এবং আপনার সমস্যার সমাধান করে এমন সমাধান বেছে নেওয়ার আত্মবিশ্বাসের বিষয়ে।
লেখক দ্বারা ছবি.