অ্যাপল গবেষকরা নেটিভ এআই এজেন্ট তৈরি করেছেন যা অ্যাপগুলির সাথে ইন্টারঅ্যাক্ট করে – 9to5Mac

অ্যাপল গবেষকরা নেটিভ এআই এজেন্ট তৈরি করেছেন যা অ্যাপগুলির সাথে ইন্টারঅ্যাক্ট করে – 9to5Mac


মাত্র 3 বিলিয়ন প্যারামিটার থাকা সত্ত্বেও, Ferret-UI Lite 24 গুণ বড় মডেলের বেঞ্চমার্ক পারফরম্যান্সের সাথে মেলে বা ছাড়িয়ে যায়। এখানে বিস্তারিত আছে.

ferrets উপর একটি সামান্য পটভূমি

2023 সালের ডিসেম্বরে, 9 জন গবেষকের একটি দল “FERRET: Refer and Ground Anything Anywhere at Any Granularity” শিরোনামের একটি গবেষণা প্রকাশ করেছে। এতে, তারা একটি মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল (এমএলএলএম) উপস্থাপন করেছে যা একটি চিত্রের নির্দিষ্ট অংশের প্রাকৃতিক ভাষা প্রসঙ্গ বুঝতে সক্ষম ছিল:

ছবি: আপেল

তারপর থেকে, অ্যাপল ফেরেট 2, ফেরেট-ইউআই, এবং ফেরেট-ইউআই 2 সহ মডেলগুলির ফেরেট পরিবারকে সম্প্রসারিত করে ফলো-আপ পেপারগুলির একটি সিরিজ প্রকাশ করেছে।

বিশেষ করে, ferret-ui FERRET-এর মূল ক্ষমতার উপর ভেরিয়েন্টগুলি প্রসারিত হয়েছে, এবং গবেষকরা সাধারণ-ডোমেন MLLM-এর ত্রুটিগুলি হিসাবে যা সংজ্ঞায়িত করেছেন তা কাটিয়ে উঠতে প্রশিক্ষণ দেওয়া হয়েছিল।

মূল ferret-ui কাগজ থেকে:

মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেলে (এমএলএলএম) সাম্প্রতিক অগ্রগতিগুলি উল্লেখযোগ্য, তবুও, এই সাধারণ-ডোমেন এমএলএলএমগুলি প্রায়শই ইউজার ইন্টারফেস (ইউআই) স্ক্রিনগুলি বোঝার এবং তাদের সাথে কার্যকরভাবে যোগাযোগ করার ক্ষমতার মধ্যে কম পড়ে। এই কাগজে, আমরা Ferret-UI, মোবাইল UI স্ক্রীনগুলিকে আরও ভালভাবে বোঝার জন্য ডিজাইন করা অনুমান, গ্রাউন্ডিং এবং যুক্তির ক্ষমতা দিয়ে সজ্জিত একটি উপন্যাস MLLM উপস্থাপন করছি। প্রদত্ত যে UI স্ক্রীনগুলি সাধারণত আরও প্রসারিত আকৃতির অনুপাত প্রদর্শন করে এবং প্রাকৃতিক চিত্রগুলির তুলনায় আগ্রহের ছোট বস্তু (যেমন, আইকন, পাঠ্য) ধারণ করে, আমরা বিশদ উন্নত করতে এবং উন্নত ভিজ্যুয়াল বৈশিষ্ট্যগুলির সুবিধা নিতে ফেরেটের উপরে “যেকোনো রেজোলিউশন” অন্তর্ভুক্ত করি।

ছবি: আপেল
আসল ফেরেট-ইউআই গবেষণায় প্রযুক্তির একটি আকর্ষণীয় প্রয়োগ অন্তর্ভুক্ত ছিল, যেখানে ব্যবহারকারী ইন্টারফেসের সাথে কীভাবে ইন্টারঅ্যাক্ট করতে হয় তা আরও ভালভাবে বুঝতে মডেলের সাথে কথা বলতে পারে, যেমনটি ডানদিকে দেখা গেছে।

কিছু দিন আগে, অ্যাপল ফেরেট-ইউআই লাইট নামে একটি গবেষণার মাধ্যমে মডেলের ফেরেট-ইউআই পরিবারকে আরও প্রসারিত করেছে: ছোট অন-ডিভাইস GUI এজেন্ট তৈরির পাঠ থেকে।

Ferret-UI একটি 13B-প্যারামিটার মডেলে তৈরি করা হয়েছিল, প্রাথমিকভাবে মোবাইল UI বোঝাপড়া এবং ফিক্সড-রেজোলিউশন স্ক্রিনশটগুলিতে ফোকাস করে৷ ইতিমধ্যে, Ferret-UI 2 একাধিক প্ল্যাটফর্ম এবং উচ্চ-রেজোলিউশন উপলব্ধি সমর্থন করার জন্য সিস্টেমকে প্রসারিত করেছে।

বিপরীতে, ফেরেট-ইউআই লাইট হল আরও হালকা মডেল, যা অনেক বড় GUI এজেন্টের সাথে প্রতিযোগিতামূলক থাকা অবস্থায় ডিভাইসে চালানোর জন্য ডিজাইন করা হয়েছে।

ফেরেট-ইউআই লাইট

নতুন গবেষণাপত্রের গবেষকদের মতে, “বেশিরভাগ বিদ্যমান পদ্ধতি জিইউআই এজেন্ট […] বড় ফাউন্ডেশন মডেল নোট করুন। এর কারণ হল “বড় সার্ভার-সাইড মডেলগুলির দৃঢ় যুক্তি এবং পরিকল্পনার ক্ষমতা এই এজেন্টিক সিস্টেমগুলিকে বিভিন্ন GUI নেভিগেশন টাস্ক জুড়ে চিত্তাকর্ষক ক্ষমতা অর্জন করতে দেয়।”

তিনি উল্লেখ করেছেন যে যদিও মাল্টি-এজেন্ট এবং এন্ড-টু-এন্ড GUI সিস্টেম উভয় ক্ষেত্রেই অনেক অগ্রগতি হয়েছে, যা GUI-এর সাথে এজেন্টিক মিথস্ক্রিয়া (“নিম্ন-স্তরের GUI গ্রাউন্ডিং, স্ক্রিন বোঝাপড়া, মাল্টি-স্টেপ প্ল্যানিং, এবং সেলফ-রিফ্লেকশন”) এর সাথে যুক্ত অনেকগুলি কাজকে স্ট্রিমলাইন করার জন্য বিভিন্ন পন্থা গ্রহণ করে, সেগুলি সহজাতভাবে খুব বড় এবং ডিভাইসে কম্পিউট করার জন্য খুব ভাল।

অতএব, তারা ফেরেট-ইউআই লাইট বিকাশের পরিকল্পনা করেছে, ফেরেট-ইউআই-এর একটি 3-বিলিয়ন প্যারামিটার সংস্করণ যা “ছোট-স্কেল ভাষার মডেল প্রশিক্ষণের অন্তর্দৃষ্টি দ্বারা পরিচালিত বেশ কয়েকটি মূল উপাদান দিয়ে নির্মিত।”

Ferret-UI Lite সুবিধা:

  • একাধিক GUI ডোমেন থেকে বাস্তব এবং সিন্থেটিক প্রশিক্ষণ ডেটা;
  • GUI এর নির্দিষ্ট বিভাগগুলিকে আরও ভালভাবে বোঝার জন্য অন-দ্য-ফ্লাই (বা, অনুমান-সময়) ক্রপিং এবং জুম-ইন কৌশল;
  • সূক্ষ্ম টিউনিং এবং শক্তিবৃদ্ধি শেখার কৌশল তত্ত্বাবধান করা হয়েছে।

ফলাফল হল এমন একটি মডেল যা প্রতিযোগী GUI এজেন্ট মডেলের সাথে ঘনিষ্ঠভাবে মেলে বা এমনকি তার পরামিতি সংখ্যার 24 গুণ পর্যন্ত পারফর্ম করে।

ছবি: আপেল

যদিও সমগ্র স্থাপত্যটি (যা অধ্যয়নে সম্পূর্ণ বিশদভাবে বলা হয়েছে) আকর্ষণীয়, রিয়েল-টাইম ক্রপিং এবং জুম-ইন কৌশলগুলি বিশেষভাবে উল্লেখযোগ্য।

মডেলটি একটি প্রাথমিক ভবিষ্যদ্বাণী করে, এর চারপাশে গাছ লাগায়, তারপর সেই ক্রপ করা এলাকায় আবার একটি ভবিষ্যদ্বাণী করে। এটি এই ধরনের ছোট মডেলগুলিকে তাদের সীমিত ক্ষমতার জন্য ক্ষতিপূরণ দিতে সাহায্য করে যাতে বড় সংখ্যক ইমেজ টোকেন প্রক্রিয়া করা যায়।

ছবি: আপেল

কাগজের আরেকটি উল্লেখযোগ্য অবদান হল কিভাবে Ferret-UI Lite নেটিভভাবে নিজস্ব প্রশিক্ষণ ডেটা তৈরি করে। গবেষকরা একটি মাল্টি-এজেন্ট সিস্টেম তৈরি করেছেন যা লাইভ GUI প্ল্যাটফর্মের সাথে সরাসরি ইন্টারঅ্যাক্ট করে বড় আকারের সিন্থেটিক প্রশিক্ষণের উদাহরণ তৈরি করতে।

একটি কোর্সওয়ার্ক জেনারেটর রয়েছে যা ক্রমবর্ধমান অসুবিধার লক্ষ্যগুলি প্রস্তাব করে, একটি পরিকল্পনা এজেন্ট সেগুলিকে ধাপে ভাগ করে, একটি গ্রাউন্ডিং এজেন্ট সেগুলি অন-স্ক্রীনে কার্যকর করে এবং একজন সমালোচক মডেলের ফলাফলগুলি মূল্যায়ন করে।

ছবি: আপেল

এই পাইপলাইনের সাহায্যে, প্রশিক্ষণ ব্যবস্থা বাস্তব-বিশ্বের মিথস্ক্রিয়াগুলির অস্পষ্টতাগুলি (যেমন ত্রুটি, অপ্রত্যাশিত অবস্থা এবং পুনরুদ্ধারের কৌশলগুলি) ক্যাপচার করে, যা এমন কিছু যা পরিষ্কার, মানব-টীকাযুক্ত ডেটার উপর নির্ভর করার সময় করা আরও চ্যালেঞ্জিং হবে৷

মজার বিষয় হল, Ferret-UI এবং Ferret-UI2 তাদের মূল্যায়নে iPhone স্ক্রিনশট এবং অন্যান্য Apple ইন্টারফেস ব্যবহার করার সময়, Ferret-UI Liteকে Android, ওয়েব এবং ডেস্কটপ GUI পরিবেশে AndroidWorld এবং OSWorld-এর মতো বেঞ্চমার্ক ব্যবহার করে প্রশিক্ষিত এবং মূল্যায়ন করা হয়েছিল।

গবেষকরা স্পষ্টভাবে নোট করেন না কেন তারা ফেরেট-ইউআই লাইটের জন্য এই রুটটি বেছে নিয়েছিলেন, তবে এটি সম্ভবত প্রতিফলিত করে যে পুনরুত্পাদনযোগ্য, বড় আকারের GUI-এজেন্ট পরীক্ষা আজ উপলব্ধ।

যাই হোক না কেন, গবেষকরা দেখেছেন যে Ferret-UI Lite স্বল্প-দিগন্তে, নিম্ন-স্তরের কাজগুলিতে ভাল পারফর্ম করেছে, কিন্তু এটি আরও জটিল, বহু-পদক্ষেপের মিথস্ক্রিয়াগুলিতে ততটা দৃঢ়ভাবে কাজ করেনি, একটি আপস যা মূলত প্রত্যাশিত ছিল, একটি ছোট, অন-ডিভাইস মডেলের সীমাবদ্ধতার কারণে।

ফেরেট-ইউআই লাইট, অন্যদিকে, একটি স্থানীয় এবং এক্সটেনশনের মাধ্যমে, ব্যক্তিগত (যেহেতু কোনও ডেটা ক্লাউডে যেতে হবে না এবং রিমোট সার্ভারে প্রসেস করতে হবে) এজেন্ট প্রদান করে যা ব্যবহারকারীর অনুরোধের উপর ভিত্তি করে অ্যাপ ইন্টারফেসের সাথে স্বয়ংক্রিয়ভাবে ইন্টারঅ্যাক্ট করে, যা সমস্ত অ্যাকাউন্টের দ্বারা দুর্দান্ত।

বেঞ্চমার্ক বিশ্লেষণ এবং ফলাফল সহ অধ্যয়ন সম্পর্কে আরও জানতে, এই লিঙ্কটি অনুসরণ করুন।

অ্যামাজনে আনুষঙ্গিক ডিল

Google-এ একটি প্রিয় উৎস হিসেবে 9to5Mac যোগ করুন
Google-এ একটি প্রিয় উৎস হিসেবে 9to5Mac যোগ করুন

FTC: আমরা অটো অ্যাফিলিয়েট লিঙ্ক ব্যবহার করি যা আয় করে। আরও

Leave a Reply

Your email address will not be published. Required fields are marked *