
এআই ট্রেন্ডস স্টাফ দ্বারা
বক্তৃতা স্বীকৃতির পিছনে এআই-এর অগ্রগতিগুলি বাজারে বৃদ্ধির চালনা করছে, উদ্যোগের মূলধনকে আকর্ষণ করছে এবং স্টার্টআপগুলিকে তহবিল জোগাচ্ছে, যার ফলে প্রতিষ্ঠিত খেলোয়াড়দের জন্য চ্যালেঞ্জ তৈরি হচ্ছে।
স্পিচ রিকগনিশন ডিভাইসের ক্রমবর্ধমান গ্রহণযোগ্যতা এবং ব্যবহার বাজারকে চালিত করছে, যা মেটিকুলাস রিসার্চের একটি সাম্প্রতিক নিবন্ধ অনুসারে 2025 সালের মধ্যে বিশ্বব্যাপী $26.8 বিলিয়ন পৌঁছবে বলে আশা করা হচ্ছে। বিশ্লেষণ অন্তর্দৃষ্টি. উন্নত গতি এবং নির্ভুলতা প্রযুক্তির উন্নয়নের সুবিধার মধ্যে রয়েছে।

উন্নয়নের এই নতুন পর্যায়ে একটি কোম্পানি, সান ফ্রান্সিসকোর অ্যাসেম্বলিএআই, ভিডিও, পডকাস্ট, ফোন কল এবং দূরবর্তী মিটিংগুলি প্রতিলিপি করতে সক্ষম বক্তৃতা স্বীকৃতির জন্য একটি API অফার করছে। কোম্পানিটি 2017 সালে সিইও ডিলান ফক্স দ্বারা প্রতিষ্ঠিত হয়েছিল এবং Y কম্বিনেটর, একটি স্টার্টআপ অ্যাক্সিলারেটর এবং সেইসাথে NVIDIA থেকে সমর্থন পেয়েছে।
উচ্চ প্রযুক্তির উদ্যোক্তার জন্য ফক্সের একটি অস্বাভাবিক পটভূমি রয়েছে। তিনি জর্জ ওয়াশিংটন ইউনিভার্সিটির একজন স্নাতক এবং ব্যবসায় প্রশাসন, ব্যবসায়িক অর্থনীতি এবং পাবলিক পলিসিতে ডিগ্রিধারী। তিনি সান ফ্রান্সিসকোতে সিসকোর ইমার্জিং প্রোডাক্টস ল্যাবরেটরিতে মেশিন লার্নিংয়ের জন্য সফটওয়্যার ইঞ্জিনিয়ার হিসেবে চাকরি পান, যেখানে তিনি গভীর নিউরাল নেটওয়ার্ক এবং মেশিন লার্নিং নিয়ে কাজ করছিলেন। তারা এসেম্বলিএআই-এর ধারণা নিয়ে এসেছিল এবং ওয়াই কম্বিনেটরের কাছ থেকে মূলধন আকৃষ্ট করেছিল, যা তাদের প্রযুক্তিকে মাটিতে নামাতে ডেটা বিজ্ঞানী এবং ডেটা ইঞ্জিনিয়ারদের নিয়োগ করতে সাহায্য করেছিল।
সঙ্গে সাক্ষাৎকারে প্রশ্ন করেন ড এআই প্রবণতা কীভাবে তিনি ব্যবসায় প্রশাসন এবং অর্থনীতিতে স্নাতক থেকে একজন উচ্চ-প্রযুক্তি উদ্যোক্তায় এই রূপান্তর ঘটালেন, ফক্স বলেন, “আমি নিজেকে প্রোগ্রাম শিখিয়েছি, যা আমাকে মেশিন লার্নিংয়ের পথে নিয়ে গেছে। আমি একটি কঠিন সফ্টওয়্যার চ্যালেঞ্জ খুঁজছিলাম, যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের দিকে পরিচালিত করে, যা আমাকে সিস্কোতে নিয়ে যায়।” তিনি তখন অ্যাপলের এন্টারপ্রাইজের জন্য সিরিতে কাজ করছিলেন,
কাজের গতি বাড়ানোর জন্য, সিসকো স্পিচ রিকগনিশন সফ্টওয়্যার অর্জন করতে চাইছিল; শিয়াল অনুসন্ধানের জন্য ক্যাটবার্ডের আসনে ছিল। উদাহরণ স্বরূপ, “আমরা নুয়ান্সের দিকে তাকিয়েছি,” একজন বাজারের নেতা এবং তার প্রতিযোগীদের তুলনায় বেশি স্পীচ রিকগনিশন সফ্টওয়্যারের মালিক হিসাবে স্বীকৃত। (মাইক্রোসফ্টের $19.6 বিলিয়ন ন্যুয়েন্সের অধিগ্রহণ বছরের শেষ নাগাদ চূড়ান্ত হবে বলে আশা করা হচ্ছে।) তরুণ, উদীয়মান উদ্যোক্তারা এতে প্রভাবিত হননি। “এটি পাগল যে সমস্ত বিকল্প একটি নির্ভুলতা এবং বিকাশকারী দৃষ্টিকোণ থেকে কতটা খারাপ ছিল,” তিনি বলেছিলেন।
তিনি 2008 সালে প্রতিষ্ঠিত একটি সান ফ্রান্সিসকো-ভিত্তিক কোম্পানি Twilio দ্বারা প্রভাবিত হয়েছিলেন, যেটি সেই বছর ক্লাউডে হোস্ট করা ফোন কলগুলি তৈরি এবং গ্রহণ করার জন্য Twilio ভয়েস API প্রকাশ করেছিল। কোম্পানিটি তখন থেকে $103 মিলিয়ন ভেঞ্চার ক্যাপিটাল সংগ্রহ করেছে। “তারা ডেভেলপারদের জন্য ভাল API-এর জন্য নতুন মান নির্ধারণ করছিল,” ফক্স বলেছেন।
ফক্সের ধারণা ছিল “অতি নির্ভুল ফলাফল পেতে AI এবং মেশিন লার্নিং ব্যবহার করা, এবং ডেভেলপারদের জন্য তাদের পণ্যগুলিতে API অন্তর্ভুক্ত করা সহজ করা। একজন গ্রাহক হল CallRail, যেটি কল ট্র্যাকিং এবং বিপণন বিশ্লেষণ সফ্টওয়্যার অফার করে, যেটি লোকে কেন কল করছে সে সম্পর্কে অন্তর্দৃষ্টি অর্জনের জন্য AssemblyAI-এর API অন্তর্ভুক্ত করার পরিকল্পনা করে। অন্যান্য গ্রাহকরা যা NBC এবং Street-এর সামগ্রী ব্যবহার করে, NBC এবং স্ট্রাইক ব্যবহার করে ইন্টারভিউ চালু এবং বন্ধ ক্যাপশন প্রদান.
ফক্স বলেছেন, “আমরা যতটা সম্ভব মানুষের বক্তৃতা শনাক্তকরণের মান তৈরি করার জন্য কাজ করছি। এতে অনেক কাজ করা হয়েছে।” তারা 2022 সালে এই মাইলফলক পৌঁছানোর আশা করছে।
তিনি এমন সংস্থাগুলিকে লক্ষ্য করেন যেগুলি তাদের পণ্যগুলিতে বক্তৃতা স্বীকৃতিকে অন্তর্ভুক্ত করে এবং ক্রয় করা সহজ করে তোলে৷ গ্রাহকদের ব্যবহারের উপর ভিত্তি করে অর্থ প্রদান; প্রতিলিপিকৃত অডিওর প্রতি সেকেন্ডের জন্য, এসেম্বলিএআই একটি পয়সার ভগ্নাংশ চার্জ করে। গ্রাহকরা একটি মাসিক বিল পান। যদি একজন গ্রাহক মাসে 10 ঘন্টা ব্যবহার করেন, তবে এটির খরচ প্রায় নয় ডলার। যদি একজন গ্রাহক প্রতি মাসে এক মিলিয়ন ঘন্টা ব্যবহার করেন, তাহলে এর খরচ প্রায় $900,000।
ভয়েস স্বীকৃতি একটি গরম বাজার. “অনেক নতুন স্টার্টআপ চালু করা হচ্ছে,” ফক্স সুযোগটি সম্পর্কে বলেছে। “ভয়েস ডেটাতে অনেক আকর্ষণীয় নতুন ব্যবসা তৈরি করা হচ্ছে।”
এসেম্বলিএআই-এর পণ্য ঘৃণাত্মক বক্তৃতা এবং অশ্লীলতার মতো সংবেদনশীল বিষয়গুলি সনাক্ত করতে পারে, গ্রাহকদের ম্যানুয়াল কন্টেন্ট সংযম সংরক্ষণ করতে দেয়।
তাদের প্রযুক্তির পার্থক্য কী তা ব্যাখ্যা করার জন্য জিজ্ঞাসা করা হলে, ফক্স বলেন, “আমরা গবেষকদের একটি অভিজ্ঞ দল যারা গভীর শিক্ষা করছেন,” বিএমডব্লিউ, অ্যাপল এবং ফেসবুক সহ কোম্পানিতে অভিজ্ঞতা রয়েছে। “আমরা খুব বড়, খুব নির্ভুল গভীর শিক্ষার মডেল তৈরি করি যার স্বীকৃতি ফলাফলগুলি প্রথাগত মেশিন লার্নিং পদ্ধতির চেয়ে অনেক বেশি নির্ভুল। আমরা উন্নত নিউরাল নেটওয়ার্ক প্রযুক্তি ব্যবহার করে সত্যিই বড় মডেল তৈরি করি।” তিনি সেই পদ্ধতির সাথে তুলনা করেছেন যা OpenAI তার GPT-3 বৃহৎ ভাষার মডেল তৈরি করতে ব্যবহার করে।
অতিরিক্তভাবে, তারা ট্রান্সক্রিপশনের উপরে AI বৈশিষ্ট্যগুলি তৈরি করে যাতে অডিও এবং ভিডিও সামগ্রীর সারাংশ পাওয়া যায় যা অনুসন্ধান এবং সূচিত করা যায়। “এটি কেবল প্রতিলিপির বাইরে যায়,” ফক্স বলেছিলেন।
কোম্পানির বর্তমানে 25 জন কর্মচারী রয়েছে এবং প্রায় চার মাসের মধ্যে এই সংখ্যা দ্বিগুণ হবে বলে আশা করছে৷ ব্যবসা ভালো হয়েছে। “অনলাইন অডিও এবং ভিডিও ডেটা বিস্ফোরিত হচ্ছে এবং গ্রাহকরা এটির সুবিধা নিতে চান, তাই আমরা প্রচুর চাহিদা দেখতে পাচ্ছি,” ফক্স বলেছেন।
এখানে আরো জানুন অ্যাসেম্বলিএআই।