تبدیل گفتار به متن فارسی با آوانگار

یک‌شنبه 27 مهر 1404 - 11:00
مطالعه 4 دقیقه
آوانگار
این مطلب صرفا جنبه تبلیغاتی داشته و زومیت هیچ مسئولیتی را در رابطه با آن نمی‌پذیرد
هوش مصنوعی «آوانگار» یکی از سرویس‌های مجموعه ویرا و سامانه‌ای ایرانی است که با هدف گسترش دسترسی فارسی‌زبانان به ابزارهای هوش مصنوعی طراحی شده است.
تبلیغات

هوش مصنوعی «آوانگار» یکی از سرویس‌های نوآورانه‌ی مجموعه‌ی «ویرا» است؛ سامانه‌ای ایرانی که با هدف گسترش دسترسی فارسی‌زبانان به ابزارهای هوش مصنوعی طراحی شده است.

اگر گزارش اخیر پلتفرم «کافه‌بازار» درباره‌ی اپلیکیشن‌های پرمخاطب هوش مصنوعی را مطالعه کرده باشید، احتمالاً نام «ویرا» را در صدر فهرست مشاهده کرده‌اید. طبق این گزارش، «ویرا» پُر‌دانلودترین اپلیکیشن هوش مصنوعی فارسی در این پلتفرم بوده است؛ حتی بالاتر از اپلیکیشن‌های شناخته‌شده‌ای مانند ChatGPT.

فارغ از ابعاد رقابتی این آمار، می‌توان گفت «ویرا» با ارائه‌ی تجربه‌ای بومی و دقیق، توانسته است جایگاه ویژه‌ای میان کاربران ایرانی پیدا کند. یکی از سرویس‌های شاخص این مجموعه، «آوانگار» است؛ سامانه‌ای که به کمک الگوریتم‌های یادگیری عمیق، گفتار و صوت را با دقت بالا به متن فارسی تبدیل می‌کند. به بیان ساده، آوانگار همان دستیاری است که هر آنچه می‌شنود، برای شما می‌نویسد.

جایگاه آوانگار در اکوسیستم ویرا

آوانگار تنها یکی از چندین سرویس کاربردی در اپلیکیشن «ویرا» است. ویرا مجموعه‌ای از ابزارهای هوش مصنوعی را در خود جای داده تا کاربران فارسی‌زبان، بدون نیاز به دانش فنی یا آشنایی تخصصی با فناوری، بتوانند از مزایای آن بهره‌مند شوند.

 سازندگان ویرا بر این باورند که هر کاربر فارسی‌زبان ــ صرف‌نظر از سن، تحصیلات یا آشنایی با فناوری اطلاعات ــ باید بتواند به‌سادگی از خدمات هوش مصنوعی استفاده کند.

در میان سرویس‌های مشابه موجود در بازار، آوانگار یکی از برجسته‌ترین ابزارهای تبدیل صدا به متن فارسی محسوب می‌شود. این سرویس هم در قالب اپلیکیشن ویرا در دسترس است و هم از طریق «API» در بازارچه‌ی هوش مصنوعی ویرا، برای توسعه‌دهندگان ارائه شده است.

 به‌نظر می‌رسد عملکرد آوانگار، به‌ویژه در شناسایی الگوهای زبانی فارسی، در مواردی حتی از سرویس‌های بین‌المللی نیز بهتر است. دلیل این برتری را باید در تسلط آن بر ساختار و لهجه‌های گوناگون فارسی جست‌وجو کرد؛ عاملی که سرویس‌های خارجی به‌طور طبیعی از آن بی‌بهره‌اند، زیرا چنین ظرایفی تنها با دانش بومی و تخصص زبانی در فارسی قابل‌دستیابی است.

بررسی فرایند تبدیل گفتار به متن در آوانگار

حال پرسش اصلی این است که آوانگار چگونه صدا را به متن تبدیل می‌کند؟

 در ادامه، روند استفاده از سرویس تبدیل گفتار به متن فارسی آوانگار را مرحله‌به‌مرحله مرور می‌کنیم. برای سنجش توانایی این سرویس، آزمایشی دشوار طراحی کردیم: به‌جای یک فایل گفتار عادی، قطعه‌ای موسیقی باکلام از رضا یزدانی با نام آوانگارد را به آوانگار سپردیم. ترکیب موسیقی، ساز و آواز معمولاً چالشی جدی برای سامانه‌های تبدیل گفتار به متن محسوب می‌شود، زیرا نویز موسیقایی دقت مدل را کاهش می‌دهد.

با وجود این دشواری، آوانگار توانست خروجی نسبتاً قابل‌قبولی تولید کند؛ نتیجه‌ای که از دقت و توان پردازش زبانی آن حکایت دارد.

مراحل کار با آوانگار

۱. برای دسترسی سریع، اپلیکیشن «ویرا» را از وب‌سایت رسمی آن (ivira.ai) یا از طریق فروشگاه‌های معتبر نظیر کافه‌بازار و مایکت نصب کردیم.

 توجه: استفاده از اپلیکیشن ویرا نیازمند اتصال اینترنت است.

۲. در صفحه‌ی نخست اپلیکیشن، کاشی‌هایی مشاهده می‌شود که هر یک نمایانگر یکی از سرویس‌های ویرا هستند. با انتخاب کاشی مربوط به «آوانگار» (یا بنر تبلیغاتی آن)، وارد محیط سرویس می‌شوید.

۳. در این بخش، دو گزینه برای استفاده وجود دارد:

  • «ضبط مستقیم صدا»
  • «بارگذاری فایل صوتی» برای ضبط مستقیم، کافی است آیکون آبی پایین صفحه (سمت راست) را انتخاب کنید. برای بارگذاری فایل نیز می‌توانید روی آیکون ابر کوچک در بالای صفحه (سمت چپ) کلیک کنید.

۴. ما گزینه‌ی «بارگذاری فایل» را برگزیدیم و فایل موسیقی آوانگارد از رضا یزدانی را بارگذاری کردیم. پس از انتخاب فایل، آوانگار از شما می‌خواهد نام فایل خروجی را مشخص کنید. پس از تأیید و انتخاب گزینه‌ی «ذخیره»، پردازش آغاز می‌شود.

۵. چند ثانیه بعد، آوانگار نسخه‌ی متنی فایل را تولید کرد. با لمس نام فایل می‌توانید متن استخراج‌شده را مشاهده کنید.

۶. نتیجه‌ی آزمایش نشان داد که سامانه حتی در مواجهه با ورودی‌های پرنویز ــ مانند موسیقی همراه با آواز ــ نیز توانایی درخور توجهی در جداسازی مؤلفه‌های گفتاری دارد. این موضوع بیانگر دقت الگوریتم‌های پردازش گفتار و یادگیری عمیق در هسته‌ی آوانگار است.

مقایسه خروجی آوانگار با متن اصلی

برای ارزیابی عملکرد، متن خروجی آوانگار از ترانه آوانگارد با نسخه‌ی رسمی منتشرشده در وب‌سایت‌های موسیقی مقایسه شد.

 در حالی‌که متن تولیدی آوانگار حاوی برخی خطاهای جزئی و حذف یا ادغام واژگان بود (که با توجه به وجود موسیقی و ریتم قابل‌انتظار است)، ساختار کلی و کلمات کلیدی ترانه به‌درستی استخراج شده بودند.

این نتیجه نشان می‌دهد که سامانه‌ی آوانگار، درک عمیقی از زبان طبیعی فارسی دارد و می‌تواند حتی در شرایط دشوار، بازنمایی قابل‌استنادی از محتوای شنیداری ارائه دهد.

جمع‌بندی

آوانگار را می‌توان یکی از موفق‌ترین تلاش‌های بومی در زمینه‌ی «تبدیل گفتار به متن» دانست. بهره‌گیری از مدل‌های یادگیری عمیق، داده‌های بومی فارسی و طراحی رابط کاربری ساده، موجب شده است این سرویس در میان کاربران ایرانی جایگاه ویژه‌ای بیابد.

در جهانی که فناوری‌های زبانی عموماً با تمرکز بر زبان‌های انگلیسی و چینی توسعه می‌یابند، وجود سامانه‌هایی مانند آوانگار می‌تواند نقطه‌ی عطفی برای تقویت حضور زبان فارسی در عرصه‌ی هوش مصنوعی باشد.

تبلیغات
داغ‌ترین مطالب روز
تبلیغات

نظرات