یادگیری ماشینی توانایی رونویسی متن گفتاری عربی را بهبود می بخشد


به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امیدوارم روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. اکنون این امکان وجود دارد که از گجت موجود در خانه خود بخواهید موسیقی پخش کند یا فرمان صوتی را روشن کنید، این ویژگی قبلاً در برخی از دستگاه ها وجود دارد.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر زبان عربی دیگری صحبت می کنید که با منطقه و منطقه بسیار متفاوت است، برخی از آنها همدیگر را نمی فهمند، داستان متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی گرامری بالا باشد، ممکن است احساس کنید که رها شده اید.

این ساخت و سازهای پیچیده باعث شد تا احمد علی به دنبال راه حلی برای خود بیفتد. او یک مهندس کلیدی برای گروه فناوری زبان عربی در مؤسسه تحقیقات کامپیوتری قطر (QCRI)، بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیانگذار عربی‌اسپیچ است، «جامعه‌ای که به نفع زبان عربی و فناوری گفتار وجود دارد. “

دفتر مرکزی بنیاد قطر

علی سال‌ها پیش در IBM مجذوب ایده صحبت کردن با ماشین‌ها، لوازم خانگی و دستگاه‌ها شد. آیا می‌توانیم ماشینی بسازیم که قادر به درک زبان‌های مختلف باشد – پزشکان اطفال مصری برای خودکار کردن نسخه‌ها، معلمان سوری برای کمک به کودکان برای دریافت مواد اصلی از درس‌هایشان، یا سرآشپزهای مراکشی بهترین دستور العمل‌های کوسکوس را توضیح می‌دهند؟» او گفت. با این حال، الگوریتم‌هایی که این موتورها را نیرو می‌دهند، نمی‌توانند حدود 30 نوع زبان عربی را غربال کنند، چه رسد به اینکه مفهوم آنها را درک کنند. امروزه اکثر ابزارهای تشخیص گفتار به انگلیسی و چند زبان دیگر محدود می شوند.

گسترش ویروس کرونا منجر به افزایش اتکا به فناوری صدا شده است، جایی که فناوری پردازش زبان طبیعی مردم را قادر می‌سازد دستورالعمل‌های ماندن در خانه و اقدامات اصلاحی فیزیکی را دنبال کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، برنامه های کاربردی بیشتری در آینده وجود خواهد داشت.

میلیون‌ها نفر در سراسر جهان از دوره‌های آنلاین عظیم اینترنت (MOOC) برای دسترسی آزاد و مشارکت نامحدود استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی در MOOC است که در آن دانش‌آموزان می‌توانند در حوزه‌های خاصی از محتوای گفتاری دوره جستجو کنند و ترجمه را از طریق زیرنویس فعال کنند. فناوری گفتار این امکان را فراهم می کند که سخنرانی های دیجیتال به صورت متن در کلاس های درس دانشگاه بیان شود.

احمد علی، دانشگاه حمد بن کهلیفه

براساس مقاله اخیر در مجله Speech Technology، و پیش‌بینی می‌شود که بازار تشخیص صدا تا سال 2025 به 26.8 میلیارد دلار برسد، یک میلیون مصرف‌کننده و مصرف‌کننده حیوانات در سراسر جهان بر اساس ربات‌های صوتی و نه تنها با وسایل یا ماشین‌هایشان تعامل دارند. . علاوه بر این، برای بهبود خدمات مشتری، تشویق نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و ادغام برای افرادی که دارای موانع شنوایی، گفتاری یا مکانیکی هستند.

در نظرسنجی 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو سوم مصرف‌کنندگان به جای مراجعه به فروشگاه یا شعبه بانک، دستیار صوتی را انتخاب خواهند کرد. سهام می تواند به طور معقولی افزایش یابد، زیرا زندگی و تجارت فیزیکی و فیزیکی دور که جهان را آزار می دهد، جهان را برای بیش از یک سال و نیم مجبور کرده است.

با این حال، این دستگاه ها را نمی توان به جهان گسترده تر ارسال کرد. برای آن 30 نوع عربی و میلیون ها نوع، این یک فرصت از دست رفته است.

عربی برای ماشین آلات

ربات‌های صوتی انگلیسی یا فرانسوی بسیار عالی هستند. با این حال، ماشین هایی که درک زبان عربی را آموزش می دهند، به دلایل زیادی دشوار هستند. این سه چالش متداول شناخته شده هستند:

  1. عدم وجود نشانه ها. عربی زبان ملی است، همانطور که به آن صحبت می شود. اکثر متن‌های موجود هیچ نشانه‌ای ندارند، به این معنی که فاقد تلفظی مانند حاد (´) یا grave (`) است که ارزش کاراکتر را نشان می‌دهد. در نتیجه تعیین اینکه حروف صدادار کجا می روند دشوار است.
  2. کمبود منابع. کمبود اطلاعات برچسب گذاری شده برای زبان های مختلف عربی وجود دارد. به طور کلی، آنها فاقد قوانین تلفظ استانداردی هستند که نحوه نوشتن یک زبان را تعریف می کند، از جمله استاندارد یا املا، محدودیت ها، تقسیم کلمات و تاکید. این منابع در آموزش مدل‌های رایانه‌ای مهم هستند و این واقعیت که تعداد آنها بسیار کم است، توسعه تشخیص گفتار عربی را با مشکل مواجه کرده است.
  3. پیچیدگی مورفولوژیکی عرب زبانان در بسیاری از تغییرات کدنویسی نقش دارند. به عنوان مثال، در مستعمرات فرانسه – شمال آفریقا، مراکش، الجزایر و تونس – زبان ها شامل کلمات فرانسوی به شدت قرض شده هستند. در نتیجه تعداد زیادی کلمه به اصطلاح غیرکلمه وجود دارد که فناوری تشخیص گفتار نمی تواند آنها را بفهمد زیرا این کلمات عربی نیستند.

علی گفت: «اما میدان با سرعت برق در حال حرکت است. این یک تلاش مشترک بین بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی یک برنامه زبان عربی را برای آوردن ترجمه عربی به زبان عربی بومی هر منطقه هدایت می کند. به عنوان مثال، زبان عربی را می توان به چهار زبان منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که زبان ناسازگار است، این می تواند به خوبی یک زبان در هر منطقه باشد. به عنوان مثال، یک زبان مادری مصری می تواند زبان اسکندریه را از هموطن خود از اسوان (1000 کیلومتر روی نقشه) تشخیص دهد.

ایجاد یک آینده فناوری برای همه

در این مرحله، ماشین‌ها به همان اندازه رمزگذارهای انسانی دقیق هستند، تا حد زیادی به لطف پیشرفت‌ها در شبکه‌های عصبی عمیق، زیرشاخه‌های یادگیری ماشینی در هوش مصنوعی بر اساس الگوریتم‌های الهام‌گرفته از نحوه عملکرد مغز انسان، زیست‌شناسی و عملکرد. با این حال، تا همین اواخر، تشخیص گفتار با هم کمی هک می شد. فناوری در طول تاریخ به ماژول های مختلفی برای مدل سازی صدا، کدگذاری آوایی و مدل سازی زبان متکی بوده است. همه ماژول ها باید به طور جداگانه آموزش ببینند. اخیراً، محققان مدل‌هایی را آموزش می‌دهند که صدا را مستقیماً به رونویسی تبدیل می‌کنند و احتمالاً همه قسمت‌ها را برای کار نهایی بهینه می‌کنند.

علیرغم این پیشرفت ها، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی مادری خود دستورات صوتی بدهد. او گفت: «سال 2021 بود و من هنوز نمی‌توانم با بسیاری از ماشین‌ها به زبانم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی کلمات عربی چند زبانه هنوز اتفاق نیفتاده است.

قرار دادن این موضوع در کانون کار علی، که منجر به اولین تحول در شناخت عربی و زبان آن شده است. کاری که تاکنون به دست آمده است، کارایی بی سابقه. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.

دلایل متعددی وجود دارد که علی و تیمش اکنون در ساخت این موتورهای کلمه موفق بوده اند. اساساً، او گفت: “این به منابعی در همه زبان ها نیاز دارد. ما باید منابعی بسازیم تا بتوانیم مدل ها را آموزش دهیم.” پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشین فشرده در محاسبات در حال حاضر در پردازنده های گرافیکی انجام می شود که می توانند تصاویر پیچیده را به سرعت پردازش و نمایش دهند. همانطور که علی گفت: “ما معماری خوب، ماژول های خوب و داده هایی برای نمایش داریم.”

محققان QCRI و Kanari AI اخیراً مدلی را توسعه داده اند که می تواند به برابری انسان در اخبار پخش عربی دست یابد. این سیستم تاثیر سخنرانی های گزارش روزانه الجزیره را نشان می دهد. در حالی که میزان خطای خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل سردرگمی صرفی در زبان و فقدان قوانین املایی استاندارد در عربی می تواند به 10 درصد برسد. به لطف پیشرفت‌های اخیر در یادگیری عمیق و معماری، موتور تشخیص گفتار عربی می‌تواند عملکرد بهتری نسبت به سخنرانان بومی در اخبار پخش داشته باشد.

در حالی که به نظر می رسد تشخیص گفتار عربی استاندارد مدرن به خوبی کار می کند، محققان QCRI و Kanari AI در آزمایش دامنه پردازش زبان شرکت کرده اند و به نتایج عالی دست یافته اند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، توجه به زبان محلی چیزی است که ما نیاز داریم تا دستیار صوتی ما را درک کند.

این مقاله یا بخش به منابع یا مراجعی نیاز دارد که در نشریات معتبر و شخص ثالث ظاهر شوند. این توسط تحریریه MIT Technology Review نوشته نشده است.


تمامی اخبار به صورت تصادفی و رندومایز شده پس از بازنویسی رباتیک در این سایت منتشر شده و هیچ مسئولتی در قبال صحت آنها نداریم