به نظر میرسد صدا و لهجه خصلت دیگری است که انسانها به ماشینها دادند تا هرچه بیشتر شبیه خودشان شوند!
گوگل در ماه جاری یک مقاله پژوهشی را منتشر کرده است که نشان میدهد دیگر تشخیص صدای انسان از ماشین امکانپذیر نیست. در این مقاله، یک سیستم تبدیل متن به گفتار ماشینی مبتنی بر هوش مصنوعی به نام Tacotron 2 معرفی شده است که میتواند یک متن را همانند یک انسان بخواند.
سیستم Tacotron 2 دومین نسل از فناوری اختصاصی گوگل برای تولید صدای انسان توسط ماشینها است. این سیستم از دو شبکه عصبی عمیق سود میبرد.
نزدیک شدن گفتار ماشینها به انسانها
اولین شبکه عصبی متن را به یک اسپکتروگرام (Spectrogram) تبدیل میکند؛ روشی بصری برای نشان دادن فرکانسهای صوتی در طول زمان. اسپکتروگرام الگوی صدای به دست آمده را به یک شبکه عصبی دیگر به نام WaveNet میدهد.
سیستم WaveNet در آزمایشگاه هوش مصنوعی DeepMind شرکت آلفابت توسعه داده شده است و میتواند نموداری از عناصر صوتی برای تلفظ یک متن را ترسیم کند. دقت این سیستم بسیار بالا است و یک صدا را به صد میلیثانیه یا هزار میلیثانیه تجزیه میکند تا عناصر صدا مشخص شود.
به دو صدای زیرگوش کنید:
به نظر شما کدامیک توسط هوش مصنوعی گوگل خوانده شده و دیگری توسط یک انسان؟ بسیار سخت و در واقع غیرقابلتشخیص است.
البته؛ میتوان با مراجعه به سورس گوگل و یافتن نام فایلها هر صدا و مطالعات دیگر میتوان فهمید کدام توسط هوش مصنوعی خوانده شده ولی در حالت عادی این دو صدا بسیار شبیه هم هستند.
محققان گوگل میگویند سیستم Tacotron 2 میتواند کلمات سخت را نیز درست تلفظ کند یا برخی کلمات بولد شده و مهم در متن را به حالتی بخواند که شنونده متوجه شود روی آنها تاکید بیشتری هست.
برخلاف بسیاری از تحقیقاتی که در گوگل انجام میشود؛ طراحی سیستم Tacotron 2 میتواند
در آینده برای گوگل بسیار مفید و کاربردی باشد. گوگل شرکتی است که چندین محصول صوتی هوشمند وارد بازار کرده است و از Tacotron 2 میتواند روی Google Assistant و غیره بهره ببرد یا به صورت یک سرویس مستقل به بازار عرضه کند.
راستی در دو مثال بالا، صداهای دوم را هوش مصنوعی گوگل تولید کرده است.
منبع
پزشک اول...
ما را در سایت پزشک اول دنبال می کنید
برچسب : نویسنده : ممد رسول onepezeshk بازدید : 314 تاريخ : جمعه 8 دی 1396 ساعت: 4:50