Каманда беларусаў запусціла праект Sonora, каб стварыць першы студыйны датасэт для якаснага сінтэзу беларускай мовы. На праект ужо сабралі больш за 1700 еўра з патрэбных 13 000.
Сваю ініцыятыву каманда называе «першым беларускім тэхналагічным голасам». Мэта Sonora – стварыць якасную TTS-мадэль (Text-to-Speech) сінтэзу маўлення, якая зможа ператвараць беларускі тэкст у натуральнае чалавечае маўленне.
«Мы хочам, каб беларуская мова гучала ў сучасных тэхналогіях – у дадатках, аўдыякнігах, адукацыі і AI-прадуктах. Сёння яна амаль не прадстаўлена ў свеце штучнага інтэлекту. Гэта значыць, што без намаганняў з боку супольнасці яна можа проста не апынуцца ў будучыні, дзе тэхналогіі ўсё часцей размаўляюць з намі голасам», – расказала каманда.
Цяпер каманда збірае грошы на галоўны этап – стварэнне аўдыядатасэта. Гэта набор прафесійных студыйных запісаў, на якіх пасля будзе навучацца мадэль штучнага інтэлекту.
Менавіта ад якасці такога датасэта залежыць, як будзе гучаць мова: «робатна» ці натуральна, з інтанацыяй і эмоцыямі.
Над праектам працуюць лінгвісты, AI-інжынеры, спецыялісты па гуку і носьбіты беларускай мовы. Сабраныя грошы пойдуць на студыйны запіс, працу дыктараў і гукааператараў, апрацоўку аўдыя, падрыхтоўку тэкстаў і арганізацыю працы каманды.
«Важна: гэты збор не пра гатовы прадукт. Гэта інвестыцыя ў базу, без якой немагчыма пабудаваць паўнавартасную тэхналогію сінтэзу маўлення, і першы крок да таго, каб беларуская мова стала часткай сучасных галасавых і штучна-інтэлектуальных рашэнняў», – расказала каманда Sonora.
Падтрымаць праект можна тут.
Перадрук матэрыялаў CityDog.io магчымы толькі з пісьмовага дазволу рэдакцыі. Падрабязнасці тут.
















