Stalinis kompiuteris, kuris veikia Elvis



JUERGENAS SCHROETERIS, AT&T Labs kalbos sintezės ekspertas, turi ateities viziją.



Įsivaizduokite kabiną – panašiai kaip momentinių nuotraukų stendą „Wal-Mart“ – išskyrus tai, kad ši kabina fotografuoja žmonių balsus, o ne veidus. Žmogus gali įeiti į kabiną, perskaityti šimtą sakinių ir išeiti su programa kompaktiniame diske, kuri parašytą tekstą paverstų jo balsu ištartomis kalbos eilutėmis, įskaitant žodžius, kurių jis niekada nesakė. Žmonės galėtų įdėti tuos kompaktinius diskus į bet kurį įrenginį, teikiantį balso komandas, pavyzdžiui, automobilį, siūlantį važiavimo nuorodas, ir jų pačių balsai jiems vadovautų.

„Galite įtikinti savo mėgstamą balsą eiti į kabiną ir padaryti jums įrašą“, – sakė jis.



Dr. Schroeterio svajonė ką tik priartėjo prie realybės dėl jo tyrimų grupės, esančio čia AT&T Labs Florham Park miestelyje, darbo. Laboratorija praėjusią savaitę paskelbė, kad sukūrė produktą, galintį atkurti balsą kiekvieno, kuris paduoda 10–40 valandų studijos kokybės įrašų. Produktas, kuris yra naujo balso technologijų rinkinio, vadinamo Natural Voices, dalis, skirtas balso automatizavimo įmonėms, norinčioms suteikti savo sistemoms išskirtinį, pažįstamą garsą.

AT&T mokslininkai teigė, kad pritaikyti balsai netgi gali būti pagrįsti archyviniais įrašais, sugrąžindami balsus iš numirusių. Įsivaizduokite, pavyzdžiui, įsėdę į automobilį ir išgirdę, kaip Jamesas Deanas sumurmėjo priminimą prisisegti saugos diržą.



Žinoma, dar reikia pamatyti, ar technologija iš tikrųjų duoda tai, ką žada. Be to, kaip pabrėžia AT&T konkurentai, ši technologija sukurta veikti iš kompiuterių serverių, galinčių apdoroti didelius duomenų kiekius. Jis dar neparengtas naudoti staliniuose kompiuteriuose, o tuo labiau mažai energijos naudojančiuose mobiliuosiuose įrenginiuose, pavyzdžiui, mobiliuosiuose telefonuose. Per ateinančias kelias savaites kalbos technologijų įmonė „Lernout & Hauspie“ tikisi parduoti kompaktiškesnę automobilių pramonei skirtą kalbos programą.

Vis dėlto AT&T technologijų aušra yra ženklas, kad kalbos sintezė pagaliau priartėja prie galutinio pramonės tikslo: kompiuteriu sukurtos kalbos, kuri skamba taip natūraliai, taip žmogiškai, kad jos neįmanoma atskirti nuo tikro žmogaus kalbos. Kai bus pasiektas toks kalbos lygis, mokslininkai pašalins pirmąją iš dviejų milžiniškų kliūčių, trukdančių žmogiškai sąveikai tarp kompiuterių ir žmonių. (Kita kliūtis, kuri yra daug didesnė, yra kalbos atpažinimo technologija, leidžianti kompiuteriams suprasti žmonių posakių reikšmes.)

Tačiau, be praėjusios savaitės naujienų, slypi tikroviškesnė ir galbūt labiau įtikinanti istorija apie siekį sukurti mašiną, kuri skambėtų kaip kitas žmogus. Žmogaus balsas yra toks sudėtingas, pradedant linksniais ir emocijomis, baigiant greitai ištariamų žodžių skiemenimis, kad atkartoti kalbos niuansus nėra lengva. Paklauskite bet kurio mokslininko, kuris valandų valandas praleido po ausinėmis ir vėl ir vėl klausėsi iškraipytų sintetinių balsų garsų.

„Sunku patikėti“, – sakė H. Davidas Maxey, buvęs I.B.M. tyrinėtojas, septintajame dešimtmetyje dirbęs ties kalbos sinteze, „tačiau tam prireikė išties aukščiausio lygio žmonių dešimtmečių“.

Galima sakyti, kad žmoniškai skambančios kalbos technologijos ieškojimas prasidėjo daug anksčiau nei prieš dešimtmečius. Pirmąjį kalbos aparatą sukūrė XX a. viduryje Vienos išradėjas Wolfgangas von Kempelenas. Jis sugebėjo sukurti keletą žodžių ir trumpų sakinių manipuliuodamas odinėmis dumplėmis, kurios siųsdavo orą per medinę dėžę ir pro varpelio formos gumos gabalą, kuris veikė kaip burna.

1939 m. pasaulinėje parodoje Niujorke AT&T Bell Laboratories, AT&T Labs pirmtakas, pristatė kalbos aparatą, pavadintą Voder. Šešios moterys buvo išmokytos valdyti prietaisą, kuris buvo grojamas kaip vamzdiniais vargonais. Kai aparatas pasakė: „Laba diena, radijo publika“, skambėjo kaip ateivis, kalbantis po vandeniu.

Ateinančiais metais kelių įmonių ir universitetų mokslininkai bandė patobulinti technologiją, sakė p. Maxey, dokumentuojantis Smithsonian instituto kalbos sintezės istoriją. Kai kurie ištisus mėnesius pjaustydavo magnetines juostas iš žmonių balsų įrašų ir pertvarkydavo mažyčius fragmentus, bandydami sukurti naujus žodžius. P. Maxey ir jo kolegos iš I.B.M. nusprendė atsisakyti pjovimo peilio ir bandė generuoti garsus be išankstinių įrašų.

„Problema ta, kad žmonių kalba taip skiriasi, kad kai bandai ją supjaustyti ir pertvarkyti tam tikra tvarka, pertrūkiai tiesiog per daug trikdo ausį“, – sakė p. Maxey. Jis sakė, kad eis miegoti naktį, kai galvoje skamba nesąmonės garsai.

„Klausiau garso „dah“ vėl ir vėl“, – sakė jis. „Aš praleidau tūkstančius valandų klausydamas šių dalykų.

Vietoj to I.B.M. grupė sukūrė linijinius grafikus, vaizduojančius garsų dažnius, įvedė juos į stalo dydžio skaitytuvą ir klausėsi garsų, kuriuos generuoja netoliese esanti sintezės įrangos spinta.

Kompiuterių evoliucija septintajame dešimtmetyje suteikė dar vieną postūmį: kadangi kompiuteris per kelias minutes galėjo įveikti milijonus matematinių lygčių, iš duomenų bazių išgautus garsus buvo galima suderinti skrydžio metu. Johnas Holmesas, britų mokslininkas, panaudojo tokią techniką, kai eksponavo sintezatorių, galintį atkartoti šį sakinį: „Man patinka paprastas gyvenimas“. laiko, sakė, kad perteikimas skambėjo taip pat, kaip žodžiai, sklindantys iš paties daktaro Holmso burnos. Tačiau buvo vienas dalykas: tam vienam sakiniui prireikė beveik metų darbo.

Tik devintajame dešimtmetyje rinkoje pasirodė komerciniai produktai, kuriuose naudojama kalbos sintezė. Daugelis jų buvo sukurti remiantis Denniso Klatto, Masačusetso technologijos instituto kalbos eksperto, atliktu tyrimu.

Tačiau mokslininkai išsiaiškino, kad balsai vis dar skambėjo mechanizuotais, nenatūraliais virpesiais. Jie neatitiko vizijos, kuri buvo įsirėžusi į jų mintis 1968 m. po to, kai žiūrėjo HAL, kalbantį kompiuterį, filme „2001: Kosminė odisėja“ (Stanley Kubrickas prieš kurdamas filmą lankėsi AT&T Labs ir naudojo kai kurių ankstyvųjų technologijų versija, vaizduojanti HAL balsą, kai jis buvo atjungtas. Nuo ramių, natūralių kompiuterio balsą teikusio aktoriaus Douglaso Raino tonų, HAL balsas lėtai pablogėjo perteikiant „ Dviratis, sukurtas dviems“, sukurtas AT&T mašinų.)

Užuot visiškai pasikliavę kompiuteriais garsams generuoti, saujelė mokslininkų, įskaitant daktarą Schroeterį, toliau dirbo su iš anksto įrašytos kalbos fragmentais. Jų iššūkis buvo išsiaiškinti, kaip susmulkinti įrašus, kad juos būtų galima iš naujo surinkti, kad skambėtų natūraliau. Japonijos įmonė ATR buvo viena iš įmonių, sprendusių šią problemą. Jis sukūrė didžiulę duomenų bazę, kurioje buvo tūkstančiai garsų variantų. 1996 m. AT&T licencijavo ATR technologiją, kuri buvo šiandieninio produkto pagrindas. „Jie išgelbėjo mus nuo ilgus metus trukusių tyrimų“, – apie ATR mokslininkus sakė dr. Schroeteris.

Alistair Conkie, AT&T kalbos tyrinėtojas, padarė kitą šuolį. Lieknas, draugiškas inžinierius su laukiniais žilų plaukų karčiais, daktaras Conkie pasisakė už garsų pjaustymą į dalis, kurios buvo perpus mažesnės už fonemas, kurios yra kalbos garsų šeimos, sudarančios kalbą. (Pavyzdžiui, balsė „a“ yra fonema.) Naudojant pusiau fonemas, galima sukurti natūraliau skambančius žodžius. Dr. Conkie darbas – kartu su Ann Syrdal atlikta kalbine analize ir kito AT&T mokslininko Marko Beutnagelio programavimo kūrimu – sukūrė garsų duomenų bazę, kuri yra nauja AT&T gaminys.

Praėjusią savaitę laboratorijoje daktaras Conkie paleido tos duomenų bazės fragmentą – garsų mišinį nuo „a“ iki „zh“ (tariama „juh“). Kambarys pripildytas garsių ilga vėjo banginio dejonių. Tačiau tai privertė nusišypsoti kiekvieną mokslininką. Po daugelio metų kruopštaus tyrimo jie sakė, kad jie pagaliau sukūrė gerai pažymėtą garsų duomenų bazę ir rado tinkamus algoritmus, kaip juos sujungti. Ar toliau yra balso kabina?

„Mes dar nesame“, – sakė daktaras Schroeteris. Tačiau jo viršininkas, daktaras Rabineris, įsitikinęs, kad kada nors ateis tam tikra daktaro Schroeterio svajonės versija, nes laikas, reikalingas žmogaus balsui atkartoti, dar labiau susiaurėja.

„Kai pradėjome, tai užtruko metus“, – sakė daktaras Rabineris. „Dabar mums liko iki mėnesio“.

Svetainės peržiūra: mašinų balsai

Ar mašinos yra arti tų dienų, kai jos iš tikrųjų skamba kaip žmonės? Šiose svetainėse yra buvusių ir dabartinių teksto į kalbą sistemų garso pavyzdžių:

www.naturalvoices.att.com

Iš pradžių sukurta didelėms automatinio atsako sistemoms, AT&T „Natural Voices“ turi tinkinimo funkciją, kuri gali atkartoti bet kurio žmogaus balsą, atsižvelgiant į įrašymo valandas.

www.cs.indiana.edu/rhythmsp/ASA/Contents.html

Šioje svetainėje, kurią prižiūri Amerikos akustinė draugija, yra keletas ankstyviausių kalbos sintezės įrašų.

www.forcecomputers.com/products/viewProducts.cfm?subList=8

Norėdami klausytis kelių DECtalk balsų, atsisiųskite šią nemokamą demonstraciją į savo kompiuterį.

www.lhsl.com/realspeak/demo.cfm

Išgirskite daugybę kalbų, kuriomis kalba „RealSpeak“, kuri sulaukė palankių atsiliepimų, kai buvo išleista 1999 m. dėl gebėjimo generuoti natūraliai skambančius sakinius.

www.fonix.com/downloads/ttsdemo.html

Kompiuteryje reikės MP3 grotuvo, kad galėtumėte išgirsti iSpeak, vartotojams skirto teksto į kalbą produkto, demonstracinę versiją.

www.bell-labs.com/project/tts/

Šio „Lucent Bell Laboratories“ produkto demonstracijoje yra simbolių, pvz., „$“, kurie paprastai suveikia kalbos variklius.