Technologie.gazeta.pl

Komputer zrozumiał Gierka, a z Kaczyńskim miał problem

Tomasz Grynkiewicz
08.12.2008 00:00
A A A Drukuj
Paweł Bosky: Sprawdzaliśmy ostatnio, jak program poradzi sobie z przemówieniami polskich polityków: Kaczyńskiego, Tuska, Wałęsy i Gierka. Zdecydowanie najlepiej wypadł ten ostatni Fot. Albert Zawada / AG Fot.
Najpierw w komputerowe ucho wpada strumień dźwięków. Z nich program wyławia fonemy - najmniejsze rozróżnialne części mowy. Czasem się myli i np. "hakerów" zmienia na "sery"
W wyniku ataku hakerów duży polski sklep internetowy stracił w trzy dni ponad miliona złotych - czytam, w miarę powoli, artykuł z pierwszej strony "Gazety". Po dwóch minutach komputer wypluwa na ekranie: "W wyniku ataków serów duże polski sklep się do winy to wezwać już się nie ponad milion złotych". Unk to skrót od unknown (z ang. nieznany) - w tym wypadku oznacza, że komputer na podstawie analizy próbek dźwiękowych, nie znalazł w bazie nic, co byłoby zbliżone do fragmentu wypowiedzi. - Poczekaj, ja spróbuję - Paweł Bosky przysuwa się do laptopa, na którym nagrywamy. Powtarza to samo zdanie. Tym razem komputer myli się tylko w jednym miejscu: "trzy dni" zamienia na "szczególnie". Reszta zgadza się co do joty. - Zdecydowanie musisz popracować nad dykcją - mówi Bosky. Mieszka na warszawskiej Pradze, ma 39 lat i nieukończone studia na medycynie oraz psychologii. Na życie zarabia jako menedżer zespołów grających tango i jazz oraz pomysłodawca projektu Przepisywanie.pl, zajmującego się spisywaniem tekstu z nagrań - pracownicy odsłuchują wywiady czy przemówienia i wklepują tekst do komputera. A Bosky pracuje nad SkryBotem, programem, który będzie sam rozpoznawał mowę i automatycznie zamieniał ją na tekst. Jedną z jego wersji testujemy w redakcji "Gazety".

Jak komputer nas słyszy?

Wyrecytować "Ala ma kota" - zdanie z dziecięcego elementarza - to pestka. Ale by bezbłędnie wypowiedzieć: "w Szczebrzeszynie chrząszcz brzmi w trzcinie" - trzeba się już nagimnastykować. Tymczasem z komputerem jest dokładnie na odwrót. Im dłuższe wyrazy, tym większe prawdopodobieństwo, że program właściwie je rozpozna. Aby to zrozumieć, wytłumaczmy - w pewnym uproszczeniu - jak algorytmy rozpoznają mowę. Najpierw w komputerowe ucho wpada strumień dźwięków. Z nich system wyławia tzw. fonemy - najmniejsze rozróżnialne części mowy. Niekiedy utożsamia się je z literami, ale błędnie (np. na papierze litera "t" w wyrazach "trawa" i "trzymać" wygląda jednakowo, ale to dwa różne fonemy). Skąd komputer wie, że jeśli wypowiadamy "a", to powinien zapisać "a"? Za to odpowiada tzw. baza akustyczna języka. Wie, że jeśli usłyszy sygnał o konkretnych parametrach w odpowiednim odcinku czasu (zwykle liczonym w milisekundach), to na ekranie powinno pojawić się np. "a" lub "w". Z ciągu fonemów system buduje poszczególne wyrazy. Powróćmy do zdania "Ala ma kota" - system wie, z jakim prawdopodobieństwem po pierwszym fonemie "a" występuje "l". Wie, jak często zdarza się, że po "l" występuje fonem "a" etc. Ba, ma też wpisane, jak często wyrazy występują obok siebie (np. jakie jest prawdopodobieństwo, że przed "kota" występuje "ma", albo że po "brzmi" wystąpi "w trzcinie"). Łącząc te informacje, zamienia mowę na tekst. Statystyka jest pomocna zwłaszcza wtedy, gdy część nagrania jest niewyraźna. Załóżmy, że w nagraniu pojawia się zwrot "Gazeta Wyborcza". Ale końcówki "eta" komputer nie był w stanie wychwycić za pierwszym podejściem. Wie za to, jak często po "z" występuje "e", a po "gaz" - "eta". Wie też, jak często przed słowem "wyborcza" pada "gazeta". I na tej podstawie jest w stanie wypełnić lukę. Jeśli nie jest, zobaczymy - jak w podanym wyżej przykładzie - "". Lub zamiast hakerów sklep zaatakują sery.

Zbój z MSWiA

- Od momentu, kiedy wystartowało Przepisywanie.pl, zastanawiałem się, jak usprawnić przepisywanie - mówi Bosky. - Wyobrażałem sobie, że da się stworzyć takie algorytmy, które będą w stanie z dużą dokładnością zamieniać nagrania od razu na tekst.

Traf chciał, że zgłosiła się do niego brytyjska firma SoftSound (dziś Autonomy), jedna z czołowych firm na świecie zajmujących się rozpoznawaniem mowy. - Próbowali ugryźć język polski i potrzebowali nagrań z transkrypcjami do opracowania modelu - mówi Bosky. Wtedy poznał pracującego dla SoftSound programistę Lesława Pawlaczyka z Politechniki Śląskiej. - I zorientowałem się, że mam w zasadzie gotowe materiały, by na nich tworzyć własny program.

Rok później Pawlaczyk nie pracował już dla Brytyjczyków, a Bosky złożył mu propozycję wspólnego biznesu. Podział zadań: Pawlaczyk to mózg od algorytmów, Bosky - od strony biznesowej. Prace nad systemem ciągnęły się kilka lat, głównie dlatego, że zajmowali się nim po godzinach.

Pierwsze demo SkryBota powstało na bazie aplikacji open source umożliwiających budowanie modeli językowych - m.in. stworzonego w Cambridge oprogramowania HTK i japońskiego dekodera Julius. Na to nałożyli ponad 20 godzin materiału dźwiękowego z różnych stacji radiowych i telewizyjnych oraz zbudowali własną bazę akustyczną i model języka. Jak zapewnia Bosky, systematycznie uzupełniają bazy SkryBota o nowe materiały.

Im ich więcej, tym program jest w stanie precyzyjniej rozpoznać nagranie. Przeciętnie SkryBot osiąga dziś poziom ok. 80 proc., czyli na 10 wypowiedzianych słów poprawnie na tekst zamieni 8. Gdy w sierpniu spotkaliśmy się po raz pierwszy, rozpoznawał tylko 6.

- Przy niektórych zdaniach to już jest 100 proc. - mówi Bosky.

Przyznaje jednak, że błędy wciąż się zdarzają. Rozpoznawanie mowy jest o tyle trudne, że każdy inaczej mówi, rozkłada akcenty, intonuje. Inaczej mówi kobieta, inaczej mężczyzna. Ktoś się jąka, mamrocze pod nosem, połyka głoski albo je rozwleka. W tym kontekście prezydent z jego "Borubarem" byłby dla SkryBota trudnym przeciwnikiem. Liczy się też jakość nagrania czy ustawienie czułości mikrofonu.

- Sprawdzaliśmy ostatnio, jak program poradzi sobie z przemówieniami polskich polityków: Kaczyńskiego, Tuska, Wałęsy czy Gierka. Zdecydowanie najlepiej wypadł ten ostatni - mówi Bosky.

Ideał to lektor z wyraźną dykcją. Ale nawet tu program potrafi się wyłożyć - w nagraniu z TVN 24 głos kobiecy relacjonuje protesty związków zawodowych na PKP. Wyraz "związkowców" w relacji pojawia się dwukrotnie - dla ludzkiego ucha brzmi identycznie. A SkryBot raz pisze poprawnie, a raz związkowców zamienia na "z piaskowca". Zaś MSWiA zamienia na zbója. - Wciąż się uczymy i udoskonalamy program - mówi Bosky.

iPhone, seks, Einstein i kuchenny zlew

Wbrew pozorom takie błędy są na porządku dziennym. Ostatnio naciął się na tym Google - internetowy gigant udostępnił aplikację na iPhone'a, która umożliwia wyszukiwanie głosem. Wystarczy po angielsku wypowiedzieć frazę, którą chcemy wyszukać, a aplikacja zamienia ją na tekst i wpisuje do okienka wyszukiwarki.

W reklamowym materiale Google pokazuje, jak ich aplikacja poprawnie rozpoznaje zapytanie o zdjęcia mostu Golden Gate czy repertuar kin. Problem pojawił się, gdy zamiast Amerykanów, zaczęli ją testować Brytyjczycy - słowo "iPhone" aplikacja zamieniała na seks, Einsteina czy nawet kuchenny zlew. - Gdy chciałem głosowo wyszukać najbliższą pizzerię, w wynikach wyskoczyło coś o wulkanach - to jeden z przykładów przytaczanych przez "Daily Telegraph".

Przy języku polskim te problemy się potęgują, co potwierdzają choćby doświadczenia Instytutu Monitorowania Mediów - dwa lata temu spółka kupiła system rozpoznawania wielu języków od austriackiej firmy Sail Labs. Głównie do monitoringu stacji zagranicznych, m.in. CNN czy BBC World, ale austriaccy programiści mieli też przygotować algorytmy tak, by radziły sobie z językiem polskim. - W zależności od języka, skuteczność systemu wynosi od 50 do 95 proc. Najlepiej radzi sobie z angielskim - ocenia Anna Sanowska z Instytutu. - Język polski jest rozpoznawany w ok. 75-90 proc., w zależności od jakości sygnału i rodzaju audycji - dodaje. Jest jedno "ale". - Osiągnięcie takich efektów jest możliwe wyłącznie po samodzielnym, intensywnym wzbogaceniu słownika wyrazów do rozpoznawania - mówi Sanowska. Inaczej można uzyskać efekt nawet poniżej 50 proc.

W internecie można się też natknąć na film z prezentacji Microsoftu - jeden z pracowników dyktuje treść listu w edytorze MS Word. Jest nie mniej zabawnie niż przy iPhonie.

Mimo tych wpadek specjaliści są zgodni, że to technologie rozpoznawania mowy będą w ciągu najbliższych lat na topie branży IT. Potencjał rynku pokazuje amerykański Nuance, który jest graczem numer jeden w rozwiązaniach przetwarzających głos na tekst i odwrotnie. W 2007 r. przychody spółki wyniosły 601 mln dol. W tym - już prawie 900 mln dol. A Nuance swoje rozwiązania sprzedaje w sektorze medycznym, bankom, operatorom telekomunikacyjnym czy indywidualnym klientom - w sklepach można nawet kupić cyfrowy odtwarzacz Sony z wbudowanym oprogramowaniem Dragon NaturallySpeaking, które wywiad czy głosowe zapiski zamienia od razu na plik z tekstem.

Co Tusk mówił o podatkach

A to tylko kilka przykładów, do czego można wykorzystać rozpoznawanie mowy. - Można np. wyszukiwać w archiwach stacji radiowej czy telewizyjnej nagrań, w których wystąpiło np. słowo premier czy podatki - mówi Paweł Bosky. - System wyświetla, ile razy dane słowo pojawiło się w audycji i w którym momencie. I pozwala odtworzyć to konkretne miejsce w nagraniu - dodaje.

W ten sposób można by szybko porównać, np. co Donald Tusk mówił o podatkach przed wyborami, a co po. Dokładnie na takiej zasadzie działa Google Audio Indexing, które od września pozwala przeszukiwać filmy dostępne na YouTube. Ale dotyczy to tylko przedwyborczych debat kandydatów na prezydenta USA. Podobną usługę ma też Autonomy - w serwisie Blinkx.com.

- System rozpoznawania mowy można by też zainstalować w centrali telefonicznej. Załóżmy, że nie znam numeru do konkretnej osoby, dzwonię więc na ogólny numer do Agory i mówię: proszę połączyć z Tomaszem Grynkiewiczem - opowiada Bosky. - I system sam mnie połączy. Jego zdaniem tego typu oprogramowanie można stosować w call center operatorów telekomunikacyjnych czy banków. - Używając wyszukiwarki, mogę sprawdzić np. kto z pracowników nigdy nie zaoferował klientowi karty kredytowej albo szybszej Neostrady - mówi Bosky.

Do tego dochodzi np. głosowe wyszukiwanie tras, rozkładu jazdy w PKP albo najbliższego szewca, warsztatu motoryzacyjnego czy sklepu komputerowego.

Bosky szykuje się do pilotażowego wdrożenia SkryBota na Politechnice Śląskiej. - Dzięki temu będzie można szukać konkretnych treści w nagraniach wykładów - mówi Bosky. Możliwościami automatycznego rozpoznawania mowy interesują się też akademie medyczne. - Robią dużo skryptów z wykładów, które potem sprzedają. Dlatego chcą rozpoznawać mowę wykładowców, by przyśpieszyć i uprościć proces przepisywania - dodaje.

Choć SkryBot będzie musiał konkurować z rozwiązaniami firm o znacznie zasobniejszych portfelach, Bosky jest optymistą. Swoją szansę upatruje w tym, że nikt jeszcze nie zrobił takiego systemu, który rozpoznawałby język polski równie skutecznie co angielski. - I prawdopodobnie będziemy w stanie zaproponować klientom tańsze rozwiązania niż konkurencja - dodaje.

Jeśli wszystko pójdzie zgodnie z planem, Bosky chce w przyszłym roku udostępnić SkryBota także indywidualnym użytkownikom. - Myślimy o systemie, który będzie się uczył głosu konkretnej osoby. Użytkownik będzie mógł korygować błędy programu, a ten je zapamięta i następnym razem uwzględni - mówi.

Zobacz więcej na temat:

    Podziel się

    • Ocena:

      • słabe
      • nic specjalnego
      • dobre
      • bardzo dobre
      • znakomite

      0 głosów

    Komentuj, dodawaj zdjęcia i znajomych!