Maszynowe tłumaczenie Bazy Wiedzy (KB)

Zapewne duża część moich czytelników natknęła się - po pierwsze na pojęcie Bazy Wiedzy Microsoft (Knowledge Base = KB), a po drugie na automatycznie przetłumaczone artykuły w tej bazie. Słyszałem wiele uwag co do tego tłumaczenia i spróbuję kilka rzeczy wyjaśnić i zaproponować Wam pewną alternatywę, która będzie dostępna już wkrótce.

Wiele jest słów krytyki takich jak post Bartosza Pampucha na Facebook (+ jego apel):

"Microsoft, nie tlumaczcie automatem artykulow KB!!!"

Dlaczego tak się dzieje i co się wkrótce zmieni? Już tłumaczę...

Co to jest tłumaczenie maszynowe (MT)?

Tłumaczenie maszynowe (Machine Translation = MT) to technologia Microsoft Research, która pozwala korzystać z mechanizmów translatora automatycznego do tłumaczenia artykułów z bazy wiedzy na język polski. Takie artykuły możecie łatwo poznać, bo oznaczane są ikonką kół zębatych: .

Oczywiście jakość takiego tłumaczenia nigdy nie dorówna tłumaczeniu profesjonalnemu, które robione jest przez człowieka. Niemniej jednak Microsoft podjął decyzję, że część artykułów Bazy Wiedzy powinna zostać przetłumaczona maszynowo.

Pierwszym językiem maszynowo tłumaczonym był hiszpański (w 2003 roku). Aktualnie w ten sposób obsługiwane jest 27 języków na całym świecie i dotyczy to ponad 2 milionów artykułów Bazy Wiedzy.

Dla Polski wprowadzono taką opcję już jakiś czas temu. Tłumaczeniem maszynowym objęte są tylko artykuły dla konsumentów, te dla specjalistów powinny pozostać oryginalne (jeśli znaleźliście takie sytuacje to dajcie znać). A generalnie założenie jest takie, aby jakość tego tłumaczenia wystarczała do zrozumienia tekstu przez osoby nie znające języka angielskiego.

Bo oczywiście ktoś kto zna język angielski może wyłączyć takie tłumaczenie (po prawej stronie danego artykułu lub na dole) i widzieć artykuły w języku oryginalnym, czyli angielskim. I jest to nawet bardzo wskazane, bo takie tłumaczenie dla osoby znającej angielski będzie zupełnie niewystarczające i bezużyteczne.

Jak rozpoznać, czy dana pozycja jest tłumaczona automatycznie? U góry każdego przetłumaczonego maszynowo artykułu z bazy wiedzy pojawia się ostrzeżenie:

Jako ciekawostkę powiem Wam, że na Bazie Wiedzy prowadzone są ankiety dla osób ją odwiedzających (na dole każdego artykułu). I to zarówno jeśli chodzi o teksty tłumaczone ręcznie (zawodowo, przez tłumaczy) jak i te tłumaczone maszynowo. Okazuje się, że różnica w satysfakcji z artykułów to tylko 10 punktów procentowych.

I owszem zgadzam się z tym, że trafiają się artykuły przetłumaczone kiepsko... Niestety przy takiej skali to faktycznie możliwe, zwłaszcza, że sam mechanizm tłumaczenia będzie tym lepszy im więcej materiału porównawczego będzie miał - a tego w języku polskim jest stosunkowo niewiele. Ale mam pewną niespodziankę...

Rozwiązanie - zgłoś poprawki!

Mam dla Was ciekawą wiadomość dotyczącą tłumaczenia maszynowego. Otóż na początku lipca ruszy pilotażowy program na stronach polskiej Bazy Wiedzy, gdzie dla wszystkich artykułów tłumaczonych maszynowo będzie można bardzo szybko zgłosić swoje poprawki.

Poprawki takie będzie można zgłaszać bezpośrednio z danej strony i nie będzie konieczności instalowania żadnego oprogramowania - po prostu w wyskakującym okienku trzeba będzie podać sugerowane poprawne tłumaczenie określonej frazy, akapitu czy tekstu.

Tak poprawione teksty trafiać będą do moderacji, która będzie mogła zatwierdzać lub odrzucać dane propozycje - powinno to przyspieszyć zarówno proces poprawiania błędów jak też i uczenia się silnika translacyjnego (o czym pisałem wyżej).

Ale to nie wszystko! Wybrane przez lokalny oddział Microsoft osoby będą mogły otrzymać możliwość wprowadzania takich poprawek bez konieczności ich moderacji przez kogoś z Microsoft!!! Czyli to wszystko, co taka osoba wprowadzi jako sugestię zmian - pojawi się od razu online i będzie widoczne dla wszystkich.

I tu mam ciekawą propozycję - jeśli ktoś z moich czytelników chciałby otrzymać takie uprawnienia moderatora - to zachęcam do odezwania się do mnie mailowo (na adres mariusz.kedziora@microsoft.com najlepiej z tematem "Machine Translation - Poland").

Mam nadzieję, że pilotażowy program przyjmie się i będziecie zadowoleni z jego efektów oraz sami będziecie mogli mieć wpływ na wygląd takich artykułów.