Technologie głosowe
Najczęściej zadawane pytania
Co to są sieci neuronowe i dlaczego są one użyteczne w rozpoznawaniu głosu?
Sieci neuronowe są dedykowanym i złożonym modelem matematycznym używanym w obszarze uczenia maszynowego i sztucznej inteligencji. Sieci neuronowe najlepiej się sprawdzają w rozwiązaniach wymagających sztucznej inteligencji jak: rozpoznawanie obrazów, rozpoznawanie mowy, tłumaczenie z 1 języka na drugi). Struktura sieci neuronowej jest inspirowana przez structure ludzkiej sieci neuronowej – mózgu. Sieć neuronowa składa się z wielkiej liczby małych jednostek obliczeniowych (neuronów) które są połączone szeregowo i równolegle. Tak jak mózg, sieć ma zdolność do uczenia się, wagi połączeń pomiędzy poszczególnymi neuronami są dostosowywane w sieci neuronowej w ramach samouczenia się. Neuron wysyła sygnał do swojej warstwy neuronów tylko gdy suma sygnałów wejściowych, pomnożona przez wagi przekracza wartość wyzwolenia impulse.
Jakie są zalety korzystania z sieci neuronowych w rozpoznawaniu mowy w porównaniu z standardowymi rozwiązaniami?
System uczenia maszynowego za pomocą sieci neuronowych oferuje znacznie większą dokładność rozpoznawania mowy. Jest to szczególnie widoczne w trudnych warunkach, np. podczas transkrypcji skompresowanego nagrania, z nadmiernym hałasem w tle, kiedy dźwięk został nagrany z większej odległości itp. W takich przypadkach sieć neuronowa jest znacznie bardziej niezawodna, a jakość rozpoznawania mowy jest wyższa niż w przypadku klasycznych algorytmów.
Czy system rozpoznawania mowy może się uczyć samodzielnie?
Z punktu widzenia teorii uczenia maszynowego, jedną z zalet sieci neuronowych jest to, że jeśli są wystarczająco głębokie, sieć jest w stanie stworzyć nowe powiązania między warstwami, co daje o wiele większe możliwości niż poprzez zastosowanie najbardziej wyrafinowych transformacji i algorytmów ale nie opartych o sieci neuronowe. Jednak wymaga to odpowiedniego zbudowania sieci neuronowej oraz przeprowadzenia żmudnego i głębokiego procesu uczenia. Należy pamiętać, że żaden system nie może uczyć się całkowicie samodzielnie. Zawsze musi być nauczyciel, aby móc się uczyć.
Jak ważne są ulepszenia wprowadzone przez sieci neuronowe i gdzie one występują?
W idealnych warunkach, w których nawet klasyczny algorytm działał dobrze, możemy oczekiwać względnego spadku poziomu błędu o 10% – 20% przy zastosowania sieci neuronowej. Może to zwiększyć dokładność z 90% do 91% lub 92%. W trudnych warunkach, w których poprzedni system funkcjonował, np. z dokładnością tylko 40% – 60%, możemy teraz oczekiwać znacznie lepszych wyników, np. około 80%.
Jak wygląda proces „uczenia się” w sieciach neuronowych i jak długo to trwa?
Nauka przy pomocy kilkuset godzin nagrań głosowych dla 1 słownika trwa około 24 godzin przy użyciu najbardziej wydajnej karty graficznej udostępniającej maksymalną moc obliczeniową.
NEWTON Dictate
Wszystko, co musisz wiedzieć o programie automatycznego rozpoznawania mowy.
Jaka jest różnica między programem NEWTON Dictate a usługą do transkrypcji nagrań?
NEWTON Dictate jest najbardziej doceniany przez tych, którzy chcą zapisywać notatki, tworzyć dokumenty lub dyktować tekst napisany wcześniej ręcznie. Natomiast usługa do transkrypcji nagrań jest najlepiej przystosowana do rozpoznawania wcześniej nagranych plików dźwiękowych (takich jak nagrania własne czy nagrania wywiadów, spotkania itp.). Nagrania najlepiej transkrybować za pomocą naszego programu NEWTON SpeechGrid.
Co mogę dyktować przy użyciu programu NEWTON Dictate?
NEWTON Dictate jest przeznaczony do dyktowania ogólnych i branżowych tekstów. Jest dostępny w języku czeskim, słowackim, polskim i chorwackim.
Jaka jest minimalna zalecana konfiguracja komputera potrzebna do prawidłowego działania programu Newton Dictate ?
Program wymaga komputera z procesorem min. Intel Core i5 (1,7 GHz i więcej), 8 GB pamięci RAM i mikrofon.
Obsługiwany system operacyjny: Microsoft Windows 10, 8 i 7 32-bitowy lub 64-bitowy. Instalacja: Microsoft .NET 4 (jest dołączona do pakietu lub dostępna do pobrania pod adresem http://www.microsoft.com/net/). Wymagana ilość miejsca na dysku twardym (pomiędzy 600 MB a 2 GB). Standardowa karta dźwiękowa obsługująca częstotliwość próbkowania 16 kHz, z 16-bitową rozdzielczością. Program będzie również działał na komputerach o niższej wydajności, ale w takim przypadku wystąpi opóźnienie w procesie rozpoznawania.
Czy mogę używać dowolnego mikrofonu do dyktowania?
W przypadku dyktowania zaleca się użycie tak zwanego mikrofonu kierunkowego, który w przeciwieństwie do mikrofonu wewnętrznego komputera będzie rejestrował wyłącznie dźwięki w jego bezpośrednim sąsiedztwie. Wysokiej jakości mikrofon znajduje się również w pakiecie NEWTON Dictate.
Co napisze program, jeśli podyktuję słowo, które nie znajduje się w słowniku Newtona Dictate?
Aplikacja zawsze stara się rozpoznać cały dyktando. W związku z tym nieznane słowa nie są pozostawione jako puste miejsca, ale zastępowane są przez coś, co jest uważane za fonetycznie najbardziej podobny wariant. Jeśli chcesz dyktować nieznane słowo wielokrotnie, możesz dodać je do słownika użytkownika. Aplikacja nauczy się słowa i rozpozna je w następnym dyktandzie.
Z jakich formatów mogę korzystać, aby zapisać wynikowy tekst?
Rozpoznany tekst można zapisać w standardowym formacie RTF lub TXT. Aplikacja zachowuje również nagranie dźwiękowe dyktanda, które można następnie eksportować w formatach MP3, WAV lub SPX. Jeśli chcesz kontynuować pracę z nagrywaniem tekstu i dźwięku w NEWTON Dictate, program umożliwia zapisanie całego dokumentu w formacie TTAX.
Co, jeśli potrzebuję, aby mój dyktowany tekst został napisany bezpośrednio do innego programu?
Jeśli chcesz, aby NEWTON Dyktować przepisał dyktando bezpośrednio do innego programu, możesz użyć funkcji „MINI”, która zapisuje dyktowany tekst w bieżącej lokalizacji kursora myszy. Dzięki temu możesz dyktować do dowolnej aplikacji lub nawet do okna przeglądarki internetowej czy aplikacji komunikacyjnej.
Co powinienem zrobić, jeśli program mnie nie rozumie?
Jeśli program ma problem z rozpoznaniem mowy, najpierw sprawdź, czy mikrofon jest wybrany w ustawieniach i czy jest prawidłowo umieszczony przed ustami. Samouczek wprowadzający do programu przeprowadzi Cię krok po kroku przez ustawienia mikrofonu. Nieprawidłowo ustawiony mikrofon jest najczęstszą przyczyną problemów z funkcjonowaniem programu.
Czy mogę dyktować, jeśli mam drobną wadę mowy?
Tak, program automatycznie dostosuje się do głosu każdego nowego użytkownika i jest w stanie wyeliminować efekty mniejszych wad mowy, takich jak niemożność prawidłowego wymówienia dźwięku r.
NEWTON SpeechGrid
Najczęściej zadawane pytania dotyczące rozwiązań do transkrypcji nagrań
Jak mogę wypróbować technologię SpeechGrid?
Jak działa NTeX
Napisz do nas. Skontaktujemy się z Tobą niezwłocznie.Lub po prostu zadzwoń.
Projekty/Produkty/Informacje ogólne/Zapoznanie się z produktami:
NEWTON Technologies, a.s.
Na Pankráci 1683/127
140 00 Praha 4
Czech Republic
IČ: 28479777
DIČ: CZ28479777
Email: [email protected]
Zapoznałem się I akceptuję Politykę Prywatności i oświadczem, że Administrator wywiązał się wobec mnie z obowiązku informacyjnego wynikającego z art. 13 RODO.