English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
음성 인식은 가정 자동화, 인공지능 등 다양한 애플리케이션에서 가장 유용한 기능 중 하나입니다. 이 장에서는 Python과 Google의 Speech API를 사용하여 음성 인식을 수행하는 방법을 배울 것입니다.
이 경우, 마이크로폰을 사용하여 음성 인식에音频를 제공하겠습니다. 마이크를 구성하려면 몇 가지 매개변수가 있습니다.
이 모듈을 사용하려면 SpeechRecognition 모듈을 설치해야 합니다. 또 다른 이름으로 pyaudio 모듈이 있습니다. 이 모듈은 선택 사항입니다. 이 기능을 사용하여 다른 오디오 모드를 설정할 수 있습니다.
sudo pip3 install SpeechRecognition sudo apt-get install python3-pyaudio
외부 마이크나 USB 마이크의 경우, 어려움을 피하기 위해 정확한 마이크를 제공해야 합니다. Linux에서는 "lsusb"를 입력하여 USB 장치와 관련된 정보를 표시합니다.
두 번째 매개변수는 "블록 크기"입니다. 이 옵션을 사용하여 한 번에 얼마나 많은 데이터를 읽을지 지정할 수 있습니다. 이것은2의 권수, 예를 들어1024또는2048등.
또한 샘플 rate를 지정하여 기록된 데이터 처리 주파수를 결정해야 합니다.
가까운 주변에 피할 수 없는 소음이 있을 수 있으므로, 정확한 소리를 얻기 위해 환경 소음을 조정해야 합니다.
마이크로폰과 관련된 다른 정보를 얻습니다.
블록 크기, 샘플 rate, 환경 노이즈 조정 등 설정을 사용하여 마이크로폰을 사용하십시오.
한동안 기다려 소리를 얻으십시오
음성을 인식한 후, 텍스트로 변환하려면 하지 않으면 일부 오류가 발생할 수 있습니다.
정지하십시오.
import speech_recognition as spreg #Setup the sampling rate and the data size sample_rate = 48000 data_size = 8192 recog = spreg.Recognizer() with spreg.Microphone(sample_rate = sample_rate, chunk_size = data_size) as source: recog.adjust_for_ambient_noise(source) Tell Something: speech = recog.listen(source) try: text = recog.recognize_google(speech) print('당신이 말한 것은: ') + text) except spreg.UnknownValueError: print('오디오를 인식할 수 없음') except spreg.RequestError as e: print("Google Speech Recognition 서비스에서 요청 오류; {}".format(e))
출력 결과
$ python3 318.speech_recognition.py 점유하다: 당신은 다음과 같은 극한 표기법 Pico를 사용하여 상한을 계산하고 있다고 말했습니다 의 시간 복잡성이 따라서 big O 표기법의 정의는 다음과 같습니다 $
麦克风中 사용하지 않더라도, 일부 오디오 파일을 입력으로 사용하여 음성으로 변환할 수 있습니다.
import speech_recognition as spreg sound_file = 'sample_audio.wav' recog = spreg.Recognizer() with spreg.AudioFile(sound_file) as source: speech = recog.record(source) # record 대신 사용 try: text = recog.recognize_google(speech) print('파일에는 다음과 같은 내용이 포함되어 있습니다: ') + text) except spreg.UnknownValueError: print('오디오를 인식할 수 없음') except spreg.RequestError as e: print("Google Speech Recognition 서비스에서 요청 오류; {}".format(e))
출력 결과
$ python3 318speech_recognition_file.py 파일에는 다음과 같은 내용이 포함되어 있습니다: curving demand planning, 새로운 기술, 이는 당신의 경력에서도 진행을 돕습니다 $