语音识别是诸如家庭自动化,人工智能等多种应用程序中最有用的功能之一。在本节中,我们将了解如何使用Python和Google的Speech API完成语音识别。
在这种情况下,我们将使用麦克风提供音频以进行语音识别。要配置麦克风,有一些参数。
要使用此模块,我们必须安装SpeechRecognition模块。还有另一个名为pyaudio的模块,该模块是可选的。使用此功能,我们可以设置不同的音频模式。
sudo pip3 install SpeechRecognition sudo apt-get install python3-pyaudio
对于外置麦克风或USB麦克风,我们需要提供准确的麦克风,以避免遇到任何困难。在Linux上,如果键入“ lsusb”以显示USB设备的相关信息。
第二个参数是“块大小”。使用此选项,我们可以指定一次要读取多少数据。这将是2的幂,例如1024或2048等。
我们还必须指定采样率,以确定记录数据进行处理的频率。
由于周围可能会有一些不可避免的噪音,因此我们必须调整环境噪音以获取准确的声音。
获取其他与麦克风相关的信息。
使用块大小,采样率,环境噪声调整等配置麦克风。
等待一段时间以获得声音
识别出语音后,请尝试将其转换为文本,否则会引起一些错误。
停止该过程。
import speech_recognition as spreg #Setup the sampling rate and the data size sample_rate = 48000 data_size = 8192 recog = spreg.Recognizer() with spreg.Microphone(sample_rate = sample_rate, chunk_size = data_size) as source: recog.adjust_for_ambient_noise(source) print('Tell Something: ') speech = recog.listen(source) try: text = recog.recognize_google(speech) print('You have said: ' + text) except spreg.UnknownValueError: print('Unable to recognize the audio') except spreg.RequestError as e: print("Request error from Google Speech Recognition service; {}".format(e))
输出结果
$ python3 318.speech_recognition.py Tell Something: You have said: here we are considering the asymptotic notation Pico to calculate the upper bound of the time complexity so then the definition of the big O notation is like this one $
在不使用麦克风的情况下,我们也可以将一些音频文件作为输入将其转换为语音。
import speech_recognition as spreg sound_file = 'sample_audio.wav' recog = spreg.Recognizer() with spreg.AudioFile(sound_file) as source: speech = recog.record(source) #use record instead of listning try: text = recog.recognize_google(speech) print('The file contains: ' + text) except spreg.UnknownValueError: print('Unable to recognize the audio') except spreg.RequestError as e: print("Request error from Google Speech Recognition service; {}".format(e))
输出结果
$ python3 318a.speech_recognition_file.py The file contains: staying ahead of the curve demand planning new technology it also helps you progress in your career $