使用Google Speech API在Python中进行语音识别

语音识别是诸如家庭自动化,人工智能等多种应用程序中最有用的功能之一。在本节中,我们将了解如何使用Python和Google的Speech API完成语音识别。

在这种情况下,我们将使用麦克风提供音频以进行语音识别。要配置麦克风,有一些参数。

要使用此模块,我们必须安装SpeechRecognition模块。还有另一个名为pyaudio的模块,该模块是可选的。使用此功能,我们可以设置不同的音频模式。

sudo pip3 install SpeechRecognition
sudo apt-get install python3-pyaudio

对于外置麦克风或USB麦克风,我们需要提供准确的麦克风,以避免遇到任何困难。在Linux上,如果键入“ lsusb”以显示USB设备的相关信息。

第二个参数是“块大小”。使用此选项,我们可以指定一次要读取多少数据。这将是2的幂,例如1024或2048等。

我们还必须指定采样率,以确定记录数据进行处理的频率。

由于周围可能会有一些不可避免的噪音,因此我们必须调整环境噪音以获取准确的声音。

识别语音的步骤

  • 获取其他与麦克风相关的信息。

  • 使用块大小,采样率,环境噪声调整等配置麦克风。

  • 等待一段时间以获得声音

    • 识别出语音后,请尝试将其转换为文本,否则会引起一些错误。

  • 停止该过程。

范例程式码

import speech_recognition as spreg
#Setup the sampling rate and the data size
sample_rate = 48000
data_size = 8192
recog = spreg.Recognizer()
with spreg.Microphone(sample_rate = sample_rate, chunk_size = data_size) as source:
recog.adjust_for_ambient_noise(source)
print('Tell Something: ')
   speech = recog.listen(source)
try:
   text = recog.recognize_google(speech)
   print('You have said: ' + text)
except spreg.UnknownValueError:
   print('Unable to recognize the audio')
except spreg.RequestError as e: 
   print("Request error from Google Speech Recognition service; {}".format(e))

输出结果

$ python3 318.speech_recognition.py
Tell Something: 
You have said: here we are considering the asymptotic notation Pico to calculate the upper bound 
of the time complexity so then the definition of the big O notation is like this one
$

在不使用麦克风的情况下,我们也可以将一些音频文件作为输入将其转换为语音。

范例程式码

import speech_recognition as spreg
sound_file = 'sample_audio.wav'
recog = spreg.Recognizer()
with spreg.AudioFile(sound_file) as source:
   speech = recog.record(source) #use record instead of listning
   try:
      text = recog.recognize_google(speech)
      print('The file contains: ' + text)
   except spreg.UnknownValueError:
      print('Unable to recognize the audio')
   except spreg.RequestError as e: 
      print("Request error from Google Speech Recognition service; {}".format(e))

输出结果

$ python3 318a.speech_recognition_file.py 
The file contains: staying ahead of the curve demand planning new technology it also helps you progress in your career
$