把最近新出的GPT变成语音助手的教程来了

7 叮咚 2年前 3519次点击

这个教程也是GPT帮我写出来的，看起来还是挺详细的，就是我都看不懂，只有最前面的文字说明能看懂

我把那个打包成了一个文本给他发上来，要不然那个东西非常长，应该发布到社区上来

他这个好像用不了，用那个解析，好像出现了编码错误导致乱码，我还是直接复制上来吧，应该能装得下，他这个最大字数好像是5000字，那个是4100字

本流程：

1. 在语音助手中收到用户的语音指令。

2. 将语音指令传递给讯飞语音引擎，进行语音识别。

3. 获取用户的文本指令后，将其输入到GPT模型中进行处理。

4. 获取模型的输出结果，进行文本合成，调用微软TTS引擎，将结果合成为语音结果。

5. 通过语音助手播放语音输出结果。

步骤：

1. 安装相应的Python第三方库，如Microsoft OneNote SDK、讯飞语音引擎SDK等。

2. 完成微软TTS和讯飞语音引擎的配置和授权。

3. 编写程序，建立语音助手和GPT-3模型之间的桥梁。通过获取用户的语音指令，将其转换为文本指令，并将其输入到GPT-3模型中进行处理。同时，将输出的文本结果转换为语音结果，通过语音助手播放出来。

下面是一份py代码参考：

```python

import azure.cognitiveservices.speech as speechsdk

import requests

import pyaudio

import wave

import time

from aip import AipSpeech

import openai

# 使用OpenAI的GPT-3 API

openai.api_key = "YOUR_API_KEY"

# 讯飞语音识别API的参数

APP_ID = 'YOUR_APP_ID'

API_KEY = 'YOUR_API_KEY'

SECRET_KEY = 'YOUR_SECRET_KEY'

# Microsoft Azure TTS API的参数

AZURE_TTS_KEY = 'YOUR_TTS_KEY'

AZURE_TTS_REGION = 'YOUR_TTS_REGION'

# 讯飞语音识别API的函数

def recognize_voice(wav_file):

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

with open(wav_file, 'rb') as fp:

result = client.asr(fp.read(), 'wav', 16000, {

'dev_pid': 1536,

})

if result['err_no'] == 0:

return result['result'][0]

else:

return ""

# 微软Azure TTS API的函数，返回语音结果的二进制数据

def text_to_speech(text, language_code='en-US', voice_name='Microsoft Server Speech Text to Speech Voice (en-US, Guy24KRUS)'):

speech_config = speechsdk.SpeechConfig(subscription=AZURE_TTS_KEY, region=AZURE_TTS_REGION, speech_synthesis_language=language_code)

audio_output_config = speechsdk.AudioOutputConfig(use_default_speaker=True)

# 选择语音类型

voice = speechsdk.VoiceSelectionParams(voice_id=voice_name)

# 生成语音

synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_output_config)

result = synthesizer.speak_text_async(text).get()

if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:

return result.audio_data

else:

return ""

# 录音函数，返回.wav文件路径

def record_audio():

CHUNK = 1024

FORMAT = pyaudio.paInt16

CHANNELS = 1

RATE = 16000

RECORD_SECONDS = 5

WAVE_OUTPUT_FILENAME = "input.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)

print("Recording...")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):

data = stream.read(CHUNK)

frames.append(data)

print("Done recording.")

stream.stop_stream()

stream.close()

p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')

wf.setnchannels(CHANNELS)

wf.setsampwidth(p.get_sample_size(FORMAT))

wf.setframerate(RATE)

wf.writeframes(b''.join(frames))

wf.close()

return WAVE_OUTPUT_FILENAME

# 将文本发送给GPT-3进行处理

def send_to_gpt(text):

response = openai.Completion.create(engine="davinci", prompt=text, max_tokens=1024, n=1,

stop=None, temperature=0.5)

return response.choices[0].text.strip()

# 主函数，完成整个语音助手的流程

def main():

while True:

# 录音并进行语音识别

wav_file = record_audio()

command = recognize_voice(wav_file)

print("User said: " + command)

# 将指令发送给GPT-3进行处理

gpt_result = send_to_gpt(command)

# 将文本结果转换成语音结果并播放

text_to_speech(gpt_result)

time.sleep(1)

if __name__ == '__main__':

main()

```

参考资料：

- [OpenAI GPT-3 API](https://beta.openai.com/docs/api-reference/introduction)

- [讯飞语音识别API](https://www.xfyun.cn/services/voice)

- [Microsoft Azure TTS API](https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-text-to-speech) [Python Speech Recognition Library](https://pypi.org/project/SpeechRecognition/)

- [Python Wave Library](https://docs.python.org/3/library/wave.html)

- [Python PyAudio Library](https://pypi.org/project/PyAudio/)

- [Python Requests Library](https://pypi.org/project/requests/)

- [Python Microsoft OneNote SDK](https://github.com/OneNoteDev/OneNote-SDK-Python)

- [Python Baidu AIP SDK](https://pypi.org/project/baidu-aip/)

- [Python Microsoft Azure SDK](https://pypi.org/project/azure-cognitiveservices-speech/)

需要注意的是，这只是一个简单的参考实现，实际开发需要根据实际情况进行定制化。同时，涉及到多个API的配置和授权，需要在相应平台上进行申请和设置，保证安全和合规。

玩机互助

共 2 条评论

时光倒流 2年前

不错不错哦，感谢楼主的分享

苏杭 2年前

操作的时候弄不了。

添加一条新评论

登录后可以发表评论去登录

作者

叮咚

积分：7758

这家伙很懒，什么都没有留下

作者其它话题

说一个有意思的功能，看能不能实现

发现一种新的游戏形式

分享一些特殊搜索方法，再也不怕软件没搜索功能了