书籍: AI大模型之美

20、TTS与语音合成：让你的机器人拥有声音

你好，我是徐文浩。上一讲里，我们通过Whisper模型，让AI“听懂”了我们在说什么。我们可以利用这个能力，让AI替我们听播客、做小结。不过，这只是我们和AI的单向沟通。那我们能不能更进一步，让AI不仅能“听懂”我们说的话，通过ChatGPT去回答...

你好，我是徐文浩。上一讲里，我们已经学会了通过AI来进行语音合成。有了语音识别、ChatGPT，再加上这个语音合成，我们就可以做一个能和我们语音聊天的机器人了。不过光有声音还不够，我们还希望这个声音可以是某一个特定的人的声音。就好像在电影《Her》...

你好，我是徐文浩。过去几讲里，我们一起为AI加上了语音能力。而且相对于大语言模型，语音识别和语音合成都有完全可以用于商业应用的开源模型。事实上，Huggingface的火爆离不开他们开源的这个Transformers库。这个开源库里有数万个我们可以...

你好，我是徐文浩。前面我们已经学完了文本和音频的部分。接下来，我们就要进入课程的最后一部分，也就是图像模块了。与视觉和语音一样，Transformer架构的模型在过去几年里也逐渐成为了图像领域的一个主流研究方向。自然，发表了GPT和Whisper...

你好，我是徐文浩。 [上一讲]，我们一起体验了CLIP这个多模态的模型。在这个模型里，我们已经能够把一段文本和对应的图片关联起来了。看到文本和图片的关联，想必你也能联想到过去半年非常火热的“文生图”（Text-To-Image）的应用浪潮了。相比于在...

你好，我是徐文浩。上一讲，我们体验了Stable Diffusion这个时下最流行的开源“AI画画”项目，不知道你有没有试着用它画一些你想要的图片呢？不过，如果仅仅是使用预训练好的模型来画图的话，我们对于画出来的图还是缺少必要的控制。这会出现一个常...

你好，我是徐文浩。过去三讲里，我们分别体验了CLIP、Stable Diffusion和ControlNet这三个模型。我们用这些模型来识别图片的内容，或者通过输入一段文本指令来画图。这些模型都是所谓的多模态模型，能够把图片和文本信息联系在一起。 ...

你好，我是徐文浩。学到这里，这个课程终于到了尾声。过去的二十多讲里，我们围绕着文本、语音、视频、图像体验了大量的AI应用场景。不过在这些场景里，我们还只是通过撰写代码体验了AI的能力。那么，如果我们今天想通过学习到的这些知识，开发一个真正的AI应用...

你好，我是徐文浩。过去一年，是整个AI领域风驰电掣的一年。希望「AI大模型之美」这门课程，让你对大模型领域有了一个完整的认识。而随着AI大模型领域的进一步发展，无论是OpenAI开放的API能力，还是开源领域百花齐放的各种模型，都有了长足的进步和发...

你好，我是徐文浩。在去年的课程里，我们就说过，像GPT这样的大语言模型，其实并不是全知全能的。无论是简单的算术题，还是想要获取实时的外部信息，如果直接让GPT给出答案，往往会得到错误的结果。对于这类问题，一个常见的解决方案就是把大语言模型和自己撰...