从零开始构建文本生成 AI 模型从零开始构建文本生成 ai 模型的软件

liebian365 2024-11-13 13:30 23 浏览 0 评论

本文将介绍如何使用 PyTorch 创建一个基于字符的 RNN (Recurrent Neural Network) 文本生成模型。模型将在一个小文本数据集上进行训练，但这些概念和代码可以扩展到更大的数据集和更复杂的模型上。

在继续之前，说明一点：这篇文章的主要目的是为了介绍生成式AI的基本概念和训练步骤。通过提供简单的代码示例，旨在帮助读者建立对生成式 AI 开发过程的初步了解和认识。请注意，这里展示的代码是为了演示目的而简化的，旨在揭示背后的核心原理。希望读完这篇文章后，能帮读者对如何从头开始构建这样的模型有一个基本的理解。

第一步：设置环境

首先，需要安装 PyTorch。PyTorch 是一个流行的开源机器学习库，特别适用于深度学习和神经网络。

pip install torch

第二步：准备数据

为了简单起见，我们使用一个小文本语料库，这是模型训练的基础数据。示例中使用了简短的文本字符串。在真实场景中，会使用更大的数据集。

text = "This is a simple demo text for training our RNN model."

现在，我们需要创建字符到整数的映射（反之亦然），因为神经网络使用数值数据。神经网络不能直接处理文本数据，因此需要将每个字符映射到一个整数。char2int 和 int2char 是用于字符和整数之间相互转换的字典。

chars = tuple(set(text))
int2char = dict(enumerate(chars))
char2int = {ch: ii for ii, ch in int2char.items()}

# 编码文本，将原始文本字符串转换成整数序列，以便能被模型处理。
encoded = [char2int[ch] for ch in text]

第三步：定义模型

我们将使用 PyTorch 定义一个简单的 RNN 模型。

CharRNN 类：这是一个继承自 nn.Module 的类，用于定义循环神经网络模型。
LSTM 层：self.lstm 定义了 LSTM (Long Short-Term Memory) 层，这是一种特殊类型的 RNN，优于普通 RNN，因为它可以避免长期依赖问题。
Dropout 层：self.dropout 用于防止过拟合，通过随机丢弃一些神经元输出。
全连接层：self.fc 是一个全连接层，用于将 LSTM 的输出转换回字符空间。

import torch
import torch.nn as nn

class CharRNN(nn.Module):
    def __init__(self, tokens, n_hidden=256, n_layers=2, drop_prob=0.5):
        super(CharRNN, self).__init__()
        self.drop_prob = drop_prob
        self.n_layers = n_layers
        self.n_hidden = n_hidden
        self.chars = tokens

        self.lstm = nn.LSTM(len(self.chars), n_hidden, n_layers,
                            dropout=drop_prob, batch_first=True)

        self.dropout = nn.Dropout(drop_prob)
        self.fc = nn.Linear(n_hidden, len(self.chars))

    def forward(self, x, hidden):
        r_output, hidden = self.lstm(x, hidden)
        out = self.dropout(r_output)
        out = out.contiguous().view(-1, self.n_hidden)
        out = self.fc(out)

        return out, hidden

    def init_hidden(self, batch_size):
        weight = next(self.parameters()).data
        hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),
                  weight.new(self.n_layers, batch_size, self.n_hidden).zero_())
        return hidden

第四步：训练模型

对于训练，我们将定义一个函数，该函数接收模型、数据、优化器和损失函数，并执行训练过程。

损失函数：使用交叉熵损失 (nn.CrossEntropyLoss)，适用于分类问题。
优化器：使用 Adam 优化器 (torch.optim.Adam)，它结合了 AdaGrad 和 RMSProp 优化器的优点。
训练循环：在每个 epoch 中，模型会遍历数据集中的所有批次。对于每个批次，模型通过前向传播生成输出，计算损失，然后通过反向传播更新权重。

import numpy as np

def train(model, data, epochs=10, batch_size=10, seq_length=50, lr=0.001):
    model.train()

    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)

    # 计算批次总数
    total_batches = len(data) // (batch_size * seq_length)

    # 检查是否有足够的数据来进行至少一个批次的训练
    if total_batches == 0:
        # print("数据量不足，无法进行训练。请增加数据量或减少批次大小。")
        # hard code total_batches for demo
        total_batches = 5

    for epoch in range(epochs):
        hidden = model.init_hidden(batch_size)
        total_loss = 0  # 初始化总损失

        for x, y in get_batches(data, batch_size, seq_length):
            inputs, targets = torch.from_numpy(x), torch.from_numpy(y)

            hidden = tuple([each.data for each in hidden])
            model.zero_grad()

            output, hidden = model(inputs, hidden)
            loss = criterion(output, targets.view(batch_size * seq_length).long())
            loss.backward()
            optimizer.step()

            total_loss += loss.item()

        average_loss = total_loss / total_batches
        print(f'Epoch: {epoch + 1}/{epochs}... Loss: {average_loss}')


# Helper function to create batches
def get_batches(arr, batch_size, seq_length):
    arr = np.array(arr)  # 将列表转换为 NumPy 数组
    total_batch_size = batch_size * seq_length
    n_batches = len(arr) // total_batch_size

    arr = arr[:n_batches * total_batch_size]
    arr = arr.reshape((batch_size, -1))

    for n in range(0, arr.shape[1], seq_length):
        x = arr[:, n:n + seq_length]
        y = np.zeros_like(x)
        try:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, n + seq_length]
        except IndexError:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, 0]
        yield x, y

第五步：运行训练

现在，我们可以初始化我们的模型并开始训练。

初始化模型：创建 CharRNN 实例，指定隐藏层的大小和层数。
执行训练函数：调用 train 函数，传入模型、编码后的数据、训练轮数、批次大小、序列长度和学习率。

n_hidden=512
n_layers=2

model = CharRNN(chars, n_hidden, n_layers)
train(model, encoded, epochs=25, batch_size=128, seq_length=100, lr=0.001)
torch.save(model.state_dict(), 'char_rnn_model.pth')

第六步：使用模型示例

加载训练过的模型

假设我们已经按照前面的步骤训练了模型，并且保存了模型的状态。首先，我们需要加载这个训练过的模型。这里，我们将使用 PyTorch 的保存和加载功能。

# 加载模型
model = CharRNN(chars, n_hidden, n_layers)
model.load_state_dict(torch.load('char_rnn_model.pth'))
model.eval()  # 将模型设置为评估模式

定义文本生成函数

接下来，我们需要定义一个函数来生成文本。这个函数将以一定数量的字符开始，并让模型继续生成文本。

import torch.nn.functional as F

def predict(model, char, h=None, top_k=None):
    if char not in char2int:
        print(f"字符 '{char}' 不在训练集的字符集中。")
        return ' ', h  # 返回空格或其他默认字符

    # 将 char 转换为模型可接受的格式
    x = np.zeros((1, len(chars)), dtype=np.float32)
    x[0, char2int[char]] = 1
    x = torch.from_numpy(x)

    # 为 x 增加一个“批次大小”的维度，转换为浮点型并增加批次大小维度
    x = x.float().unsqueeze(0)  # 现在 x 是浮点型的 3D 张量

    if h is not None:
        h = tuple([each.data for each in h])
    out, h = model(x, h)

    p = F.softmax(out, dim=1).data
    p = p.cpu()  # move to cpu

    # get top characters
    if top_k is not None:
        p, top_ch = p.topk(top_k)
        top_ch = top_ch.numpy().squeeze()
        p = p.numpy().squeeze()
        char = np.random.choice(top_ch, p=p / p.sum())
    else:
        top_ch = np.array(range(len(model.chars)))
        p = p.numpy().squeeze()
        char = np.random.choice(top_ch, p=p)

    return int2char[char], h


def sample(model, size, prime='The', top_k=None):
    model.eval()  # eval mode

    chars = [ch for ch in prime]
    h = model.init_hidden(1)
    for ch in prime:
        char, h = predict(model, ch, h, top_k=top_k)

    chars.append(char)

    for ii in range(size):
        char, h = predict(model, chars[-1], h, top_k=top_k)
        chars.append(char)

    return ''.join(chars)

生成文本

现在我们可以使用我们的模型来生成文本了。可以通过改变 size 参数来控制生成文本的长度，prime 参数用于指定生成文本的开始字符。

print(sample(model, size=100, prime='hello', top_k=5))

在这个示例中，sample 函数首先设置模型为评估模式，然后使用一个起始字符串（在这个例子中是 "Hello"）开始生成文本。predict 函数每次生成一个字符，并且可以使用 top_k 参数来控制字符选择的多样性。

总结

前五个步骤演示了如何使用 PyTorch 训练生成式 AI 模型的基本步骤。关键步骤包括准备数据、定义模型架构和运行训练循环。这只是一个简单的示范，真实场景需要更复杂的数据预处理、模型调优和计算资源。训练生成模型的过程是迭代的，通常涉及微调和实验，以达到期望的性能。

第六步中的代码仅仅展示了文本生成的基本概念。实际应用中，可能需要进一步调整这个过程，以产生更连贯、更有意义的文本。这包括更复杂的状态管理和可能的后处理步骤，以改善生成文本的质量和可读性。

hardcode

上一篇：Dior Homme|梦幻硬核进行曲魔兽世界硬核模式什么时候开国服
下一篇：Instagram 的内容监管机制是什么样的?

从零开始构建文本生成 AI 模型从零开始构建文本生成 ai 模型的软件

第一步：设置环境

第二步：准备数据

第三步：定义模型

第四步：训练模型

第五步：运行训练

第六步：使用模型示例

总结

相关推荐

取消回复欢迎你发表评论:

一个小时多点，完成scrapy爬取官方网站新房的数据，50块到手

C语言char同时读取多个输入字符并打印

爬虫项目:实现京东全网爬虫京东爬虫跳过登录页

C语言总结_格式化打印函数、字符串、运算符

信息系统安全:软件系统安全

嵌入式开发C语言编程的那些编程思路与技巧

volatile很难?由浅入深怼到CPU汇编，彻底搞清楚它的底层原理

volatile详解

民间石子棋玩法，摆方，简单好学，你会吗?

Python玩转Excel，使用Python读取Excel文件如此简单!

从零开始构建文本生成 AI 模型 从零开始构建文本生成 ai 模型的软件

第一步：设置环境

第二步：准备数据

第三步：定义模型

第四步：训练模型

第五步：运行训练

第六步：使用模型示例

总结

相关推荐

取消回复欢迎 你 发表评论:

一个小时多点，完成scrapy爬取官方网站新房的数据，50块到手

C语言char同时读取多个输入字符并打印

爬虫项目:实现京东全网爬虫 京东爬虫跳过登录页

C语言总结_格式化打印函数、字符串、运算符

信息系统安全:软件系统安全

嵌入式开发C语言编程的那些编程思路与技巧

volatile很难?由浅入深怼到CPU汇编，彻底搞清楚它的底层原理

volatile详解

民间石子棋玩法，摆方，简单好学，你会吗?

Python玩转Excel，使用Python读取Excel文件如此简单!

从零开始构建文本生成 AI 模型从零开始构建文本生成 ai 模型的软件

取消回复欢迎你发表评论:

爬虫项目:实现京东全网爬虫京东爬虫跳过登录页