百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

从零开始构建文本生成 AI 模型 从零开始构建文本生成 ai 模型的软件

liebian365 2024-11-13 13:30 23 浏览 0 评论

本文将介绍如何使用 PyTorch 创建一个基于字符的 RNN (Recurrent Neural Network) 文本生成模型。模型将在一个小文本数据集上进行训练,但这些概念和代码可以扩展到更大的数据集和更复杂的模型上。


在继续之前,说明一点:这篇文章的主要目的是为了介绍生成式AI的基本概念和训练步骤。通过提供简单的代码示例,旨在帮助读者建立对生成式 AI 开发过程的初步了解和认识。请注意,这里展示的代码是为了演示目的而简化的,旨在揭示背后的核心原理。希望读完这篇文章后,能帮读者对如何从头开始构建这样的模型有一个基本的理解。

第一步:设置环境

首先,需要安装 PyTorch。PyTorch 是一个流行的开源机器学习库,特别适用于深度学习和神经网络。

pip install torch

第二步:准备数据

为了简单起见,我们使用一个小文本语料库,这是模型训练的基础数据。示例中使用了简短的文本字符串。在真实场景中,会使用更大的数据集。

text = "This is a simple demo text for training our RNN model."

现在,我们需要创建字符到整数的映射(反之亦然),因为神经网络使用数值数据。神经网络不能直接处理文本数据,因此需要将每个字符映射到一个整数。char2intint2char 是用于字符和整数之间相互转换的字典。

chars = tuple(set(text))
int2char = dict(enumerate(chars))
char2int = {ch: ii for ii, ch in int2char.items()}

# 编码文本,将原始文本字符串转换成整数序列,以便能被模型处理。
encoded = [char2int[ch] for ch in text]

第三步:定义模型

我们将使用 PyTorch 定义一个简单的 RNN 模型。

  • CharRNN 类:这是一个继承自 nn.Module 的类,用于定义循环神经网络模型。
  • LSTM 层self.lstm 定义了 LSTM (Long Short-Term Memory) 层,这是一种特殊类型的 RNN,优于普通 RNN,因为它可以避免长期依赖问题。
  • Dropout 层self.dropout 用于防止过拟合,通过随机丢弃一些神经元输出。
  • 全连接层self.fc 是一个全连接层,用于将 LSTM 的输出转换回字符空间。
import torch
import torch.nn as nn

class CharRNN(nn.Module):
    def __init__(self, tokens, n_hidden=256, n_layers=2, drop_prob=0.5):
        super(CharRNN, self).__init__()
        self.drop_prob = drop_prob
        self.n_layers = n_layers
        self.n_hidden = n_hidden
        self.chars = tokens

        self.lstm = nn.LSTM(len(self.chars), n_hidden, n_layers,
                            dropout=drop_prob, batch_first=True)

        self.dropout = nn.Dropout(drop_prob)
        self.fc = nn.Linear(n_hidden, len(self.chars))

    def forward(self, x, hidden):
        r_output, hidden = self.lstm(x, hidden)
        out = self.dropout(r_output)
        out = out.contiguous().view(-1, self.n_hidden)
        out = self.fc(out)

        return out, hidden

    def init_hidden(self, batch_size):
        weight = next(self.parameters()).data
        hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),
                  weight.new(self.n_layers, batch_size, self.n_hidden).zero_())
        return hidden

第四步:训练模型

对于训练,我们将定义一个函数,该函数接收模型、数据、优化器和损失函数,并执行训练过程。

  • 损失函数:使用交叉熵损失 (nn.CrossEntropyLoss),适用于分类问题。
  • 优化器:使用 Adam 优化器 (torch.optim.Adam),它结合了 AdaGrad 和 RMSProp 优化器的优点。
  • 训练循环:在每个 epoch 中,模型会遍历数据集中的所有批次。对于每个批次,模型通过前向传播生成输出,计算损失,然后通过反向传播更新权重。
import numpy as np

def train(model, data, epochs=10, batch_size=10, seq_length=50, lr=0.001):
    model.train()

    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)

    # 计算批次总数
    total_batches = len(data) // (batch_size * seq_length)

    # 检查是否有足够的数据来进行至少一个批次的训练
    if total_batches == 0:
        # print("数据量不足,无法进行训练。请增加数据量或减少批次大小。")
        # hard code total_batches for demo
        total_batches = 5

    for epoch in range(epochs):
        hidden = model.init_hidden(batch_size)
        total_loss = 0  # 初始化总损失

        for x, y in get_batches(data, batch_size, seq_length):
            inputs, targets = torch.from_numpy(x), torch.from_numpy(y)

            hidden = tuple([each.data for each in hidden])
            model.zero_grad()

            output, hidden = model(inputs, hidden)
            loss = criterion(output, targets.view(batch_size * seq_length).long())
            loss.backward()
            optimizer.step()

            total_loss += loss.item()

        average_loss = total_loss / total_batches
        print(f'Epoch: {epoch + 1}/{epochs}... Loss: {average_loss}')


# Helper function to create batches
def get_batches(arr, batch_size, seq_length):
    arr = np.array(arr)  # 将列表转换为 NumPy 数组
    total_batch_size = batch_size * seq_length
    n_batches = len(arr) // total_batch_size

    arr = arr[:n_batches * total_batch_size]
    arr = arr.reshape((batch_size, -1))

    for n in range(0, arr.shape[1], seq_length):
        x = arr[:, n:n + seq_length]
        y = np.zeros_like(x)
        try:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, n + seq_length]
        except IndexError:
            y[:, :-1], y[:, -1] = x[:, 1:], arr[:, 0]
        yield x, y

   

第五步:运行训练

现在,我们可以初始化我们的模型并开始训练。

  • 初始化模型:创建 CharRNN 实例,指定隐藏层的大小和层数。
  • 执行训练函数:调用 train 函数,传入模型、编码后的数据、训练轮数、批次大小、序列长度和学习率。
n_hidden=512
n_layers=2

model = CharRNN(chars, n_hidden, n_layers)
train(model, encoded, epochs=25, batch_size=128, seq_length=100, lr=0.001)
torch.save(model.state_dict(), 'char_rnn_model.pth')

第六步:使用模型示例

加载训练过的模型

假设我们已经按照前面的步骤训练了模型,并且保存了模型的状态。首先,我们需要加载这个训练过的模型。这里,我们将使用 PyTorch 的保存和加载功能。

# 加载模型
model = CharRNN(chars, n_hidden, n_layers)
model.load_state_dict(torch.load('char_rnn_model.pth'))
model.eval()  # 将模型设置为评估模式

定义文本生成函数

接下来,我们需要定义一个函数来生成文本。这个函数将以一定数量的字符开始,并让模型继续生成文本。

import torch.nn.functional as F

def predict(model, char, h=None, top_k=None):
    if char not in char2int:
        print(f"字符 '{char}' 不在训练集的字符集中。")
        return ' ', h  # 返回空格或其他默认字符

    # 将 char 转换为模型可接受的格式
    x = np.zeros((1, len(chars)), dtype=np.float32)
    x[0, char2int[char]] = 1
    x = torch.from_numpy(x)

    # 为 x 增加一个“批次大小”的维度,转换为浮点型并增加批次大小维度
    x = x.float().unsqueeze(0)  # 现在 x 是浮点型的 3D 张量

    if h is not None:
        h = tuple([each.data for each in h])
    out, h = model(x, h)

    p = F.softmax(out, dim=1).data
    p = p.cpu()  # move to cpu

    # get top characters
    if top_k is not None:
        p, top_ch = p.topk(top_k)
        top_ch = top_ch.numpy().squeeze()
        p = p.numpy().squeeze()
        char = np.random.choice(top_ch, p=p / p.sum())
    else:
        top_ch = np.array(range(len(model.chars)))
        p = p.numpy().squeeze()
        char = np.random.choice(top_ch, p=p)

    return int2char[char], h


def sample(model, size, prime='The', top_k=None):
    model.eval()  # eval mode

    chars = [ch for ch in prime]
    h = model.init_hidden(1)
    for ch in prime:
        char, h = predict(model, ch, h, top_k=top_k)

    chars.append(char)

    for ii in range(size):
        char, h = predict(model, chars[-1], h, top_k=top_k)
        chars.append(char)

    return ''.join(chars)

生成文本

现在我们可以使用我们的模型来生成文本了。可以通过改变 size 参数来控制生成文本的长度,prime 参数用于指定生成文本的开始字符。

print(sample(model, size=100, prime='hello', top_k=5))

在这个示例中,sample 函数首先设置模型为评估模式,然后使用一个起始字符串(在这个例子中是 "Hello")开始生成文本。predict 函数每次生成一个字符,并且可以使用 top_k 参数来控制字符选择的多样性。

总结

前五个步骤演示了如何使用 PyTorch 训练生成式 AI 模型的基本步骤。关键步骤包括准备数据、定义模型架构和运行训练循环。这只是一个简单的示范,真实场景需要更复杂的数据预处理、模型调优和计算资源。训练生成模型的过程是迭代的,通常涉及微调和实验,以达到期望的性能。

第六步中的代码仅仅展示了文本生成的基本概念。实际应用中,可能需要进一步调整这个过程,以产生更连贯、更有意义的文本。这包括更复杂的状态管理和可能的后处理步骤,以改善生成文本的质量和可读性。

相关推荐

4万多吨豪华游轮遇险 竟是因为这个原因……

(观察者网讯)4.7万吨豪华游轮搁浅,竟是因为油量太低?据观察者网此前报道,挪威游轮“维京天空”号上周六(23日)在挪威近海发生引擎故障搁浅。船上载有1300多人,其中28人受伤住院。经过数天的调...

“菜鸟黑客”必用兵器之“渗透测试篇二”

"菜鸟黑客"必用兵器之"渗透测试篇二"上篇文章主要针对伙伴们对"渗透测试"应该如何学习?"渗透测试"的基本流程?本篇文章继续上次的分享,接着介绍一下黑客们常用的渗透测试工具有哪些?以及用实验环境让大家...

科幻春晚丨《震动羽翼说“Hello”》两万年星间飞行,探测器对地球的最终告白

作者|藤井太洋译者|祝力新【编者按】2021年科幻春晚的最后一篇小说,来自大家喜爱的日本科幻作家藤井太洋。小说将视角放在一颗太空探测器上,延续了他一贯的浪漫风格。...

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

作者:麦子KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。你需要了解你的分子目前已有哪些...

知存科技王绍迪:突破存储墙瓶颈,详解存算一体架构优势

智东西(公众号:zhidxcom)编辑|韦世玮智东西6月5日消息,近日,在落幕不久的GTIC2021嵌入式AI创新峰会上,知存科技CEO王绍迪博士以《存算一体AI芯片:AIoT设备的算力新选择》...

每日新闻播报(September 14)_每日新闻播报英文

AnOscarstatuestandscoveredwithplasticduringpreparationsleadinguptothe87thAcademyAward...

香港新巴城巴开放实时到站数据 供科技界研发使用

中新网3月22日电据香港《明报》报道,香港特区政府致力推动智慧城市,鼓励公私营机构开放数据,以便科技界研发使用。香港运输署21日与新巴及城巴(两巴)公司签署谅解备忘录,两巴将于2019年第3季度,开...

5款不容错过的APP: Red Bull Alert,Flipagram,WifiMapper

本周有不少非常出色的app推出,鸵鸟电台做了一个小合集。亮相本周榜单的有WifiMapper's安卓版的app,其中包含了RedBull的一款新型闹钟,还有一款可爱的怪物主题益智游戏。一起来看看我...

Qt动画效果展示_qt显示图片

今天在这篇博文中,主要实践Qt动画,做一个实例来讲解Qt动画使用,其界面如下图所示(由于没有录制为gif动画图片,所以请各位下载查看效果):该程序使用应用程序单窗口,主窗口继承于QMainWindow...

如何从0到1设计实现一门自己的脚本语言

作者:dong...

三年级语文上册 仿写句子 需要的直接下载打印吧

描写秋天的好句好段1.秋天来了,山野变成了美丽的图画。苹果露出红红的脸庞,梨树挂起金黄的灯笼,高粱举起了燃烧的火把。大雁在天空一会儿写“人”字,一会儿写“一”字。2.花园里,菊花争奇斗艳,红的似火,粉...

C++|那些一看就很简洁、优雅、经典的小代码段

目录0等概率随机洗牌:1大小写转换2字符串复制...

二年级上册语文必考句子仿写,家长打印,孩子照着练

二年级上册语文必考句子仿写,家长打印,孩子照着练。具体如下:...

一年级语文上 句子专项练习(可打印)

...

亲自上阵!C++ 大佬深度“剧透”:C++26 将如何在代码生成上对抗 Rust?

...

取消回复欢迎 发表评论: