从零开始构建文本生成 AI 模型 从零开始构建文本生成 ai 模型的软件
liebian365 2024-11-13 13:30 23 浏览 0 评论
本文将介绍如何使用 PyTorch 创建一个基于字符的 RNN (Recurrent Neural Network) 文本生成模型。模型将在一个小文本数据集上进行训练,但这些概念和代码可以扩展到更大的数据集和更复杂的模型上。
在继续之前,说明一点:这篇文章的主要目的是为了介绍生成式AI的基本概念和训练步骤。通过提供简单的代码示例,旨在帮助读者建立对生成式 AI 开发过程的初步了解和认识。请注意,这里展示的代码是为了演示目的而简化的,旨在揭示背后的核心原理。希望读完这篇文章后,能帮读者对如何从头开始构建这样的模型有一个基本的理解。
第一步:设置环境
首先,需要安装 PyTorch。PyTorch 是一个流行的开源机器学习库,特别适用于深度学习和神经网络。
pip install torch
第二步:准备数据
为了简单起见,我们使用一个小文本语料库,这是模型训练的基础数据。示例中使用了简短的文本字符串。在真实场景中,会使用更大的数据集。
text = "This is a simple demo text for training our RNN model."
现在,我们需要创建字符到整数的映射(反之亦然),因为神经网络使用数值数据。神经网络不能直接处理文本数据,因此需要将每个字符映射到一个整数。char2int 和 int2char 是用于字符和整数之间相互转换的字典。
chars = tuple(set(text))
int2char = dict(enumerate(chars))
char2int = {ch: ii for ii, ch in int2char.items()}
# 编码文本,将原始文本字符串转换成整数序列,以便能被模型处理。
encoded = [char2int[ch] for ch in text]
第三步:定义模型
我们将使用 PyTorch 定义一个简单的 RNN 模型。
- CharRNN 类:这是一个继承自 nn.Module 的类,用于定义循环神经网络模型。
- LSTM 层:self.lstm 定义了 LSTM (Long Short-Term Memory) 层,这是一种特殊类型的 RNN,优于普通 RNN,因为它可以避免长期依赖问题。
- Dropout 层:self.dropout 用于防止过拟合,通过随机丢弃一些神经元输出。
- 全连接层:self.fc 是一个全连接层,用于将 LSTM 的输出转换回字符空间。
import torch
import torch.nn as nn
class CharRNN(nn.Module):
def __init__(self, tokens, n_hidden=256, n_layers=2, drop_prob=0.5):
super(CharRNN, self).__init__()
self.drop_prob = drop_prob
self.n_layers = n_layers
self.n_hidden = n_hidden
self.chars = tokens
self.lstm = nn.LSTM(len(self.chars), n_hidden, n_layers,
dropout=drop_prob, batch_first=True)
self.dropout = nn.Dropout(drop_prob)
self.fc = nn.Linear(n_hidden, len(self.chars))
def forward(self, x, hidden):
r_output, hidden = self.lstm(x, hidden)
out = self.dropout(r_output)
out = out.contiguous().view(-1, self.n_hidden)
out = self.fc(out)
return out, hidden
def init_hidden(self, batch_size):
weight = next(self.parameters()).data
hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),
weight.new(self.n_layers, batch_size, self.n_hidden).zero_())
return hidden
第四步:训练模型
对于训练,我们将定义一个函数,该函数接收模型、数据、优化器和损失函数,并执行训练过程。
- 损失函数:使用交叉熵损失 (nn.CrossEntropyLoss),适用于分类问题。
- 优化器:使用 Adam 优化器 (torch.optim.Adam),它结合了 AdaGrad 和 RMSProp 优化器的优点。
- 训练循环:在每个 epoch 中,模型会遍历数据集中的所有批次。对于每个批次,模型通过前向传播生成输出,计算损失,然后通过反向传播更新权重。
import numpy as np
def train(model, data, epochs=10, batch_size=10, seq_length=50, lr=0.001):
model.train()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
# 计算批次总数
total_batches = len(data) // (batch_size * seq_length)
# 检查是否有足够的数据来进行至少一个批次的训练
if total_batches == 0:
# print("数据量不足,无法进行训练。请增加数据量或减少批次大小。")
# hard code total_batches for demo
total_batches = 5
for epoch in range(epochs):
hidden = model.init_hidden(batch_size)
total_loss = 0 # 初始化总损失
for x, y in get_batches(data, batch_size, seq_length):
inputs, targets = torch.from_numpy(x), torch.from_numpy(y)
hidden = tuple([each.data for each in hidden])
model.zero_grad()
output, hidden = model(inputs, hidden)
loss = criterion(output, targets.view(batch_size * seq_length).long())
loss.backward()
optimizer.step()
total_loss += loss.item()
average_loss = total_loss / total_batches
print(f'Epoch: {epoch + 1}/{epochs}... Loss: {average_loss}')
# Helper function to create batches
def get_batches(arr, batch_size, seq_length):
arr = np.array(arr) # 将列表转换为 NumPy 数组
total_batch_size = batch_size * seq_length
n_batches = len(arr) // total_batch_size
arr = arr[:n_batches * total_batch_size]
arr = arr.reshape((batch_size, -1))
for n in range(0, arr.shape[1], seq_length):
x = arr[:, n:n + seq_length]
y = np.zeros_like(x)
try:
y[:, :-1], y[:, -1] = x[:, 1:], arr[:, n + seq_length]
except IndexError:
y[:, :-1], y[:, -1] = x[:, 1:], arr[:, 0]
yield x, y
第五步:运行训练
现在,我们可以初始化我们的模型并开始训练。
- 初始化模型:创建 CharRNN 实例,指定隐藏层的大小和层数。
- 执行训练函数:调用 train 函数,传入模型、编码后的数据、训练轮数、批次大小、序列长度和学习率。
n_hidden=512
n_layers=2
model = CharRNN(chars, n_hidden, n_layers)
train(model, encoded, epochs=25, batch_size=128, seq_length=100, lr=0.001)
torch.save(model.state_dict(), 'char_rnn_model.pth')
第六步:使用模型示例
加载训练过的模型
假设我们已经按照前面的步骤训练了模型,并且保存了模型的状态。首先,我们需要加载这个训练过的模型。这里,我们将使用 PyTorch 的保存和加载功能。
# 加载模型
model = CharRNN(chars, n_hidden, n_layers)
model.load_state_dict(torch.load('char_rnn_model.pth'))
model.eval() # 将模型设置为评估模式
定义文本生成函数
接下来,我们需要定义一个函数来生成文本。这个函数将以一定数量的字符开始,并让模型继续生成文本。
import torch.nn.functional as F
def predict(model, char, h=None, top_k=None):
if char not in char2int:
print(f"字符 '{char}' 不在训练集的字符集中。")
return ' ', h # 返回空格或其他默认字符
# 将 char 转换为模型可接受的格式
x = np.zeros((1, len(chars)), dtype=np.float32)
x[0, char2int[char]] = 1
x = torch.from_numpy(x)
# 为 x 增加一个“批次大小”的维度,转换为浮点型并增加批次大小维度
x = x.float().unsqueeze(0) # 现在 x 是浮点型的 3D 张量
if h is not None:
h = tuple([each.data for each in h])
out, h = model(x, h)
p = F.softmax(out, dim=1).data
p = p.cpu() # move to cpu
# get top characters
if top_k is not None:
p, top_ch = p.topk(top_k)
top_ch = top_ch.numpy().squeeze()
p = p.numpy().squeeze()
char = np.random.choice(top_ch, p=p / p.sum())
else:
top_ch = np.array(range(len(model.chars)))
p = p.numpy().squeeze()
char = np.random.choice(top_ch, p=p)
return int2char[char], h
def sample(model, size, prime='The', top_k=None):
model.eval() # eval mode
chars = [ch for ch in prime]
h = model.init_hidden(1)
for ch in prime:
char, h = predict(model, ch, h, top_k=top_k)
chars.append(char)
for ii in range(size):
char, h = predict(model, chars[-1], h, top_k=top_k)
chars.append(char)
return ''.join(chars)
生成文本
现在我们可以使用我们的模型来生成文本了。可以通过改变 size 参数来控制生成文本的长度,prime 参数用于指定生成文本的开始字符。
print(sample(model, size=100, prime='hello', top_k=5))
在这个示例中,sample 函数首先设置模型为评估模式,然后使用一个起始字符串(在这个例子中是 "Hello")开始生成文本。predict 函数每次生成一个字符,并且可以使用 top_k 参数来控制字符选择的多样性。
总结
前五个步骤演示了如何使用 PyTorch 训练生成式 AI 模型的基本步骤。关键步骤包括准备数据、定义模型架构和运行训练循环。这只是一个简单的示范,真实场景需要更复杂的数据预处理、模型调优和计算资源。训练生成模型的过程是迭代的,通常涉及微调和实验,以达到期望的性能。
第六步中的代码仅仅展示了文本生成的基本概念。实际应用中,可能需要进一步调整这个过程,以产生更连贯、更有意义的文本。这包括更复杂的状态管理和可能的后处理步骤,以改善生成文本的质量和可读性。
相关推荐
- 4万多吨豪华游轮遇险 竟是因为这个原因……
-
(观察者网讯)4.7万吨豪华游轮搁浅,竟是因为油量太低?据观察者网此前报道,挪威游轮“维京天空”号上周六(23日)在挪威近海发生引擎故障搁浅。船上载有1300多人,其中28人受伤住院。经过数天的调...
- “菜鸟黑客”必用兵器之“渗透测试篇二”
-
"菜鸟黑客"必用兵器之"渗透测试篇二"上篇文章主要针对伙伴们对"渗透测试"应该如何学习?"渗透测试"的基本流程?本篇文章继续上次的分享,接着介绍一下黑客们常用的渗透测试工具有哪些?以及用实验环境让大家...
- 科幻春晚丨《震动羽翼说“Hello”》两万年星间飞行,探测器对地球的最终告白
-
作者|藤井太洋译者|祝力新【编者按】2021年科幻春晚的最后一篇小说,来自大家喜爱的日本科幻作家藤井太洋。小说将视角放在一颗太空探测器上,延续了他一贯的浪漫风格。...
- 麦子陪你做作业(二):KEGG通路数据库的正确打开姿势
-
作者:麦子KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。你需要了解你的分子目前已有哪些...
- 知存科技王绍迪:突破存储墙瓶颈,详解存算一体架构优势
-
智东西(公众号:zhidxcom)编辑|韦世玮智东西6月5日消息,近日,在落幕不久的GTIC2021嵌入式AI创新峰会上,知存科技CEO王绍迪博士以《存算一体AI芯片:AIoT设备的算力新选择》...
- 每日新闻播报(September 14)_每日新闻播报英文
-
AnOscarstatuestandscoveredwithplasticduringpreparationsleadinguptothe87thAcademyAward...
- 香港新巴城巴开放实时到站数据 供科技界研发使用
-
中新网3月22日电据香港《明报》报道,香港特区政府致力推动智慧城市,鼓励公私营机构开放数据,以便科技界研发使用。香港运输署21日与新巴及城巴(两巴)公司签署谅解备忘录,两巴将于2019年第3季度,开...
- 5款不容错过的APP: Red Bull Alert,Flipagram,WifiMapper
-
本周有不少非常出色的app推出,鸵鸟电台做了一个小合集。亮相本周榜单的有WifiMapper's安卓版的app,其中包含了RedBull的一款新型闹钟,还有一款可爱的怪物主题益智游戏。一起来看看我...
- Qt动画效果展示_qt显示图片
-
今天在这篇博文中,主要实践Qt动画,做一个实例来讲解Qt动画使用,其界面如下图所示(由于没有录制为gif动画图片,所以请各位下载查看效果):该程序使用应用程序单窗口,主窗口继承于QMainWindow...
- 如何从0到1设计实现一门自己的脚本语言
-
作者:dong...
- 三年级语文上册 仿写句子 需要的直接下载打印吧
-
描写秋天的好句好段1.秋天来了,山野变成了美丽的图画。苹果露出红红的脸庞,梨树挂起金黄的灯笼,高粱举起了燃烧的火把。大雁在天空一会儿写“人”字,一会儿写“一”字。2.花园里,菊花争奇斗艳,红的似火,粉...
- C++|那些一看就很简洁、优雅、经典的小代码段
-
目录0等概率随机洗牌:1大小写转换2字符串复制...
- 二年级上册语文必考句子仿写,家长打印,孩子照着练
-
二年级上册语文必考句子仿写,家长打印,孩子照着练。具体如下:...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- wireshark怎么抓包 (75)
- qt sleep (64)
- cs1.6指令代码大全 (55)
- factory-method (60)
- sqlite3_bind_blob (52)
- hibernate update (63)
- c++ base64 (70)
- nc 命令 (52)
- wm_close (51)
- epollin (51)
- sqlca.sqlcode (57)
- lua ipairs (60)
- tv_usec (64)
- 命令行进入文件夹 (53)
- postgresql array (57)
- statfs函数 (57)
- .project文件 (54)
- lua require (56)
- for_each (67)
- c#工厂模式 (57)
- wxsqlite3 (66)
- dmesg -c (58)
- fopen参数 (53)
- tar -zxvf -c (55)
- 速递查询 (52)