C++ 使用std::sample的样本数据集
liebian365 2024-11-18 14:21 7 浏览 0 评论
使用std::sample的样本数据集
std::sample()算法从一系列值中随机抽取样本,并将样本填充到目标容器中。这对于分析较大的数据集很有用,其中随机样本被视为整体的代表。
一个样本集允许我们近似大量数据的特征,而无需分析完整的数据集。这在许多情况下提供了效率与准确性之间的公平权衡。
如何做……
在本示例中,我们将使用一个包含200,000个随机整数的数组,这些整数服从标准正态分布。我们将抽取几百个值来创建每个值的频率直方图。
我们将从一个简单的函数开始,该函数从double返回四舍五入的int。标准库缺少这样的函数,但我们在后面会用到它:
int iround(const double& d) {
return static_cast<int>(std::round(d));
}
标准库提供了几个版本的std::round(),包括一个返回long int的版本。但我们需要一个int,这是一个简单的解决方案,可以避免编译器关于缩窄转换的警告,同时隐藏了难看的static_cast。
在main()函数中,我们将从一些有用的常量开始:
int main() {
constexpr size_t n_data{ 200000 };
constexpr size_t n_samples{ 500 };
constexpr int mean{ 0 };
constexpr size_t dev{ 3 };
// ...
}
我们为n_data和n_samples赋值,分别用于数据和样本容器的大小。我们还为mean和dev赋值,它们是随机值正态分布的均值和标准差参数。
现在我们设置随机数生成器和分布对象。这些用于初始化源数据集:
std::random_device rd;
std::mt19937 rng(rd());
std::normal_distribution<> dist{ mean, dev };
random_device对象提供了对硬件随机数生成器的访问。mt19937类是Mersenne Twister随机数算法的实现,该算法在大多数系统上表现良好,适用于我们使用的数据集大小。normal_distribution类提供了围绕均值的标准差分布的随机数。
现在,我们用n_data个随机整数值填充一个数组:
std::array<int, n_data> v{};
for(auto& e : v) e = iround(dist(rng));
数组容器的大小是固定的,因此模板参数包括一个size_t值,用于指定要分配的元素数量。我们使用一个for()循环来填充数组。
rng对象是硬件随机数生成器。它传递给dist(),我们的normal_distribution对象,然后传递给iround(),我们的整数四舍五入函数。
此时,我们有一个包含200,000个数据点的数组。要分析的数据很多,因此我们将使用sample()算法来抽取500个值的样本:
std::array<int, n_samples> samples{};
std::sample(v.begin(), v.end(), samples.begin(), n_samples, rng);
我们定义了另一个数组对象来保存样本。这个数组的大小是n_samples。然后我们使用sample()算法将数组填充为n_samples个随机数据点。
我们创建一个直方图来分析样本。map结构非常适合这个目的,因为我们可以轻松映射每个值的频率:
std::map<int, size_t> hist{};
for (const int i : samples) ++hist[i];
for()循环从samples容器中获取每个值,并将其用作map中的键。增量表达式++hist[i]计算样本集中每个值的出现次数。
我们使用C++20的format()函数打印直方图:
constexpr size_t scale{ 3 };
std::cout << std::format("{:>3} {:>5} {:<}/{}\n", "n", "count", "graph", scale);
for (const auto& [value, count] : hist) {
std::cout << std::format("{:>3} ({:>3}) {}\n", value, count, std::string(count / scale, '*'));
}
format()说明符(如{:>3})为一定数量的字符留出空间。尖括号指定对齐方式,左对齐或右对齐。
string(count, char)构造函数创建一个字符串,其中指定的字符重复指定次数,在这种情况下,n个星号字符*,其中n是count/scale,即直方图中值的频率除以scale常量。
输出看起来像这样:
$ ./sample
n count graph/3
-9 ( 2)
-7 ( 5) *
-6 ( 9) ***
-5 ( 22) *******
// ... (其他值)
这是一个直方图的漂亮图形表示。第一个数字是值,第二个数字是该值的频率,星号是频率的可视化表示,其中每个星号代表样本集中scale(3)次出现。
每次运行代码时,您的输出都会有所不同。
它是如何工作的……
std::sample()函数从源容器的随机位置选择特定数量的元素,并将它们复制到目标容器。
sample()的签名如下:
template< class RandomIt, class Size, class UniformRandomBitGenerator >
RandomIt sample( RandomIt first, RandomIt last, Size n, UniformRandomBitGenerator&& g );
template< class RandomIt, class OutputIt, class Size, class UniformRandomBitGenerator >
OutputIt sample( RandomIt first, RandomIt last, OutputIt d_first, Size n, UniformRandomBitGenerator&& g );
前两个参数是包含完整数据集的容器的begin()和end()迭代器。第三个参数是样本的目的地迭代器。第四个参数是样本大小,最后一个参数是随机数生成器函数。
sample()算法使用均匀分布,因此每个数据点被抽样的机会相同。
- 上一篇:C++ 标准模板库STL
- 下一篇:C++ 20新特性之范围for初始化
相关推荐
- 快递查询教程,批量查询物流,一键管理快递
-
作为商家,每天需要查询许许多多的快递单号,面对不同的快递公司,有没有简单一点的物流查询方法呢?小编的回答当然是有的,下面随小编一起来试试这个新技巧。需要哪些工具?安装一个快递批量查询高手快递单号怎么快...
- 一键自动查询所有快递的物流信息 支持圆通、韵达等多家快递
-
对于各位商家来说拥有一个好的快递软件,能够有效的提高自己的工作效率,在管理快递单号的时候都需要对单号进行表格整理,那怎么样能够快速的查询所有单号信息,并自动生成表格呢?1、其实方法很简单,我们不需要一...
- 快递查询单号查询,怎么查物流到哪了
-
输入单号怎么查快递到哪里去了呢?今天小编给大家分享一个新的技巧,它支持多家快递,一次能查询多个单号物流,还可对查询到的物流进行分析、筛选以及导出,下面一起来试试。需要哪些工具?安装一个快递批量查询高手...
- 3分钟查询物流,教你一键批量查询全部物流信息
-
很多朋友在问,如何在短时间内把单号的物流信息查询出来,查询完成后筛选已签收件、筛选未签收件,今天小编就分享一款物流查询神器,感兴趣的朋友接着往下看。第一步,运行【快递批量查询高手】在主界面中点击【添...
- 快递单号查询,一次性查询全部物流信息
-
现在各种快递的查询方式,各有各的好,各有各的劣,总的来说,还是有比较方便的。今天小编就给大家分享一个新的技巧,支持多家快递,一次能查询多个单号的物流,还能对查询到的物流进行分析、筛选以及导出,下面一起...
- 快递查询工具,批量查询多个快递快递单号的物流状态、签收时间
-
最近有朋友在问,怎么快速查询单号的物流信息呢?除了官网,还有没有更简单的方法呢?小编的回答当然是有的,下面一起来看看。需要哪些工具?安装一个快递批量查询高手多个京东的快递单号怎么快速查询?进入快递批量...
- 快递查询软件,自动识别查询快递单号查询方法
-
当你拥有多个快递单号的时候,该如何快速查询物流信息?比如单号没有快递公司时,又该如何自动识别再去查询呢?不知道如何操作的宝贝们,下面随小编一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号若干...
- 教你怎样查询快递查询单号并保存物流信息
-
商家发货,快递揽收后,一般会直接手动复制到官网上一个个查询物流,那么久而久之,就会觉得查询变得特别繁琐,今天小编给大家分享一个新的技巧,下面一起来试试。教程之前,我们来预览一下用快递批量查询高手...
- 简单几步骤查询所有快递物流信息
-
在高峰期订单量大的时候,可能需要一双手当十双手去查询快递物流,但是由于逐一去查询,效率极低,追踪困难。那么今天小编给大家分享一个新的技巧,一次能查询多个快递单号的物流,下面一起来学习一下,希望能给大家...
- 物流单号查询,如何查询快递信息,按最后更新时间搜索需要的单号
-
最近有很多朋友在问,如何通过快递单号查询物流信息,并按最后更新时间搜索出需要的单号呢?下面随小编一起来试试吧。需要哪些工具?安装一个快递批量查询高手快递单号若干怎么快速查询?运行【快递批量查询高手】...
- 连续保存新单号功能解析,导入单号查询并自动识别批量查快递信息
-
快递查询已经成为我们日常生活中不可或缺的一部分。然而,面对海量的快递单号,如何高效、准确地查询每一个快递的物流信息,成为了许多人头疼的问题。幸运的是,随着科技的进步,一款名为“快递批量查询高手”的软件...
- 快递查询教程,快递单号查询,筛选更新量为1的单号
-
最近有很多朋友在问,怎么快速查询快递单号的物流,并筛选出更新量为1的单号呢?今天小编给大家分享一个新方法,一起来试试吧。需要哪些工具?安装一个快递批量查询高手多个快递单号怎么快速查询?运行【快递批量查...
- 掌握批量查询快递动态的技巧,一键查找无信息记录的两种方法解析
-
在快节奏的商业环境中,高效的物流查询是确保业务顺畅运行的关键。作为快递查询达人,我深知时间的宝贵,因此,今天我将向大家介绍一款强大的工具——快递批量查询高手软件。这款软件能够帮助你批量查询快递动态,一...
- 从复杂到简单的单号查询,一键清除单号中的符号并批量查快递信息
-
在繁忙的商务与日常生活中,快递查询已成为不可或缺的一环。然而,面对海量的单号,逐一查询不仅耗时费力,还容易出错。现在,有了快递批量查询高手软件,一切变得简单明了。只需一键,即可搞定单号查询,一键处理单...
- 物流单号查询,在哪里查询快递
-
如果在快递单号多的情况,你还在一个个复制粘贴到官网上手动查询,是一件非常麻烦的事情。于是乎今天小编给大家分享一个新的技巧,下面一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号怎么快速查询?...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- wireshark怎么抓包 (75)
- qt sleep (64)
- cs1.6指令代码大全 (55)
- factory-method (60)
- sqlite3_bind_blob (52)
- hibernate update (63)
- c++ base64 (70)
- nc 命令 (52)
- wm_close (51)
- epollin (51)
- sqlca.sqlcode (57)
- lua ipairs (60)
- tv_usec (64)
- 命令行进入文件夹 (53)
- postgresql array (57)
- statfs函数 (57)
- .project文件 (54)
- lua require (56)
- for_each (67)
- c#工厂模式 (57)
- wxsqlite3 (66)
- dmesg -c (58)
- fopen参数 (53)
- tar -zxvf -c (55)
- 速递查询 (52)