百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

C++ 使用std::sample的样本数据集

liebian365 2024-11-18 14:21 7 浏览 0 评论

使用std::sample的样本数据集

std::sample()算法从一系列值中随机抽取样本,并将样本填充到目标容器中。这对于分析较大的数据集很有用,其中随机样本被视为整体的代表。

一个样本集允许我们近似大量数据的特征,而无需分析完整的数据集。这在许多情况下提供了效率与准确性之间的公平权衡。

如何做……
在本示例中,我们将使用一个包含200,000个随机整数的数组,这些整数服从标准正态分布。我们将抽取几百个值来创建每个值的频率直方图。

我们将从一个简单的函数开始,该函数从double返回四舍五入的int。标准库缺少这样的函数,但我们在后面会用到它:

int iround(const double& d) {  
    return static_cast<int>(std::round(d));  
}

标准库提供了几个版本的std::round(),包括一个返回long int的版本。但我们需要一个int,这是一个简单的解决方案,可以避免编译器关于缩窄转换的警告,同时隐藏了难看的static_cast。

在main()函数中,我们将从一些有用的常量开始:

int main() {  
    constexpr size_t n_data{ 200000 };  
    constexpr size_t n_samples{ 500 };  
    constexpr int mean{ 0 };  
    constexpr size_t dev{ 3 };  
    // ...  
}

我们为n_data和n_samples赋值,分别用于数据和样本容器的大小。我们还为mean和dev赋值,它们是随机值正态分布的均值和标准差参数。

现在我们设置随机数生成器和分布对象。这些用于初始化源数据集:

std::random_device rd;  
std::mt19937 rng(rd());  
std::normal_distribution<> dist{ mean, dev };

random_device对象提供了对硬件随机数生成器的访问。mt19937类是Mersenne Twister随机数算法的实现,该算法在大多数系统上表现良好,适用于我们使用的数据集大小。normal_distribution类提供了围绕均值的标准差分布的随机数。

现在,我们用n_data个随机整数值填充一个数组:

std::array<int, n_data> v{};  
for(auto& e : v) e = iround(dist(rng));

数组容器的大小是固定的,因此模板参数包括一个size_t值,用于指定要分配的元素数量。我们使用一个for()循环来填充数组。

rng对象是硬件随机数生成器。它传递给dist(),我们的normal_distribution对象,然后传递给iround(),我们的整数四舍五入函数。

此时,我们有一个包含200,000个数据点的数组。要分析的数据很多,因此我们将使用sample()算法来抽取500个值的样本:

std::array<int, n_samples> samples{};  
std::sample(v.begin(), v.end(), samples.begin(), n_samples, rng);

我们定义了另一个数组对象来保存样本。这个数组的大小是n_samples。然后我们使用sample()算法将数组填充为n_samples个随机数据点。

我们创建一个直方图来分析样本。map结构非常适合这个目的,因为我们可以轻松映射每个值的频率:

std::map<int, size_t> hist{};  
for (const int i : samples) ++hist[i];

for()循环从samples容器中获取每个值,并将其用作map中的键。增量表达式++hist[i]计算样本集中每个值的出现次数。

我们使用C++20的format()函数打印直方图:

constexpr size_t scale{ 3 };  
std::cout << std::format("{:>3} {:>5} {:<}/{}\n", "n", "count", "graph", scale);  
for (const auto& [value, count] : hist) {  
    std::cout << std::format("{:>3} ({:>3}) {}\n", value, count, std::string(count / scale, '*'));  
}

format()说明符(如{:>3})为一定数量的字符留出空间。尖括号指定对齐方式,左对齐或右对齐。

string(count, char)构造函数创建一个字符串,其中指定的字符重复指定次数,在这种情况下,n个星号字符*,其中n是count/scale,即直方图中值的频率除以scale常量。

输出看起来像这样:

$ ./sample  
  n count graph/3  
-9 (  2)   
-7 (  5) *  
-6 (  9) ***  
-5 ( 22) *******  
// ... (其他值)

这是一个直方图的漂亮图形表示。第一个数字是值,第二个数字是该值的频率,星号是频率的可视化表示,其中每个星号代表样本集中scale(3)次出现。

每次运行代码时,您的输出都会有所不同。

它是如何工作的……
std::sample()函数从源容器的随机位置选择特定数量的元素,并将它们复制到目标容器。

sample()的签名如下:

template< class RandomIt, class Size, class UniformRandomBitGenerator >  
RandomIt sample( RandomIt first, RandomIt last, Size n, UniformRandomBitGenerator&& g );  
template< class RandomIt, class OutputIt, class Size, class UniformRandomBitGenerator >  
OutputIt sample( RandomIt first, RandomIt last, OutputIt d_first, Size n, UniformRandomBitGenerator&& g );

前两个参数是包含完整数据集的容器的begin()和end()迭代器。第三个参数是样本的目的地迭代器。第四个参数是样本大小,最后一个参数是随机数生成器函数。

sample()算法使用均匀分布,因此每个数据点被抽样的机会相同。

相关推荐

快递查询教程,批量查询物流,一键管理快递

作为商家,每天需要查询许许多多的快递单号,面对不同的快递公司,有没有简单一点的物流查询方法呢?小编的回答当然是有的,下面随小编一起来试试这个新技巧。需要哪些工具?安装一个快递批量查询高手快递单号怎么快...

一键自动查询所有快递的物流信息 支持圆通、韵达等多家快递

对于各位商家来说拥有一个好的快递软件,能够有效的提高自己的工作效率,在管理快递单号的时候都需要对单号进行表格整理,那怎么样能够快速的查询所有单号信息,并自动生成表格呢?1、其实方法很简单,我们不需要一...

快递查询单号查询,怎么查物流到哪了

输入单号怎么查快递到哪里去了呢?今天小编给大家分享一个新的技巧,它支持多家快递,一次能查询多个单号物流,还可对查询到的物流进行分析、筛选以及导出,下面一起来试试。需要哪些工具?安装一个快递批量查询高手...

3分钟查询物流,教你一键批量查询全部物流信息

很多朋友在问,如何在短时间内把单号的物流信息查询出来,查询完成后筛选已签收件、筛选未签收件,今天小编就分享一款物流查询神器,感兴趣的朋友接着往下看。第一步,运行【快递批量查询高手】在主界面中点击【添...

快递单号查询,一次性查询全部物流信息

现在各种快递的查询方式,各有各的好,各有各的劣,总的来说,还是有比较方便的。今天小编就给大家分享一个新的技巧,支持多家快递,一次能查询多个单号的物流,还能对查询到的物流进行分析、筛选以及导出,下面一起...

快递查询工具,批量查询多个快递快递单号的物流状态、签收时间

最近有朋友在问,怎么快速查询单号的物流信息呢?除了官网,还有没有更简单的方法呢?小编的回答当然是有的,下面一起来看看。需要哪些工具?安装一个快递批量查询高手多个京东的快递单号怎么快速查询?进入快递批量...

快递查询软件,自动识别查询快递单号查询方法

当你拥有多个快递单号的时候,该如何快速查询物流信息?比如单号没有快递公司时,又该如何自动识别再去查询呢?不知道如何操作的宝贝们,下面随小编一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号若干...

教你怎样查询快递查询单号并保存物流信息

商家发货,快递揽收后,一般会直接手动复制到官网上一个个查询物流,那么久而久之,就会觉得查询变得特别繁琐,今天小编给大家分享一个新的技巧,下面一起来试试。教程之前,我们来预览一下用快递批量查询高手...

简单几步骤查询所有快递物流信息

在高峰期订单量大的时候,可能需要一双手当十双手去查询快递物流,但是由于逐一去查询,效率极低,追踪困难。那么今天小编给大家分享一个新的技巧,一次能查询多个快递单号的物流,下面一起来学习一下,希望能给大家...

物流单号查询,如何查询快递信息,按最后更新时间搜索需要的单号

最近有很多朋友在问,如何通过快递单号查询物流信息,并按最后更新时间搜索出需要的单号呢?下面随小编一起来试试吧。需要哪些工具?安装一个快递批量查询高手快递单号若干怎么快速查询?运行【快递批量查询高手】...

连续保存新单号功能解析,导入单号查询并自动识别批量查快递信息

快递查询已经成为我们日常生活中不可或缺的一部分。然而,面对海量的快递单号,如何高效、准确地查询每一个快递的物流信息,成为了许多人头疼的问题。幸运的是,随着科技的进步,一款名为“快递批量查询高手”的软件...

快递查询教程,快递单号查询,筛选更新量为1的单号

最近有很多朋友在问,怎么快速查询快递单号的物流,并筛选出更新量为1的单号呢?今天小编给大家分享一个新方法,一起来试试吧。需要哪些工具?安装一个快递批量查询高手多个快递单号怎么快速查询?运行【快递批量查...

掌握批量查询快递动态的技巧,一键查找无信息记录的两种方法解析

在快节奏的商业环境中,高效的物流查询是确保业务顺畅运行的关键。作为快递查询达人,我深知时间的宝贵,因此,今天我将向大家介绍一款强大的工具——快递批量查询高手软件。这款软件能够帮助你批量查询快递动态,一...

从复杂到简单的单号查询,一键清除单号中的符号并批量查快递信息

在繁忙的商务与日常生活中,快递查询已成为不可或缺的一环。然而,面对海量的单号,逐一查询不仅耗时费力,还容易出错。现在,有了快递批量查询高手软件,一切变得简单明了。只需一键,即可搞定单号查询,一键处理单...

物流单号查询,在哪里查询快递

如果在快递单号多的情况,你还在一个个复制粘贴到官网上手动查询,是一件非常麻烦的事情。于是乎今天小编给大家分享一个新的技巧,下面一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号怎么快速查询?...

取消回复欢迎 发表评论: