C语言 如何用堆解决Topk问题

目录
  • 前言
  • TopK问题
  • 解题方法
  • 代码实现与讲解
  • 运行结果
  • 函数解读
    • PrintTopK 解读
    • TestTopK 解读

前言

本篇将详细讲解如何利用小根堆的方法解决TopK问题,这么多数据要处理,

该算法时间复度居然只需

TopK问题

TopK问题介绍:在N个数中找出最大的前K个 (比如在1000个数中找出最大的前10个)

解题方法

方法1:先排降序,前N个就是最大的。 

时间复杂度:  

方法2:N个数依次插入大堆,HeapPop K次,每次取堆顶的数据,即为前K个。

时间复杂度:

假设N非常大,N是10亿,内存中存不下这些数,它们存在文件中的。K是100,方法1 和 方法2 就都不能用了……

话说 10 亿个整数,大概占用多少空间?

1G = 1024MB

1G = 1024*1024KB

1G = 1024*1024*1024Byte

要占用10亿字节!所以我们来看看方法3。

方法3:

① 用前个K数建立一个K个数的小堆。

② 剩下的N-K个数,依次跟堆顶的数据进行比较。如果比堆顶的数据大,就替换堆顶的数据,再向下调整。

③ 最后堆里面的K个数就是最大的K个数。

时间复杂度: 

这里为什么使用小堆而不使用大堆?

最大的前K个数一定会比其他数要大,只要进来的数比堆顶数据大,就替代它。因为是小堆(小的在上大的在下),最大的数进去后一定会沉到下面,所以不可能存在大的数堵在堆顶导致某个数进不去的情况,数越大沉得越深。对应地,如果使用大堆就会出现一个大数堵在堆顶,剩下的数都比这个大数小,导致其他数进不来,最后只能选出最大的那一个。

代码实现与讲解

由于还没开始讲 C++ ,这里我们没法用优先级队列,我们得手动自己写一个堆来使用。当然,如果自己懒得写,以下是 C语言 实现堆的代码。

Heap.h

#define _CRT_SECURE_NO_WARNINGS 1
#pragma once
#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <stdbool.h>

typedef int HPDataType;

typedef struct Heap {
    HPDataType* array;  //指向动态开辟的数组
    int size;           //有效数据的个数
    int capacity;       //容量空间的大小
} HP;

/* 堆的初始化 */
void HeapInit(HP* php);

/* 堆的销毁 */
void HeapDestroy(HP* php);

/* 堆的打印 */
void HeapPrint(HP* php);

/* 判断堆是否为空 */
bool HeapIfEmpty(HP* hp);

/* 堆的插入 */
void HeapPush(HP* php, HPDataType x);
    /* 检查容量 */
    void HeapCheckCapacity(HP* php);
        /* 交换函数 */
        void Swap(HPDataType* px, HPDataType* py);
    /* 大根堆上调 */
    void BigAdjustUp(int* arr, int child);
    /* 小根堆上调 */
    void SmallAdjustUp(int* arr, int child);

/* 堆的删除 */
void HeapPop(HP* php);
    /* 小根堆下调*/
    void SmallAdjustDown(int* arr, int n, int parent);
    /* 大根堆下调 */
    void BigAdjustDown(int* arr, int n, int parent);

/* 返回堆顶数据*/
HPDataType HeapTop(HP* php);

/* 统计堆的个数 */
int HeapSize(HP* php);

Heap.c

#define _CRT_SECURE_NO_WARNINGS 1
#include "Heap.h"

/* 堆的初始化 */
void HeapInit(HP* php) {
    assert(php);
    php->array = NULL;
    php->size = php->capacity = 0;
}

/* 堆的销毁 */
void HeapDestroy(HP* php) {
    assert(php);
    free(php->array);
    php->capacity = php->size = 0;
}

/* 堆的打印 */
void HeapPrint(HP* php) {
    for (int i = 0; i < php->size; i++) {
        printf("%d ", php->array[i]);
    }
    printf("\n");
}

/* 判断堆是否为空 */
bool HeapIfEmpty(HP* php) {
    assert(php);

    return php->size == 0; // 如果为size为0则表示堆为空
}

/* 堆的插入 */
    /* 检查容量 */
    void HeapCheckCapacity(HP* php) {
        if (php->size == php->capacity) {
            int newCapacity = php->capacity == 0 ? 4 : (php->capacity * 2); //第一次给4,其他情况扩2倍
            HPDataType* tmpArray = (HPDataType*)realloc(php->array, sizeof(HPDataType) * newCapacity); // 数组扩容
            if (tmpArray == NULL) {  //检查realloc
                printf("realloc failed!\n");
                exit(EXIT_FAILURE);
            }
            //更新他们的大小
            php->array = tmpArray;
            php->capacity = newCapacity;
        }
    }

        /* 交换函数 */
        void Swap(HPDataType* px, HPDataType* py) {
            HPDataType tmp = *px;
            *px = *py;
            *py = tmp;
        } 

    /* 大根堆上调 */
    void BigAdjustUp(int* arr, int child) {
        assert(arr);
        // 首先根据公式计算算出父亲的下标
        int parent = (child - 1) / 2;
        // 最坏情况:调到根,child=parent 当child为根节点时结束(根节点永远是0)
        while (child > 0) {
            if (arr[child] > arr[parent]) {  // 如果孩子大于父亲(不符合堆的性质)
                // 交换他们的值
                Swap(&arr[child], &arr[parent]);
                // 往上走
                child = parent;
                parent = (child - 1) / 2;
            } else {  // 如果孩子小于父亲(符合堆的性质)
            // 跳出循环
                break;
            }
        }
    }

    /* 小根堆上调 */
    void SmallAdjustUp(int* arr, int child) {
        assert(arr);
        // 首先根据公式计算算出父亲的下标
        int parent = (child - 1) / 2;
        // 最坏情况:调到根,child=parent 当child为根节点时结束(根节点永远是0)
        while (child > 0) {
            if (arr[child] < arr[parent]) {  // 如果孩子大于父亲(不符合堆的性质)
                // 交换他们的值
                Swap(&arr[child], &arr[parent]);
                // 往上走
                child = parent;
                parent = (child - 1) / 2;
            } else {  // 如果孩子小于父亲(符合堆的性质)
            // 跳出循环
                break;
            }
        }
    }
void HeapPush(HP* php, HPDataType x) {
    assert(php);
    // 检查是否需要扩容
    HeapCheckCapacity(php);
    // 插入数据
    php->array[php->size] = x;
    php->size++;
    // 向上调整 [目标数组,调整位置的起始位置(刚插入的数据)]
    SmallAdjustUp(php->array, php->size - 1);
}

/* 堆的删除 */

    /* 小根堆下调*/
    void SmallAdjustDown(int* arr, int n, int parent) {
        int child = parent * 2 + 1; // 默认为左孩子
        while (child < n) { // 叶子内
            // 选出左右孩子中小的那一个
            if (child + 1 < n && arr[child + 1] < arr[child]) {
                child++;
            }
            if (arr[child] < arr[parent]) { // 如果孩子小于父亲(不符合小堆的性质)
                // 交换它们的值
                Swap(&arr[child], &arr[parent]);
                // 往下走
                parent = child;
                child = parent * 2 + 1;
            } else { // 如果孩子大于父亲(符合小堆的性质)
                // 跳出循环
                break;
            }
        }
    }

    /* 大根堆下调 */
    void BigAdjustDown(int* arr, int n, int parent) {
        int child = parent * 2 + 1; // 默认为左孩子
        while (child < n) { // 叶子内
            // 选出左右孩子中大的那一个
            if (child + 1 < n && arr[child + 1] > arr[child]) {
                child++;
            }
            if (arr[child] > arr[parent]) { // 如果孩子大于父亲(不符合大堆的性质)
                // 交换它们的值
                Swap(&arr[child], &arr[parent]);
                // 往下走
                parent = child;
                child = parent * 2 + 1;
            } else { // 如果孩子小于父亲(符合大堆的性质)
                // 跳出循环
                break;
            }
        }
    }
void HeapPop(HP* php) {
    assert(php);
    assert(!HeapIfEmpty(php));
    // 删除数据
    Swap(&php->array[0], &php->array[php->size - 1]);
    php->size--;
    // 向下调整 [目标数组,数组的大小,调整位置的起始位置]
    SmallAdjustDown(php->array, php->size, 0);
}

/* 返回堆顶数据 */
HPDataType HeapTop(HP* php) {
    assert(php);
    assert(!HeapIfEmpty(php));

    return php->array[0];
}

/* 统计堆的个数 */
int HeapSize(HP* php) {
    assert(php);

    return php->size;
}
 

第三种方法的参考代码:

#define _CRT_SECURE_NO_WARNINGS 1
#include "Heap.h"

/* 在N个数中找出最大的前K个 */
void PrintTopK(int* arr, int N, int K) {

    HP hp;                             // 创建堆
    HeapInit(&hp);                     // 初始化堆

    for (int i = 0; i < K; i++) {      // Step1: 创建一个K个数的小堆
        HeapPush(&hp, arr[i]);
    }

    for (int i = K; i < N; i++) {      // Step2: 剩下的N-K个数跟堆顶的数据比较
        if (arr[i] > HeapTop(&hp)) {   // 如果比堆顶的数据大就替换进堆
            HeapPop(&hp);              // 此数确实比堆顶大,删除堆顶
            HeapPush(&hp, arr[i]);     // 将此数推进堆中,数越大下沉越深
            /* 另一种写法: 手动替换
            hp.array[0] = arr[i];
            SmallAdjustDown(hp.array, hp.size, 0);
            */
        }
    }
    HeapPrint(&hp);                    // 打印K个数的堆
    HeapDestroy(&hp);                  // 销毁堆
}

/* 模拟测试 TopK */
void TestTopK() {
    int N = 1000000;
    int* arr = (int*)malloc(sizeof(int) * N);

    srand(time(0)); // 置随机数种子
    for(size_t i = 0; i < N; i++) {
        // 产生随机数,每次产生的随机数都mod100w,这样产生的数一定是小于100w的
        arr[i] = rand() % 1000000;
    }

    // 再去设置10个比100w大的数
    arr[5] = 1000000 + 1;
	arr[1231] = 1000000 + 2;
	arr[5355] = 1000000 + 3;
	arr[51] = 1000000 + 4;
	arr[15] = 1000000 + 5;
	arr[2335] = 1000000 + 6;
	arr[9999] = 1000000 + 7;
	arr[76] = 1000000 + 8;
	arr[423] = 1000000 + 9;
	arr[3144] = 1000000 + 10;

    PrintTopK(arr, N, 10); //测试用,所以给10个
}

int main(void) {
    TestTopK();

	return 0;
}
 

运行结果

函数解读

PrintTopK 解读

① 准备好我们实现好的堆之后,我们就可以写TopK的算法了。我们创建一个 PrintTopK 函数,函数需要接收存放数据的数组、数组的大小(N)和要找前多少个(K)。

② 首先创建一个堆,用来存放K 。按照规矩我们先把 HeapInit(初始化)和 HeapDestroy(销毁)先写好,防止自己不小心忘记销毁。

③ 核心步骤1:创建一个K个数的小堆,我们直接用 for 循环将数组中前K个值先逐个 HeapPush (堆的插入)进去。

这里不代表最后的结果,我们只是相当于 "默认" 认为这前K个数是最大的,方便我们后续进行比较替代。经过 HeapPush (堆的插入)后,这些数据会通过 SmallAdjustDown (小堆下调接口) 对数据进行相应的调整:

for (int i = 0; i < K; i++) {      // Step1: 创建一个K个数的小堆
    HeapPush(&hp, arr[i]);
}

④ 核心步骤2:除去K,将剩下的N-K个数据进行比较。我们再利用 for 循环将数组中剩下的N-K个数据进行遍历。

这里逐个进行判断,如果该数堆顶的数据 i<K(max),我们就进行替换操作。调用 HeapPop(堆的删除)删除堆顶的数据,给  让位。之后将其 HeapPush (堆的插入)推到堆中,就完成了替换的工作。值得一提的是,我们还可以不调用 Pop 和 Push 这两个操作,手动进行替换。hp.array [ 0 ] 就表示栈顶,我们将  赋值给它,随后再手动进行 SmallAdjustDown (小堆下调操作),传入相应的值即可:

for (int i = K; i < N; i++) {      // Step2: 剩下的N-K个数跟堆顶的数据比较
    if (arr[i] > HeapTop(&hp)) {   // 如果比堆顶的数据大就替换进堆
        HeapPop(&hp);              // 此数确实比堆顶大,删除堆顶
        HeapPush(&hp, arr[i]);     // 将此数推进堆中,数越大下沉越深
        /* 另一种写法: 手动替换
        hp.array[0] = arr[i];
        SmallAdjustDown(hp.array, hp.size, 0);
        */
    }
}

⑤ 当 for 遍历完所有数据之后,小堆中就保留了N个数据中最大的前K个数了。此时我们调用堆打印接口将小堆里的数据打印出来就大功告成了。

TestTopK 解读

① 这是用来测试我们写的TopK算法的函数。设置 N 的大小为 100w,动态内存开辟一块可以存下这么多数据的空间:

int N = 1000000;
int* arr = (int*)malloc(sizeof(int) * N);

② 随后根据时间来置随机数种子,将每个元素都进行随机数的填充,每次产生的随机数都模上100w,这样可以保证产生的随机数一定是小于100w的。

srand(time(0));
for(size_t i = 0; i < N; i++) {
    arr[i] = rand() % 1000000;
}

③ 随便写几个大于100w的数,便于测试:

// 再去设置10个比100w大的数
arr[5] = 1000000 + 1;
arr[1231] = 1000000 + 2;
arr[5355] = 1000000 + 3;
arr[51] = 1000000 + 4;
arr[15] = 1000000 + 5;
arr[2335] = 1000000 + 6;
arr[9999] = 1000000 + 7;
arr[76] = 1000000 + 8;
arr[423] = 1000000 + 9;
arr[3144] = 1000000 + 10;

④ 调用我们刚才实现好的 PrintTopK 函数,递交对应的参数后就可以进行测试了。这里为了方便测试,我们的K设置为10:

PrintTopK(arr, N, 10);

到此这篇关于C语言 如何用堆解决Topk问题的文章就介绍到这了,更多相关Topk问题内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Java实现TopK问题的方法

    面试中会经常遇到手撕代码的情况,而求TopK的是经常遇到的题目.下面我就用Java来实现.主要通过两种方法实现,快排思想以及堆排序的思想,两者的复杂度为O(NlogK). 基于快排的TopK实现: import java.util.Arrays; /** * 使用快排实现的TopK问题 Title: Description: Company: * * @author 郑伟 * @date 2018年4月10日下午9:28:15 */ public class TopK_PartitionSort

  • PHP利用二叉堆实现TopK-算法的方法详解

    前言 在以往工作或者面试的时候常会碰到一个问题,如何实现海量TopN,就是在一个非常大的结果集里面快速找到最大的前10或前100个数,同时要保证内存和速度的效率,我们可能第一个想法就是利用排序,然后截取前10或前100,而排序对于量不是特别大的时候没有任何问题,但只要量特别大是根本不可能完成这个任务的,比如在一个数组或者文本文件里有几亿个数,这样是根本无法全部读入内存的,所以利用排序解决这个问题并不是最好的,所以我们这里就用php去实现一个小顶堆来解决这个问题. 二叉堆 二叉堆是一种特殊的堆,二

  • python 的topk算法实例

    我就废话不多说了,还是直接看代码吧! #! conding:utf-8 def quick_index(array, start, end): left, right = start, end key = array[left] while left < right: while left < right and array[right] > key: right -= 1 array[left] = array[right] while left < right and arra

  • python 如何在list中找Topk的数值和索引

    需求: 对于一个python list 或者numpy数组,我需要找到这个list中最大的K个数及其对应的下标. 解决方式: 1. 可以构造字典通过排序解决,不过代码量较多. 2. 使用heapq库,可以直接获取最大值的下标和数值. import heapq a = [4,2,6,1,9,9] # 获取下标, 输出为[4, 5, 2] heapq.nlargest(3, range(len(a)), a.__getitem__) # 获取数值, 输出为[9, 9, 6] heapq.nlarge

  • C语言 如何用堆解决Topk问题

    目录 前言 TopK问题 解题方法 代码实现与讲解 运行结果 函数解读 PrintTopK 解读 TestTopK 解读 前言 本篇将详细讲解如何利用小根堆的方法解决TopK问题,这么多数据要处理, 该算法时间复度居然只需 TopK问题 TopK问题介绍:在N个数中找出最大的前K个 (比如在1000个数中找出最大的前10个) 解题方法 方法1:先排降序,前N个就是最大的.  时间复杂度:   方法2:N个数依次插入大堆,HeapPop K次,每次取堆顶的数据,即为前K个. 时间复杂度: 假设N非

  • Java 详细讲解用堆解决Top-k问题

    目录 1.什么是堆? 堆结构 大根堆 VS 小根堆 大根堆(最大堆) 小根堆(最小堆) 优先级队列(PriorityQueue) 2.top-k问题解决思路 要解决 top-k 问题,我们应该先熟悉一种数据结构 - 堆(优先级队列),已经了解的朋友可以跳过哦. 1.什么是堆? 堆结构 堆其实就是一种二叉树,但是普通的二叉树是以链式结构进行储存数据的,而堆是以数组进行顺序存储数据的.那么什么样的二叉树才适合用顺序存储的方式呢? 我们假设一颗普通的二叉树可以用数组存储,那么就可以得到如下结构: 我们

  • C语言二叉树与堆的概念与实现

    目录 引言-树的故事 树的基本性质和描述 树的基本特点 树的关键字解析 树的表示方法 二叉树的概念结构 特殊二叉树 二叉树的性质 二叉树的存储结构 二叉树与堆 堆的实现 堆排序 堆的功能实现 TOPK问题 二叉树的结构以及实现 二叉树的遍历 总结 引言-树的故事 在自然界中有很多树 它们是这样的 但是在我们的眼中 他是这样的 显而易见 树的特点就是一对多 ,我们利用这个一对多的特点,可以让我们更好的解决编程中的问题,在树中 ,最基础的二叉树是我们的重点研究对象. 在看一眼神奇的堆排序的动态图 做

  • C语言数据结构之堆、堆排序的分析及实现

    目录 1.堆的概念结构及分类 1.2堆的分类 1.2.1 大堆 1.2.2 小堆 2. 堆的主要接口 3.堆的实现 3.1 堆的初始化 HeapInit 3.2 堆的销毁 HeapDestory 3.3 堆的打印 HeapPrint 3.4 堆的插入元素 HeapPush   * 3.5 堆的删除元素 HeapPop  * 4.堆的应用:堆排序   *** 4.1 堆排序实现过程分析 4.3 堆排序结果演示 5.堆(小堆)的完整代码 总结  1.堆的概念结构及分类 以上这段概念描述看起来十分复杂

  • Java深入分析与解决Top-K问题

    目录 题目 解题方案 方法一 方法二 方法三 题目 求最小的K个数 设计一个算法,找出数组中最小的k个数.以任意顺序返回这k个数均可. 解题方案 方法一 排序(冒泡/选择) 思路 1,冒泡排序是每执行一次,就会确定最终位置,执行K次后,就可以得到结果,时间复杂度为O(n * k),当k<<n时,O(n * k)的性能会比O(N*logN)好. 2,选择排序每执行依次,就会通过确定一个最大的或最小的放在一端,通过选择排序,执行K次就可以得到最大的K个数了.时间复杂度时O(N * K). 代码实现

  • C语言使用深度优先搜索算法解决迷宫问题(堆栈)

    本文实例讲述了C语言使用深度优先搜索算法解决迷宫问题.分享给大家供大家参考,具体如下: 深度优先搜索 伪代码 (Pseudocode)如下: 将起点标记为已走过并压栈; while (栈非空) { 从栈顶弹出一个点p; if (p这个点是终点) break; 否则沿右.下.左.上四个方向探索相邻的点 if (和p相邻的点有路可走,并且还没走过) 将相邻的点标记为已走过并压栈,它的前趋就是p点; } if (p点是终点) { 打印p点的坐标; while (p点有前趋) { p点 = p点的前趋;

  • C语言使用广度优先搜索算法解决迷宫问题(队列)

    本文实例讲述了C语言使用广度优先搜索算法解决迷宫问题.分享给大家供大家参考,具体如下: 变量 head 和 tail 是队头和队尾指针, head 总是指向队头, tail 总是指向队尾的下一个元素.每个点的 predecessor 成员也是一个指针,指向它的前趋在 queue 数组中的位置.如下图所示: 广度优先是一种步步为营的策略,每次都从各个方向探索一步,将前线推进一步,图中的虚线就表示这个前线,队列中的元素总是由前线的点组成的,可见正是队列先进先出的性质使这个算法具有了广度优先的特点.广

  • 如何用itertools解决无序排列组合的问题

    最近我作为Python菜鸟一枚开始征战Codewars,所以打算在这里记下遇到的有意思的题目.今天这第一题叫做"Best Travel": John和Mary计划去一些小镇旅行.Mary已经列好了这些小镇之间的距离比如ls=[50, 55, 57, 58, 60].但是John不想开车太累,所以提出了两个要求:1) 开车不超过某个距离比如t=174 miles 2) 只能去3个小镇. 选择哪3个小镇可以让John和Mary都满意呢?(即找到距离之和最接近或等于t的3个小镇) 这道题目可

  • C语言基于回溯算法解决八皇后问题的方法

    本文实例讲述了C语言基于回溯算法解决八皇后问题的方法.分享给大家供大家参考,具体如下: 问题描述: 八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例:在8X8格的国际象棋棋盘上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行.同一列或同一斜线上,问有多少种摆法. 问题求解: 采用回溯算法,即从第一行开始,依次探查可以放置皇后的位置,若找到,则放置皇后,开始探查下一行:若该行没有位置可以放置皇后,则回溯至上一行,清除该行放置皇后的信息,从该行原本放置皇后的下一个位置开始探查可

  • C语言基于贪心算法解决装箱问题的方法

    本文实例讲述了C语言基于贪心算法解决装箱问题的方法.分享给大家供大家参考,具体如下: 问题描述: 有一些箱子,容量为V,同时有n个物品,每个物品有一个体积(小于等于箱子容量),要求将物品全部装入箱子中,使占用的箱子数尽量少. 贪心算法中要求每一步的解都是当前步骤中的最优解.原问题的解可以通过一系列局部最优的选择来达到,这种选择并不依赖于子问题的解. 算法思想: 1.数据结构 要求求解箱子数目,也就是说不能确定会占用多少个箱子,因此采用链表的形式来存储箱子及其信息. 同时,每个箱子中物品的数目也无

随机推荐