C++ Strassen算法代码的实现

本文仅代码,无理论解释

实话实说,我觉得这个算法在C系列的语言下,简直垃圾到爆炸……毕竟是一群完全不懂程序数学家对着纸弄出来的,看起来好像非常的有用,实际上耗时是非常爆炸的。

但是《算法导论》里有啊……然后上课又要求手写一个

于是我就手写了一个……我尽可能的减少使用的空间同时加快速度了,当 n = 512 的时候,内存使用量峰值没有超过 10mb,而且是通过递归实现 Strassen 算法

其中,in.txt 已经预先准备了 3000000 个范围在 0-100 随机数,避免程序在运算过程中爆 int(虽然完全可以取1000)

/**
 * Created by Mauve on 3/29/2020.
 * Copyright © 2020 Mauve, All Rights Reserved
 */

#include <bits/stdc++.h>

using namespace std;

/**
 * 矩阵相乘
 * 最终结果耗时结果保存至
 * https://www.desmos.com/calculator/gl4tm5i1zu
 */

struct mat {
  unsigned row, col;

  mat(unsigned r, unsigned c) : row(r), col(c) {}

  virtual int &pos_ref(unsigned i, unsigned j) = 0;

  virtual int pos(unsigned i, unsigned j) const = 0;
};

struct base_mat;
struct sub_mat;

stack<sub_mat *> sub_data;

struct base_mat : mat {
  int *data;

  base_mat(unsigned r, unsigned c) : mat(r, c), data(new int[row * col]) {}

  ~base_mat() {
    delete[] data;
  }

  inline int &pos_ref(unsigned i, unsigned j) override {
    return *(data + i * col + j);
  }

  inline int pos(unsigned i, unsigned j) const override {
    return *(data + i * col + j);
  }
};

unsigned min_mul;

struct sub_mat : mat {
  mat *a, *b;
  bool is_add;
  unsigned offset_ai, offset_aj, offset_bi, offset_bj;

  explicit sub_mat(mat *data) : mat(data->row, data->col), a(data), b(nullptr),
                 is_add(false), offset_ai(0), offset_aj(0),
                 offset_bi(0), offset_bj(0) { sub_data.push(this); }

  sub_mat(mat *data, bool of_i, bool of_j) : mat(data->row >> 1u, data->col >> 1u), a(data), b(nullptr),
                        is_add(false), offset_ai(of_i ? data->row >> 1u : 0),
                        offset_aj(of_j ? data->col >> 1u : 0),
                        offset_bi(0), offset_bj(0) { sub_data.push(this); }

  inline int &pos_ref(unsigned i, unsigned j) override {
    assert(b == nullptr);
    return a->pos_ref(i + offset_ai, j + offset_aj);
  }

  inline int pos(unsigned i, unsigned j) const override {
    if (b == nullptr)
      return a->pos(i + offset_ai, j + offset_aj);
    return a->pos(i + offset_ai, j + offset_aj) + (is_add ? 1 : -1) * b->pos(i + offset_bi, j + offset_bj);
  }

  inline sub_mat *operator+(sub_mat &other) {
    auto res = new sub_mat(this);
    res->b = &other;
    res->is_add = true;
    return res;
  }

  inline sub_mat *operator-(sub_mat &other) {
    auto res = new sub_mat(this);
    res->b = &other;
    res->is_add = false;
    return res;
  }

  mat *operator*(sub_mat &other) {
    assert(col == other.row);
    auto res = new base_mat(row, other.col);
    if (col & 1u || row & 1u || col <= min_mul || row <= min_mul || other.col <= min_mul) {
      memset(res->data, 0, sizeof(int) * res->row * res->col);
      for (int k = 0; k < col; k++)
        for (int i = 0; i < row; ++i)
          for (int j = 0; j < other.col; ++j)
            res->pos_ref(i, j) += pos(i, k) * other.pos(k, j);
    } else {
      size_t sub_data_size = sub_data.size();
#define a(i, j) (*new sub_mat(this, i == 2 , j == 2))
#define b(i, j) (*new sub_mat(&other, i == 2 , j == 2))
      auto m1 = *(a(1, 1) + a(2, 2)) * *(b(1, 1) + b (2, 2));
      auto m2 = *(a(2, 1) + a(2, 2)) * b(1, 1);
      auto m3 = a(1, 1) * *(b(1, 2) - b(2, 2));
      auto m4 = a(2, 2) * *(b(2, 1) - b(1, 1));
      auto m5 = *(a(1, 1) + a(1, 2)) * b(2, 2);
      auto m6 = *(a(2, 1) - a(1, 1)) * *(b(1, 1) + b(1, 2));
      auto m7 = *(a(1, 2) - a(2, 2)) * *(b(2, 1) + b(2, 2));
#undef a
#undef b
      unsigned half_row = row >> 1u, half_col = col >> 1u;
#define m(t) (m##t->pos(i, j))
      // C11
      for (unsigned i = 0; i < half_row; ++i)
        for (unsigned j = 0; j < half_col; ++j)
          res->pos_ref(i, j) = m(1) + m(4) - m(5) + m(7);
      // C12
      for (unsigned i = 0; i < half_row; ++i)
        for (unsigned j = 0; j < half_col; ++j)
          res->pos_ref(i, j + half_col) = m(3) + m(5);
      // C21
      for (unsigned i = 0; i < half_row; ++i)
        for (unsigned j = 0; j < half_col; ++j)
          res->pos_ref(i + half_row, j) = m(2) + m(4);
      // C22
      for (unsigned i = 0; i < half_row; ++i)
        for (unsigned j = 0; j < half_col; ++j)
          res->pos_ref(i + half_row, j + half_col) = m(1) - m(2) + m(3) + m(6);
#undef m
      delete dynamic_cast<base_mat *>(m1);
      delete dynamic_cast<base_mat *>(m2);
      delete dynamic_cast<base_mat *>(m3);
      delete dynamic_cast<base_mat *>(m4);
      delete dynamic_cast<base_mat *>(m5);
      delete dynamic_cast<base_mat *>(m6);
      delete dynamic_cast<base_mat *>(m7);
      while (sub_data.size() > sub_data_size) {
        delete sub_data.top();
        sub_data.pop();
      }
    }
    return res;
  }
};

unsigned N = 2;

void solve() {
  cerr << "N = " << N << endl;
  base_mat a(N, N), b(N, N);
  for (int i = 0; i < N; ++i)
    for (int j = 0; j < N; ++j)
      cin >> a.pos_ref(i, j);
  for (int i = 0; i < N; ++i)
    for (int j = 0; j < N; ++j)
      cin >> b.pos_ref(i, j);

  for (int t = 1; t < min(10u, N); t += 3) {
    auto x = new sub_mat(&a), y = new sub_mat(&b);
    min_mul = t;

    auto time_1 = clock();
    auto z = *x * *y;
    auto time_2 = clock();

    cerr << "t = " << t << " time: " << double(time_2 - time_1) / CLOCKS_PER_SEC << endl;
    delete dynamic_cast<base_mat *>(z);
    while (!sub_data.empty()) {
      delete sub_data.top();
      sub_data.pop();
    }
  }

  auto x = new sub_mat(&a), y = new sub_mat(&b);
  min_mul = 10000;

  auto time_1 = clock();
  auto z = *x * *y;
  auto time_2 = clock();

  cerr << "tradition: " << double(time_2 - time_1) / CLOCKS_PER_SEC << endl;
  delete dynamic_cast<base_mat *>(z);
  while (!sub_data.empty()) {
    delete sub_data.top();
    sub_data.pop();
  }
  N *= 2;
  if (N >= 1000) exit(0);
}

signed main() {
  ios_base::sync_with_stdio(false);
  cin.tie(nullptr);
  cout.tie(nullptr);
#ifdef ACM_LOCAL
  freopen("in.txt", "r", stdin);
  freopen("out.txt", "w", stdout);
  long long test_index_for_debug = 1;
  char acm_local_for_debug;
  while (cin >> acm_local_for_debug && acm_local_for_debug != '~') {
    cin.putback(acm_local_for_debug);
    if (test_index_for_debug > 20) {
      throw runtime_error("Check the stdin!!!");
    }
    auto start_clock_for_debug = clock();
    solve();
    auto end_clock_for_debug = clock();
    cout << "Test " << test_index_for_debug << " successful" << endl;
    cerr << "Test " << test_index_for_debug++ << " Run Time: "
       << double(end_clock_for_debug - start_clock_for_debug) / CLOCKS_PER_SEC << "s" << endl;
    cout << "--------------------------------------------------" << endl;
  }
#else
  solve();
#endif
  return 0;
}

到此这篇关于C++ Strassen算法代码的实现的文章就介绍到这了,更多相关C++ Strassen算法 内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • C++选择排序算法实例

    选择排序 选择排序是一种简单直观的排序算法,它的工作原理如下.首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾.以此类推,直到所有元素均排序完毕. 选择排序的主要优点与数据移动有关.如果某个元素位于正确的最终位置上,则它不会被移动.选择排序每次交换一对元素,它们当中至少有一个将被移到其最终位置上,因此对n个元素的表进行排序总共进行至多n-1次交换.在所有的完全依靠交换去移动元素的排序方法中,选择排序属于非常

  • C++实现矩阵原地转置算法

    本文实例描述了C++实现矩阵原地转置算法,是一个非常经典的算法,相信对于学习C++算法的朋友有很大的帮助.具体如下: 一.问题描述 微软面试题:将一个MxN的矩阵存储在一个一维数组中,编程实现矩阵的转置. 要求:空间复杂度为O(1) 二.思路分析 下面以一个4x2的矩阵A={1,2,3,4,5,6,7,8}进行分析,转置过程如下图: 图中右下角的红色数字表示在一维数组中的下标.矩阵的转置其实就是数组中元素的移动,具体的移动过程如下图: 我们发现,这些移动的元素的下标是一个个环,下标1的元素移动到

  • C++实现简单遗传算法

    本文实例讲述了C++实现简单遗传算法.分享给大家供大家参考.具体实现方法如下: //遗传算法 GA #include<iostream> #include <cstdlib> #include<bitset> using namespace std; const int L=5; //定义编码的长度 int f(int x) //定义测设函数f(x) { int result; result=x*x*x-60*x*x+900*x+100; return result;

  • C++实现DES加密算法实例解析

    本文所述实例是一个实现DES加密算法的程序代码,在C++中,DES加密是比较常用的加密算法了,且应用非常广泛.本CPP类文件可满足你的DES加密需要,代码中附带了丰富的注释,相信对于大家理解DES可以起到很大的帮助. 具体实现代码如下: #include "memory.h" #include "stdio.h" enum {encrypt,decrypt};//ENCRYPT:加密,DECRYPT:解密 void des_run(char out[8],char

  • C++堆排序算法的实现方法

    本文实例讲述了C++实现堆排序算法的方法,相信对于大家学习数据结构与算法会起到一定的帮助作用.具体内容如下: 首先,由于堆排序算法说起来比较长,所以在这里单独讲一下.堆排序是一种树形选择排序方法,它的特点是:在排序过程中,将L[n]看成是一棵完全二叉树的顺序存储结构,利用完全二叉树中双亲节点和孩子节点之间的内在关系,在当前无序区中选择关键字最大(或最小)的元素. 一.堆的定义 堆的定义如下:n个关键字序列L[n]成为堆,当且仅当该序列满足: ①L(i) <= L(2i)且L(i) <= L(2

  • 海量数据处理系列之:用C++实现Bitmap算法

    bitmap是一个十分有用的结构.所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素.由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省. 适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码扩展:bloom filter可以看做是对bit-map的扩展问题实例:1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数.8位最

  • 基于一致性hash算法 C++语言的实现详解

    一致性hash算法实现有两个关键问题需要解决,一个是用于结点存储和查找的数据结构的选择,另一个是结点hash算法的选择. 首先来谈一下一致性hash算法中用于存储结点的数据结构.通过了解一致性hash的原理,我们知道结点可以想象为是存储在一个环形的数据结构上(如下图),结点A.B.C.D按hash值在环形分布上是有序的,也就是说结点可以按hash值存储在一个有序的队列里.如下图所示,当一个hash值为-2^20的请求点P查找路由结点时,一致性hash算法会按hash值的顺时针方向路由到第一个结点

  • C++归并排序算法实例

    归并排序 归并排序算法是采用分治法的一个非常典型的应用.归并排序的思想是将一个数组中的数都分成单个的:对于单独的一个数,它肯定是有序的,然后,我们将这些有序的单个数在合并起来,组成一个有序的数列.这就是归并排序的思想.它的时间复杂度为O(N*logN). 代码实现 复制代码 代码如下: #include <iostream> using namespace std;   //将有二个有序数列a[first...mid]和a[mid...last]合并. void mergearray(int

  • C++基本算法思想之穷举法

    穷举算法(Exhaustive Attack method)是最简单的一种算法,其依赖于计算机的强大计算能力来穷尽每一种可能性,从而达到求解问题的目的.穷举算法效率不高,但是适应于一些没有规律可循的场合. 穷举算法基本思想穷举算法的基本思想就是从所有可能的情况中搜索正确的答案,其执行步骤如下: (1)对于一种可能的情况,计算其结果. (2)判断结果是否符合要求,如果不满足则执行第(1)步来搜索下一个可能的情况:如果符合要求,则表示寻找到一个正确答案. 在使用穷举法时,需要明确问题的答案的范围,这

  • C++实现查找中位数的O(N)算法和Kmin算法

    本文实例讲述了C++实现查找中位数的O(N)算法和Kmin算法,分享给大家供大家参考.具体方法如下: 利用快速排序的partition操作来完成O(N)时间内的中位数的查找算法如下: #include <iostream> #include <cassert> #include <algorithm> #include <iterator> using namespace std; int array[] = {1, 2, 10, 8, 9, 7, 5};

  • c++二叉树的几种遍历算法

    1. 前序/中序/后序遍历(递归实现) 复制代码 代码如下: // 前序遍历void BT_PreOrder(BiTreePtr pNode){ if (!pNode)  return;    visit(pNode);   BT_PreOrder(pNode->left); BT_PreOrder(pNode->right);   }// 中序遍历void BT_PreOrder(BiTreePtr pNode){  if (!pNode)  return;     BT_PreOrder(

随机推荐