基础 - 复杂度分析

# 基础 - 复杂度分析

# 为什么需要复杂度分析

通过统计、监控得到算法执行时间和占用内存大小，叫事后统计法。但是，这种统计方法有非常大的局限性。原因如下：

测试结果非常依赖测试环境。如使用不同的处理器或在不同服务器上执行，结果可能截然相反。
测试结果受数据规模的影响很大。如同一个排序算法，待排序数据的有序度不一样，排序的执行时间就会有很大的差别。如果测试数据规模太小，测试结果可能无法真实反映算法的性能。如小规模的数据排序，插入排序可能反倒会比快速排序要快。

所以需要一个不用具体的测试数据来测试，就可以粗略地估计算法的执行效率的方法。

# 大 O 复杂度表示法

算法的执行效率就是算法代码执行的时间。

粗略估计假设每行代码执行的时间都一样，为 unit_time，而所有代码的执行时间 T(n) 。在这个假设的基础上，可以知道下面代码的总执行时间： $T(n) = (2n^2 + 2n +3)$ * unit_time

int cal(int n) {
    int sum = 0;
    int i = 1;
    int j = 1;
    for (; i <= n; ++i) {
        j = 1;
        for (; j <= n; ++j) {
            sum = sum + i * j;
        }
    }
}

1
2
3
4
5
6
7
8
9
10
11

所有代码的执行时间 T(n) 与每行代码的执行次数 f(n) 成正比，总结成规律：T(n) = O( f(n) )

T(n) : 表示代码执行的时间
n：表示数据规模的大小
f(n) : 表示每行代码执行的次数总和
O：表示代码的执行时间 T(n) 与 f(n) 表达式成正比

所以上面代码时间复杂度表示为： $T(n) = O(2n^2 + 2n +3)$ 。大 O 时间复杂度实际上并不具体表示代码真正的执行时间，而是表示代码执行时间随数据规模增长的变化趋势，所以也叫做渐进时间复杂度（asymptotic time complexity），简称时间复杂度。

当 n 很大时，公式中的低阶、常量、系数三部分并不左右增长趋势，所以可以忽略。所以可记为： $T(n) = O(n^2)$

# 时间复杂度分析

# 分析技巧

只关注循环执行次数最多的一段代码。通常忽略掉公式中的常量、低阶、系数，只需记录一个最大阶的量级就可以。
加法法则：总复杂度等于量级最大的那段代码的复杂度
乘法法则：嵌套代码的复杂度等于前套内外代码复杂度的乘积

# 复杂度量级

data-structure2

时间复杂度量级可分为两类：多项式量级和非多项式量级。非多项式量级只有两个： $O(2^n)$ 和 $O(n!)$ ，非多项式量级的算法问题叫做 NP（Non-Deterministric Polynomial，非确定多项式）问题。当数据规模 n 越来越大时，非多项式量级算法的执行时间会急剧增加，求解问题的执行时间会无限增长，非常低效。

$O(1)$

O(1) 只是常量级时间复杂度的一种表示方法，并不是指只执行一行代码。一般情况下，只要算法中不存在循环语句、递归语句，即使有成千上万行的代码，其时间复杂度也是 O(1)
$O(logn)$ 、 $O(nlogn)$
```
i = 1;
while (i <= n) {
	i = i * 2;
}
```
1
2
3
4
第三行代码是循环执行次数最多的，只要计算这行代码被执行了多少次，就能知道整段代码的时间复杂度。代码中变量 i 的值从 1 开始取，每循环一次乘以 2，当大于 n 时，循环结束。即 $2^0 2^1 2^2 ...... 2^x = n$

所以只要知道 x 值是多少，就知道这行代码执行的次数，通过 $2^x = n$ ，求解 x 得 $x = log_2n$ ，所以这段代码的时间复杂度就是 $O(log_2n)$ 。
```
i = 1;
while (i <= n) {
    i = i * 3;
}
```
1
2
3
4
这段代码的时间复杂度为： $O(log_3n)$ ，实际上不管是以 2 为底，还是以 3 为底，可以把所有对数阶的时间复杂度都记为 $O(logn)$ ，由于 $log_3n = log_32 * log_2n$ ，而 $log_32$ 是个常量系数可以忽略，即 $O(log_2n)$ 和 $O(log_3n)$ 的时间复杂度相同。因此在对数阶时间复杂度的表示方法李，我们忽略对数的“底”，统一表示 $O(logn)$

$O(nlogn)$ 则表示时间复杂度为 $O(logn)$ 的代码执行了 n 次，比如归并排序、快速排序的时间复杂度都是 $O(nlogn)$

$O(m+n)$ 、 $O(m * n)$

int cal(int m, int n) {
  int sum_1 = 0;
  int i = 1;
  for (; i < m; ++i) {
    sum_1 = sum_1 + i;
  }

  int sum_2 = 0;
  int j = 1;
  for (; j < n; ++j) {
    sum_2 = sum_2 + j;
  }

  return sum_1 + sum_2;
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

代码中 m 和 n 是表示两个数量规模，无法事先评估 m 和 n 谁的量级大，所以不能利用加法法则省略掉一个，所以上面代码时间复杂度即： $O(m + n)$ ，乘法法则不变。

# 空间复杂度

空间复杂度全称就是渐进空间复杂度，表示算法的存储空间与数据规模之间的增长关系。

void print(int n) {
  int i = 0;
  int[] a = new int[n];
  for (i; i <n; ++i) {
    a[i] = i * i;
  }

  for (i = n-1; i >= 0; --i) {
    print out a[i]
  }
}

1
2
3
4
5
6
7
8
9
10
11

第 2 行代码中，我们申请了一个空间存储变量 i，但是它是常量阶的，跟数据规模 n 没有关系，所以我们可以忽略。第 3 行申请了一个大小为 n 的 int 类型数组，除此之外，剩下的代码都没有占用更多的空间，所以整段代码的空间复杂度就是 O(n)。

我们常见的空间复杂度就是 O(1)、O(n)、O(n2 )，像 O(logn)、O(nlogn) 这样的对数阶复杂度平时都用不到。

# 最好、最坏、平均、均摊时间复杂度

# 最好、最坏情况时间复杂度

例子：

// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
	int i = 0;
    int pos = -1;
    for (; i < n; ++i) {
        if (array[i] == x) pos = i;
    }
    return pos;
}

1
2
3
4
5
6
7
8
9

这段代码实现的功能是在一个无序的数组（array）中查找变量 x 出现的位置。如果没有找到，就返回 -1。容易看出这段代码的复杂度是 O(n)，其中 n 代表数组的长度。

实际情况中在数组中查找一个数据，并不需要每次把数组都遍历一遍，有可能中途找到就可以提前结束循环，优化有的代码如下：

// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
    int i = 0;
    int pos = -1;
    for (; i < n; ++i) {
        if (array[i] == x) {
            pos = i;
            break;
        }
    }
    return pos;
}

1
2
3
4
5
6
7
8
9
10
11
12

优化后代码的时间复杂度显然不一定是 O(n) ，因为，要查找的变量 x 可能出现在数组的任意位置。如果数组中每一个元素正好是要查找的变量 x，那就不需要继续遍历剩下的 n - 1 个数据，那时间复杂度就是 O(1)。但如果数组不存在变量 x，那就需要遍历整个数组，时间复杂度就是 O(n)。所以在不同情况下，这段代码的时间复杂度也不一样。

为了表示代码在不同情况下的时间复杂度，引入三个概念：最好时间复杂度、最坏时机复杂度和平均情况时间复杂度。

最好情况时间复杂度：在最理想的情况下，执行这段代码的时间复杂度，要查找的变量 x 在数组 array 的第一个元素，这个时候对应的时间复杂度就是最好时间复杂度。

最坏情况时间复杂度：在最糟糕的情况下，执行这段代码的时间复杂度，要查找的变量 x 在数组 array 中不存在，就需要吧数组全部遍历一遍，这种最糟糕情况下对应的时间复杂度是最坏情况时间复杂度。

# 平均情况时间复杂度

最好、最坏情况时间复杂度都是极端情况下的代码复杂度，发生概率不大，为了更好地表示平均情况下的复杂度，需要引入：平均情况时间复杂度。

查找 x 在数组 array 中的位置，有 n + 1 种情况：在数组的 0 ~ n-1 位置中和不在数组中。把查找需要遍历的元素个数累加起来，然后除以 n + 1，就可以得到需要遍历的元素个数的平均值，即：

$\frac{1+2+3+...+n+n}{n+1} = \frac{n(n+3)}{2(n+1)}$ 而时间复杂度的大 O 标记法中，可以省略掉系数、低阶、常量，所以把公式简化后得到的平均时间复杂度为 O(n)。

但上面的推导过程中没有将各种情况发生的概率考虑进去。为了方便，假设数组中存在与不存在 x 的概率都为 1/2，要查找的数据出现在 0 ~ n-1 这 n 个位置的概率也是一样的，为 1/n。所以根据概率乘法法则，要查找的数据出现在 0 ~ n-1中任意位置的概率就是 1/(2n)，所以结果变成这样： $1 * \frac{1}{2n} + 2 * \frac{1}{2n} + 3 * \frac{1}{2n} + ... + n * \frac{1}{2n} + n * \frac{1}{2n} = \frac{3n+1}{4}$

这个值就是概率论中的加权平均值，也叫作期望值，所以平均时间复杂度的全称应该叫加权平均时间复杂度或者期望时间复杂度。引入概率之后，前面那段代码的加权平均值为 (3n+1)/4。用大 O 表示法来表示，去掉系数和常量，这段代码的加权平均时间复杂度仍然是 O(n)

# 均摊时间复杂度

均摊时间复杂度，它对应的分析方法，摊还分析（或者叫平摊分析），例子：

 // array表示一个长度为n的数组
 // 代码中的array.length就等于n
 int[] array = new int[n];
 int count = 0;
 
 void insert(int val) {
    if (count == array.length) {
       int sum = 0;
       for (int i = 0; i < array.length; ++i) {
          sum = sum + array[i];
       }
       array[0] = sum;
       count = 1;
    }

    array[count] = val;
    ++count;
 }

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

这段代码实现了一个往数组中插入数据的功能。当数组满了之后，也就是代码中的 count == array.length 时，我们用 for 循环遍历数组求和，并清空数组，将求和之后的 sum 值放到数组的第一个位置，然后再将新的数据插入。但如果数组一开始就有空闲空间，则直接将数据插入数组。

最理想的情况下，数组中有空闲空间，我们只需要将数据插入到数组下标为 count 的位置就可以了，所以最好情况时间复杂度为 O(1)。最坏的情况下，数组中没有空闲空间了，我们需要先做一次数组的遍历求和，然后再将数据插入，所以最坏情况时间复杂度为 O(n)。

假设数组的长度是 n，根据数据插入的位置的不同，我们可以分为 n 种情况，每种情况的时间复杂度是 O(1)。除此之外，还有一种“额外”的情况，就是在数组没有空闲空间时插入一个数据，这个时候的时间复杂度是 O(n)。而且，这 n+1 种情况发生的概率一样，都是 1/(n+1)。所以，根据加权平均的计算方法，我们求得的平均时间复杂度就是：

$1 * \frac{1}{n+1} + 1 * \frac{1}{n+1} +...+ 1* \frac{1}{n+1} + n * \frac{1}{n+1} = O(1)$

但是这个例子里的平均复杂度分析其实并不需要这么复杂，不需要引入概率论的知识。对比一下这个 insert() 的例子和前面那个 find() 的例子。

首先，find() 函数在极端情况下，复杂度才为 O(1)。但 insert() 在大部分情况下，时间复杂度都为 O(1)。只有个别情况下，复杂度才比较高，为 O(n)。这是 insert()第一个区别于 find() 的地方。

第二个不同的地方。对于 insert() 函数来说，O(1) 时间复杂度的插入和 O(n) 时间复杂度的插入，出现的频率是非常有规律的，而且有一定的前后时序关系，一般都是一个 O(n) 插入之后，紧跟着 n-1 个 O(1) 的插入操作，循环往复。

所以，针对这样一种特殊场景的复杂度分析，我们并不需要像之前讲平均复杂度分析方法那样，找出所有的输入情况及相应的发生概率，然后再计算加权平均值。针对这种特殊的场景，引入了一种更加简单的分析方法：摊还分析法，通过摊还分析得到的时间复杂度我们起了一个名字，叫均摊时间复杂度。

数组中插入数据的这个例子。每一次 O(n) 的插入操作，都会跟着 n-1 次 O(1) 的插入操作，所以把耗时多的那次操作均摊到接下来的 n-1 次耗时少的操作上，均摊下来，这一组连续的操作的均摊时间复杂度就是 O(1)。这就是均摊分析的大致思路。

对一个数据结构进行一组连续操作中，大部分情况下时间复杂度都很低，只有个别情况下时间复杂度比较高，而且这些操作之间存在前后连贯的时序关系，这个时候，我们就可以将这一组操作放在一块儿分析，看是否能将较高时间复杂度那次操作的耗时，平摊到其他那些时间复杂度比较低的操作上。而且，在能够应用均摊时间复杂度分析的场合，一般均摊时间复杂度就等于最好情况时间复杂度。

# 总结

复杂度也叫渐进复杂度，包括时间复杂度和空间复杂度，用来分析算法执行效率与数据规模之间的增长关系，可以粗略地表示，越高阶复杂度的算法，执行效率越低。常见的复杂度并不多，从低阶到高阶有： $O(1)$ 、 $O(logn)$ 、 $O(n)$ 、 $O(nlogn)$ 、 $O(n2 )$ 。并引入复杂度分析相关的概念：最好情况时间复杂度、最坏情况时间复杂度、平均情况时间复杂度、均摊时间复杂度。之所以引入这几个复杂度概念，是因为，同一段代码，在不同输入的情况下，复杂度量级有可能是不一样的。

# 来源

极客时间《数据结构与算法之美》 (opens new window)专栏笔记

#数据结构与算法

上次更新: 2024-08-19

← 数据结构与算法 - 概述线性表 - 数组→