hello algorithm chapter 4 / Array

数据结构的世界如同一堵厚实的砖墙。

数组的砖块整齐排列，逐个紧贴。

Overview

Array

Definition

将相同类型元素存储在连续的内存空间中的线性数据结构就是数组

元素在数组中的位置称为该元素的「索引 index」

Common operation

Initial Array

无初始值

给定初始值

Index Array:

O(1)

索引的含义本质上是内存地址的偏移量。首个元素的地址偏移量是 0 ，因此它的索引为 0 也是合理的。

Insert Element

O(n)

插入一个元素，则需要将该元素之后的所有元素都向后移动一位，之后再把元素赋值给该索引。

必定会导致数组尾部元素的 “丢失”。

Delete Element

O(n)

若想要删除索引 n 处的元素，则需要把索引 n 之后的元素都向前移动一位。

Disadvantage

时间复杂度高

丢失元素

内存浪费

Traverse Array

O(n)

通过索引直接遍历数组

遍历获取数组中的每个元素

Search Element

O(n)

线性查找：遍历数组，每轮判断元素值是否匹配。

Expand array

O(n)

扩容数组，需重新建立一个更大的数组，然后把原数组元素依次拷贝到新数组。

Advantage and disadvantage

Advantage

空间效率高

支持随机访问

缓存局部性：当访问数组元素时，计算机不仅会加载它，还会缓存其周围的其他数据

Disadvantage

空间浪费

插入与删除效率低 O(n)

长度不可变

Applications of arrays

随机访问

排序和搜索：快速排序、归并排序、二分查找

查找表：速查找一个元素或者需要查找一个元素的对应关系，类似ASCII。

机器学习：神经网络中大量使用了向量、矩阵、张量之间的线性代数运算。

数据结构实现：数组可以用于实现栈、队列、哈希表、堆、图等数据结构。

Definition

将相同类型元素存储在连续的内存空间中的线性数据结构就是数组

元素在数组中的位置称为该元素的「索引 index」

Common operation

Initial Array

两种初始化方式：

无初始值，在未指定初始值的情况下，大多数编程语言会将数组元素初始化为 0 。
给定初始值。

1
2
3

/* 初始化数组 */
int[] arr = new int[5]; // { 0, 0, 0, 0, 0 }
int[] nums = { 1, 3, 2, 5, 4 };

Index Array

时间复杂度 \(O(1)\)

索引的含义本质上是内存地址的偏移量。首个元素的地址偏移量是 0 ，因此它的索引为 0 也是合理的。

Insert Element

插入一个元素，则需要将该元素之后的所有元素都向后移动一位，之后再把元素赋值给该索引。

插入一个元素必定会导致数组尾部元素的 “丢失”。

/* 在数组的索引 index 处插入元素 num */
void insert(int[] nums, int num, int index) {
    // 把索引 index 以及之后的所有元素向后移动一位
    for (int i = nums.length - 1; i > index; i--) {
        nums[i] = nums[i - 1];
    }
    // 将 num 赋给 index 处元素
    nums[index] = num;
}

Delete Element

若想要删除索引 \(n\) 处的元素，则需要把索引 \(n\) 之后的元素都向前移动一位。

/* 删除索引 index 处元素 */
void remove(int[] nums, int index) {
    // 把索引 index 之后的所有元素向前移动一位
    for (int i = index; i < nums.length - 1; i++) {
        nums[i] = nums[i + 1];
    }
}

数组的插入与删除操作有以下缺点。

时间复杂度高：数组的插入和删除的平均时间复杂度均为 �(�) ，其中 � 为数组长度。
丢失元素：由于数组的长度不可变，因此在插入元素后，超出数组长度范围的元素会丢失。
内存浪费：我们可以初始化一个比较长的数组，只用前面一部分，这样在插入数据时，丢失的末尾元素都是 “无意义” 的，但这样做也会造成部分内存空间的浪费。

Traverse Array

既可以通过索引遍历数组，也可以直接遍历获取数组中的每个元素。

/* 遍历数组 */
void traverse(int[] nums) {
    int count = 0;
    // 通过索引遍历数组
    for (int i = 0; i < nums.length; i++) {
        count++;
    }
    // 直接遍历数组
    for (int num : nums) {
        count++;
    }
}

Search Element

线性查找：遍历数组，每轮判断元素值是否匹配。

/* 在数组中查找指定元素 */
int find(int[] nums, int target) {
    for (int i = 0; i < nums.length; i++) {
        if (nums[i] == target)
            return i;
    }
    return -1;
}

Expand array

扩容数组，需重新建立一个更大的数组，然后把原数组元素依次拷贝到新数组。

这是一个 \(O(n)\) 的操作，在数组很大的情况下是非常耗时的。

/* 扩展数组长度 */
int[] extend(int[] nums, int enlarge) {
    // 初始化一个扩展长度后的数组
    int[] res = new int[nums.length + enlarge];
    // 将原数组中的所有元素复制到新数组
    for (int i = 0; i < nums.length; i++) {
        res[i] = nums[i];
    }
    // 返回扩展后的新数组
    return res;
}

Advantage and disadvantage

数组存储在连续的内存空间内，且元素类型相同。这种做法包含丰富的先验信息，系统可以利用这些信息来优化数据结构的操作效率。

空间效率高: 数组为数据分配了连续的内存块，无须额外的结构开销。
支持随机访问: 数组允许在 \(O(1)\) 时间内访问任何元素。
缓存局部性: 当访问数组元素时，计算机不仅会加载它，还会缓存其周围的其他数据，从而借助高速缓存来提升后续操作的执行速度。

连续空间存储是一把双刃剑，其存在以下缺点。

空间浪费: 如果数组分配的大小超过了实际所需，那么多余的空间就被浪费了。
插入与删除效率低: 当数组中元素较多时，插入与删除操作需要移动大量的元素。
长度不可变: 数组在初始化后长度就固定了，扩容数组需要将所有数据复制到新数组，开销很大。

Applications of arrays

随机访问：如果我们想要随机抽取一些样本，那么可以用数组存储，并生成一个随机序列，根据索引实现样本的随机抽取。
排序和搜索：数组是排序和搜索算法最常用的数据结构。快速排序、归并排序、二分查找等都主要在数组上进行。
查找表：当我们需要快速查找一个元素或者需要查找一个元素的对应关系时，可以使用数组作为查找表。假如我们想要实现字符到 ASCII 码的映射，则可以将字符的 ASCII 码值作为索引，对应的元素存放在数组中的对应位置。
机器学习：神经网络中大量使用了向量、矩阵、张量之间的线性代数运算，这些数据都是以数组的形式构建的。数组是神经网络编程中最常使用的数据结构。
数据结构实现：数组可以用于实现栈、队列、哈希表、堆、图等数据结构。例如，图的邻接矩阵表示实际上是一个二维数组。

hello algorithm

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

hello algorithm chapter 4 / linked list 上一篇

Fix the bug that latex formula does not render in hexo-fluid 下一篇