avatar
Articles
102
Tags
24
Categories
5

Home
Archives
Tags
Categories
About
Yuchen You
Search
Home
Archives
Tags
Categories
About

Yuchen You

5. 链接步骤 linking
Updated2026-03-26|cs_basic|computer_composition
背景 在编译 C 或者 C++ 文件的时候,我们都会用到链接这一步骤,即 预处理 - 编译 - 汇编 - 链接 四个步骤 我们已经学过了汇编了,那么接下来就该了解一下什么是 linking 了 什么是链接 在汇编中,我们一般是每一个 c/cpp 文件生成一个 汇编代码文件 (obj file, 扩展名 .o),那么,如果存在跨文件的变量,汇编怎么知道这个变量是来自哪里的呢? 首先我们联想在编译的时候 (compile time) 我们会在项目编译的内存空间中创建一个格式为 text - data - heap - stack 的空间结构(这里说的不恰当,应该说 compile time 分配的 text - data 空间),那么类似的,对于每个源文件生成的汇编码,我们都要用一个表来记录全局变量的引用 cross−refcross-refcross−ref 以及外来方法 (即函数) 的对应引用 obj 文件的内容 上述两个表格会在编译的过程中存储在 .o 文件中,因此 obj 文件的格式会表现为: Header - Text - Data - Symbol Table - Reloc ...
7. 贪心算法 Greedy
Updated2026-03-26|cs_basic|algorithm
排课问题 假设开学季的某一个下午多个社团都想要占用霍体开设招新活动,每个活动的时间长度各不相同且开始和结束的时间都各不相同,那么,学校方希望能尽可能多的开设活动,而并不考虑总活动时长的影响因素 最早结束时间算法 Earliest Ending Time EET 将这些活动按照时间结束的早晚进行排序,然后选中最前面那个,然后去除所有重叠的活动,然后递归选取下一个 选择的可靠性 (safe) 我们需要证明我们选择的这个活动确实是能带来最多活动数量的,或者用数学术语来说,存在最优解集 IOPTI_{OPT}IOPT​, 我们要证明 我们选择的 first ends I∈IOPTI \in I_{OPT}I∈IOPT​ 由于根据定义,结束时间 end(I)≤end(IOPT)end(I) \le end(I_{OPT})end(I)≤end(IOPT​) 那么由于 IOPTI_{OPT}IOPT​ 的下一个元素开始时间一定晚于当前的结束时间,所以 end(I)<start(IOPT,next)end(I) < start(I_{OPT, next})end(I)<start( ...
10. 堆,优先队列与堆排序
Updated2026-03-26|eecs281|algorithm
堆 我们将一棵树变得更加特别,即限制其必须为完整的,即每一个树的层级都是满的,除了最后一层。 然后,我们联想生活中的常见的堆型结构:稻草堆,其特征是上小下大,那么,我们就可以定义数据结构中堆的特性:具有一定的偏序关系(优先级),且根节点的值总是该偏序关系的一端。 堆的节点关系 堆在内存中存储为一个 array 的形式,假设当前节点的 index 为 i (假设根节点 id = 1): 父节点 i / 2 左子节点 2i 右子节点 2i + 1 是否为叶节点 return (2 * i > n) 大顶堆的实现 fixUp() 当我们向一个堆进行插入元素操作,那么我们需要保证堆的特性,即根节点的值总是最大的。我们可以通过将新插入的元素与其父节点进行比较,如果新插入的元素大于其父节点,那么我们就将新插入的元素与其父节点进行交换,直到新插入的元素不再大于其父节点。 这个操作的结果是 将新的堆变成符合 父节点大于子节点的属性,且根节点一定是顺序最高的 fixDown() 当我们删除堆顶的元素的时候,我们需要将下面的元素逐个选择大的向上填充,那么我们就需要进行 fixDown() 操作, ...
8. STL 的使用
Updated2026-03-26|cs_basic|algorithm
std::move() 将参数转换为右值引用,在调用移动构造函数或移动赋值操作符时可以进行资源的转移而非拷贝,从而提高效率 std::swap() 实现 123456template<typename T>void swap(T& a, T& b) { T temp = std::move(a); a = std::move(b); b = std::move(temp);} 功能 可以交换两个动态数组,但是实际上是交换两个数组的指针,操作量非常小,效率非常高 也常常用于所谓需要 “copy” 的地方,特别是需要硬拷贝的类的赋值 一般类的赋值涉及指针的时候,需要额外 new 一个新的指针进行等于,且在判断是否 new 的时候需要判断输入对象和执行对象不相同(相同的话在析构的时候会将当前的数组指针释放且会重复申请同一个数值的多个指针) 使用这个 swap 函数进行 就不需要担心这个问题 STL 依赖的特殊关键字 explicit 阻止编译器隐藏转换数据类型,比如 123explicit FeetInches(int a); ...
9. 图的最短路径
Updated2026-03-26|math|algorithm
问题背景阐述以及分类 在一个有权有向图(weighted directed graph)中,我们想知道从一个节点到其他某一个节点的路径的权和,注意权重可能是负数,我们这里假设图本身没有形成环 那么问题会被分成两类 Single-Source Shortest Paths (SSSP): 单个源出发到达某一节点的最短路径 All-pairs Shortest Paths (ASAP): 任意一对节点之间的最短路径 两则引理 引理1 如果从 sss 到 ttt 的最短路径经过 vvv 节点,那么 sss 到 vvv 和 vvv 到 ttt 均为最短路径 引理2 如果图中没有负权回路,那么从 sss 到 ttt 的最短路径中不会存在回路 递归法解决 SSSP 问题 我们可以得到递归公式: dist(s,t)=min⁡v∈neighbors(s){dist(s,v)+w(v,t)}dist(s, t) = \min_{v \in \text{neighbors}(s)} \{dist(s, v) + w(v, t)\} dist(s,t)=v∈neighbors(s)min​{dist ...
2. Multiplier
Updated2026-03-26|cs_basic|computer_composition
如果使用 lc-2k 指令集完成一个乘法操作,要求复杂度是 O(log⁡n)O(\log n)O(logn) 要怎么做? 问题分析 lc-2k 指令集中涉及计算的部分只有 add 和 nor 两个指令 对于一个十进制的乘法操作,我们一般的做法是 列竖式,即将两个数的每一位相乘,然后将结果相加 但是在二进制中,我们应该想到的是将被乘数(较小的)写成二进制,看每一位是否为1,如果是1,那么即乘数的 cand*2^i ,然后将所有的结果相加 Bit Mask 实现 因为要找到每一位的值是否为 1, 那么我们必然需要一个能计算 每一位逻辑的工具,在 lc-2k 中, 只能用 nor 实现 将一个数字和 0xFFFF 进行 nor 操作,就会得到全 0, 但是如果我们将 0xFFFF 的第 k 位变成 0, 再进行 nor 操作,如果返回为 0, 说明原数字k位为1, 否则为 0 所以我们需要一个常量寄存器存储全1数, 即补码 -1; 我们还需要一个 每次乘 2 的bit mask 寄存器,初始值为 -1 (这里思考的时候不要转到 机器码空间,否则用补码进行计算有点逆天,我们直接用实际效果进行反 ...
4. 从 C 语言到 汇编指令
Updated2026-03-26|cs_basic|computer_composition
位数扩展 有符号数的符号位(most significant number)为 1 时,扩展时高位补 1 有符号数的符号位(most significant number) 为 0 时,扩展时高位补 0 无符号数的扩展时高位补 0 寄存器知道存储数值是有符号还是无符号的吗 答案是不知道,寄存器只会存储数值,不会存储数值的符号,符号是由汇编码的不同操作指令来决定的,比如 LDURSW 就是有符号数,LDUR 就是无符号数 例子 比如将一般的 int 进行 bit shift, 那么 1 >> 2 = 0, 而 -1 >> 2 = -1 数字存储顺序 Endian 这个词出自Jonathan Swift书写的《格列佛游记》。这本书根据将鸡蛋敲开的方法不同将所有的人分为两类,从圆头开始将鸡蛋敲开的人被归为Big Endian,从尖头开始将鸡蛋敲开的人被归为Littile Endian(这句话最为形象)。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开 注:存储顺序是内存的,寄存器没有这个说法! 一般来 ...
2. lc-2k 指令集架构
Updated2026-03-26|cs_basic|computer_composition
硬件结构 32 位 处理器: 指令长度是 32 位 , 寄存器大小是 32 位 32 位处理器的关键特征是其寄存器、数据总线和地址总线的宽度为 32 位。这意味着它可以处理 32 位的整数,并且通常可以寻址的最大内存空间为 4 GB。 在 32 位处理器中,寄存器和数据路径通常也是 32 位的,所以处理器可以在一次操作中处理 32 位的数据 其指令长度也是 32 位(这里的32 没有特指王楚钦) 8 个寄存器,其中 reg 0 一般只会被赋值 0 内存寻址范围 4GB 即 65536 words 指令形式 寄存器型指令结构 31 - 25 24 - 22 21 - 19 18 - 16 15 - 3 2 - 0 unused opcode regA regB unused destR 立即数型指令结构 31 - 25 24 - 22 21 - 19 18 - 16 15 - 0 unused opcode regA regB offset J 类型指令 (jalr) 31 - 25 24 - 22 21 - 19 18 - 16 ...
3. ARM 指令集架构
Updated2026-03-26|cs_basic|computer_composition
相比于前一节课讲的 lc2k isa, arm 架构的效果会好很多 ISA 的分类 RISC 架构,Reduced Instruction Set Computing 指令数量更少,编码的指令长度是一致的,硬件设备相对更加简单,程序更大,手写会更加困难,但是当前非常常用 应用: lc2k, risc-v, arm (包括其子集 LEG) CISC 架构,Complex Instruction Set Computing 用更多、更复杂的指令集,编码的指令的长度是不一定的,所以硬件更复杂,程序的长度更短,手写更方便,现在比较少用了 应用: x86 指令及其分类 算术指令 Arithmetic 格式:3 operand fields, 一般会将 destination 寄存器放在第一位 ADD X1, X2, X3: 将 X2 + X3 的结果转存到 X1 寄存器中 这个和 lc2k 是反的 只能操作于 ARM 指令集存储形式 | opcode | Rm | shamt | Rn | Rd | 存储了一个指令集 其中 Rm 表示第二个 register operand, Rn 表 ...
5. 递归算法
Updated2026-03-26|cs_basic|algorithm
尾递归 Tail Recursion 我们称递归调用在函数最后一步的递归方式为 尾递归 例如我们在计算阶乘的时候,如果我们这样写: 1234def factorial(n, acc=1): if n == 0: return acc return factorial(n-1, acc*n) 那么调用自身的步骤在最后,就是尾递归,这种递归形式由于和 正向递推没有很大的区别,有一些编译器会将其变成 iteration 的形式进行执行,从而避免 stack-overflow 的问题,其占用的时间和空间都会比一般的递归小很多 递归与压栈操作 在函数被调用的时候,我们称一个本地变量存储在名为 program stack 的栈结构中 在调用函数之后,其arguments 会被 push onto program stack 在函数执行完之后,arguments 就会被 pop 出栈 在函数中执行 return, 返回值会被push 到 prog stack 中 如果 return 的值被收到,那么返回值会被 pop 走,且本地变量会被重新存储 函数栈可以被嵌套 (nes ...
1…891011
avatar
Yuchen You (Wesley)
Articles
102
Tags
24
Categories
5
Follow Me
Announcement
This is my Blog
Recent Post
kubernetes2026-03-29
ZeRO - memory optimizations toward training trillion parameter models2026-03-29
Megatron-LM - Training Multi-Billion Parameter Language Models Using Model Parallelism2026-03-26
Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve2026-03-26
GPipe - efficient training of giant neural networks using pipeline parallelism2026-03-26
Categories
  • cs_basic25
  • cybersecurity12
  • eecs2817
  • math9
  • mlsys4
Tags
unix sql network algorithm chaos_system ml_training container schedule distributed_sys p_np system_failure computability mlsys memory computer_composition virtual_machine cuda operating_system cyber_security structure gpu kernel Consensus database
Archives
  • March 20266
  • January 20261
  • December 20254
  • November 20253
  • October 20255
  • September 202516
  • August 20253
  • June 20251
Info
Article :
102
UV :
PV :
Last Update :
©2020 - 2026 By Yuchen You (Wesley)
Framework Hexo|Theme Butterfly
welcome to my blog!
Search
Loading the Database