QEMU 模拟器介绍

本文是北航《操作系统》课程预习教程的一部分。此版本由本人编写。 2024 年课程实验环境由 GXemul 更换为 QEMU,为了方便同学适应新的实验环境,在预习教程中特地新增《GDB:程序的解剖术》和《QEMU 模拟器介绍》两篇文章。 操作系统是直接运行在计算机硬件之上,向下管理硬件资源,对上为软件提供统一服务的一类程序。在本课程的实验中,为了开发和运行我们的 MOS 操作系统,我们必须具备一套支持操作系统运行的硬件系统,其中包括处理器、内存、外部设备(如磁盘)等多个组成部分。 然而,为每位同学都准备一套硬件设备是不切实际的。相较之下,使用模拟器则是一个更好的选择。模拟器能够模拟计算机硬件的行为和特性,使开发者可以在模拟的环境中运行和测试软件,而无需实际的物理硬件设备。 本实验所采用的模拟器为 QEMU,接下来我们就会对这一模拟器进行介绍。 什么是 QEMU QEMU(Quick Emulator)是一个通用的开源的机器仿真和虚拟化工具,由传奇程序员法布里斯·贝拉(Fabrice Bellard)编写。QEMU 能够提供跨体系结构的硬件模拟,支持 x86、ARM、MIPS、RISC-V 等多种架构。 法布里斯·贝拉 是 QEMU、FFmpeg 等著名项目的创始人。他的工作涉足操作系统(QEMU)、编译器(Tiny C Compiler)、图形学(TinyGL)、通信技术(Amarisoft)、数学(Bellard’s formula)、音视频(FFmpeg)、人工智能(NNCP)等众多领域,并都做出过许多突出的贡献。是一位近乎全才的人物。 QEMU 拥有多种不同的使用方式,而在实验中我们所使用的主要是 QEMU 的系统仿真模式。在此模式中,QEMU 能够模拟处理器的执行过程以及各种硬件设备的行为,从而提供包括处理器、内存和外部设备在内的整机虚拟模型。在此模型之上,我们能够运行一个完整的操作系统,而不需要任何额外硬件的支持。 QEMU 提供了高度定制化的硬件模拟能力,使得搭建指定硬件平台的运行环境十分容易。并且 QEMU 也提供了使用 GDB 进行调试的原生支持,使程序的开发更加便捷。正因如此,QEMU 成为了底层开发领域十分重要的工具。 QEMU 的工作原理 这部分并不是本课程要求掌握的内容。各位可以按兴趣阅读。 在正式谈论 QEMU 的工作原理前,我们需要先了解一下虚拟化(Virtualization)技术。这里的虚拟化特指硬件虚拟化,是指隐藏真实的物理硬件,而由软件模拟出特定的硬件环境,在此环境中运行的操作系统就好像运行在实际的物理机器上一样。在此过程中,通过模拟产生的硬件环境称为虚拟机(Virtual Machine),实现虚拟化的程序称为虚拟机管理程序(Hypervisor)。本质上,虚拟机管理程序是一种中间件。 通过虚拟化技术,我们可以屏蔽底层硬件的差别,从而在单台物理设备上运行许多不同的操作系统环境,充分利用硬件资源。虚拟化产生的硬件环境也很容易在不同设备间迁移,这也利于系统的管理和维护。 根据虚拟化实现方式的不同,虚拟机管理程序分为第一类虚拟机管理程序(Type 1 Hypervisor)和第二类虚拟机管理程序(Type 2 Hypervisor)。 第一类虚拟机管理程序直接运行在硬件之上,如下图 (a) 所示。此时虚拟机管理程序实际上占据了类似操作系统的位置,整个物理机被其分割为多个虚拟机。 而第二类虚拟机管理程序则运行在操作系统之上,是操作系统中的应用程序,如下图 (b) 所示。其中称运行该虚拟机管理程序的操作系统所处的机器为宿主机(Host),而管理程序中的虚拟机则为客户机(Guest)。由于第二类虚拟机管理程序采取了软件模拟处理器、解释执行机器码的方式,所以也被称为模拟器(Simulator)。 第一类虚拟机管理程序主要在企业数据中心或服务器中使用。常见的产品包括 KVM、VMWare ESXi 等等。而第二类虚拟机管理程序则通常在个人计算机上使用,以便能在运行虚拟机的同时执行其他进程。常见的产品包括 VMware Workstation、Oracle VirtualBox 等等,其中也包括 QEMU。 图片来自 Andrew S....

一月 21, 2024 · 4 分钟 · 707 字 · Wokron

GDB:程序的解剖术

本文是北航《操作系统》课程预习教程的一部分。此版本由本人编写。 2024 年课程实验环境由 GXemul 更换为 QEMU,为了方便同学适应新的实验环境,在预习教程中特地新增《GDB:程序的解剖术》和《QEMU 模拟器介绍》两篇文章。 回想起刚刚踏入编程世界的时候,大概每个人都有这样的经历:仔细编写的程序总是得不到正确的结果,即便将代码从头到尾检查几遍,依旧找不出隐藏其中的错误。虽然我们对自己所写的代码了如指掌,但是代码终究是静态的,无法反映真实的运行情况;虽然各种各样的测试样例可以让我们发现错误,但是程序终归是只有输入输出的黑箱,其中的运行机理让我们束手无策。 为了解决这样的困境你肯定试过很多办法,比如说大名鼎鼎的 “printf” 大法。但是在原有的逻辑中插入没有意义的输出反而会使代码的结构更加混乱,过量的输出同样更加可能掩盖错误的真相,最终离发现错误的目标越来越远。我们需要采用另一种方法,能够在不侵入代码原有逻辑的前提下,追踪程序的运行情况,从而发现程序运行中出现的错误。 GDB 简介 能够实现追踪并控制程序运行功能的程序称为 Debugger,中文称其为调试器。不同语言有着不同的调试器,如 Python 的 PDB、Java 的 JDB。而我们在本篇文章中介绍的则为 GDB,全称为 “GNU Debugger“。 GDB 的吉祥物,一条 “射水鱼”。擅长射出水柱击落岸边植物上的昆虫(Bug)。 GDB 是一个功能十分强大的调试器,它适用于 C、C++、Go、Rust 等多种语言。GDB 最初由 GNU 项目的创始人理查德·马修·斯托曼(Richard Matthew Stallman)编写,并作为 GNU 项目的一部分。根据 GDB 官网的描述,GDB 的主要功能包括: 启动程序并指定可能影响其行为的任何内容。 使程序在指定条件下停止。 当程序停止时,检查发生了什么。 更改程序中的内容,以便可以尝试纠正一个错误的影响,并继续了解另一个错误。 接下来我们会逐步介绍上述功能。看看 GDB 是如何像手术刀一样解剖程序运行的机理,发现病灶所在的。 准备工作 在开始之前需要说明两点: 接下来的内容我们将在 Ubuntu 中进行,这与本课程的实验环境保持一致。同时建议同学们尽量在学习和开发时多多使用 Linux 环境,因为许多项目都只支持 Linux 平台,或只提供 Linux 下的教程和文档。 为了更好地理解 GDB 的指令操作,同学们最好在阅读教程的同时同步进行操作。 实验所提供的跳板机上会安装好所有需要的环境,因此同学们也可以使用跳板机完成本文操作。但是跳板机中会出现由于无法关闭 address space randomization 导致无法设置断点的问题。这一问题可以通过在 GDB 界面中输入 set disable-randomization off 指令解决。...

一月 18, 2024 · 16 分钟 · 3244 字 · Wokron

从零开始的编译原理(2):编译程序架构

一、前言 本质是存在的真理,是自己过去了的或内在的存在。 —— 格奥尔格·威廉·弗里德里希·黑格尔《小逻辑》第二篇 本质论 §112 本篇文章是一个间章。旨在衔接文法理论与编译过程,从架构上概述整个编译程序。文法理论旨在解释自然语言,而编译过程却要创造新的语言。编译程序通过将文法规则机械化,创造出易于理解的高级语言,实现了计算的高级抽象。 二、何为 “编译” 为了理解何为 “编译”,我们可以从一个具体的编译器开始。这里我们以 C 语言的编译过程为例: 现在有一个简单的由 C 语言文法写成的文本文件 test.c // test.c #include <stdio.h> int main() { printf("hello, world.\n"); return 0; } 想要将其编译为可执行文件,当然可以使用 gcc test.c -o test 或 clang test.c -o test,但是这样就不能反映编译的具体过程了。所以这里我编写了一个 Makefile,用来指明 gcc 编译时所经历的具体步骤。 # Makefile srcname = test cc = gcc # Default target all: $(srcname) @echo "Finish!" # Linking stage $(srcname): $(srcname).o @echo "Linking stage: Creating executable '$(srcname)'" $(cc) $(srcname).o -o $(srcname) # Assembly stage $(srcname)....

一月 6, 2024 · 3 分钟 · 442 字 · Wokron

面向对象的 C 语言

一、前言——对象与过程 碎碎念:这篇文章里提到的语言是真的多:c、c++、c#、java、python、golang c 语言怎么能面向对象呢?c 语言的设计当然并非为面向对象做出考虑,但是其拥有的语法却足以使我们写出具有面向对象味道的代码了。因为无论是面向过程或面向对象,其背后的本质思想都是相同的,那就是这样一个著名的公式: $$ 程序 = 数据结构 + 算法 $$ 面向过程无非是强调其算法的一面;面向对象无非是强调其数据结构的一面。当我们使用面向过程的思想编写代码时,我们所想的是数据是函数中的参数和变量,数据在过程中流动和变化。而在面向对象中情况则反了过来:方法成为了类的成员,被类型所划分,并从属于一定数据的集合。 了解了这一点之后,再看程序语言从面向过程到面向对象的发展过程也能有新的认识。这一发展背后实际上是程序的关注点由机器向人的转变。在面向过程的时代,人们所关注的是如何操纵数据。那时的机器还没有蒙在名为抽象的面纱之下,呈现在操作者面前的依旧是赤裸裸的整个内存空间,数据与数据之间没有清晰的边界,是操作者自己组织起整个系统,为各个空间划分边界,定下名称。而在这一构筑起来的系统之上,数据本身就没有那么重要了,因为更底层已经为其提供了随时取用的接口。这时,管理流程成了另一个关键问题。因为在底层的支持下构建起来的日益庞大的应用,其自身的结构却往往不能支持其质量。于是人们以数据为界,将面条一般的数据流切割成彼此独立却又相互关联的部分。这样对象才得以诞生。 二、c语言的面向对象何以可能 说回 c 语言,当其以结构体的方式组织起数据的时候,就已经有了对象的雏形了。如果我们将函数视为所属于其第一个参数类型的方法,那么对象的方法也可以表示。但是只有这两点并非真正的面向对象,因为面向对象的三大特征——封装、继承和多态,其中的后两者还未实现。 让我们来详细分析一下继承和多态到底在表明什么。继承是两个类型间的关系,类型 A 继承了类型 B,则类型 A 具有类型 B 所具有的一切属性和方法,这意味着对于 A 和 B 这两个不同的类型,都具有所属于 B 的部分。从这一点来说,两者是相同的(也因为这种相同,子类才能不加转换的赋给父类变量)。而多态(在这里指方法的重写而不包括重载)则指子类 A 对从 B 所继承的方法的重写,使得虽是相同方法,其表现却能有所不同。 明确了继承和多态,接下来我们从数据的角度分析 c 语言为何可以面向对象。所谓的一个对象,即在地址空间中的一段连续区域。此时继承中所谓的相同,即对两个不同类型的对象,其内存空间中相同位置所表达的含义相同。如果对于 B 类型来说,偏移 4 个字节之后的 4 个字节表示一个 int 字段,那么对于继承 B 类型的 A 类型来说,偏移 4 个字节之后的 4 个字节应同样表示一个 int 字段。类似的,多态中所谓的不同,可以表达为类型中相同的方法名对应的具体过程不同。由于过程在机器码中表现为地址,那么本质上来说,多态的这种不同不过是指相同字段中的值不同罢了。 此时 c 语言中实现继承和多态的方法呼之欲出,那就是使用指针。地址指示了变量所处空间的起始位置,却不表明按何种方式解释这块区域,而指针完成了这份工作。对于所有赋给指针的地址值,其都如实翻译其中的数据,那么如果想要子类与父类按照同样的方式进行翻译,就需要子类在组织其结构时保持和父类一致。而对于多态来说,事情则更简单了,函数指针同样是指针,只要使其指向不同的函数即可。 这样也可以理解为什么 c++ 中只能使用指针实现多态(引用本质还是指针)。 Child c; Father *f = &c; // 正确 Father f2 = c; // 错误 而 c++ 中使用 new 关键字申请内存这一点也被 java、c# 等面向对象语言学了过去。java、c# 等中的类变量,实际上也和指针或引用没有区别...

十月 1, 2023 · 5 分钟 · 962 字 · Wokron

CMake 实用语法教程

一、前言 最近一段时间在用 c++ 写一个项目,因此学了学 cmake。说实话,cmake 奇怪的语法在一开始实在容易让人望而生畏。但是上手使用的话就会发现平常会用到的不过是其中的一小部分,并且通常有规律可循。掌握这一部分的内容,大概率就可以组织起一个规模较大的项目了。因此本文也就旨在讲述 cmake 的这一部分的内容。 当然,阅读本教程之前需要了解代码编译、链接的相关知识。关于编译相关的命令,可见我的文章系统编程之命令行编译。 本文的所有代码保存在仓库 practical-cmake 中,欢迎 star :)。 cmake 下载方式如下(apt) sudo apt-get install build-essential sudo apt-get install cmake 二、第一步 说到第一个程序,那当然要请出经典的 hello, world 了。 #include <stdio.h> int main() { printf("hello, world\n"); return 0; } 在本文中我会首先给出使用 gcc 编译的命令,之后再使用 cmake 做同样的事情。那么对于第一步,我们的 gcc 命令如下 gcc main.cpp -o main 当然很简单,而对于 cmake 也类似。要使用 cmake,我们需要添加一个配置文件 CMakeLists.txt,其中包含要执行的操作。本小节中,CMakeLists.txt 的内容是 cmake_minimum_required(VERSION 3.10) project(main) add_executable(main main.cpp) 其中第一条指定了 cmake 版本要求,第二条指定了当前项目名,而第三条 add_executable 则实现了和 gcc 命令相同的操作:指定源文件 main.cpp 和输出文件名 main,生成一个可执行文件。...

九月 3, 2023 · 5 分钟 · 905 字 · Wokron

系统编程之线程管理

一、Linux 多线程简述 进程和线程的关系老生常谈。线程是最小的调度单位,进程是最小的资源分配单位。同一进程中的多个线程是在共享的内存空间中并发的多道执行路径,它们共享一个进程的资源。 对于Linux来说,Linux线程属于用户级线程,即线程的调度是在用户空间执行的。也就是说,Linux线程的实现是在内核之外的,多线程的概念对于内核来说并不是真实存在的,而只是通过线程库中的程序模拟的并发效果。 Linux线程遵循POSIX线程接口,称为pthread。pthread在其他平台也有对应的实现,如在windows。 二、线程操作 (1)库的使用 在开始多线程编程之前,需要说明一下 pthread.h 库。在编译使用pthread.h库的代码时,一般需要加-lpthread。pthread在glibc2.34之前是在glibc里面的,之后分出来变成一个单独的库,因此有的情况下,不加-lpthread也能编译成功。 (2)基本操作 创建线程 int pthread_create(pthread_t _Nullable * _Nonnull __restrict, const pthread_attr_t * _Nullable __restrict, void * _Nullable (* _Nonnull)(void * _Nullable), void * _Nullable __restrict); 该函数中第一个参数为指向一个线程标识变量的指针。第二个参数用来手动设置线程的各项属性,一般可以用NULL选择默认属性。第三个参数为一个函数指针,表示新建线程时需要执行的函数。注意该函数的参数类型和返回值类型,使用时需要进行强制类型转换。第四个参数为传递给函数的参数,也就是线程执行的函数的参数。不传递参数时可设置为NULL。 如下举一个创建线程的例子。 pthread_t tid; if (pthread_create(&tid, NULL, do_something, NULL)) { // error handler } 线程退出 void pthread_exit(void *ral_ptr); 当某一线程执行该函数时,会导致该线程结束。结束时会将ral_ptr指针传递给pthread_join 函数的 rval_ptr 线程取消 int pthread_cancel(pthread_t tid); 某一线程调用该函数,可以终止同一进程内的其他线程。 tid 即要终止的线程。 线程挂起 int pthread_join(pthread_t thread, void **rval_ptr); 某一线程调用该函数会阻塞该线程,直到参数 thread 所指示的线程退出。第二个参数为一个指向 pthread_exit 所设置的 ral_ptr 指针的指针。...

十二月 22, 2022 · 4 分钟 · 745 字 · Wokron