CS168 proj 亲手实现 Traceroute 工具|yumoni的小窝

1. 环境搭建与项目配置

在完成理论学习后，我着手实践 CS168 的第一个编程项目：亲手实现 traceroute 工具。

开发环境要求：

运行 Python 的 Linux 机器
我选择使用 WSL（Windows Subsystem for Linux）作为开发环境
项目源码来自课程官网：Project 1: Setup | CS 168 Spring 2025

初始配置验证：

# 解压项目压缩包后，在目录中执行
sudo python3 traceroute.py cmu.edu

预期输出：

traceroute to cmu.edu(128.2.42.10)
1:* 2:* ........ 30:*

重要约束条件：

仅编辑 traceroute.py 文件
不移动其他文件或添加新文件
不添加新的 import 引用
只编辑注释指示范围内的代码
不添加任何硬编码的全局变量

2. 项目架构与核心接口

2.1 函数签名与返回值

def traceroute(ip: str, sendsock: util.SSocket, recvsock: util.SSocket) -> list[list[str]]:

参数说明：
- ip: 目标主机的字符串形式 IP 地址
- sendsock: 用于发送数据包的 socket 对象
- recvsock: 用于接收数据包的 socket 对象
返回值：包含列表的列表，第 i 个子列表包含所有距离为 i+1 的路由器 IP 地址

2.2 核心工具类与方法

发送端接口：

# 设置传出数据包的 TTL 值
sendsock.set_ttl(ttl: int)

# 发送 UDP 数据包
sendsock.sendto(msg.encode(), (ip, port))

接收端接口：

# 检查是否有可接收的数据包（带超时等待）
recvsock.recv_select() -> bool

# 接收单个数据包
buf, address = recvsock.recvfrom()
# 返回：buf（原始字节）、address（IP, port）元组

输出辅助函数：

util.print_result(routers: list[str], ttl: int)

3. 分阶段实现过程

3.1 阶段一：手动运行 Traceroute

为了理解数据包的结构，我首先实现了基础的数据包发送与接收：

# 临时注释原有循环代码，添加手动探测
sendsock.set_ttl(1)
sendsock.sendto("yumoni".encode(), (ip, TRACEROUTE_PORT_NUMBER))

if recvsock.recv_select():
    buf, address = recvsock.recvfrom()
    print(f"packet bytes:{buf.hex()}")
    print(f"ip:{address[0]}, port:{address[1]}")

运行结果分析：

packet bytes:4500003e000400004001b693ac17b001ac17bbf70b00073b0000000045000022cc04400001119babac17bbf780022a0ac78e829a000e4e3f79756d6f6e69
ip:172.23.176.1, port:0

使用在线数据包分析工具 Hex Packet Decoder 解析，发现这是一个 ICMP “Time-to-live exceeded” 错误消息，来自路由器 192.168.31.1。

关键发现：

当 TTL=1 时：数据包在第一个路由器处过期，返回 ICMP 超时错误
当 TTL=30 时：数据包到达目标 cmu.edu (128.2.42.10)，触发"端口不可达"错误
这验证了 TTL 机制和错误报告系统的正确性

3.2 阶段二：协议头部解析实现

为了实现自动化的数据包解析，我需要完善 IPv4、ICMP 和 UDP 协议头部的解析类。

3.2.1 IPv4 头部解析

class IPv4:
    def __init__(self, buffer: bytes):
        # 将字节转换为二进制字符串便于解析
        b = ''.join(format(byte, '08b') for byte in buffer)
        
        self.version = int(b[0:4], 2)
        self.header_length = int(b[4:8], 2) * 4  # 转换为字节
        self.tos = int(b[8:16], 2)
        self.length = int(b[16:32], 2)
        self.id = int(b[32:48], 2)
        self.flags = int(b[48:51], 2)
        self.frag_offset = int(b[51:64], 2)
        self.ttl = buffer[8]  # 直接从字节读取
        self.proto = buffer[9]
        self.cksum = (buffer[10] << 8) | buffer[11]
        # IP 地址解析（点分十进制格式）
        self.src = f"{buffer[12]}.{buffer[13]}.{buffer[14]}.{buffer[15]}"
        self.dst = f"{buffer[16]}.{buffer[17]}.{buffer[18]}.{buffer[19]}"

3.2.2 ICMP 头部解析

class ICMP:
    def __init__(self, buffer: bytes):
        self.type = int(buffer[0])
        self.code = int(buffer[1])
        self.checksum = (buffer[2] << 8) | buffer[3]

3.2.3 UDP 头部解析

class UDP:
    def __init__(self, buffer: bytes):
        self.src_port = (buffer[0] << 8) | buffer[1]
        self.dst_port = (buffer[2] << 8) | buffer[3]
        self.len = (buffer[4] << 8) | buffer[5]
        self.checksum = (buffer[6] << 8) | buffer[7]

说明：这些解析类使我们能够从原始字节数据中提取出有意义的协议字段，为后续的自动化处理奠定基础。

3.3 阶段三：基础 Traceroute 实现

基于前两个阶段的成果，我实现了完整的 traceroute 算法：

def traceroute(sendsock: util.SSocket, recvsock: util.SSocket, ip: str) -> list[list[str]]:
    result = []
    
    for ttl in range(1, TRACEROUTE_MAX_TTL + 1):
        routers = []
        
        for _ in range(PROBE_ATTEMPT_COUNT):  # 每个 TTL 发送多次探测
            # 设置 TTL 并发送空负载的 UDP 包
            sendsock.set_ttl(ttl)
            sendsock.sendto(b'', (ip, TRACEROUTE_PORT_NUMBER))
            
            try:
                # 接收响应
                buf, addr = recvsock.recvfrom()
                
                # 解析外层 IP 头部（前20字节）
                outer_ip = IPv4(buf[:20])
                # 解析 ICMP 头部（紧接着的8字节）
                icmp = ICMP(buf[20:28])
                
                # 处理 TTL 超时情况
                if icmp.type == 11 and icmp.code == 0:
                    # 解析内层 IP 头部（原始请求的IP头）
                    inner_ip = IPv4(buf[28:48])
                    routers.append(outer_ip.src)
                
                # 处理端口不可达（到达目标）
                elif icmp.type == 3 and icmp.code == 3:
                    routers.append(ip)
                    break
                    
            except TimeoutError:
                routers.append("*")  # 超时标记
        
        # 去重并记录结果
        unique_routers = list(set(routers))
        result.append(unique_routers)
        util.print_result(unique_routers, ttl)
        
        # 终止条件：到达目标
        if ip in routers:
            break
    
    return result

算法核心逻辑：

TTL 递增探测：从 TTL=1 开始，逐步增加 TTL 值
多次探测：每个 TTL 发送多个探测包以提高可靠性
响应解析：根据 ICMP 类型区分中间路由器和目标主机
终止条件：收到目标主机的"端口不可达"错误时停止

4. 项目总结与心得

通过亲手实现 traceroute 工具，我获得了以下宝贵的经验：

4.1 理论到实践的跨越

协议栈的具象化：从抽象的分层模型到具体的字节级解析，深刻理解了数据包在网络中的封装和解封装过程
TTL 机制的实际应用：亲眼见证了 TTL 字段如何防止路由环路并实现路径发现
错误处理的重要性：ICMP 错误消息在网络诊断中的关键作用

4.2 工程实践收获

协议解析技能：学会了如何从原始字节流中解析复杂的协议头部
网络编程模式：掌握了基本的 socket 编程和异步 I/O 处理
调试技巧：通过十六进制分析和在线工具验证实现了有效的调试

4.3 对互联网设计的更深理解

这个项目让我真切体会到互联网设计原则的精妙：

端到端原则：路由器只负责转发，可靠性由终端保障
分层架构的价值：各层协议独立演进，通过标准接口协作
尽力而为服务的实用性：在简单的基础上构建复杂功能

这次实践不仅巩固了课程理论知识，更培养了我解决实际网络问题的能力。从看着抽象的理论到亲手让数据包在网络中穿梭，这种从认知到创造的转变，正是学习计算机科学最令人兴奋的部分。

完整项目代码已在课程提供的框架基础上完成，能够正确追踪到任意可达主机的网络路径，为后续学习更复杂的网络协议打下了坚实基础。