青衣 发表于 2021-7-5 13:50:24

TCP IP学习笔记① 互联网通信过程

    “你听说了吗?某某明星公布喜讯,微博服务器又瘫痪了。”
    “找不到原因你可以百度啊。”
    …
    信息科技时代,互联网让我们的通信距离更短了。全球几十亿电脑,构成了一个庞大的互联网中心,人人可以获得自己想要的网络资源。
    作为技术人员的我,非常好奇它是如何实现的?也听说现在面试内容会涉及到TCPIP方面,所以翻译了三本电子书籍,希望能有个初步了解,包括:

[*]TCPIP入门经典(第5版)
[*]图解TCPIP
[*]TCP-IP详解卷一:协议
      为了加深理解吸收,特意总结读书笔记,方便自己,方便他人。
    互联网的核心是一系列的协议,也就是我们口中所说的“TCP-IP协议”。记住,TCP-IP协议不是指TCP传输协议或者IP地址,而是一系列互联网协议的统称。
    接下来就是我的学习笔记,协议内容太多,先整理一个简洁的框架,帮助自己从宏观角度去把握它们,尽量简化细节,理解概念。

一、TCP/IP和OSI模型
      网络业界针对网络协议体系有一个标准的七层模型,称为“开放系统互连(OSI)”模型,这是ISO(国际标准化组织)为了标准化网络协议系统所做出的规范,旨在提高网络互连性,并且方便软件开发人员以一种开放方式来使用协议标准。
    当OSI标准体系出现的时候,TCP/IP已经处于开发之中。严格来说,TCP/IP没有遵守OSI模型,然而这两种模型的确有非常类似的目标。如下两图所示:
  


      可以看出,互联网的实现,分为了若干层,每一层都有自己的实现。 在这个模型中,每个分层都接收由它下一层所提供的特定服务,并且负责为自己的上一层提供特定服务,它们所遵循的约定就叫做“协议”。
    在这里,我们只讨论TCP/IP协议。在TCPIP模型中,从下到上分别是:

[*]物理层——负责数据传输,相当于以太网或者电话线路等物理设备;
[*]数据链路层——相当于电脑设备的网卡以及驱动程序,管理物理地址(MAC);
[*]网络层——负责逻辑地址以及路由分发,包括IP、ICMP、ARP、RARP等协议;
[*]传输层——能够让应用程序之间实现通信,典型协议为TCP、UDP;
[*]应用层——跟具体用户应用相关,包括HTTP、FTP、SSH等等;
      对于普通大众来说,我们接触到的一般都是最上面一层,也就是应用层,不需要感知应用层以下的层。但是对于开发人员来说,要理解网络编程,必须从最底下一层开始,理解每层的作用。
    博主也简单总结了普通网络请求过程(比如浏览网页):

      它们会涉及到一个数据组装和拆装的过程,发起方组装数据,接收方拆装数据并响应请求。如下图所示:

      上图中每一层都可以抽象为首部+数据的结构,从下到上包括以太网首部、IP首部、TCP首部、HTTP首部(图中并没有,但是从Http协议构成中也可以抽象出来)。每层首部包括各种信息,用于整个通信过程的数据组装和解析,这也是TCPIP协议的重点。
      接下来,按照从底层到上层简要分析各层协议以及作用。

二、协议分层
      按照TCPIP协议划分,可分为4层或者5层,5层划分为:

[*]物理层
[*]数据链路层
[*]网际层
[*]传输层
[*]应用层
      通常也习惯把物理层和数据链路层统称为数据链路层。
2.1 物理层
      电脑要想上网,第一件事情就是要把电脑通过网线连上家中路由。而网线就是介质的一种,还包括无线电波、电话线、双绞线等方式。
      物理层,理解起来很简单,就是把电脑连起来的物理手段,负责传输0和1的电信号。根据物理介质的不同,网络的带宽、可靠性、安全性、延迟等都会有所不同,导致传输速度的不同,这是需要关注的一个点。
2.2 数据链路层
      物理层只是单纯传输0和1电信号,这是没有任何实质意义的,必须有人把这些无意义的电信号转化成有效的数据格式,这就是解读方式:多少个电信号组成一组?每个信号位代表什么意思?
      这就是数据链路层的功能,在物理层的上一层,确定了0和1的分组方式。数据链路层中最重要的就是我们经常所说的网卡以及其驱动程序。网卡是硬件,驱动程序是在操作系统和硬件之间起到桥梁作用的软件(经常我们重装电脑都会说安装驱动程序,其中就包括了网卡驱动程序)。
      数据链路层中最重要的几个概念:

[*]以太网协议
[*]MAC地址
[*]广播
2.2.1 以太网协议
      以太网规定,一组电信号构成一个整个数据,叫做“数据帧”(Frame)。每帧包括三个部分:

[*]Head 帧头
[*]Data 帧数据
[*]Tail 帧尾



[*]帧头,包含数据帧的说明项,包括发送者MAC地址、接收者MAC地址、数据类型等;固定长度为14字节;
[*]帧数据,就是数据包的具体内容,最短为46字节(像ARP、RARP这些网际层协议就需要填充字节以达到46字节的限制),最长为1500字节;
[*]帧尾,一个4字节的CRC冗余校验码结尾,用于判断数据传输是否出现损坏;
      所以,总结一下,整个“帧”最短长度为64字节(14+46+4),最大长度为1518字节(14+1500+4)。如果数据很长,就必须分割成多个数据帧发送。
  注意:

[*]以上数据帧格式是针对以太网II来说明,这是相对比较通用的,当然还有其他版本的以太网帧,但是基本上都是大同小异。
2.2.2 MAC地址
      上面说到,以太网帧的帧头包括了发送者和接收者的地址信息。那么,我们如何才能确保在数亿数量电脑中有自己的地址标识呢?
      以太网规定,接入网络的设备,都必须有网卡。数据包发送必须是从一张网卡传送到另一张网卡。而网卡的地址,就是以太网帧的发送地址和接收地址,也就是MAC地址,也成为物理地址(类比于我们身份证上的家庭地址)。

      网卡地址在工厂生产阶段就被固化到硬件设备中去,全球唯一。

      前6个十六进制数是厂商编号,后6个是该厂商的网卡流水号。有了MAC地址,就可以定位网卡和数据包的路径了。
2.2.4 广播
      一个广州的网卡怎么知道北京网卡的MAC地址呢?这就需要通过ARP协议来获得,这是从IP得到MAC地址的协议,暂且不讲。这里只需要,通过ARP协议,我们可以知道北京网卡的MAC地址,这就足够了。
      有了MAC地址之后,系统如何把数据发送到接收方呢?
      发送数据不是点对点精准发送,而是采取广播的方式,向本网络内所有计算机发送,每台计算机都有机会接收到数据帧以及解析数据帧,判断目的MAC地址是否与自己的网卡地址相同,同就是接收方,不同则忽略该数据帧。
      有了数据包的定义、网卡的MAC地址、广播的发送方式,"链接层"就可以在多台计算机之间传送数据了。
  注意:

[*]肯定会疑惑,广播方式在大数量级计算机集群中是否会泛滥?答案是肯定的,所以才有了后续的优化,比如交换机网络端口可以记录端口以及IP、MAC地址的对应方式,做到更加精准的广播。
2.3 网际层
      上面说到,以太网帧依靠MAC地址发送数据。但是MAC地址并没有涉及到分层的概念,如果采用广播的方式发送数据帧,在一个庞大的网络体系中,每台计算机都会收到该帧,这是严重不合理的。为了区分计算机地址问题,这就引入了“网际层”的概念。
      网际层的引入,每台计算机都会有两个地址,一个物理MAC地址,一个逻辑IP地址。两种地址没有任何强关联关系,MAC地址属于内置网卡内,IP地址属于网络管理员分配的。逻辑地址帮助我们分层了子网络,比如北京和广州的子网络,MAC地址则是将数据包送到该子网络的网卡。所以,为了更有效处理数据,一般都是先处理逻辑地址,再处理物理地址。
      网际层中,有几个比较重要的协议:

[*]IP
[*]ARP
[*]ICMP
2.3.1 IP地址
      根据IP协议定义的地址叫做IP地址,目前大众版本都是IPv4。经常我们看到的 192.168.xx.xx就是所说的IP地址,获取我们可以通过网络适配器可以看到。
  

  
页: [1]
查看完整版本: TCP IP学习笔记① 互联网通信过程