go语言日志索引 - 猿起点博客

浏览量 2,459

本文将为这些记录创建索引。索引的作用是为了加快读取特定日志记录。下面在项目的internal/log目录下创建index.go文件，并添加以下代码：

package log

import (
	"io"
	"os"

	"github.com/tysonmote/gommap"
)

var (
	offWidth uint64 = 4
	posWidth uint64 = 8
	entWidth        = offWidth + posWidth
)

type index struct {
	file *os.File     //存放索引的文件
	mmap gommap.MMap  //索引文件在内存中的映射
	size uint64
}

在文件顶部定义了一些常量方便后面使用。单条索引包含两个字断：1、日志记录的偏移量offset；2、记录在store文件中的位置。offset存储为uint32类型，位置pos字段存储为uint64，因此分别占用4和8个字节的存储空间。使用entWidth找到索引的具体位置，因为我们可以根据索引的offset计算记录在文件中的位置为：offset*entWidth。注意会有两个偏移量，一个是存储文件的一个是索引文件的。

结构体index定义了索引文件，包含一个持久化文件和内存映射对象。size字段存储索引文件的大小，也就是添加下一条索引的位置。下面增加newIndex函数：

func newIndex(f *os.File, c Config) (*index, error) {
	idx := &index{file: f}    //根据参数创建index对象

	fi, err := os.Stat(f.Name()) //获取文件信息
	if err != nil {
		return nil, err
	}

	idx.size = uint64(fi.Size())  //读取文件大小
	if err = os.Truncate(f.Name(), int64(c.Segment.MaxIndexBytes)); err != nil { //先给文件分配写空间
		return nil, err
	}
	//将文件存储空间映射到内存当中
	if idx.mmap, err = gommap.Map(idx.file.Fd(), gommap.PROT_READ|gommap.PROT_WRITE, gommap.MAP_SHARED); err != nil {
		return nil, err
	}
	return idx, nil
}

newIndex(*os.File)为给定的文件创建一个索引对象。我们创建索引并保存文件的当前大小，以便在添加索引条目时跟踪索引文件中的数据量。在对文件进行内存映射之前，我们将文件增长到最大文件容量，然后将创建的索引返回给调用者。注意gommap第三包的使用方法。

下面为索引对象添加Close方法：

func (i *index) Close() error {
  //将内存中内容刷新到文件中
	if err := i.mmap.Sync(gommap.MS_SYNC); err != nil {
		return nil
	}
  //刷新持久化文件内容到磁盘
	if err := i.file.Sync(); err != nil {
		return err
	}
  //根据实际写入的索引大小，截取后面未写入的空间
	if err := i.file.Truncate(int64(i.size)); err != nil {
		return err
	}
	return i.file.Close()
}

Close方法确保内存映射文件已将其数据同步到持久化文件，并且持久化文件已将其内容刷新到磁盘存储中。然后，它将持久化文件截断为实际的索引总数据量，并关闭文件。

现在我们已经看到了打开和关闭索引的代码，讨论了增长和截断文件业务的全部内容。

当我们启动日志服务时，需要知道下一个记录该添加到日志上的偏移量是多少。通过查看索引文件的最后一条索引来找到下一个记录的偏移量，只需要读取索引文件最后12个字节的内容。但是，当我们添加索引时，这个过程被打乱了，因为需要对它进行内存映射。(调整它们大小的原因是一旦它们被内存映射，我们就不能调整它们的大小了。)我们通过在文件末尾追加空格来扩展文件，这样最后一条索引就不再位于文件末尾了——在这条索引和文件末尾之间有一些未知的空间。此空间将阻止服务正常重新启动。这就是为什么我们在关闭索引文件时，通过截断索引文件来删除空白空间，这样可以做到最后一条索引是放在文件末尾。这种优雅关闭服务的方式，可以让服务能够正常有效地重启。

接下来就是索引的读写方法实现。先介绍Read方法：

func (i *index) Read(in int64) (out uint32, pos uint64, err error) {
	//索引文件为空情况
	if i.size == 0 {
		return 0, 0, io.EOF
	}
  //如果in==-1，读取最后一条索引
	if in == -1 {
		out = uint32((i.size / entWidth) - 1)
	} else {
		out = uint32(in)
	}
  //根据偏移量找到对应的索引存放位置
	pos = uint64(out) * entWidth
	if i.size < pos+entWidth {
		return 0, 0, io.EOF
	}
  //索引第一个字段是日志记录的偏移量
	out = enc.Uint32(i.mmap[pos : pos+offWidth])
  //第二字段是日志记录存放位置
	pos = enc.Uint64(i.mmap[pos+offWidth : pos+entWidth])
	return out, pos, nil
}

Read(int64)方法接收偏移量并返回相关记录在存储文件中的位置。给定的索引偏移量是相对偏移量；每个索引文件，0总是第一条索引的的偏移量，1是第二个条，依此类推。通过将偏移量存储为uint32s，我们使用相对偏移量来减少索引的大小。如果我们使用绝对偏移量，必须将偏移量存储为uint64s，每个条目需要4个字节。4个字节听起来并不多，如果你把它乘以人们经常使用分布式日志的记录数量，而像LinkedIn这样的公司每天有数万亿的记录。即使是相对较小的公司每天也能产生数十亿条记录。

然后是索引的write方法：

func (i *index) Write(off uint32, pos uint64) error {
  //检查剩余空间是否能存下整条索引，否则返回io.EOF代码文件已存满了
	if uint64(len(i.mmap)) < i.size+entWidth {
		return io.EOF
	}
	//记录偏移量写入第一个字段
	enc.PutUint32(i.mmap[i.size:i.size+offWidth], off)
  //记录存储位置写入第二字段
	enc.PutUint64(i.mmap[i.size+offWidth:i.size+entWidth], pos)
	i.size += entWidth
	return nil
}

Write(off uint32, pos uint32)将给定的偏移量和位置写入到索引文件。首先，验证是否有写入条目的空间。如果有空间，则对偏移量和位置进行编码，并将它们写入内存映射文件。然后我们更新下一个写入的位置。size保存的是下一条索引写入的位置。

下面再为索引增加一个Name方法：

func (i *index) Name() string {
	return i.file.Name()
}

接下来我们为上面的代码写单元测试，在项目的internal/log目录中创建index_test.go文件，添加以下代码：

package log

import (
	"io"
	"io/ioutil"
	"os"
	"testing"

	"github.com/stretchr/testify/require"
)

func TestIndex(t *testing.T) {
	f, err := ioutil.TempFile(os.TempDir(), "index_test")
	require.NoError(t, err)
	defer os.Remove(f.Name())

	c := Config{}
	c.Segment.MaxIndexBytes = 1024
	idx, err := newIndex(f, c)
	require.NoError(t, err)
	_, _, err = idx.Read(-1)
	require.Equal(t, io.EOF, err)
	require.Equal(t, f.Name(), idx.Name())

	//准备测试用例
	entries := []struct {
		Offset uint32
		Pos    uint64
	}{{
		Offset: 0,
		Pos:    0,
	},
		{
			Offset: 1,
			Pos:    10,
		},
	}

这段代码设置了单元测试。创建一个索引文件，并使其足够大，可以通过Truncate调用，写入我们的测试条目。我们必须在使用之前对读文件进行截取，因为要将文件映射到内存的一个字节片，如果我们在写入文件之前不增加文件的大小，就会发生越界错误。

最后添加以下代码完成测试：

for _, want := range entries {
		err = idx.Write(want.Offset, want.Pos)
		require.NoError(t, err)

		_, pos, err := idx.Read(int64(want.Offset))
		require.NoError(t, err)
		require.Equal(t, want.Pos, pos)
	}
 //读取还未写入索引位置，报错
	_, _, err = idx.Read(int64(len(entries)))
	require.Equal(t, io.EOF, err)
	_ = idx.Close()

  //重新打开索引文件，可恢复状态
	f, _ = os.OpenFile(f.Name(), os.O_RDWR, 0600)
	idx, err = newIndex(f, c)
	require.NoError(t, err)
  //这里读取最后一条索引，也就是第二条
	off, pos, err := idx.Read(-1)
	require.NoError(t, err)
	require.Equal(t, uint32(1), off)
	require.Equal(t, entries[1].Pos, pos)
}

我们遍历每个条目并将其写入索引文件。检查是否可以通过read方法将相同的条目读回。然后，在尝试读取超出索引条目数量的数据时，验证索引和扫描文件是否出错。当服务使用现有索引文件重新启动时，检查索引是否从现有文件恢复已有状态。

最后，我们需要配置存储文件和索引文件的最大存储容量。添加config结构体来集中存放日志的配置，便于统一对日志相关参数进行设置。创建internal/log/config.go文件

type Config struct {
	Segment struct {
		MaxStoreBytes uint64
		MaxIndexBytes uint64
		InitialOffset uint64
	}
}

到这里就完成了日志存储和索引类型的代码，它们构成了日志的基础功能。后面将介绍日志段的结构体类型，也就是将日志存储和索引关联起来的结构体。