第五期,第二张RGA。进行文本分割后,是如何将文本和文本所在行进行关联的。
1、text是一段文字
2、page_numbers是每一行文字的行号
3、chunk对text做了分割
4、{chunk: page_numbers[i] for i, chunk in enumerate(chunks)}创建了page_info字典。

问题
1、通过去做分割后的chunk和页面关联。这个关联关系是怎么建立起来的
2、在做分割过程中会出现某一部分文本同时出现在两个chunk,这个时候页码又是如何进行定义的
3、帮忙解释下{chunk: page_numbers[i] for i, chunk in enumerate(chunks)}