Published on

列表推导式

input_ids = [token2idx[token] for token in tokenized_text]

解释如下:

  • for token in tokenized_text:遍历tokenized_text中的每个字符(token)。
  • token2idx[token]:查找该字符对应的编号(索引)。
  • [...]:把所有查到的编号组成一个新列表。

作用
把原始文本的每个字符,转换成它在token2idx字典中的编号,得到一个编号列表。

例子

假设:

tokenized_text = ['a', 'b', 'a']
token2idx = {'a': 0, 'b': 1}
input_ids = [token2idx[token] for token in tokenized_text]
# 结果: [0, 1, 0]

这种写法叫推导式,用于快速生成新列表。

THE END