Published on

字典推导式

token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}

解释如下:

  • for idx, ch in ...:这是一个for循环enumerate()会返回元素的索引和值。
  • ch: idx:这是字典的键值对ch是key,idx是value。
  • set(tokenized_text):去重所有字符。
  • sorted(...):排序所有字符。

整体意思
遍历所有去重并排序后的字符,为每个字符分配一个唯一的索引,生成一个字典,key是字符,value是索引。

例子

text = "abc"
tokenized_text = list(text)  # ['a', 'b', 'c']
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
# 结果: {'a': 0, 'b': 1, 'c': 2}

这种写法叫推导式,常用于快速生成列表、集合或字典。

THE END