KoichiYasuokaのブックマーク - はてなブックマーク

suzume-llama-3-8B-japaneseは『雪国』の冒頭をどうトークナイズするのか - Qiita

>>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("lightblue/suzume-llama-3-8B-japanese") >>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"])) ['åĽ½', 'å¢ĥ', 'ãģ®', 'éķ·', 'ãģĦ', 'ãĥĪ', 'ãĥ³ãĥ', 'į', 'ãĥ«', 'ãĤĴ', 'æĬľ', 'ãģĳ', 'ãĤĭãģ¨', 'éĽª', 'åĽ½', 'ãģ§ãģĤãģ£ãģŁ', 'ãĢĤ', 'å¤ľ', 'ãģ®', 'åºķ', 'ãģĮ', 'çĻ½', 'ãģıãģª', 'ãģ£ãģŁ',

KoichiYasuoka 2024/04/25

リンク

Meta-Llama-3-8Bは英語Universal Dependenciesの係り受けリンクをFew-Shot Promptingで生成できるか - Qiita

Meta-Llama-3-8Bは英語Universal Dependenciesの係り受けリンクをFew-Shot Promptingで生成できるか係り受け解析言語処理colaboratoryFew-ShotLLaMA Ercong Nie, Shuzhou Yuan, Bolei Ma, Helmut Schmid, Michael Färber, Frauke Kreuter, Hinrich Schütze『Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models』を横目に、Meta-Llama-3-8Bを使って、英語Universal Dependenciesの係り受けリンクでDecomposed Promp

KoichiYasuoka 2024/04/24

リンク

「Maaaring makita pa ba ang dagat」をタガログ語Universal Dependenciesで解析する - Qiita

Angelina Aquino, Franz de Leon『Parsing in the absence of related languages: Evaluating low-resource dependency parsers on Tagalog』を横目に、3月18日の記事の例文に対応する「Maaaring makita pa ba ang dagat」を、タガログ語Universal Dependenciesで解析してみた。 # text = Maaaring makita pa ba ang dagat 1 Maaaring maaaring ADV _ _ 2 advmod _ _ 2 makita kita VERB _ _ 0 root _ _ 3 pa pa ADV _ _ 2 advmod _ _ 4 ba ba PART _ _ 2 mark _ _ 5 ang

KoichiYasuoka 2024/04/21

リンク

Meta-Llama-3-8BでのFew-Shot Promptingによる日本語品詞付与 - Qiita

Meta-Llama-3-8Bは、Swallow-7b-plus-hfと同様のLLaMAモデルなのだが、昨日の記事にも書いたとおり、トークナイザの日本語対応がイマイチである。これがどういう問題を引き起こすか、国語研短単位でのUPOS (Universal Part-Of-Speech)品詞付与をFew-Shot Promptingで挑戦してみよう。5つの例文は、この記事と全く同じものを選んだ。 >>> class TextUPOSList(list): ... __str__=lambda self:"\n".join("###text:"+"".join(t for t,u in s)+"\n###UPOS:"+"|".join(t+"_"+u for t,u in s) for s in self)+"\n" ... >>> ex=TextUPOSList() >>> ex.appen

KoichiYasuoka 2024/04/20

リンク

Meta-Llama-3-8Bは『雪国』の冒頭をどうトークナイズするのか - Qiita

「Meta-Llama-3-8B」がリリースされたので、早速トークナイザを試してみることにした。が、HuggingFaceのtokenがなかなか降りてこなくて、かなり時間がかかってしまった。 >>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B",token="hf_this_token_is_dummy_use_your_own_one") >>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"])) ['åĽ½', 'å¢ĥ', 'ãģ®', 'éķ·', 'ãģĦ', 'ãĥĪ', 'ãĥ³ãĥ',

KoichiYasuoka 2024/04/19

リンク

「きょうのピオリ゚、おやきピオリ゚、とりなおし」はUniversal Dependenciesで書けるのか - Qiita

「きょうのピオリ゚、おやきピオリ゚、とりなおし」はUniversal Dependenciesで書けるのか係り受け解析言語処理イラヴ語『南島歌謡大成 Ⅲ宮古篇』(角川書店、1978年6月)を読んでいたところ、「屋根葺き祝いのおこざらぴゃーすの歌(伊良部島)」(pp.117-118)の以下の一節が気になった。やーのぬす　とつのぬすが　やーいきーとつの主と　やーぬ主とが　だんがしーきょうのぴおり゚　おやきぴおり゚　とりなおし「り」に半濁点が付けられているのだが、この記法は同書の「音節分類表」(pp.461-462)には見当たらない。この歌は、大川恵良『伊良部郷土誌』(1974年8月) p.155「オコザラピャースの歌」が元ネタらしいが、そこでは微妙に記述が異なっている。やーのぬす、とつのぬすが、やーいきーとつの主と、やーぬ主とが、だんがしーきょうのピオリ゚、おやきピオリ゚、とり

KoichiYasuoka 2024/04/18

リンク

「タネカアトゥイアヌカㇻルウェヘアン」をアイヌ語Universal Dependenciesで解析する - Qiita

昨日の記事の例文に対応する「タネカアトゥイアヌカㇻルウェヘアン」を、deberta-base-ainu-ud-goeswithの助けを借りて、アイヌ語Universal Dependenciesで解析してみた。Google Colaboratoryだとこんな感じ。 !pip install transf ormers deplacy from transf ormers import pipeline nlp=pipeline("universal-dependencies","KoichiYasuoka/deberta-base-ainu-ud-goeswith",trust_remote_code=True,aggregation_strategy="simple") doc=nlp("タネカアトゥイアヌカㇻルウェヘアン") import deplacy depla

KoichiYasuoka 2024/04/16

リンク

「килхԓ часит ӄиӽ нэсэмӄ тэпәлаӽ син」はUniversal Dependenciesで書けるのか - Qiita

小野智香子『イテリメン語文法』(北海学園大学出版会, 2021年3月)を横目に、「килхԓ часит ӄиӽ нэсэмӄ тэпәлаӽ син」をUniversal Dependenciesで書いてみることにした。 # text = килхԓ часит ӄиӽ нэсэмӄ тэпәлаӽ син 1 килхԓ килхԓ ADV нареч _ 5 advmod _ _ 2 часит часит ADV нареч _ 5 advmod _ _ 3 ӄиӽ ӄиӽ NOUN сущ _ 5 nsubj _ _ 4 нэсэмӄ нэсэмӄ ADV нареч _ 5 advmod _ _ 5 тэпәлаӽ тэпәлаӽ ADJ прил _ 0 root _ _ 6 син ԓ- AUX неп _ 5 cop _ _ LEMMA(辞書見出し形)を、とりあえずА.

KoichiYasuoka 2024/04/15

リンク

日本語トークナイザの「精度」をUD_Japanese-GSDとUD_Japanese-Modernのtestセットで測る - Qiita

昨日の記事のアイデアをUD_Japanese-GSDに適用して、日本語モデルにおけるトークナイザの「精度」を測ってみた。Google Colaboratoryだと、こんな感じ。 !pip install transf ormers sentencepiece spacy-alignments fugashi unidic-lite models=["tohoku-nlp/bert-base-japanese-v2","rinna/japanese-gpt-neox-3.6b","stockmark/gpt-neox-japanese-1.4b","tokyotech-llm/Swallow-MS-7b-v0.1","Rakuten/RakutenAI-7B","K-walk/chimaki-2b-base"] ud="UD_Japanese-GSD" !test -d $ud || git

KoichiYasuoka 2024/04/12

リンク

タイ語トークナイザの「精度」をUD_Thai-PUDのtestセットで測る - Qiita

CoNLL 2018 Shared TaskのEvaluationページを横目に、タイ語モデルにおけるトークナイザの「精度」を測るプログラムを書いてみた。Google Colaboratoryだと、こんな感じ。 !pip install transf ormers sentencepiece spacy-alignments models=["KoichiYasuoka/roberta-base-thai-syllable","scb10x/typhoon-7b","openthaigpt/openthaigpt-1.0.0-7b-chat"] ud="UD_Thai-PUD" !test -d $ud || git clone --depth=1 https://github.com/universaldependencies/$ud !cp $ud/*-test.conllu test.

KoichiYasuoka 2024/04/11

リンク

chimaki-2b-baseは『雪国』の冒頭をどうトークナイズするのか - Qiita

>>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("K-walk/chimaki-2b-base") >>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids"])) ['<bos>', '国', '境', 'の', '長い', 'トンネル', 'を', '抜け', 'ると', '雪', '国', 'であった', '。', '<bos>', '夜の', '底', 'が', '白', 'くなった', '。'] 残念ながら、日本語トークナイザとしてはボロボロだ。特に「抜け」「ると」のあたりは、単語の切れ目を完全に無視していて、日本語における言語処理としては話にならな

KoichiYasuoka 2024/04/10

リンク

タイ語モデルopenthaigpt-1.0.0-7b-chatは「แม่อย่าเก็บไว้คนเดียว」をどうトークナイズするのか - Qiita

>>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("openthaigpt/openthaigpt-1.0.0-7b-chat") >>> print(tkz.convert_ids_to_tokens(tkz("แม่อย่าเก็บไว้คนเดียว")["input_ids"])) ['<s>', '▁แม', '่อย', '่า', 'เก็บ', 'ไว้', 'คนเดียว']

KoichiYasuoka 2024/04/09

リンク

Mistral-7B-v0.2-hfは英語Universal Dependenciesの係り受けリンクをFew-Shot Promptingで生成できるか - Qiita

Mistral-7B-v0.2-hfは英語Universal Dependenciesの係り受けリンクをFew-Shot Promptingで生成できるか係り受け解析言語処理colaboratoryFew-ShotMistral Ercong Nie, Shuzhou Yuan, Bolei Ma, Helmut Schmid, Michael Färber, Frauke Kreuter, Hinrich Schütze『Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models』を横目に、Mistral-7B-v0.2-hfを使って、英語Universal Dependenciesの係り受けリンクでDecompos

KoichiYasuoka 2024/04/06

リンク

「Мамо не тримай в собі」をウクライナ語Universal Dependenciesで解析する - Qiita

一昨日の記事の例文に対応する「Мамо не тримай в собі」を、Stanzaの助けを借りて、ウクライナ語Universal Dependenciesで解析してみた。Google Colaboratoryだとこんな感じ。 !pip install stanza deplacy import stanza nlp=stanza.Pipeline("uk") doc=nlp("Мамо не тримай в собі") import deplacy deplacy.serve(doc,port=None) # text = Мамо не тримай в собі # sent_id = 0 1 Мамо мама NOUN Ncfsvy Animacy=Anim|Case=Voc|Gender=Fem|Number=Sing 3 vocative _ start_char=

KoichiYasuoka 2024/04/04

リンク

「แม่อย่าเก็บไว้คนเดียว」をタイ語Universal Dependenciesで解析する - Qiita

昨日の記事の例文「แม่อย่าเก็บไว้คนเดียว」を、esuparの助けを借りつつ、タイ語Universal Dependenciesで解析してみた。 # text = แม่อย่าเก็บไว้คนเดียว 1 แม่ แม่ NOUN NN _ 3 vocative _ SpaceAfter=No 2 อย่า อย่า AUX AX _ 3 aux _ SpaceAfter=No 3 เก็บ เก็บ VERB VV _ 0 root _ SpaceAfter=No 4 ไว้ ไว้ ADV AV _ 3 advmod _ SpaceAfter=No 5 คน คน NOUN CL _ 3 obl _ SpaceAfter=No 6 เดียว เดียว NUM NU _ 5 nummod _ SpaceAfter=No 「เดียว」は多重母音だが、他の単語は

KoichiYasuoka 2024/04/02

リンク

タイ語モデルTyphoon-7Bは「แม่อย่าเก็บไว้คนเดียว」をどうトークナイズするのか - Qiita

Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul, Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant, Kasima Tharnpipitchai『Typhoon: Thai Large Language Models』を読みつつ、この「Typhoon-7B」のトークナイザがどうなっているのか気になった。というのも、論文には In this work, we base our tokenizer on Mistral-7B tokenizer, but we further train an additional Thai subword tokenizer with 5,000 tokens and integrate

KoichiYasuoka 2024/04/01

リンク

Swallow-MS-7b-v0.1でのFew-Shot Promptingによる日本語品詞付与 - Qiita

Terra Blevins, Hila Gonen, Luke Zettlemoyer『Prompting Language Models for Linguistic Structure』の手法をSwallow-MS-7b-v0.1に適用して、国語研短単位でのUPOS (Universal Part-Of-Speech)品詞付与に挑戦してみた。Few-Shot Promptingの例文は、UD_Japanese-GSDの訓練データのうち、固有名詞を含んでいない短めの文で、Swallow-MS-7b-v0.1によるトークナイズが国語研短単位と矛盾しないものを5つ選んだ。 >>> class TextUPOSList(list): ... __str__=lambda self:"\n".join("###text:"+"".join(t for t,u in s)+"\n###UPOS:"

KoichiYasuoka 2024/03/31

リンク

Swallow-7b-plus-hfでのFew-Shot Promptingによる日本語品詞付与 - Qiita

Terra Blevins, Hila Gonen, Luke Zettlemoyer『Prompting Language Models for Linguistic Structure』の手法をSwallow-7b-plus-hfに適用して、国語研短単位でのUPOS (Universal Part-Of-Speech)品詞付与に挑戦してみた。Few-Shot Promptingの例文は、UD_Japanese-GSDの訓練データのうち、固有名詞を含んでいない短めの文で、Swallow-7b-plus-hfによるトークナイズが国語研短単位と矛盾しないものを5つ選んだ。 >>> class TextUPOSList(list): ... __str__=lambda self:"\n".join("###text:"+"".join(t for t,u in s)+"\n###UPOS:"

KoichiYasuoka 2024/03/31

リンク

RakutenAI-7Bは『雪国』の冒頭をどうトークナイズするのか - Qiita

日本語に強い大規模言語モデル「RakutenAI-7B」が3月21日に公開された。プレスリリースを見てみよう。 2.　日本語の言語に最適化された形態素解析器により高い効率性が可能本LLMは、日本語の言語に最適化された独自の形態素解析器（注7）を使用しています。一般的に形態素解析器は自然言語で書かれている文章を適切な単位に細分化して分析することができます。楽天の形態素解析器においては、文章の分割単位であるトークンあたりの文字数が増加し、その結果、より多くの情報を単一のトークンに含めることができます。そのため、従来の形態素解析器と比較して、事前学習や推論のテキスト処理をより効率的に行えるようになりました。（注7）形態素解析器とは、文章をトークンと呼ばれる小さな単位に分割するプログラムのことです。トークンは、望ましい粒度に応じて、単語、部分語、または文字であることが一般的です。「注7」の説

KoichiYasuoka 2024/03/29

リンク

MistralForTokenClassificationによる日本語品詞付与モデルSwallow-MS-7b-uposをリリース - Qiita

3月18日に書いたMistralForTokenClassificationを使って、Swallow-MS-7b-uposを作ってみた。NVIDIA A100-SXM4-40GBを8枚使えば、モデルの作成時間を1時間30分にまで短縮できるようになったが、予想に反して品詞付与の精度はイマイチだったりする。 >>> from transf ormers import pipeline >>> tag=pipeline("upos","KoichiYasuoka/Swallow-MS-7b-upos",trust_remote_code=True) >>> nlp=lambda x:[(x[t["start"]:t["end"]],t["entity"]) for t in tag(x)] >>> print(nlp("予想に反して品詞付与の精度はイマイチ")) [('予想', 'NOUN'),

KoichiYasuoka 2024/03/28

リンク

はてなブックマーク

タグ

KoichiYasuokaのブックマーク (2,490)

お知らせ

今週のはてなブックマーク数ランキング（2024年4月第3週）

今週のはてなブックマーク数ランキング（2024年4月第2週）

今週のはてなブックマーク数ランキング（2024年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス