-
Notifications
You must be signed in to change notification settings - Fork 197
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
辞書の形式に関しての意見 #1055
Comments
なるほどです!! mecab準拠にすると、mecabを知らない大多数の人にとって使いづらくなってしまいます。 少し議論を深められると嬉しいです。 |
@misogihagi どうでしょう 👀 お返事なさそうであれば、issueをいったんcloseしていろんな方のコメントをお待ちするのもありかもです! |
@Hiroshiba 対策としては英語が出るたびに辞書に単語とその読み方を追加するのが挙げられます。 今の所voicevoxでメンテしている辞書がない(はず)のでunidicなどの外の辞書を使うことになると思います。 元のデータファイルはmecab形式なのでそれをインポートするときはvoicevoxの辞書というよりはmecabの形式のほうが連携しやすいと思いました。 |
VOICVOXの辞書はOpenJTalkのものを使っています。 |
@misogihagi なるほどです!! 詳しくありがとうございます。 costに関しては事情があってpriorityに変えています。このあたりです。
ちなみにこれは元の辞書が変わった場合costが変わってしまうので、prioirtyとして独自に管理することで将来の辞書変更に備えたためです。 mecab形式の辞書→VOICEVOXのユーザー辞書の変換ツールがあると便利そうなのかなと思いました。 @sabonerune さんもありがとうございます。 |
現状のVOICEVOX(というかOpenJTalk)は、NAIST-jdicとUniDicを両方使っています。
こちらに関してですが、一般ユーザーにとってコストという概念は理解が難しいため、分かりやすいpriorityにしたという理由もあった記憶があります。
default.csvに書かれた内容は、自動的にユーザー辞書としてコンパイルされて読みの推定に利用されます。 なお、MeCab形式の辞書をOpenJTalk形式の辞書に変換するためには、Mecab形式の辞書データの後ろに、以下の情報を付け足す必要があります。 アクセント核位置についてはtdmelodicのマニュアル、アクセント結合規則についてはUniDicのマニュアルを読むと理解が深まるかもしれません。 |
本 Issue は直近 30 日間で活動がありません。今後の方針について VOICEVOX チームによる再検討がおこなわれる予定です。 |
@takana-v さん、詳しくありがとうございます!! 必要性ですが、一旦現状のままで進める形が良いのかなと思いました。
ということでcloseの方針が良いのかなと思いました! |
もともとは辞書の形ではなく英単語をそのままアルファベットを読み上げることでしたが… |
#715
にも関連してですが、
辞書が使いづらいです。
MeCabの辞書に準拠しているかと思えばコストが抜けています。(参考:https://github.com/taku910/mecab/blob/master/dic.html#L86)
MeCab形式で置いてある辞書もあるのでそれを使いたいです。
The text was updated successfully, but these errors were encountered: