Project

General

Profile

bug #7200

México Distrito Federal spelling and ignore accents in area search

Added by Katja Luther over 1 year ago. Updated over 1 year ago.

Status:
New
Priority:
Priority14
Assignee:
Category:
taxeditor
Target version:
Start date:
01/18/2018
Due date:
% Done:

0%

Severity:
normal
Found in Version:

Description

NK:

es gibt eine problematische Inkonsistenz bei den level 4 areas in Mexico:

Sucht man im Area Wizard nach "Mexico" erhält man alles mögliche, auch Mexico Distrito Federal, nicht aber den Bundesstaat Mexico "Mexico State", denn dieser ist als "México State" aufgeführt (also mit Akzent auf dem e, so auch bei TDWG aufgeführt) und wird auch nur gefunden, wenn man den Akzent mitangibt. Ich hatte zuerst angenommen Mexico state wäre vergessen worden. "México Distrito Federal" hingegen müsste korrekterweise mit Akzent geschrieben werden (so auch bei TDWG), ist es aber nicht.

Ich fände es sinnvoll, wenn auch México Distrito Federal mit Akzent geschrieben würde, aber die Suche sollte unbedingt die Akzente ignorieren.

History

#1 Updated by Andreas Müller over 1 year ago

Be aware that there are a couple of other cases with accents and similar. So we need a general solution for the search.

Some solutions could be to use lucene search (therefore I add AK). But maybe also hibernate allows according search. I even wonder that the version with accent is not found because as far as I know SQL does not distinguish accents. Is there an Java equal after the SQL search? (I have the same problem but other direction for deduplication, where I need to distinguish but SQL "order by" does not).

Also we will need an update script.

#2 Updated by Andreas Müller over 1 year ago

  • Description updated (diff)

#3 Updated by Andreas Kohlbecker over 1 year ago

These types of problems are usually rather a question of the collation being used in the database.

See for example this thread https://stackoverflow.com/questions/28863402/mysql-diacritic-insensitive-search-arabic#28891336

this simple tests:

select 'México' = 'Mexico'  COLLATE utf8_unicode_ci

gives back a 1 which means MySQL considers these strings being equal.

Maybe the collation in the database in question is not set correctly? It should be utf8_unicode_ci

Also available in: Atom PDF

Add picture from clipboard (Maximum size: 40 MB)